![]()
人工智能的"幻覺"問題一直困擾著科學(xué)家們,特別是當(dāng)機(jī)器需要"看圖說話"時(shí)。新加坡國(guó)立大學(xué)和北京大學(xué)深圳研究生院的研究團(tuán)隊(duì)在2026年2月發(fā)表了一項(xiàng)突破性研究,論文編號(hào)為arXiv:2602.22144v1,題為"NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors"。這項(xiàng)研究徹底改變了我們對(duì)AI視覺語言模型"胡編亂造"問題的理解,并提出了一個(gè)簡(jiǎn)單而有效的解決方案。
當(dāng)我們看到一張照片時(shí),大腦會(huì)自動(dòng)識(shí)別其中的物體,然后用語言準(zhǔn)確描述出來。但對(duì)AI來說,這個(gè)看似簡(jiǎn)單的任務(wù)卻充滿挑戰(zhàn)。目前的大型視覺語言模型,比如能夠看圖回答問題的AI系統(tǒng),經(jīng)常會(huì)出現(xiàn)一個(gè)令人頭疼的問題——它們會(huì)"看到"圖片中根本不存在的東西,然后煞有介事地描述出來。就像一個(gè)過度想象的孩子,看到云朵就說是城堡,看到樹影就說是怪獸。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)驚人的事實(shí):這些AI系統(tǒng)的"胡編亂造"問題主要不是因?yàn)?眼睛不好使",而是因?yàn)?嘴巴太能說"。換句話說,問題的根源在于這些AI系統(tǒng)過分依賴語言模型中積累的知識(shí)和偏見,就像一個(gè)滿腹經(jīng)綸但不愿意仔細(xì)觀察的學(xué)者,總是用已有的知識(shí)框架來解釋新看到的事物,而忽略了眼前的真實(shí)情況。
為了驗(yàn)證這個(gè)猜測(cè),研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。他們發(fā)現(xiàn),當(dāng)AI系統(tǒng)出現(xiàn)幻覺時(shí),無論是否提供圖像信息,系統(tǒng)給出的答案幾乎一模一樣。這就像是一個(gè)學(xué)生在考試時(shí),不管題目問的是什么,都用同一套標(biāo)準(zhǔn)答案來回答。這個(gè)發(fā)現(xiàn)顛覆了之前學(xué)界的普遍認(rèn)知——大家原本以為問題出在視覺識(shí)別部分,但實(shí)際上問題出在語言生成部分。
基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一個(gè)名為NoLan的全新框架,這個(gè)名字來自"No-Language-Hallucination Decoding"的縮寫。NoLan的工作原理就像是給AI裝了一個(gè)"現(xiàn)實(shí)檢查器"。當(dāng)AI準(zhǔn)備說出一句話時(shí),NoLan會(huì)同時(shí)詢問兩個(gè)問題:一是"你看著圖片,會(huì)說什么?",二是"如果沒有圖片,你會(huì)說什么?"然后它會(huì)比較這兩個(gè)答案,如果兩個(gè)答案太相似,就說明AI可能在依賴固有偏見而不是真正"看圖說話",這時(shí)NoLan就會(huì)調(diào)整AI的回答,讓它更多地依賴視覺信息而不是預(yù)設(shè)知識(shí)。
這個(gè)方法的巧妙之處在于它完全不需要額外的訓(xùn)練。就像給汽車安裝一個(gè)導(dǎo)航系統(tǒng),不需要重新制造發(fā)動(dòng)機(jī),只需要在現(xiàn)有系統(tǒng)上加裝一個(gè)智能模塊就行了。NoLan可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上,立即改善其表現(xiàn)。
研究團(tuán)隊(duì)還開發(fā)了NoLan的兩個(gè)版本。基礎(chǔ)版本NoLan-Base使用固定的調(diào)整幅度,就像使用固定檔位的變速箱。而升級(jí)版本NoLan-Plus則更加智能,它能根據(jù)具體情況動(dòng)態(tài)調(diào)整,就像現(xiàn)代汽車的智能變速系統(tǒng),能夠根據(jù)路況和駕駛習(xí)慣自動(dòng)選擇最合適的檔位。NoLan-Plus使用一個(gè)基于KL散度的數(shù)學(xué)公式來衡量?jī)蓚€(gè)答案的相似度,當(dāng)相似度越高時(shí),調(diào)整幅度就越大。
為了測(cè)試NoLan的效果,研究團(tuán)隊(duì)在多個(gè)不同的數(shù)據(jù)集上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們使用了POPE(基于輪詢的目標(biāo)探測(cè)評(píng)估)、MME(多模態(tài)評(píng)估)、LLaVA-Bench等多個(gè)標(biāo)準(zhǔn)測(cè)試集,涵蓋了從簡(jiǎn)單的"圖中有沒有大象"到復(fù)雜的開放式問答等各種任務(wù)。
實(shí)驗(yàn)結(jié)果令人印象深刻。在POPE測(cè)試中,NoLan將LLaVA-1.5 7B模型的準(zhǔn)確率提高了多達(dá)6.45分,將Qwen-VL 7B模型的準(zhǔn)確率提高了7.21分。在更具挑戰(zhàn)性的測(cè)試中,NoLan-Plus甚至將準(zhǔn)確率提升了8.38分,F(xiàn)1分?jǐn)?shù)提升了8.78分。這就像是一個(gè)原本經(jīng)常答錯(cuò)題的學(xué)生,突然之間答題準(zhǔn)確率大幅提升,而且這種提升是在所有類型的題目上都表現(xiàn)出來的。
更令人驚喜的是,NoLan不僅減少了AI的胡編亂造,還保持了生成內(nèi)容的豐富性和流暢性。在開放式問答任務(wù)中,使用NoLan的AI系統(tǒng)生成的答案更加準(zhǔn)確,同時(shí)依然保持著生動(dòng)有趣的表達(dá)風(fēng)格。這就像是教會(huì)了一個(gè)愛說故事的孩子既要有想象力,又要尊重事實(shí)。
研究團(tuán)隊(duì)還進(jìn)行了深入的理論分析,從數(shù)學(xué)角度證明了他們方法的合理性。他們使用條件互信息和KL散度等數(shù)學(xué)工具,嚴(yán)格證明了當(dāng)KL散度較小時(shí),確實(shí)意味著AI系統(tǒng)更可能出現(xiàn)幻覺。這為他們的方法提供了堅(jiān)實(shí)的理論基礎(chǔ),就像為一座建筑打下了牢固的地基。
在實(shí)際應(yīng)用案例中,研究團(tuán)隊(duì)展示了一些生動(dòng)的例子。比如,在描述一張Snow White和七個(gè)小矮人的圖片時(shí),原始的AI系統(tǒng)會(huì)說圖中有"手提箱"和"卡車"這些根本不存在的物體,因?yàn)檫@些物體在訓(xùn)練數(shù)據(jù)中經(jīng)常與童話故事相關(guān)聯(lián)。但使用NoLan后,AI的描述變得準(zhǔn)確多了,只會(huì)提到圖片中真實(shí)存在的物體。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI系統(tǒng)的幻覺問題在生成序列的后半部分更加嚴(yán)重。就像人在長(zhǎng)時(shí)間講話時(shí)可能會(huì)逐漸偏離主題一樣,AI在生成較長(zhǎng)文本時(shí)也容易逐漸脫離視覺輸入,更多地依賴語言模型的固有偏見。這個(gè)發(fā)現(xiàn)為未來的研究指出了新的方向。
在效率方面,NoLan也表現(xiàn)出色。相比其他需要額外計(jì)算開銷的方法,NoLan的計(jì)算負(fù)擔(dān)相對(duì)較小,推理速度也更快。在內(nèi)存使用上,NoLan幾乎不增加額外負(fù)擔(dān),這使得它可以輕松部署到實(shí)際應(yīng)用中。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在自動(dòng)駕駛、醫(yī)療診斷、安防監(jiān)控等關(guān)鍵領(lǐng)域,AI系統(tǒng)的準(zhǔn)確性直接關(guān)系到人身安全。一個(gè)能夠準(zhǔn)確"看圖說話"的AI系統(tǒng),意味著自動(dòng)駕駛汽車能更準(zhǔn)確地識(shí)別路況,醫(yī)療AI能更精確地分析影像,安防系統(tǒng)能更可靠地識(shí)別異常情況。
研究團(tuán)隊(duì)還將NoLan與其他解決方案進(jìn)行了詳細(xì)對(duì)比。傳統(tǒng)方法大多需要重新訓(xùn)練模型或使用額外的工具,成本高昂且復(fù)雜。而NoLan就像是一個(gè)即插即用的升級(jí)包,可以立即改善任何現(xiàn)有系統(tǒng)的表現(xiàn),無需重新投資或大規(guī)模改造。
在不同模型規(guī)模的測(cè)試中,研究團(tuán)隊(duì)發(fā)現(xiàn)NoLan的效果在更大的模型上表現(xiàn)得更加突出。這意味著隨著AI技術(shù)的發(fā)展和模型規(guī)模的增長(zhǎng),NoLan的價(jià)值將會(huì)越來越大。這就像一個(gè)好的教育方法,對(duì)于學(xué)習(xí)能力更強(qiáng)的學(xué)生效果往往更明顯。
研究團(tuán)隊(duì)還探索了NoLan在多個(gè)不同領(lǐng)域的應(yīng)用效果。無論是處理幾何圖形、食物照片、統(tǒng)計(jì)圖表還是地圖信息,NoLan都能顯著改善AI的表現(xiàn)。這種廣泛的適用性證明了該方法的普遍價(jià)值。
在數(shù)學(xué)推理任務(wù)中,NoLan同樣展現(xiàn)出色表現(xiàn)。在MathVision數(shù)據(jù)集的測(cè)試中,使用NoLan的AI系統(tǒng)在代數(shù)、幾何、邏輯推理等多個(gè)數(shù)學(xué)領(lǐng)域都有明顯提升。這表明NoLan不僅能改善簡(jiǎn)單的物體識(shí)別,還能提升需要復(fù)雜推理的高級(jí)認(rèn)知任務(wù)。
研究團(tuán)隊(duì)進(jìn)行的不確定性分析顯示,NoLan不僅減少了幻覺,還提高了AI系統(tǒng)的整體可信度。通過熵值分析,他們發(fā)現(xiàn)使用NoLan的系統(tǒng)在做出判斷時(shí)更加確信,減少了模棱兩可的回答。這就像是一個(gè)原本猶豫不決的人變得更加果斷和自信。
在與基于注意力機(jī)制的其他方法比較中,NoLan顯示出明顯優(yōu)勢(shì)。一些競(jìng)爭(zhēng)方法試圖通過調(diào)整AI的注意力分布來改善表現(xiàn),但這些方法往往計(jì)算復(fù)雜且效果不穩(wěn)定。NoLan的對(duì)比解碼策略更加直接有效,就像用簡(jiǎn)單明了的方法解決復(fù)雜問題。
研究團(tuán)隊(duì)還測(cè)試了NoLan在最新一代AI模型上的表現(xiàn)。在Qwen2-VL和Qwen2.5-VL等先進(jìn)模型上,NoLan依然能夠帶來顯著改善,證明了其強(qiáng)大的通用性和前瞻性。這意味著即使AI技術(shù)繼續(xù)快速發(fā)展,NoLan仍將保持其價(jià)值。
在資源消耗方面的詳細(xì)分析顯示,NoLan-Base平均每個(gè)詞元的處理時(shí)間為0.6075秒,內(nèi)存使用僅為13.59GB,明顯優(yōu)于其他對(duì)比方法。這種高效性使得NoLan可以在資源有限的環(huán)境中部署,擴(kuò)大了其應(yīng)用范圍。
說到底,這項(xiàng)研究解決了AI領(lǐng)域一個(gè)長(zhǎng)期存在的關(guān)鍵問題。通過巧妙的設(shè)計(jì)和嚴(yán)格的驗(yàn)證,NoLan為我們提供了一個(gè)簡(jiǎn)單而有效的工具,讓AI系統(tǒng)能夠更好地"實(shí)事求是",減少不必要的想象和編造。這不僅是技術(shù)上的進(jìn)步,更是向著更可靠、更值得信賴的人工智能邁出的重要一步。
對(duì)于普通用戶來說,這意味著未來我們使用的AI助手將更加準(zhǔn)確可靠。無論是讓AI描述照片內(nèi)容,還是回答關(guān)于圖像的問題,我們都能期待得到更加真實(shí)、準(zhǔn)確的答案。而對(duì)于開發(fā)者和研究者來說,NoLan提供了一個(gè)現(xiàn)成的解決方案,可以立即改善他們的系統(tǒng)表現(xiàn),無需復(fù)雜的重新設(shè)計(jì)或大量的額外投資。
這項(xiàng)研究的完整論文可以通過arXiv編號(hào)2602.22144v1查找獲取,研究代碼也將在GitHub上公開發(fā)布,讓更多的研究者和開發(fā)者能夠受益于這一創(chuàng)新成果。隨著NoLan技術(shù)的推廣應(yīng)用,我們有理由期待一個(gè)更加準(zhǔn)確、可靠的AI視覺語言模型時(shí)代的到來。
Q&A
Q1:NoLan是什么技術(shù)?
A:NoLan是新加坡國(guó)立大學(xué)開發(fā)的一種AI改進(jìn)技術(shù),專門解決視覺語言模型的"幻覺"問題。它通過對(duì)比AI看圖回答和不看圖回答的差異,來減少AI胡編亂造不存在物體的問題。就像給AI裝了個(gè)現(xiàn)實(shí)檢查器,讓它更依賴真實(shí)的視覺信息而非預(yù)設(shè)知識(shí)。
Q2:NoLan技術(shù)需要重新訓(xùn)練AI模型嗎?
A:不需要。NoLan最大的優(yōu)勢(shì)就是可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上,就像給汽車加裝導(dǎo)航系統(tǒng)一樣,不需要重新制造發(fā)動(dòng)機(jī)。這大大降低了應(yīng)用成本和技術(shù)門檻,讓現(xiàn)有的AI系統(tǒng)立即獲得改善。
Q3:NoLan技術(shù)的效果如何?
A:實(shí)驗(yàn)結(jié)果顯示,NoLan能將AI模型的準(zhǔn)確率提升6-8分,在某些測(cè)試中甚至提升超過8分。比如原本經(jīng)常說圖中有"手提箱"、"卡車"等不存在物體的AI,使用NoLan后能準(zhǔn)確描述圖片真實(shí)內(nèi)容,大幅減少了胡編亂造的問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.