網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

新加坡國(guó)立大學(xué)突破：抑制AI視覺描述幻覺生成

2026-02-27 22:03:03　來源: 科技行者

北京舉報(bào)

分享至

人工智能的"幻覺"問題一直困擾著科學(xué)家們，特別是當(dāng)機(jī)器需要"看圖說話"時(shí)。新加坡國(guó)立大學(xué)和北京大學(xué)深圳研究生院的研究團(tuán)隊(duì)在2026年2月發(fā)表了一項(xiàng)突破性研究，論文編號(hào)為arXiv:2602.22144v1，題為"NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors"。這項(xiàng)研究徹底改變了我們對(duì)AI視覺語言模型"胡編亂造"問題的理解，并提出了一個(gè)簡(jiǎn)單而有效的解決方案。

當(dāng)我們看到一張照片時(shí)，大腦會(huì)自動(dòng)識(shí)別其中的物體，然后用語言準(zhǔn)確描述出來。但對(duì)AI來說，這個(gè)看似簡(jiǎn)單的任務(wù)卻充滿挑戰(zhàn)。目前的大型視覺語言模型，比如能夠看圖回答問題的AI系統(tǒng)，經(jīng)常會(huì)出現(xiàn)一個(gè)令人頭疼的問題——它們會(huì)"看到"圖片中根本不存在的東西，然后煞有介事地描述出來。就像一個(gè)過度想象的孩子，看到云朵就說是城堡，看到樹影就說是怪獸。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)驚人的事實(shí)：這些AI系統(tǒng)的"胡編亂造"問題主要不是因?yàn)?眼睛不好使"，而是因?yàn)?嘴巴太能說"。換句話說，問題的根源在于這些AI系統(tǒng)過分依賴語言模型中積累的知識(shí)和偏見，就像一個(gè)滿腹經(jīng)綸但不愿意仔細(xì)觀察的學(xué)者，總是用已有的知識(shí)框架來解釋新看到的事物，而忽略了眼前的真實(shí)情況。

為了驗(yàn)證這個(gè)猜測(cè)，研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。他們發(fā)現(xiàn)，當(dāng)AI系統(tǒng)出現(xiàn)幻覺時(shí)，無論是否提供圖像信息，系統(tǒng)給出的答案幾乎一模一樣。這就像是一個(gè)學(xué)生在考試時(shí)，不管題目問的是什么，都用同一套標(biāo)準(zhǔn)答案來回答。這個(gè)發(fā)現(xiàn)顛覆了之前學(xué)界的普遍認(rèn)知——大家原本以為問題出在視覺識(shí)別部分，但實(shí)際上問題出在語言生成部分。

基于這個(gè)重要發(fā)現(xiàn)，研究團(tuán)隊(duì)開發(fā)了一個(gè)名為NoLan的全新框架，這個(gè)名字來自"No-Language-Hallucination Decoding"的縮寫。NoLan的工作原理就像是給AI裝了一個(gè)"現(xiàn)實(shí)檢查器"。當(dāng)AI準(zhǔn)備說出一句話時(shí)，NoLan會(huì)同時(shí)詢問兩個(gè)問題：一是"你看著圖片，會(huì)說什么？"，二是"如果沒有圖片，你會(huì)說什么？"然后它會(huì)比較這兩個(gè)答案，如果兩個(gè)答案太相似，就說明AI可能在依賴固有偏見而不是真正"看圖說話"，這時(shí)NoLan就會(huì)調(diào)整AI的回答，讓它更多地依賴視覺信息而不是預(yù)設(shè)知識(shí)。

這個(gè)方法的巧妙之處在于它完全不需要額外的訓(xùn)練。就像給汽車安裝一個(gè)導(dǎo)航系統(tǒng)，不需要重新制造發(fā)動(dòng)機(jī)，只需要在現(xiàn)有系統(tǒng)上加裝一個(gè)智能模塊就行了。NoLan可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上，立即改善其表現(xiàn)。

研究團(tuán)隊(duì)還開發(fā)了NoLan的兩個(gè)版本。基礎(chǔ)版本NoLan-Base使用固定的調(diào)整幅度，就像使用固定檔位的變速箱。而升級(jí)版本NoLan-Plus則更加智能，它能根據(jù)具體情況動(dòng)態(tài)調(diào)整，就像現(xiàn)代汽車的智能變速系統(tǒng)，能夠根據(jù)路況和駕駛習(xí)慣自動(dòng)選擇最合適的檔位。NoLan-Plus使用一個(gè)基于KL散度的數(shù)學(xué)公式來衡量?jī)蓚€(gè)答案的相似度，當(dāng)相似度越高時(shí)，調(diào)整幅度就越大。

為了測(cè)試NoLan的效果，研究團(tuán)隊(duì)在多個(gè)不同的數(shù)據(jù)集上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們使用了POPE（基于輪詢的目標(biāo)探測(cè)評(píng)估）、MME（多模態(tài)評(píng)估）、LLaVA-Bench等多個(gè)標(biāo)準(zhǔn)測(cè)試集，涵蓋了從簡(jiǎn)單的"圖中有沒有大象"到復(fù)雜的開放式問答等各種任務(wù)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在POPE測(cè)試中，NoLan將LLaVA-1.5 7B模型的準(zhǔn)確率提高了多達(dá)6.45分，將Qwen-VL 7B模型的準(zhǔn)確率提高了7.21分。在更具挑戰(zhàn)性的測(cè)試中，NoLan-Plus甚至將準(zhǔn)確率提升了8.38分，F(xiàn)1分?jǐn)?shù)提升了8.78分。這就像是一個(gè)原本經(jīng)常答錯(cuò)題的學(xué)生，突然之間答題準(zhǔn)確率大幅提升，而且這種提升是在所有類型的題目上都表現(xiàn)出來的。

更令人驚喜的是，NoLan不僅減少了AI的胡編亂造，還保持了生成內(nèi)容的豐富性和流暢性。在開放式問答任務(wù)中，使用NoLan的AI系統(tǒng)生成的答案更加準(zhǔn)確，同時(shí)依然保持著生動(dòng)有趣的表達(dá)風(fēng)格。這就像是教會(huì)了一個(gè)愛說故事的孩子既要有想象力，又要尊重事實(shí)。

研究團(tuán)隊(duì)還進(jìn)行了深入的理論分析，從數(shù)學(xué)角度證明了他們方法的合理性。他們使用條件互信息和KL散度等數(shù)學(xué)工具，嚴(yán)格證明了當(dāng)KL散度較小時(shí)，確實(shí)意味著AI系統(tǒng)更可能出現(xiàn)幻覺。這為他們的方法提供了堅(jiān)實(shí)的理論基礎(chǔ)，就像為一座建筑打下了牢固的地基。

在實(shí)際應(yīng)用案例中，研究團(tuán)隊(duì)展示了一些生動(dòng)的例子。比如，在描述一張Snow White和七個(gè)小矮人的圖片時(shí)，原始的AI系統(tǒng)會(huì)說圖中有"手提箱"和"卡車"這些根本不存在的物體，因?yàn)檫@些物體在訓(xùn)練數(shù)據(jù)中經(jīng)常與童話故事相關(guān)聯(lián)。但使用NoLan后，AI的描述變得準(zhǔn)確多了，只會(huì)提到圖片中真實(shí)存在的物體。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：AI系統(tǒng)的幻覺問題在生成序列的后半部分更加嚴(yán)重。就像人在長(zhǎng)時(shí)間講話時(shí)可能會(huì)逐漸偏離主題一樣，AI在生成較長(zhǎng)文本時(shí)也容易逐漸脫離視覺輸入，更多地依賴語言模型的固有偏見。這個(gè)發(fā)現(xiàn)為未來的研究指出了新的方向。

在效率方面，NoLan也表現(xiàn)出色。相比其他需要額外計(jì)算開銷的方法，NoLan的計(jì)算負(fù)擔(dān)相對(duì)較小，推理速度也更快。在內(nèi)存使用上，NoLan幾乎不增加額外負(fù)擔(dān)，這使得它可以輕松部署到實(shí)際應(yīng)用中。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在自動(dòng)駕駛、醫(yī)療診斷、安防監(jiān)控等關(guān)鍵領(lǐng)域，AI系統(tǒng)的準(zhǔn)確性直接關(guān)系到人身安全。一個(gè)能夠準(zhǔn)確"看圖說話"的AI系統(tǒng)，意味著自動(dòng)駕駛汽車能更準(zhǔn)確地識(shí)別路況，醫(yī)療AI能更精確地分析影像，安防系統(tǒng)能更可靠地識(shí)別異常情況。

研究團(tuán)隊(duì)還將NoLan與其他解決方案進(jìn)行了詳細(xì)對(duì)比。傳統(tǒng)方法大多需要重新訓(xùn)練模型或使用額外的工具，成本高昂且復(fù)雜。而NoLan就像是一個(gè)即插即用的升級(jí)包，可以立即改善任何現(xiàn)有系統(tǒng)的表現(xiàn)，無需重新投資或大規(guī)模改造。

在不同模型規(guī)模的測(cè)試中，研究團(tuán)隊(duì)發(fā)現(xiàn)NoLan的效果在更大的模型上表現(xiàn)得更加突出。這意味著隨著AI技術(shù)的發(fā)展和模型規(guī)模的增長(zhǎng)，NoLan的價(jià)值將會(huì)越來越大。這就像一個(gè)好的教育方法，對(duì)于學(xué)習(xí)能力更強(qiáng)的學(xué)生效果往往更明顯。

研究團(tuán)隊(duì)還探索了NoLan在多個(gè)不同領(lǐng)域的應(yīng)用效果。無論是處理幾何圖形、食物照片、統(tǒng)計(jì)圖表還是地圖信息，NoLan都能顯著改善AI的表現(xiàn)。這種廣泛的適用性證明了該方法的普遍價(jià)值。

在數(shù)學(xué)推理任務(wù)中，NoLan同樣展現(xiàn)出色表現(xiàn)。在MathVision數(shù)據(jù)集的測(cè)試中，使用NoLan的AI系統(tǒng)在代數(shù)、幾何、邏輯推理等多個(gè)數(shù)學(xué)領(lǐng)域都有明顯提升。這表明NoLan不僅能改善簡(jiǎn)單的物體識(shí)別，還能提升需要復(fù)雜推理的高級(jí)認(rèn)知任務(wù)。

研究團(tuán)隊(duì)進(jìn)行的不確定性分析顯示，NoLan不僅減少了幻覺，還提高了AI系統(tǒng)的整體可信度。通過熵值分析，他們發(fā)現(xiàn)使用NoLan的系統(tǒng)在做出判斷時(shí)更加確信，減少了模棱兩可的回答。這就像是一個(gè)原本猶豫不決的人變得更加果斷和自信。

在與基于注意力機(jī)制的其他方法比較中，NoLan顯示出明顯優(yōu)勢(shì)。一些競(jìng)爭(zhēng)方法試圖通過調(diào)整AI的注意力分布來改善表現(xiàn)，但這些方法往往計(jì)算復(fù)雜且效果不穩(wěn)定。NoLan的對(duì)比解碼策略更加直接有效，就像用簡(jiǎn)單明了的方法解決復(fù)雜問題。

研究團(tuán)隊(duì)還測(cè)試了NoLan在最新一代AI模型上的表現(xiàn)。在Qwen2-VL和Qwen2.5-VL等先進(jìn)模型上，NoLan依然能夠帶來顯著改善，證明了其強(qiáng)大的通用性和前瞻性。這意味著即使AI技術(shù)繼續(xù)快速發(fā)展，NoLan仍將保持其價(jià)值。

在資源消耗方面的詳細(xì)分析顯示，NoLan-Base平均每個(gè)詞元的處理時(shí)間為0.6075秒，內(nèi)存使用僅為13.59GB，明顯優(yōu)于其他對(duì)比方法。這種高效性使得NoLan可以在資源有限的環(huán)境中部署，擴(kuò)大了其應(yīng)用范圍。

說到底，這項(xiàng)研究解決了AI領(lǐng)域一個(gè)長(zhǎng)期存在的關(guān)鍵問題。通過巧妙的設(shè)計(jì)和嚴(yán)格的驗(yàn)證，NoLan為我們提供了一個(gè)簡(jiǎn)單而有效的工具，讓AI系統(tǒng)能夠更好地"實(shí)事求是"，減少不必要的想象和編造。這不僅是技術(shù)上的進(jìn)步，更是向著更可靠、更值得信賴的人工智能邁出的重要一步。

對(duì)于普通用戶來說，這意味著未來我們使用的AI助手將更加準(zhǔn)確可靠。無論是讓AI描述照片內(nèi)容，還是回答關(guān)于圖像的問題，我們都能期待得到更加真實(shí)、準(zhǔn)確的答案。而對(duì)于開發(fā)者和研究者來說，NoLan提供了一個(gè)現(xiàn)成的解決方案，可以立即改善他們的系統(tǒng)表現(xiàn)，無需復(fù)雜的重新設(shè)計(jì)或大量的額外投資。

這項(xiàng)研究的完整論文可以通過arXiv編號(hào)2602.22144v1查找獲取，研究代碼也將在GitHub上公開發(fā)布，讓更多的研究者和開發(fā)者能夠受益于這一創(chuàng)新成果。隨著NoLan技術(shù)的推廣應(yīng)用，我們有理由期待一個(gè)更加準(zhǔn)確、可靠的AI視覺語言模型時(shí)代的到來。

Q&A

Q1：NoLan是什么技術(shù)？

A：NoLan是新加坡國(guó)立大學(xué)開發(fā)的一種AI改進(jìn)技術(shù)，專門解決視覺語言模型的"幻覺"問題。它通過對(duì)比AI看圖回答和不看圖回答的差異，來減少AI胡編亂造不存在物體的問題。就像給AI裝了個(gè)現(xiàn)實(shí)檢查器，讓它更依賴真實(shí)的視覺信息而非預(yù)設(shè)知識(shí)。

Q2：NoLan技術(shù)需要重新訓(xùn)練AI模型嗎？

A：不需要。NoLan最大的優(yōu)勢(shì)就是可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上，就像給汽車加裝導(dǎo)航系統(tǒng)一樣，不需要重新制造發(fā)動(dòng)機(jī)。這大大降低了應(yīng)用成本和技術(shù)門檻，讓現(xiàn)有的AI系統(tǒng)立即獲得改善。

Q3：NoLan技術(shù)的效果如何？

A：實(shí)驗(yàn)結(jié)果顯示，NoLan能將AI模型的準(zhǔn)確率提升6-8分，在某些測(cè)試中甚至提升超過8分。比如原本經(jīng)常說圖中有"手提箱"、"卡車"等不存在物體的AI，使用NoLan后能準(zhǔn)確描述圖片真實(shí)內(nèi)容，大幅減少了胡編亂造的問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.