<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      新加坡國(guó)立大學(xué)突破:抑制AI視覺描述幻覺生成

      0
      分享至


      人工智能的"幻覺"問題一直困擾著科學(xué)家們,特別是當(dāng)機(jī)器需要"看圖說話"時(shí)。新加坡國(guó)立大學(xué)和北京大學(xué)深圳研究生院的研究團(tuán)隊(duì)在2026年2月發(fā)表了一項(xiàng)突破性研究,論文編號(hào)為arXiv:2602.22144v1,題為"NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors"。這項(xiàng)研究徹底改變了我們對(duì)AI視覺語言模型"胡編亂造"問題的理解,并提出了一個(gè)簡(jiǎn)單而有效的解決方案。

      當(dāng)我們看到一張照片時(shí),大腦會(huì)自動(dòng)識(shí)別其中的物體,然后用語言準(zhǔn)確描述出來。但對(duì)AI來說,這個(gè)看似簡(jiǎn)單的任務(wù)卻充滿挑戰(zhàn)。目前的大型視覺語言模型,比如能夠看圖回答問題的AI系統(tǒng),經(jīng)常會(huì)出現(xiàn)一個(gè)令人頭疼的問題——它們會(huì)"看到"圖片中根本不存在的東西,然后煞有介事地描述出來。就像一個(gè)過度想象的孩子,看到云朵就說是城堡,看到樹影就說是怪獸。

      研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)驚人的事實(shí):這些AI系統(tǒng)的"胡編亂造"問題主要不是因?yàn)?眼睛不好使",而是因?yàn)?嘴巴太能說"。換句話說,問題的根源在于這些AI系統(tǒng)過分依賴語言模型中積累的知識(shí)和偏見,就像一個(gè)滿腹經(jīng)綸但不愿意仔細(xì)觀察的學(xué)者,總是用已有的知識(shí)框架來解釋新看到的事物,而忽略了眼前的真實(shí)情況。

      為了驗(yàn)證這個(gè)猜測(cè),研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。他們發(fā)現(xiàn),當(dāng)AI系統(tǒng)出現(xiàn)幻覺時(shí),無論是否提供圖像信息,系統(tǒng)給出的答案幾乎一模一樣。這就像是一個(gè)學(xué)生在考試時(shí),不管題目問的是什么,都用同一套標(biāo)準(zhǔn)答案來回答。這個(gè)發(fā)現(xiàn)顛覆了之前學(xué)界的普遍認(rèn)知——大家原本以為問題出在視覺識(shí)別部分,但實(shí)際上問題出在語言生成部分。

      基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一個(gè)名為NoLan的全新框架,這個(gè)名字來自"No-Language-Hallucination Decoding"的縮寫。NoLan的工作原理就像是給AI裝了一個(gè)"現(xiàn)實(shí)檢查器"。當(dāng)AI準(zhǔn)備說出一句話時(shí),NoLan會(huì)同時(shí)詢問兩個(gè)問題:一是"你看著圖片,會(huì)說什么?",二是"如果沒有圖片,你會(huì)說什么?"然后它會(huì)比較這兩個(gè)答案,如果兩個(gè)答案太相似,就說明AI可能在依賴固有偏見而不是真正"看圖說話",這時(shí)NoLan就會(huì)調(diào)整AI的回答,讓它更多地依賴視覺信息而不是預(yù)設(shè)知識(shí)。

      這個(gè)方法的巧妙之處在于它完全不需要額外的訓(xùn)練。就像給汽車安裝一個(gè)導(dǎo)航系統(tǒng),不需要重新制造發(fā)動(dòng)機(jī),只需要在現(xiàn)有系統(tǒng)上加裝一個(gè)智能模塊就行了。NoLan可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上,立即改善其表現(xiàn)。

      研究團(tuán)隊(duì)還開發(fā)了NoLan的兩個(gè)版本。基礎(chǔ)版本NoLan-Base使用固定的調(diào)整幅度,就像使用固定檔位的變速箱。而升級(jí)版本NoLan-Plus則更加智能,它能根據(jù)具體情況動(dòng)態(tài)調(diào)整,就像現(xiàn)代汽車的智能變速系統(tǒng),能夠根據(jù)路況和駕駛習(xí)慣自動(dòng)選擇最合適的檔位。NoLan-Plus使用一個(gè)基于KL散度的數(shù)學(xué)公式來衡量?jī)蓚€(gè)答案的相似度,當(dāng)相似度越高時(shí),調(diào)整幅度就越大。

      為了測(cè)試NoLan的效果,研究團(tuán)隊(duì)在多個(gè)不同的數(shù)據(jù)集上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們使用了POPE(基于輪詢的目標(biāo)探測(cè)評(píng)估)、MME(多模態(tài)評(píng)估)、LLaVA-Bench等多個(gè)標(biāo)準(zhǔn)測(cè)試集,涵蓋了從簡(jiǎn)單的"圖中有沒有大象"到復(fù)雜的開放式問答等各種任務(wù)。

      實(shí)驗(yàn)結(jié)果令人印象深刻。在POPE測(cè)試中,NoLan將LLaVA-1.5 7B模型的準(zhǔn)確率提高了多達(dá)6.45分,將Qwen-VL 7B模型的準(zhǔn)確率提高了7.21分。在更具挑戰(zhàn)性的測(cè)試中,NoLan-Plus甚至將準(zhǔn)確率提升了8.38分,F(xiàn)1分?jǐn)?shù)提升了8.78分。這就像是一個(gè)原本經(jīng)常答錯(cuò)題的學(xué)生,突然之間答題準(zhǔn)確率大幅提升,而且這種提升是在所有類型的題目上都表現(xiàn)出來的。

      更令人驚喜的是,NoLan不僅減少了AI的胡編亂造,還保持了生成內(nèi)容的豐富性和流暢性。在開放式問答任務(wù)中,使用NoLan的AI系統(tǒng)生成的答案更加準(zhǔn)確,同時(shí)依然保持著生動(dòng)有趣的表達(dá)風(fēng)格。這就像是教會(huì)了一個(gè)愛說故事的孩子既要有想象力,又要尊重事實(shí)。

      研究團(tuán)隊(duì)還進(jìn)行了深入的理論分析,從數(shù)學(xué)角度證明了他們方法的合理性。他們使用條件互信息和KL散度等數(shù)學(xué)工具,嚴(yán)格證明了當(dāng)KL散度較小時(shí),確實(shí)意味著AI系統(tǒng)更可能出現(xiàn)幻覺。這為他們的方法提供了堅(jiān)實(shí)的理論基礎(chǔ),就像為一座建筑打下了牢固的地基。

      在實(shí)際應(yīng)用案例中,研究團(tuán)隊(duì)展示了一些生動(dòng)的例子。比如,在描述一張Snow White和七個(gè)小矮人的圖片時(shí),原始的AI系統(tǒng)會(huì)說圖中有"手提箱"和"卡車"這些根本不存在的物體,因?yàn)檫@些物體在訓(xùn)練數(shù)據(jù)中經(jīng)常與童話故事相關(guān)聯(lián)。但使用NoLan后,AI的描述變得準(zhǔn)確多了,只會(huì)提到圖片中真實(shí)存在的物體。

      研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:AI系統(tǒng)的幻覺問題在生成序列的后半部分更加嚴(yán)重。就像人在長(zhǎng)時(shí)間講話時(shí)可能會(huì)逐漸偏離主題一樣,AI在生成較長(zhǎng)文本時(shí)也容易逐漸脫離視覺輸入,更多地依賴語言模型的固有偏見。這個(gè)發(fā)現(xiàn)為未來的研究指出了新的方向。

      在效率方面,NoLan也表現(xiàn)出色。相比其他需要額外計(jì)算開銷的方法,NoLan的計(jì)算負(fù)擔(dān)相對(duì)較小,推理速度也更快。在內(nèi)存使用上,NoLan幾乎不增加額外負(fù)擔(dān),這使得它可以輕松部署到實(shí)際應(yīng)用中。

      這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在自動(dòng)駕駛、醫(yī)療診斷、安防監(jiān)控等關(guān)鍵領(lǐng)域,AI系統(tǒng)的準(zhǔn)確性直接關(guān)系到人身安全。一個(gè)能夠準(zhǔn)確"看圖說話"的AI系統(tǒng),意味著自動(dòng)駕駛汽車能更準(zhǔn)確地識(shí)別路況,醫(yī)療AI能更精確地分析影像,安防系統(tǒng)能更可靠地識(shí)別異常情況。

      研究團(tuán)隊(duì)還將NoLan與其他解決方案進(jìn)行了詳細(xì)對(duì)比。傳統(tǒng)方法大多需要重新訓(xùn)練模型或使用額外的工具,成本高昂且復(fù)雜。而NoLan就像是一個(gè)即插即用的升級(jí)包,可以立即改善任何現(xiàn)有系統(tǒng)的表現(xiàn),無需重新投資或大規(guī)模改造。

      在不同模型規(guī)模的測(cè)試中,研究團(tuán)隊(duì)發(fā)現(xiàn)NoLan的效果在更大的模型上表現(xiàn)得更加突出。這意味著隨著AI技術(shù)的發(fā)展和模型規(guī)模的增長(zhǎng),NoLan的價(jià)值將會(huì)越來越大。這就像一個(gè)好的教育方法,對(duì)于學(xué)習(xí)能力更強(qiáng)的學(xué)生效果往往更明顯。

      研究團(tuán)隊(duì)還探索了NoLan在多個(gè)不同領(lǐng)域的應(yīng)用效果。無論是處理幾何圖形、食物照片、統(tǒng)計(jì)圖表還是地圖信息,NoLan都能顯著改善AI的表現(xiàn)。這種廣泛的適用性證明了該方法的普遍價(jià)值。

      在數(shù)學(xué)推理任務(wù)中,NoLan同樣展現(xiàn)出色表現(xiàn)。在MathVision數(shù)據(jù)集的測(cè)試中,使用NoLan的AI系統(tǒng)在代數(shù)、幾何、邏輯推理等多個(gè)數(shù)學(xué)領(lǐng)域都有明顯提升。這表明NoLan不僅能改善簡(jiǎn)單的物體識(shí)別,還能提升需要復(fù)雜推理的高級(jí)認(rèn)知任務(wù)。

      研究團(tuán)隊(duì)進(jìn)行的不確定性分析顯示,NoLan不僅減少了幻覺,還提高了AI系統(tǒng)的整體可信度。通過熵值分析,他們發(fā)現(xiàn)使用NoLan的系統(tǒng)在做出判斷時(shí)更加確信,減少了模棱兩可的回答。這就像是一個(gè)原本猶豫不決的人變得更加果斷和自信。

      在與基于注意力機(jī)制的其他方法比較中,NoLan顯示出明顯優(yōu)勢(shì)。一些競(jìng)爭(zhēng)方法試圖通過調(diào)整AI的注意力分布來改善表現(xiàn),但這些方法往往計(jì)算復(fù)雜且效果不穩(wěn)定。NoLan的對(duì)比解碼策略更加直接有效,就像用簡(jiǎn)單明了的方法解決復(fù)雜問題。

      研究團(tuán)隊(duì)還測(cè)試了NoLan在最新一代AI模型上的表現(xiàn)。在Qwen2-VL和Qwen2.5-VL等先進(jìn)模型上,NoLan依然能夠帶來顯著改善,證明了其強(qiáng)大的通用性和前瞻性。這意味著即使AI技術(shù)繼續(xù)快速發(fā)展,NoLan仍將保持其價(jià)值。

      在資源消耗方面的詳細(xì)分析顯示,NoLan-Base平均每個(gè)詞元的處理時(shí)間為0.6075秒,內(nèi)存使用僅為13.59GB,明顯優(yōu)于其他對(duì)比方法。這種高效性使得NoLan可以在資源有限的環(huán)境中部署,擴(kuò)大了其應(yīng)用范圍。

      說到底,這項(xiàng)研究解決了AI領(lǐng)域一個(gè)長(zhǎng)期存在的關(guān)鍵問題。通過巧妙的設(shè)計(jì)和嚴(yán)格的驗(yàn)證,NoLan為我們提供了一個(gè)簡(jiǎn)單而有效的工具,讓AI系統(tǒng)能夠更好地"實(shí)事求是",減少不必要的想象和編造。這不僅是技術(shù)上的進(jìn)步,更是向著更可靠、更值得信賴的人工智能邁出的重要一步。

      對(duì)于普通用戶來說,這意味著未來我們使用的AI助手將更加準(zhǔn)確可靠。無論是讓AI描述照片內(nèi)容,還是回答關(guān)于圖像的問題,我們都能期待得到更加真實(shí)、準(zhǔn)確的答案。而對(duì)于開發(fā)者和研究者來說,NoLan提供了一個(gè)現(xiàn)成的解決方案,可以立即改善他們的系統(tǒng)表現(xiàn),無需復(fù)雜的重新設(shè)計(jì)或大量的額外投資。

      這項(xiàng)研究的完整論文可以通過arXiv編號(hào)2602.22144v1查找獲取,研究代碼也將在GitHub上公開發(fā)布,讓更多的研究者和開發(fā)者能夠受益于這一創(chuàng)新成果。隨著NoLan技術(shù)的推廣應(yīng)用,我們有理由期待一個(gè)更加準(zhǔn)確、可靠的AI視覺語言模型時(shí)代的到來。

      Q&A

      Q1:NoLan是什么技術(shù)?

      A:NoLan是新加坡國(guó)立大學(xué)開發(fā)的一種AI改進(jìn)技術(shù),專門解決視覺語言模型的"幻覺"問題。它通過對(duì)比AI看圖回答和不看圖回答的差異,來減少AI胡編亂造不存在物體的問題。就像給AI裝了個(gè)現(xiàn)實(shí)檢查器,讓它更依賴真實(shí)的視覺信息而非預(yù)設(shè)知識(shí)。

      Q2:NoLan技術(shù)需要重新訓(xùn)練AI模型嗎?

      A:不需要。NoLan最大的優(yōu)勢(shì)就是可以直接應(yīng)用到任何現(xiàn)有的視覺語言模型上,就像給汽車加裝導(dǎo)航系統(tǒng)一樣,不需要重新制造發(fā)動(dòng)機(jī)。這大大降低了應(yīng)用成本和技術(shù)門檻,讓現(xiàn)有的AI系統(tǒng)立即獲得改善。

      Q3:NoLan技術(shù)的效果如何?

      A:實(shí)驗(yàn)結(jié)果顯示,NoLan能將AI模型的準(zhǔn)確率提升6-8分,在某些測(cè)試中甚至提升超過8分。比如原本經(jīng)常說圖中有"手提箱"、"卡車"等不存在物體的AI,使用NoLan后能準(zhǔn)確描述圖片真實(shí)內(nèi)容,大幅減少了胡編亂造的問題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      理查茲談紅點(diǎn):在老特拉福德,主隊(duì)更可能獲得這樣的判罰

      理查茲談紅點(diǎn):在老特拉福德,主隊(duì)更可能獲得這樣的判罰

      懂球帝
      2026-03-02 00:44:14
      快訊!外媒:以軍稱,正在對(duì)伊朗彈道導(dǎo)彈陣地和防空系統(tǒng)進(jìn)行新一輪打擊

      快訊!外媒:以軍稱,正在對(duì)伊朗彈道導(dǎo)彈陣地和防空系統(tǒng)進(jìn)行新一輪打擊

      環(huán)球網(wǎng)資訊
      2026-03-01 08:52:08
      美方扶持的4位中國(guó)富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國(guó)

      美方扶持的4位中國(guó)富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國(guó)

      古史青云啊
      2026-02-20 16:23:31
      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報(bào)復(fù)有多狠?史官都不敢寫

      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報(bào)復(fù)有多狠?史官都不敢寫

      掠影后有感
      2026-03-01 10:09:20
      男籃大逆轉(zhuǎn)賽后更衣室曝光!籃協(xié)主席激動(dòng)哭了:趙睿喜極而泣

      男籃大逆轉(zhuǎn)賽后更衣室曝光!籃協(xié)主席激動(dòng)哭了:趙睿喜極而泣

      籃球快餐車
      2026-03-02 00:02:07
      “一家子碳水臉!”3個(gè)男生寒假伙食遭2.6w圍觀:你家人真好養(yǎng)活

      “一家子碳水臉!”3個(gè)男生寒假伙食遭2.6w圍觀:你家人真好養(yǎng)活

      墨印齋
      2026-03-01 22:08:59
      哈梅內(nèi)伊給所有掌權(quán)者,上了最后一課

      哈梅內(nèi)伊給所有掌權(quán)者,上了最后一課

      梳子姐
      2026-03-01 15:14:59
      突發(fā)!20名女排球員喪生,伊朗排協(xié)損失太大

      突發(fā)!20名女排球員喪生,伊朗排協(xié)損失太大

      跑者排球視角
      2026-03-01 10:08:21
      穆帥:若證實(shí)普雷斯蒂安尼涉嫌歧視那他就離隊(duì);我不會(huì)去皇馬

      穆帥:若證實(shí)普雷斯蒂安尼涉嫌歧視那他就離隊(duì);我不會(huì)去皇馬

      懂球帝
      2026-03-01 20:15:35
      美媒:因芯片含有中國(guó)稀土,臺(tái)積電無法向美國(guó)供應(yīng)半導(dǎo)體芯片

      美媒:因芯片含有中國(guó)稀土,臺(tái)積電無法向美國(guó)供應(yīng)半導(dǎo)體芯片

      粵語音樂噴泉
      2026-03-01 13:41:46
      劉濤這大胯真帶勁

      劉濤這大胯真帶勁

      可樂談情感
      2026-03-01 17:36:55
      首發(fā)0分他打球拖累全隊(duì)!球迷炮轟郭士強(qiáng)選他是錯(cuò)誤,該選得分王

      首發(fā)0分他打球拖累全隊(duì)!球迷炮轟郭士強(qiáng)選他是錯(cuò)誤,該選得分王

      老吳說體育
      2026-03-01 19:21:06
      哈梅內(nèi)伊四位親屬據(jù)稱在襲擊中身亡!伊南部一體育館遭空襲,20名女排球員喪生,伊方:科威特美海軍基地所有基礎(chǔ)設(shè)施被摧毀,大量美軍傷亡

      哈梅內(nèi)伊四位親屬據(jù)稱在襲擊中身亡!伊南部一體育館遭空襲,20名女排球員喪生,伊方:科威特美海軍基地所有基礎(chǔ)設(shè)施被摧毀,大量美軍傷亡

      每日經(jīng)濟(jì)新聞
      2026-03-01 09:22:18
      上海合作組織秘書處降半旗

      上海合作組織秘書處降半旗

      觀察者網(wǎng)
      2026-03-01 18:14:11
      人民幣匯率大跳水,6.84背后隱藏怎樣的通脹與資產(chǎn)飛漲危機(jī)?

      人民幣匯率大跳水,6.84背后隱藏怎樣的通脹與資產(chǎn)飛漲危機(jī)?

      奇思妙想生活家
      2026-02-28 19:35:46
      隊(duì)長(zhǎng)傳射!7.2億豪門2-1逆轉(zhuǎn) 7輪6勝+11輪不敗 賽季首次躋身前三

      隊(duì)長(zhǎng)傳射!7.2億豪門2-1逆轉(zhuǎn) 7輪6勝+11輪不敗 賽季首次躋身前三

      狍子歪解體壇
      2026-03-01 23:58:16
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      八斗小先生
      2025-12-26 09:33:27
      女孩用AI問怎么下藥殺人,兩條人命沒了。網(wǎng)友卻說:死者的錯(cuò),因?yàn)樗懒?>
    </a>
        <h3>
      <a href=英國(guó)那些事兒
      2026-02-28 23:22:40
      謝賢前女友CoCo直播爆猛料,大談謝霆鋒和張柏芝結(jié)婚內(nèi)幕,太敢說

      謝賢前女友CoCo直播爆猛料,大談謝霆鋒和張柏芝結(jié)婚內(nèi)幕,太敢說

      青梅侃史啊
      2026-02-13 07:29:37
      被加拿大養(yǎng)父母拋棄,回國(guó)認(rèn)親的張?jiān)迄i經(jīng)歷悲慘,親爹媽早已離異

      被加拿大養(yǎng)父母拋棄,回國(guó)認(rèn)親的張?jiān)迄i經(jīng)歷悲慘,親爹媽早已離異

      阿芒娛樂說
      2026-03-01 17:42:16
      2026-03-02 01:11:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      7389文章數(shù) 553關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

      頭條要聞

      媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

      頭條要聞

      媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

      體育要聞

      火箭輸給熱火:烏度卡又輸斯波教練

      娛樂要聞

      黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

      財(cái)經(jīng)要聞

      中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

      汽車要聞

      理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

      態(tài)度原創(chuàng)

      數(shù)碼
      健康
      親子
      公開課
      軍事航空

      數(shù)碼要聞

      榮耀Magic V6海外發(fā)布:厚度僅8.75mm三年內(nèi)第四次打破紀(jì)錄

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      金龜子女兒流產(chǎn)后,為兒子舉辦2歲生日宴,三個(gè)卡通可愛的蛋糕

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

      無障礙瀏覽 進(jìn)入關(guān)懷版