<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      多模態(tài)幻覺的病因「高熵節(jié)點」找到了!全基準(zhǔn)幻覺率下降

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導(dǎo)讀】多模態(tài)大推理模型的幻覺,很多時候并非「沒看見」,而是在最不確定的推理階段想偏了。最新研究發(fā)現(xiàn),模型在生成because、however、wait等transition words時,往往處于高熵關(guān)鍵節(jié)點,更容易脫離圖像證據(jù)、轉(zhuǎn)向語言腦補。LEAD在高熵階段不急于輸出單一離散token,而是先在潛在語義空間保留多種候選推理方向,并通過視覺錨點持續(xù)拉回圖像證據(jù),顯著緩解幻覺。

      在多模態(tài)大模型的浪潮中,具備顯式長鏈思考能力的MLRMs正在快速成為焦點。它們看起來更會「想」,也更善于在復(fù)雜任務(wù)中展開多步推理。

      可問題是,想得更長,真的就更可靠嗎?

      來自Monash University、Georgia Tech、Cornell University等機構(gòu)的研究者給出了一個很有意思的答案:未必。

      模型的問題并不總是出在「看錯圖」,而常常出在推理鏈進(jìn)入不確定轉(zhuǎn)折點之后,開始順著語言慣性一路想偏。


      論文鏈接:https://arxiv.org/pdf/2603.13366

      研究者進(jìn)一步指出,這種偏航并不是隨機噪聲,而是和token級別的不確定性緊密相關(guān)。尤其當(dāng)模型生成because、however、wait這類帶有轉(zhuǎn)折、反思和因果意味的過渡詞時,往往對應(yīng)著更高的token entropy,也意味著模型正在多個潛在推理路徑之間搖擺。一旦此時被迫過早選定一個離散token,后續(xù)整條reasoning trajectory都可能被帶歪。

      幻覺不只是「看錯」,而且是在轉(zhuǎn)折詞之后「想偏」

      這篇論文首先抓住了一個非常有傳播力、也很有解釋力的現(xiàn)象:多模態(tài)幻覺經(jīng)常出現(xiàn)在transition words之后。 論文統(tǒng)計發(fā)現(xiàn),在MLRMs中,hallucination更容易在transition words后出現(xiàn),而且這類case在全部幻覺中占了相當(dāng)大比例。

      換句話說,模型不是無緣無故地亂說,而是常常在「因此」「但是」「等等」這些看似高階推理信號出現(xiàn)之后,開始脫離圖像,進(jìn)入語言主導(dǎo)的腦補狀態(tài)。


      更關(guān)鍵的是,論文沒有停留在現(xiàn)象層面,而是把這個問題和token entropy 聯(lián)系起來。

      作者發(fā)現(xiàn),這些 transition words 往往對應(yīng)更高的熵值,也就是模型最不確定、最容易在多個語義分支之間搖擺的時刻。

      于是,問題就不再只是「模型會不會幻覺」,而變成了:模型在最不確定的時候,為什么還要被迫立刻做出一個離散決策?

      為什么高熵token 最危險?

      為了驗證高熵節(jié)點到底有多關(guān)鍵,作者做了進(jìn)一步的token masking分析。結(jié)果很直接:mask掉高熵token,比mask掉其他token對最終性能的傷害更大。 這說明高熵token雖然「不確定」,卻恰恰是推理過程里的關(guān)鍵決策點。更有意思的是,這種影響在推理鏈前段尤其明顯——越早出現(xiàn)的高熵智元(token),越可能決定后續(xù)整條reasoningpath 的走向。

      論文還發(fā)現(xiàn),和hallucination相關(guān)的高熵token,通常擁有更低的視覺注意力比例。這意味著一旦模型進(jìn)入高不確定狀態(tài),它對視覺證據(jù)的依賴反而可能下降,開始更多依賴語言上下文繼續(xù)往下編。也就是說,多模態(tài)幻覺的關(guān)鍵,不只是模型沒看圖,而是它在不確定時逐漸不再看圖。

      LEAD怎么做

      基于這一觀察,作者提出了 LEAD(Latent Entropy-Aware Decoding)。

      它的核心思想很直觀:當(dāng)模型處于高熵狀態(tài)時,不再強迫它立刻從概率分布里采樣出一個單獨token,而是使用概率加權(quán)的連續(xù) embedding,在潛在語義空間中同時保留多個候選推理方向;而當(dāng)熵值下降后,再自然切回常規(guī)的離散token解碼,實現(xiàn)從「探索」到「收斂」的自適應(yīng)過渡。


      這篇工作的另一個亮點,是它沒有只做「latent decoding」,還進(jìn)一步加入了 visual anchor injection。

      作者觀察到,高熵階段往往也是視覺信息最容易被弱化的階段,因此LEAD在這一階段注入來自預(yù)訓(xùn)練視覺表示的 guidance vector,把模型持續(xù)往圖像證據(jù)上拉,避免它在「想」的過程中越走越偏。

      這個設(shè)計讓 LEAD 和一般的 decoding trick 不太一樣:它不只是重排token分?jǐn)?shù),而是在關(guān)鍵推理節(jié)點直接改變模型的表征與決策方式。

      不只減少幻覺

      實驗部分是這篇論文很扎實的一點。

      作者在多組通用理解與hallucination benchmark上測試了LEAD,結(jié)果顯示它在不同backbone上都能帶來穩(wěn)定增益。

      以R1-Onevision-7B 為例,加入LEAD后,VStar從66.5提升到71.2,RealWorldQA從62.5提升到66.4,MMEval-Pro從69.4提升到73.9,MMHalu和Bingo也分別提升到3.80和3.84。

      類似增益也出現(xiàn)在Vision-R1、VL-Rethinker、VL-Cogito和OpenVLThinker等模型上。

      在數(shù)學(xué)與科學(xué)視覺推理任務(wù)上,LEAD同樣有效。比如在R1-Onevision-7B上,MathVision 從 29.9 提升到 32.4,Geometry3K 從 57.9 提升到 61.2,MMK12-Bio從40.8提升到44.8;在Vision-R1-7B上,MathVision 從 27.2 提升到 29.7,MathVerse 從 52.4 提升到54.5。也就是說,LEAD 帶來的不是某個單點 benchmark 的偶然提升,而是跨通用理解、數(shù)學(xué)和科學(xué)推理的整體增益。


      消融實驗

      這套方法不是「玄學(xué)調(diào)參」。論文顯示,動態(tài) entropy threshold 策略優(yōu)于始終離散或始終潛在的極端設(shè)置;而 persistence window 也存在一個合適區(qū)間,太短會導(dǎo)致頻繁切換,太長又會退回傳統(tǒng) CoT 的行為模式。視覺錨點強度也不是越大越好,適中的視覺注入最能兼顧圖像grounding和語言上下文。


      定性結(jié)果

      論文展示了LEAD在具體樣例中的視覺注意力分配與token-level概率分布:相比baseline和MemVR,LEAD 會把更多注意力放在與問題真正相關(guān)的圖像區(qū)域上;同時,在 latent reasoning 階段,token分布更分散、熵更高,而進(jìn)入 discrete reasoning 階段后,分布會逐步收斂到更確定的輸出。這種「先保留多種可能,再在證據(jù)約束下收斂」的過程,正是它緩解幻覺的關(guān)鍵。


      更有意思的是,LEAD不只是更準(zhǔn),還更「省」。論文在MathVision上發(fā)現(xiàn),LEAD在保持最高準(zhǔn)確率的同時,平reasoning length反而更短;在Pass@k實驗中,它也能在更小的k上更快達(dá)到峰值,說明它擁有更好的 sample efficiency。換句話說,LEAD并不是靠「想得更長」取勝,而是靠在關(guān)鍵的不確定節(jié)點少走彎路。


      最后,作者還用PPL以及GPT-5評估了輸出文本的 grammar、fluency 和 naturalness。

      結(jié)果顯示,LEAD 在緩解幻覺的同時,并沒有犧牲文本質(zhì)量,反而在多個維度上保持了更優(yōu)或更穩(wěn)的表現(xiàn)。也就是說,這種方法不是靠「保守回答」換來的提升,而是在 reasoning reliability 和生成質(zhì)量之間取得了更好的平衡。

      總的來看,這篇工作的啟發(fā)很明確:多模態(tài)模型的問題,未必是不會推理,而是在最不確定的時候,過早把自己鎖死在了一個可能錯誤的token 上。

      LEAD的價值,就在于把「高熵階段」識別成真正的危險區(qū),并讓模型在這里先保留語義多樣性、再回到確定輸出,同時用視覺錨點把推理重新拽回圖像證據(jù)。對多模態(tài)大推理模型來說,這可能比單純「多想一點」更重要。

      參考資料:

      https://arxiv.org/pdf/2603.13366

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      老話說“二月怕二十五”,今日二月二十五,別忘了吃三樣,做三事

      老話說“二月怕二十五”,今日二月二十五,別忘了吃三樣,做三事

      阿龍美食記
      2026-04-12 01:33:32
      靜到離譜,省到可怕!長安藍(lán)鯨超擎混動全球首發(fā)

      靜到離譜,省到可怕!長安藍(lán)鯨超擎混動全球首發(fā)

      汽車頭條APP
      2026-03-31 09:11:09
      封鎖6周,超2萬海員被困船上:同事死去,不得不與遺體共處一船;物資短缺,有人已出現(xiàn)“精神崩潰”,還有人辭職并拒絕穿越霍爾木茲海峽

      封鎖6周,超2萬海員被困船上:同事死去,不得不與遺體共處一船;物資短缺,有人已出現(xiàn)“精神崩潰”,還有人辭職并拒絕穿越霍爾木茲海峽

      每日經(jīng)濟(jì)新聞
      2026-04-11 11:12:13
      榮耀新品官宣:165Hz超高刷+10100mAh,4月23日發(fā)布

      榮耀新品官宣:165Hz超高刷+10100mAh,4月23日發(fā)布

      T科技衍生
      2026-04-12 00:27:39
      豪門悲喜夜:AC米蘭爆大冷0-3,利物浦2-0,拜仁5-0,巴塞羅那4-1

      豪門悲喜夜:AC米蘭爆大冷0-3,利物浦2-0,拜仁5-0,巴塞羅那4-1

      側(cè)身凌空斬
      2026-04-12 03:02:23
      伊媒:美方“漫天要價”阻礙談判 霍爾木茲海峽議題分歧嚴(yán)重

      伊媒:美方“漫天要價”阻礙談判 霍爾木茲海峽議題分歧嚴(yán)重

      新華社
      2026-04-12 02:24:15
      【特稿】承諾多兌現(xiàn)少 “和平委員會”被曝囊中羞澀

      【特稿】承諾多兌現(xiàn)少 “和平委員會”被曝囊中羞澀

      新華社
      2026-04-11 15:48:19
      2660萬年薪!熱火正式裁掉涉嫌賭球的后衛(wèi)羅齊爾

      2660萬年薪!熱火正式裁掉涉嫌賭球的后衛(wèi)羅齊爾

      體壇周報
      2026-04-11 07:35:13
      營救飛行員反轉(zhuǎn)變成國際笑話?美媒集體倒戈,內(nèi)幕越扒越驚心

      營救飛行員反轉(zhuǎn)變成國際笑話?美媒集體倒戈,內(nèi)幕越扒越驚心

      行者聊官
      2026-04-07 15:53:35
      日本若與中國交戰(zhàn),賴岳謙:中國可能會讓日本把二戰(zhàn)的血債血還

      日本若與中國交戰(zhàn),賴岳謙:中國可能會讓日本把二戰(zhàn)的血債血還

      小豹子找食物
      2026-04-09 07:51:46
      少婦被丈夫朋友侵犯,甘愿和對方做情人,還把老公掙的錢給他花

      少婦被丈夫朋友侵犯,甘愿和對方做情人,還把老公掙的錢給他花

      丫頭舫
      2026-04-10 11:51:42
      工資改革落地!編內(nèi)漲薪已定,編外教師何時能漲?

      工資改革落地!編內(nèi)漲薪已定,編外教師何時能漲?

      慧眼看世界哈哈
      2026-04-11 21:12:07
      王炸諜戰(zhàn)劇《驚變》要來了!鄭曉龍執(zhí)導(dǎo) + 5 大戲骨,48 小時生死博弈

      王炸諜戰(zhàn)劇《驚變》要來了!鄭曉龍執(zhí)導(dǎo) + 5 大戲骨,48 小時生死博弈

      阿廢冷眼觀察所
      2026-04-12 03:30:58
      世界5大禁片,全看完的人,心理素質(zhì)堪比特種兵

      世界5大禁片,全看完的人,心理素質(zhì)堪比特種兵

      i書與房
      2026-01-26 15:07:05
      “已漲超千元!”多品牌確認(rèn)漲價,記者探訪證實:剛需,盡早入手

      “已漲超千元!”多品牌確認(rèn)漲價,記者探訪證實:剛需,盡早入手

      浙江之聲
      2026-04-11 10:21:25
      錢再多有什么用?霍啟剛夫婦身家百億,如今卻為12歲兒子操碎了心

      錢再多有什么用?霍啟剛夫婦身家百億,如今卻為12歲兒子操碎了心

      阿纂看事
      2026-03-28 18:30:52
      玄學(xué)提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

      玄學(xué)提醒:如果一個人還在穿著10年前的衣服,只說明3個問題

      洞讀君
      2026-03-04 14:30:12
      芭提雅掃黃行動逮捕16名外籍女子

      芭提雅掃黃行動逮捕16名外籍女子

      曼谷陳大叔
      2026-04-10 16:18:03
      上海市政府批復(fù)同意!南翔新中心,交通專項規(guī)劃已經(jīng)獲準(zhǔn)!未來首家三級醫(yī)院,規(guī)劃調(diào)整!

      上海市政府批復(fù)同意!南翔新中心,交通專項規(guī)劃已經(jīng)獲準(zhǔn)!未來首家三級醫(yī)院,規(guī)劃調(diào)整!

      尚虹橋
      2026-04-11 19:44:11
      遼寧省地震局最新通報!

      遼寧省地震局最新通報!

      新浪財經(jīng)
      2026-04-11 12:57:49
      2026-04-12 04:24:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14947文章數(shù) 66765關(guān)注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

      頭條要聞

      霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

      頭條要聞

      霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

      體育要聞

      換帥之后,他們從降級區(qū)沖到升級區(qū)

      娛樂要聞

      鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

      財經(jīng)要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態(tài)度原創(chuàng)

      親子
      手機
      本地
      公開課
      軍事航空

      親子要聞

      “粵超”熱潮下萌娃出動!深圳一幼兒園成立5支班級足球隊

      手機要聞

      全球首款闊折疊賣爆!華為Pura X一年出貨量超150萬臺

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗議長帶四名遇難兒童照片赴美伊談判

      無障礙瀏覽 進(jìn)入關(guān)懷版