<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI看圖一本正經胡說八道?「一拉一推」讓模型看得全又準

      0
      分享至

      • BiPS團隊 投稿
        量子位 | 公眾號 QbitAI

      隨著視覺-語言模型(VLM)推理能力不斷增強,一個隱蔽的問題逐漸浮現:

      很多錯誤不是推理沒做好,而是“看錯了”。

      在復雜視覺任務中,模型往往能正確識別對象、理解問題,甚至給出完整的推理鏈,卻因捕捉了錯誤的視覺證據,得出自信卻錯誤的答案。

      現有方法通常在推理階段“指路”——例如生成視覺提示或調用外部工具,以臨時對齊證據。這類策略雖有效,卻面臨明顯局限:視覺線索形式受限、高度依賴具體任務,且推理開銷大。更重要的是,它引出一個根本性問題:

      如果模型始終需要外部提醒才知道“看哪兒”,它是否真的理解了視覺世界?

      為此,微軟亞洲研究院與清華大學提出BiPS(Bi-directional Perceptual Shaping),從源頭重塑模型的“看圖方式”。

      BiPS不在推理時臨時提示關注區域,而是在訓練階段就教會模型:面對特定問題,哪些視覺細節必須關注,哪些可以忽略。通過系統性地對齊問題與視覺證據,BiPS促使模型內化一種核心能力——帶著問題去看圖。因此,在推理時無需任何額外提示,模型也能自動聚焦于真正決定答案的關鍵區域與細節。

      實驗表明,這種“看哪兒”的能力具有跨任務遷移性,為構建更可靠、通用的視覺理解系統開辟了新路徑。

      視線錯位:VLM的“看”與“想”為何脫節?

      我們常被視覺-語言模型(VLM)行云流水的回答迷惑,以為它真的“看懂”了圖片。但事實可能是:它識別出了圖中物體,卻抓錯了關鍵信息。

      人類的視覺是目標驅動的:問趨勢就追曲線,問數值就盯刻度,問關系就比位置。但當前VLM的“看”仍停留在打標簽階段,缺乏對關鍵證據的精準定位能力。它知道圖里有什么,卻不知道該看哪里

      為解決這一“視線錯位”,學界常采用視覺證據引導——通過框選、掩碼或線索提示,為模型的“視線”裝上“準星”。然而,這種引導式感知存在三重局限:

      其一,世界不是矩形的。圖表中的折線拐點、幾何題中的交疊多邊形、醫學影像中的彌散病灶……這些關鍵線索往往是不規則且彌散的,難以被標準框或掩碼完整覆蓋。裁大引入噪聲,裁小丟失細節,模型“看”到了區域,卻依然看錯了證據。

      其二,聚焦能力無法遷移。當前提示方法多為特定任務定制,依賴特定數據分布或標注規則。模型的感知能力被綁死在任務專屬的視覺表示上,難以泛化。換一個任務,就得重教它“怎么看”。

      其三,感知被推遲到推理之后。多數方案將視覺聚焦視為推理鏈中的中間補救步驟,不僅拖慢效率,更讓錯誤在后續推理中滾雪球式放大。

      核心挑戰由此浮現:如何讓模型學會“帶著問題去看圖”?

      從“推理時補救”到“訓練時內化”:BiPS的核心轉向



      如果問題根源不在“推理不夠聰明”,而在“從第一眼就看錯了圖”,是否該換個思路?

      能否不再依賴推理階段的視覺外掛,而是在訓練階段,就讓模型真正學會識別什么是“正確的視覺證據”?

      這正是BiPS(Bi-directional Perceptual Shaping)的核心革命。

      它不做邊界框、不打掩碼、不調工具,而是:

      把推理階段依賴的視覺提示,提前轉化為指導模型“該往哪兒看”的訓練信號。讓模型學會本能聚焦關鍵證據。

      一拉一推:讓模型既“看全”,又“看準”

      BiPS的核心在于一套方向相反、粒度互補的雙重感知塑形機制:

      先把模型的視線“拉”回到所有相關證據,再“推”它看向真正關鍵的細節。



      “拉”:看少,但看全

      真實問答常依賴分散卻環環相扣的視覺證據鏈——如折線走勢、圖例顏色、坐標刻度與子圖標題的組合。

      為此,BiPS構建Evidence-Preserving View(證據保留視圖):系統性剔除干擾,僅保留回答必需的視覺元素,寧可粒度粗,也不遺漏關鍵。

      模型需基于這種“信息更少但結構完整”的視圖,輸出與原始圖像一致的答案。

      這一過程將模型從噪聲與偏見中拉回,使其回答錨定于完整的證據鏈。

      “推”:看對關鍵細節

      “看全”只是起點。若模型僅模糊定位相關區域,仍可能依賴語言先驗或統計偏見作答。

      BiPS引入Evidence-Ablated View(證據消融視圖):精準移除決定答案的關鍵細節(如某條折線)。這類改動視覺上微小,卻足以顛覆答案。

      此時訓練目標反轉:一旦關鍵證據消失,模型必須拒絕原答案。

      這是一種反事實約束——任何繞過關鍵視覺證據的“替代推理”都應失效。

      協同塑形感知

      “拉”與“推”構成遞進流程:

      • “拉”確保回答基于完整、必要的視覺證據;
      • “推”迫使模型識別不可替代的細粒度線索。

      二者協同,推動模型從表面關聯走向因果一致的證據依賴,學會像人類一樣“帶著問題看世界”。

      圖表是最好的老師:用精確證據,教會模型“看哪里”

      當BiPS把“看準”作為訓練目標后,一個現實問題隨之而來:

      那些精細又緊扣問題的視覺證據,到底從哪兒來?

      圖表是極佳的訓練起點:它們以多子圖、細折線、小標記與精確刻度等,構成了高密度、高信息量的視覺場景。這些微小元素往往是解題的關鍵線索,提供了豐富且細粒度的感知材料

      更重要的是,圖表中的視覺證據是可控的。每個元素都可被程序化地添加、移除或遮蔽,并能直接驗證其對答案的影響,從而能夠以程序化的方式,準確構建“證據保留”與“證據消融”的對照視圖。

      因此,在BiPS的訓練體系中,圖表是一個高復雜度、高度可控的實驗場:既足夠復雜以提供真實的細粒度證據,又足夠可控以精準操縱這些證據。模型在此學習的,并非解讀圖表,而是在復雜視覺場景中,學會將注意力聚焦于與問題真正相關的局部線索

      13K訓練樣本,8個基準:一次“小數據”的能力遷移

      BiPS展示出了一種高效而穩定的訓練范式。僅用13K條圖表樣本對基礎模型進行微調,無需人工標注,也未針對不同任務定制專門工具或模板。訓練目標單一明確:學會“問題指哪,就看哪”的視覺邏輯



      效果顯著:在8個不同的評測基準上,模型均實現了一致且顯著的性能提升,涵蓋:

      • 真實圖表理解(如CharXiv)
      • 圖像驅動的數理邏輯推理(如MathVision)
      • 通用視覺問答(如MMStar)

      以Qwen2.5-VL-7B為基礎模型,BiPS帶來了平均準確率+7.3%的提升,這一提升并非集中在某一特定領域,而是跨越數據分布、跨越任務類型的全面進步。

      即便在推理能力已高度強化的Qwen3-VL-8B-Thinking上,這一效果依然成立:

      CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3

      這些結果表明,BiPS學到的不是“圖表特有的解題技巧”,而是一種可遷移的“看對地方”的能力

      學會“看對地方”:邁向通用智能的關鍵一步

      真正的視覺智能不僅是“看到”,更是在復雜信息中,聚焦于與問題相關的關鍵證據

      BiPS實現的并非簡單的技巧優化,而是一種根本性的能力轉變:使模型的視覺注意力從被動、均勻的掃視,轉變為主動、問題驅動的精準聚焦

      這無疑是通向通用視覺智能的關鍵一步,其核心在于:讓模型的眼睛,真正看向問題的關鍵。

      論文鏈接:

      https://arxiv.org/abs/2512.22120

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美最高法院作出裁決白宮確認終止部分關稅措施 特朗普:將在常規關稅基礎上對全球加征10%的進口關稅

      美最高法院作出裁決白宮確認終止部分關稅措施 特朗普:將在常規關稅基礎上對全球加征10%的進口關稅

      每日經濟新聞
      2026-02-21 15:28:10
      中青評論:年輕人定制“新式”年貨,促進代際溝通的新方式

      中青評論:年輕人定制“新式”年貨,促進代際溝通的新方式

      澎湃新聞
      2026-02-20 17:33:06
      冬窗過后德甲共有16名日本球員,德乙有9名日本球員

      冬窗過后德甲共有16名日本球員,德乙有9名日本球員

      懂球帝
      2026-02-21 18:18:09
      日本右翼終于閉嘴了!解放軍給美軍前所未有的待遇,把高市看懵了,這世界從來沒有以德服人,只有以武服人

      日本右翼終于閉嘴了!解放軍給美軍前所未有的待遇,把高市看懵了,這世界從來沒有以德服人,只有以武服人

      軍霆說
      2025-12-30 04:25:11
      湖北女孩遠嫁法國,想把農村母親接到法國,洋女婿:我們房子太小

      湖北女孩遠嫁法國,想把農村母親接到法國,洋女婿:我們房子太小

      談史論天地
      2026-02-10 16:40:10
      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業生涯也全毀了

      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業生涯也全毀了

      阿鳧愛吐槽
      2025-12-17 17:24:39
      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      霹靂炮
      2026-02-06 13:48:54
      鹽城“415大案”主犯,到底有多殘忍?審判后旁聽群眾:應判凌遲

      鹽城“415大案”主犯,到底有多殘忍?審判后旁聽群眾:應判凌遲

      談史論天地
      2026-02-03 06:05:28
      劉衛東“受賄數額特別巨大”是怎么回事?

      劉衛東“受賄數額特別巨大”是怎么回事?

      雪中風車
      2026-02-20 22:18:22
      談美國最高法院關稅裁決對中國經濟的影響

      談美國最高法院關稅裁決對中國經濟的影響

      冷峻視角下的世界
      2026-02-21 10:21:26
      “堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

      “堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

      文史微鑒
      2025-12-24 23:47:43
      陳楚生大年初二海南走親戚,全程不喝酒接地氣,妻子出鏡直發漂亮

      陳楚生大年初二海南走親戚,全程不喝酒接地氣,妻子出鏡直發漂亮

      離離言幾許
      2026-02-21 12:34:04
      雷佳音:大學時陳赫瞧不起我,見面都躲著走,我農村人,就這樣

      雷佳音:大學時陳赫瞧不起我,見面都躲著走,我農村人,就這樣

      白面書誏
      2025-11-20 17:29:35
      撿漏買到二手物品遠比新的還要香!網友:?這比電視劇拍的都要牛

      撿漏買到二手物品遠比新的還要香!網友:?這比電視劇拍的都要牛

      另子維愛讀史
      2026-02-11 18:29:27
      高市砸出史上最貴預算!日本國會一片嘩然:今天借錢明天得拿命還

      高市砸出史上最貴預算!日本國會一片嘩然:今天借錢明天得拿命還

      領略快樂真諦
      2026-02-21 17:10:41
      俄國對中國統一大業的態度大變?臺海若開戰,俄軍會有什么動向?

      俄國對中國統一大業的態度大變?臺海若開戰,俄軍會有什么動向?

      通鑒史智
      2026-02-19 21:59:34
      敢改媽祖規矩?許老板底褲被扒,這下生意涼涼了

      敢改媽祖規矩?許老板底褲被扒,這下生意涼涼了

      我不叫阿哏
      2026-02-21 12:57:50
      一級軍士長王忠心簡歷,他享受什么待遇?退休后婉拒百萬年薪

      一級軍士長王忠心簡歷,他享受什么待遇?退休后婉拒百萬年薪

      混沌錄
      2026-01-27 22:33:05
      14歲小哥找了塊無主地就宣布建國?搞出官網護照,每月3萬美元國庫收入!可惜還是流亡了...

      14歲小哥找了塊無主地就宣布建國?搞出官網護照,每月3萬美元國庫收入!可惜還是流亡了...

      英國那些事兒
      2025-08-20 23:23:28
      這六類人將直接成為公務員,無需考試晉升還快!

      這六類人將直接成為公務員,無需考試晉升還快!

      深度報
      2026-02-15 23:18:45
      2026-02-21 18:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      美大法官"大戰"總統撕開財政千億黑洞 特朗普閃電反擊

      頭條要聞

      美大法官"大戰"總統撕開財政千億黑洞 特朗普閃電反擊

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      家居
      教育
      時尚
      健康
      游戲

      家居要聞

      本真棲居 愛暖伴流年

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      轉頭就暈的耳石癥,能開車上班嗎?

      NS版火紅/葉綠疑似不支持寶可夢Home 全圖鑒要涼了?

      無障礙瀏覽 進入關懷版