- BiPS團隊 投稿
量子位 | 公眾號 QbitAI
隨著視覺-語言模型(VLM)推理能力不斷增強,一個隱蔽的問題逐漸浮現:
很多錯誤不是推理沒做好,而是“看錯了”。
在復雜視覺任務中,模型往往能正確識別對象、理解問題,甚至給出完整的推理鏈,卻因捕捉了錯誤的視覺證據,得出自信卻錯誤的答案。
現有方法通常在推理階段“指路”——例如生成視覺提示或調用外部工具,以臨時對齊證據。這類策略雖有效,卻面臨明顯局限:視覺線索形式受限、高度依賴具體任務,且推理開銷大。更重要的是,它引出一個根本性問題:
如果模型始終需要外部提醒才知道“看哪兒”,它是否真的理解了視覺世界?
為此,微軟亞洲研究院與清華大學提出BiPS(Bi-directional Perceptual Shaping),從源頭重塑模型的“看圖方式”。
BiPS不在推理時臨時提示關注區域,而是在訓練階段就教會模型:面對特定問題,哪些視覺細節必須關注,哪些可以忽略。通過系統性地對齊問題與視覺證據,BiPS促使模型內化一種核心能力——帶著問題去看圖。因此,在推理時無需任何額外提示,模型也能自動聚焦于真正決定答案的關鍵區域與細節。
實驗表明,這種“看哪兒”的能力具有跨任務遷移性,為構建更可靠、通用的視覺理解系統開辟了新路徑。
視線錯位:VLM的“看”與“想”為何脫節?
我們常被視覺-語言模型(VLM)行云流水的回答迷惑,以為它真的“看懂”了圖片。但事實可能是:它識別出了圖中物體,卻抓錯了關鍵信息。
人類的視覺是目標驅動的:問趨勢就追曲線,問數值就盯刻度,問關系就比位置。但當前VLM的“看”仍停留在打標簽階段,缺乏對關鍵證據的精準定位能力。它知道圖里有什么,卻不知道該看哪里
為解決這一“視線錯位”,學界常采用視覺證據引導——通過框選、掩碼或線索提示,為模型的“視線”裝上“準星”。然而,這種引導式感知存在三重局限:
其一,世界不是矩形的。圖表中的折線拐點、幾何題中的交疊多邊形、醫學影像中的彌散病灶……這些關鍵線索往往是不規則且彌散的,難以被標準框或掩碼完整覆蓋。裁大引入噪聲,裁小丟失細節,模型“看”到了區域,卻依然看錯了證據。
其二,聚焦能力無法遷移。當前提示方法多為特定任務定制,依賴特定數據分布或標注規則。模型的感知能力被綁死在任務專屬的視覺表示上,難以泛化。換一個任務,就得重教它“怎么看”。
其三,感知被推遲到推理之后。多數方案將視覺聚焦視為推理鏈中的中間補救步驟,不僅拖慢效率,更讓錯誤在后續推理中滾雪球式放大。
核心挑戰由此浮現:如何讓模型學會“帶著問題去看圖”?
從“推理時補救”到“訓練時內化”:BiPS的核心轉向
![]()
如果問題根源不在“推理不夠聰明”,而在“從第一眼就看錯了圖”,是否該換個思路?
能否不再依賴推理階段的視覺外掛,而是在訓練階段,就讓模型真正學會識別什么是“正確的視覺證據”?
這正是BiPS(Bi-directional Perceptual Shaping)的核心革命。
它不做邊界框、不打掩碼、不調工具,而是:
把推理階段依賴的視覺提示,提前轉化為指導模型“該往哪兒看”的訓練信號。讓模型學會本能聚焦關鍵證據。
一拉一推:讓模型既“看全”,又“看準”
BiPS的核心在于一套方向相反、粒度互補的雙重感知塑形機制:
先把模型的視線“拉”回到所有相關證據,再“推”它看向真正關鍵的細節。
![]()
“拉”:看少,但看全
真實問答常依賴分散卻環環相扣的視覺證據鏈——如折線走勢、圖例顏色、坐標刻度與子圖標題的組合。
為此,BiPS構建Evidence-Preserving View(證據保留視圖):系統性剔除干擾,僅保留回答必需的視覺元素,寧可粒度粗,也不遺漏關鍵。
模型需基于這種“信息更少但結構完整”的視圖,輸出與原始圖像一致的答案。
這一過程將模型從噪聲與偏見中拉回,使其回答錨定于完整的證據鏈。
“推”:看對關鍵細節
“看全”只是起點。若模型僅模糊定位相關區域,仍可能依賴語言先驗或統計偏見作答。
BiPS引入Evidence-Ablated View(證據消融視圖):精準移除決定答案的關鍵細節(如某條折線)。這類改動視覺上微小,卻足以顛覆答案。
此時訓練目標反轉:一旦關鍵證據消失,模型必須拒絕原答案。
這是一種反事實約束——任何繞過關鍵視覺證據的“替代推理”都應失效。
協同塑形感知
“拉”與“推”構成遞進流程:
- “拉”確保回答基于完整、必要的視覺證據;
- “推”迫使模型識別不可替代的細粒度線索。
二者協同,推動模型從表面關聯走向因果一致的證據依賴,學會像人類一樣“帶著問題看世界”。
圖表是最好的老師:用精確證據,教會模型“看哪里”
當BiPS把“看準”作為訓練目標后,一個現實問題隨之而來:
那些精細又緊扣問題的視覺證據,到底從哪兒來?
圖表是極佳的訓練起點:它們以多子圖、細折線、小標記與精確刻度等,構成了高密度、高信息量的視覺場景。這些微小元素往往是解題的關鍵線索,提供了豐富且細粒度的感知材料
更重要的是,圖表中的視覺證據是可控的。每個元素都可被程序化地添加、移除或遮蔽,并能直接驗證其對答案的影響,從而能夠以程序化的方式,準確構建“證據保留”與“證據消融”的對照視圖。
因此,在BiPS的訓練體系中,圖表是一個高復雜度、高度可控的實驗場:既足夠復雜以提供真實的細粒度證據,又足夠可控以精準操縱這些證據。模型在此學習的,并非解讀圖表,而是在復雜視覺場景中,學會將注意力聚焦于與問題真正相關的局部線索
13K訓練樣本,8個基準:一次“小數據”的能力遷移
BiPS展示出了一種高效而穩定的訓練范式。僅用13K條圖表樣本對基礎模型進行微調,無需人工標注,也未針對不同任務定制專門工具或模板。訓練目標單一明確:學會“問題指哪,就看哪”的視覺邏輯
![]()
效果顯著:在8個不同的評測基準上,模型均實現了一致且顯著的性能提升,涵蓋:
- 真實圖表理解(如CharXiv)
- 圖像驅動的數理邏輯推理(如MathVision)
- 通用視覺問答(如MMStar)
以Qwen2.5-VL-7B為基礎模型,BiPS帶來了平均準確率+7.3%的提升,這一提升并非集中在某一特定領域,而是跨越數據分布、跨越任務類型的全面進步。
即便在推理能力已高度強化的Qwen3-VL-8B-Thinking上,這一效果依然成立:
CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3
這些結果表明,BiPS學到的不是“圖表特有的解題技巧”,而是一種可遷移的“看對地方”的能力
學會“看對地方”:邁向通用智能的關鍵一步
真正的視覺智能不僅是“看到”,更是在復雜信息中,聚焦于與問題相關的關鍵證據
BiPS實現的并非簡單的技巧優化,而是一種根本性的能力轉變:使模型的視覺注意力從被動、均勻的掃視,轉變為主動、問題驅動的精準聚焦
這無疑是通向通用視覺智能的關鍵一步,其核心在于:讓模型的眼睛,真正看向問題的關鍵。
論文鏈接:
https://arxiv.org/abs/2512.22120
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.