阿里Qwen團隊把AI視覺推理的連環(huán)翻車現(xiàn)場

2026-04-06 15:55:49　來源: 像素與芯片

北京舉報

分享至

視覺語言模型（Vision Language Models，視覺語言模型）在單張圖片問答里表現(xiàn)得像個優(yōu)等生，一旦任務(wù)需要連續(xù)三步以上的推理，錯誤率就陡然爬升。阿里Qwen團隊聯(lián)合清華的研究人員追蹤了這個現(xiàn)象，他們發(fā)現(xiàn)問題的根源不是模型"看不懂"，而是"看錯一步，全盤皆輸"。

一個點數(shù)的偏差，能讓整串推理鏈變成精致的廢話。

研究團隊舉了三個典型翻車案例。第一個任務(wù)是數(shù)瓢蟲背上的斑點——模型在五只甲蟲里看錯了三只，每只少算一個點，最終總數(shù)錯得離譜。第二個是判斷車輛移動方向：模型正確鎖定了車在畫面中的位置，卻把"駛?cè)胪＼囄?理解成了"駛出"。第三個案例里，模型在天文示意圖上指錯了弧線，連帶推導(dǎo)出錯誤的季節(jié)。

這些錯誤橫跨照片、示意圖和科學(xué)插畫，但崩潰模式高度一致：中間步驟的微小感知失誤，會像多米諾骨牌一樣推倒后續(xù)所有結(jié)論。

HopChain：把"連環(huán)追問"變成訓(xùn)練燃料

現(xiàn)有的可驗證獎勵強化學(xué)習(xí)（RLVR，Reinforcement Learning with Verifiable Rewards）訓(xùn)練數(shù)據(jù)有個明顯缺口——幾乎找不到需要持續(xù)聚焦視覺細節(jié)的多步驟任務(wù)。Qwen團隊為此搭建了HopChain框架，專門生成"一步扣一步"的圖像問題。

框架設(shè)計了兩種鏈接機制。第一種讓任務(wù)在"單對象識別"和"多對象比較"之間交替：讀文字、辨顏色之后，立刻跟上尺寸比例或空間關(guān)系的判斷。第二種建立對象間的依賴鏈，模型必須借助已識別的對象，才能定位下一個目標(biāo)。

每個問題都以唯一數(shù)字結(jié)尾，作為自動校驗的答案。論文中展示了一個典型題目：先數(shù)玩具羊的眼睛數(shù)量，再檢查背景紙是否有文字，接著數(shù)旁邊木偶的眼睛，讀取第二個木偶前方紙上的單詞并數(shù)字母數(shù)，完成一系列算術(shù)運算，最后乘以場景中玩具總數(shù)。正確答案：72。

這種設(shè)計逼使模型在每一步都重新檢查圖像，而不是依賴前一步的"記憶"——而記憶，恰恰是幻覺滋生的溫床。

四階段流水線：從種子問題到百萬級訓(xùn)練數(shù)據(jù)

數(shù)據(jù)生成跑四個階段。第一階段，Qwen3-VL-235B-A22B-Thinking模型從種子視覺問題出發(fā)，生成多步驟推理鏈。第二階段，系統(tǒng)提取鏈中的關(guān)鍵視覺元素，構(gòu)建對象依賴圖。第三階段，基于依賴圖生成新的問題變體，確保難度梯度合理。第四階段，自動驗證答案正確性，過濾掉邏輯斷裂或視覺模糊樣本。

研究團隊用這套流程生成了涵蓋自然圖像、文檔、圖表、科學(xué)示意圖的混合數(shù)據(jù)集。訓(xùn)練后的模型在24項基準(zhǔn)測試中的20項取得提升，涵蓋數(shù)學(xué)推理、空間理解、細粒度視覺識別等多個維度。

一個細節(jié)值得玩味：HopChain的訓(xùn)練數(shù)據(jù)并非追求"更難"，而是追求"更真實的多步驟依賴"。傳統(tǒng)數(shù)據(jù)增強往往把單步問題簡單堆疊，模型學(xué)會了套路卻沒學(xué)會檢查。HopChain的依賴鏈設(shè)計，讓模型無法跳過中間步驟直達答案。

視覺推理的"復(fù)利效應(yīng)"：小錯滾成大錯

論文把這種現(xiàn)象稱為"感知誤差的復(fù)利累積"——借用金融術(shù)語形容認知過程的崩塌。每一步推理都建立在前一步的輸出上，前一步的微小偏差被后續(xù)步驟當(dāng)作既定事實吸收、放大，最終輸出一個邏輯自洽但完全錯誤的結(jié)論。

這解釋了為什么視覺語言模型的"思維鏈"（Chain-of-Thought）輸出越長，可信度反而越低。人類寫長推導(dǎo)時會回頭檢查，模型卻傾向于一路狂奔，把早期幻覺當(dāng)作后續(xù)推理的基石。

HopChain的干預(yù)點很精準(zhǔn)：它不試圖讓模型"更聰明"，而是強迫它在每個節(jié)點重新錨定視覺證據(jù)。就像讓一個人在走鋼絲時，每走一步都低頭確認腳下，而不是憑感覺繼續(xù)。

24項測試中的20項提升，剩下4項持平——沒有一項下降。

這個成績暗示了一個被低估的訓(xùn)練策略：與其追逐更大的模型或更多的通用數(shù)據(jù)，不如針對特定失效模式設(shè)計結(jié)構(gòu)化訓(xùn)練信號。HopChain的數(shù)據(jù)生成成本遠低于采集同等規(guī)模的人工標(biāo)注數(shù)據(jù)，卻能精準(zhǔn)打擊模型的軟肋。

研究團隊開源了數(shù)據(jù)生成 pipeline 和部分訓(xùn)練樣本。對于正在訓(xùn)練視覺語言模型的團隊來說，這套工具提供了一種可復(fù)現(xiàn)的"壓力測試"方法——先找出模型在哪些多步驟場景下容易翻車，再定向生成類似結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)。

一個尚未回答的問題是：當(dāng)HopChain式的訓(xùn)練成為標(biāo)配，視覺語言模型的能力邊界會向外擴展多少？那些現(xiàn)在還需要人工分步拆解的視覺任務(wù)——比如復(fù)雜的機械維修指引、醫(yī)學(xué)影像的跨切片追蹤、工程圖紙的多層解讀——能否被端到端解決？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.