![]()
視覺語言模型(Vision Language Models,視覺語言模型)在單張圖片問答里表現(xiàn)得像個優(yōu)等生,一旦任務(wù)需要連續(xù)三步以上的推理,錯誤率就陡然爬升。阿里Qwen團隊聯(lián)合清華的研究人員追蹤了這個現(xiàn)象,他們發(fā)現(xiàn)問題的根源不是模型"看不懂",而是"看錯一步,全盤皆輸"。
一個點數(shù)的偏差,能讓整串推理鏈變成精致的廢話。
研究團隊舉了三個典型翻車案例。第一個任務(wù)是數(shù)瓢蟲背上的斑點——模型在五只甲蟲里看錯了三只,每只少算一個點,最終總數(shù)錯得離譜。第二個是判斷車輛移動方向:模型正確鎖定了車在畫面中的位置,卻把"駛?cè)胪\囄?理解成了"駛出"。第三個案例里,模型在天文示意圖上指錯了弧線,連帶推導(dǎo)出錯誤的季節(jié)。
這些錯誤橫跨照片、示意圖和科學(xué)插畫,但崩潰模式高度一致:中間步驟的微小感知失誤,會像多米諾骨牌一樣推倒后續(xù)所有結(jié)論。
HopChain:把"連環(huán)追問"變成訓(xùn)練燃料
現(xiàn)有的可驗證獎勵強化學(xué)習(xí)(RLVR,Reinforcement Learning with Verifiable Rewards)訓(xùn)練數(shù)據(jù)有個明顯缺口——幾乎找不到需要持續(xù)聚焦視覺細節(jié)的多步驟任務(wù)。Qwen團隊為此搭建了HopChain框架,專門生成"一步扣一步"的圖像問題。
框架設(shè)計了兩種鏈接機制。第一種讓任務(wù)在"單對象識別"和"多對象比較"之間交替:讀文字、辨顏色之后,立刻跟上尺寸比例或空間關(guān)系的判斷。第二種建立對象間的依賴鏈,模型必須借助已識別的對象,才能定位下一個目標(biāo)。
每個問題都以唯一數(shù)字結(jié)尾,作為自動校驗的答案。論文中展示了一個典型題目:先數(shù)玩具羊的眼睛數(shù)量,再檢查背景紙是否有文字,接著數(shù)旁邊木偶的眼睛,讀取第二個木偶前方紙上的單詞并數(shù)字母數(shù),完成一系列算術(shù)運算,最后乘以場景中玩具總數(shù)。正確答案:72。
這種設(shè)計逼使模型在每一步都重新檢查圖像,而不是依賴前一步的"記憶"——而記憶,恰恰是幻覺滋生的溫床。
四階段流水線:從種子問題到百萬級訓(xùn)練數(shù)據(jù)
數(shù)據(jù)生成跑四個階段。第一階段,Qwen3-VL-235B-A22B-Thinking模型從種子視覺問題出發(fā),生成多步驟推理鏈。第二階段,系統(tǒng)提取鏈中的關(guān)鍵視覺元素,構(gòu)建對象依賴圖。第三階段,基于依賴圖生成新的問題變體,確保難度梯度合理。第四階段,自動驗證答案正確性,過濾掉邏輯斷裂或視覺模糊樣本。
研究團隊用這套流程生成了涵蓋自然圖像、文檔、圖表、科學(xué)示意圖的混合數(shù)據(jù)集。訓(xùn)練后的模型在24項基準(zhǔn)測試中的20項取得提升,涵蓋數(shù)學(xué)推理、空間理解、細粒度視覺識別等多個維度。
一個細節(jié)值得玩味:HopChain的訓(xùn)練數(shù)據(jù)并非追求"更難",而是追求"更真實的多步驟依賴"。傳統(tǒng)數(shù)據(jù)增強往往把單步問題簡單堆疊,模型學(xué)會了套路卻沒學(xué)會檢查。HopChain的依賴鏈設(shè)計,讓模型無法跳過中間步驟直達答案。
視覺推理的"復(fù)利效應(yīng)":小錯滾成大錯
論文把這種現(xiàn)象稱為"感知誤差的復(fù)利累積"——借用金融術(shù)語形容認知過程的崩塌。每一步推理都建立在前一步的輸出上,前一步的微小偏差被后續(xù)步驟當(dāng)作既定事實吸收、放大,最終輸出一個邏輯自洽但完全錯誤的結(jié)論。
這解釋了為什么視覺語言模型的"思維鏈"(Chain-of-Thought)輸出越長,可信度反而越低。人類寫長推導(dǎo)時會回頭檢查,模型卻傾向于一路狂奔,把早期幻覺當(dāng)作后續(xù)推理的基石。
HopChain的干預(yù)點很精準(zhǔn):它不試圖讓模型"更聰明",而是強迫它在每個節(jié)點重新錨定視覺證據(jù)。就像讓一個人在走鋼絲時,每走一步都低頭確認腳下,而不是憑感覺繼續(xù)。
24項測試中的20項提升,剩下4項持平——沒有一項下降。
這個成績暗示了一個被低估的訓(xùn)練策略:與其追逐更大的模型或更多的通用數(shù)據(jù),不如針對特定失效模式設(shè)計結(jié)構(gòu)化訓(xùn)練信號。HopChain的數(shù)據(jù)生成成本遠低于采集同等規(guī)模的人工標(biāo)注數(shù)據(jù),卻能精準(zhǔn)打擊模型的軟肋。
研究團隊開源了數(shù)據(jù)生成 pipeline 和部分訓(xùn)練樣本。對于正在訓(xùn)練視覺語言模型的團隊來說,這套工具提供了一種可復(fù)現(xiàn)的"壓力測試"方法——先找出模型在哪些多步驟場景下容易翻車,再定向生成類似結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)。
一個尚未回答的問題是:當(dāng)HopChain式的訓(xùn)練成為標(biāo)配,視覺語言模型的能力邊界會向外擴展多少?那些現(xiàn)在還需要人工分步拆解的視覺任務(wù)——比如復(fù)雜的機械維修指引、醫(yī)學(xué)影像的跨切片追蹤、工程圖紙的多層解讀——能否被端到端解決?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.