<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      阿里Qwen團隊把AI視覺推理的連環(huán)翻車現(xiàn)場

      0
      分享至


      視覺語言模型(Vision Language Models,視覺語言模型)在單張圖片問答里表現(xiàn)得像個優(yōu)等生,一旦任務(wù)需要連續(xù)三步以上的推理,錯誤率就陡然爬升。阿里Qwen團隊聯(lián)合清華的研究人員追蹤了這個現(xiàn)象,他們發(fā)現(xiàn)問題的根源不是模型"看不懂",而是"看錯一步,全盤皆輸"。

      一個點數(shù)的偏差,能讓整串推理鏈變成精致的廢話。

      研究團隊舉了三個典型翻車案例。第一個任務(wù)是數(shù)瓢蟲背上的斑點——模型在五只甲蟲里看錯了三只,每只少算一個點,最終總數(shù)錯得離譜。第二個是判斷車輛移動方向:模型正確鎖定了車在畫面中的位置,卻把"駛?cè)胪\囄?理解成了"駛出"。第三個案例里,模型在天文示意圖上指錯了弧線,連帶推導(dǎo)出錯誤的季節(jié)。

      這些錯誤橫跨照片、示意圖和科學(xué)插畫,但崩潰模式高度一致:中間步驟的微小感知失誤,會像多米諾骨牌一樣推倒后續(xù)所有結(jié)論。

      HopChain:把"連環(huán)追問"變成訓(xùn)練燃料

      現(xiàn)有的可驗證獎勵強化學(xué)習(xí)(RLVR,Reinforcement Learning with Verifiable Rewards)訓(xùn)練數(shù)據(jù)有個明顯缺口——幾乎找不到需要持續(xù)聚焦視覺細節(jié)的多步驟任務(wù)。Qwen團隊為此搭建了HopChain框架,專門生成"一步扣一步"的圖像問題。

      框架設(shè)計了兩種鏈接機制。第一種讓任務(wù)在"單對象識別"和"多對象比較"之間交替:讀文字、辨顏色之后,立刻跟上尺寸比例或空間關(guān)系的判斷。第二種建立對象間的依賴鏈,模型必須借助已識別的對象,才能定位下一個目標(biāo)。

      每個問題都以唯一數(shù)字結(jié)尾,作為自動校驗的答案。論文中展示了一個典型題目:先數(shù)玩具羊的眼睛數(shù)量,再檢查背景紙是否有文字,接著數(shù)旁邊木偶的眼睛,讀取第二個木偶前方紙上的單詞并數(shù)字母數(shù),完成一系列算術(shù)運算,最后乘以場景中玩具總數(shù)。正確答案:72。

      這種設(shè)計逼使模型在每一步都重新檢查圖像,而不是依賴前一步的"記憶"——而記憶,恰恰是幻覺滋生的溫床。

      四階段流水線:從種子問題到百萬級訓(xùn)練數(shù)據(jù)

      數(shù)據(jù)生成跑四個階段。第一階段,Qwen3-VL-235B-A22B-Thinking模型從種子視覺問題出發(fā),生成多步驟推理鏈。第二階段,系統(tǒng)提取鏈中的關(guān)鍵視覺元素,構(gòu)建對象依賴圖。第三階段,基于依賴圖生成新的問題變體,確保難度梯度合理。第四階段,自動驗證答案正確性,過濾掉邏輯斷裂或視覺模糊樣本。

      研究團隊用這套流程生成了涵蓋自然圖像、文檔、圖表、科學(xué)示意圖的混合數(shù)據(jù)集。訓(xùn)練后的模型在24項基準(zhǔn)測試中的20項取得提升,涵蓋數(shù)學(xué)推理、空間理解、細粒度視覺識別等多個維度。

      一個細節(jié)值得玩味:HopChain的訓(xùn)練數(shù)據(jù)并非追求"更難",而是追求"更真實的多步驟依賴"。傳統(tǒng)數(shù)據(jù)增強往往把單步問題簡單堆疊,模型學(xué)會了套路卻沒學(xué)會檢查。HopChain的依賴鏈設(shè)計,讓模型無法跳過中間步驟直達答案。

      視覺推理的"復(fù)利效應(yīng)":小錯滾成大錯

      論文把這種現(xiàn)象稱為"感知誤差的復(fù)利累積"——借用金融術(shù)語形容認知過程的崩塌。每一步推理都建立在前一步的輸出上,前一步的微小偏差被后續(xù)步驟當(dāng)作既定事實吸收、放大,最終輸出一個邏輯自洽但完全錯誤的結(jié)論。

      這解釋了為什么視覺語言模型的"思維鏈"(Chain-of-Thought)輸出越長,可信度反而越低。人類寫長推導(dǎo)時會回頭檢查,模型卻傾向于一路狂奔,把早期幻覺當(dāng)作后續(xù)推理的基石。

      HopChain的干預(yù)點很精準(zhǔn):它不試圖讓模型"更聰明",而是強迫它在每個節(jié)點重新錨定視覺證據(jù)。就像讓一個人在走鋼絲時,每走一步都低頭確認腳下,而不是憑感覺繼續(xù)。

      24項測試中的20項提升,剩下4項持平——沒有一項下降。

      這個成績暗示了一個被低估的訓(xùn)練策略:與其追逐更大的模型或更多的通用數(shù)據(jù),不如針對特定失效模式設(shè)計結(jié)構(gòu)化訓(xùn)練信號。HopChain的數(shù)據(jù)生成成本遠低于采集同等規(guī)模的人工標(biāo)注數(shù)據(jù),卻能精準(zhǔn)打擊模型的軟肋。

      研究團隊開源了數(shù)據(jù)生成 pipeline 和部分訓(xùn)練樣本。對于正在訓(xùn)練視覺語言模型的團隊來說,這套工具提供了一種可復(fù)現(xiàn)的"壓力測試"方法——先找出模型在哪些多步驟場景下容易翻車,再定向生成類似結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)。

      一個尚未回答的問題是:當(dāng)HopChain式的訓(xùn)練成為標(biāo)配,視覺語言模型的能力邊界會向外擴展多少?那些現(xiàn)在還需要人工分步拆解的視覺任務(wù)——比如復(fù)雜的機械維修指引、醫(yī)學(xué)影像的跨切片追蹤、工程圖紙的多層解讀——能否被端到端解決?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中小銀行存款利率下調(diào)節(jié)奏加快

      中小銀行存款利率下調(diào)節(jié)奏加快

      財聯(lián)社
      2026-04-07 06:20:23
      宅基地“父改子”黃金窗口期!農(nóng)村有兒子的抓緊,錯過就虧大了

      宅基地“父改子”黃金窗口期!農(nóng)村有兒子的抓緊,錯過就虧大了

      三農(nóng)雷哥
      2026-03-25 17:58:07
      萬科回應(yīng)2000名員工集體維權(quán)事件

      萬科回應(yīng)2000名員工集體維權(quán)事件

      地產(chǎn)微資訊
      2026-04-06 09:58:45
      伊朗宣布命令,霍爾木茲海峽通航,有高人指點,打起石油持久戰(zhàn)

      伊朗宣布命令,霍爾木茲海峽通航,有高人指點,打起石油持久戰(zhàn)

      琴音繚繞回
      2026-04-07 16:00:11
      陳麗華走了,紫檀還在擺著,家族飯桌卻空了一把椅子

      陳麗華走了,紫檀還在擺著,家族飯桌卻空了一把椅子

      云隱南山
      2026-04-07 16:55:55
      1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

      1920年,一位俄羅斯醫(yī)生突發(fā)奇想,把猴子的睪丸,植入到老頭體內(nèi)

      歲月有情1314
      2026-04-07 07:26:46
      4月開始,中國可能出現(xiàn)四大漲潮:除了油價外,這3類也會上調(diào)了

      4月開始,中國可能出現(xiàn)四大漲潮:除了油價外,這3類也會上調(diào)了

      小怪吃美食
      2026-04-07 16:19:48
      2020年,長沙女子癌癥晚期,爭奪女兒40萬學(xué)費,直言:我只想活著

      2020年,長沙女子癌癥晚期,爭奪女兒40萬學(xué)費,直言:我只想活著

      大魚簡科
      2026-04-06 11:33:07
      業(yè)內(nèi)人士談上海二手房大幅跳價:此時漲價,未必是最優(yōu)解

      業(yè)內(nèi)人士談上海二手房大幅跳價:此時漲價,未必是最優(yōu)解

      中國能源網(wǎng)
      2026-04-07 11:47:05
      張雪峰前妻終于表態(tài)!稱只想和女兒安靜生活,直言前夫承受了太多

      張雪峰前妻終于表態(tài)!稱只想和女兒安靜生活,直言前夫承受了太多

      萌神木木
      2026-04-07 16:07:31
      沒底線!田曦薇抹胸造型惹爭議,大露胸、擠出副乳被平臺封禁

      沒底線!田曦薇抹胸造型惹爭議,大露胸、擠出副乳被平臺封禁

      草莓解說體育
      2026-04-07 17:08:16
      全紅嬋陳芋汐微信群事件:全紅嬋被爆遭遇集體霸凌,多名跳水界業(yè)內(nèi)人士牽涉其中。

      全紅嬋陳芋汐微信群事件:全紅嬋被爆遭遇集體霸凌,多名跳水界業(yè)內(nèi)人士牽涉其中。

      貼小君
      2026-04-05 08:44:50
      伊朗發(fā)言人:美軍所謂救援行動,實為偷核?

      伊朗發(fā)言人:美軍所謂救援行動,實為偷核?

      兵國大事
      2026-04-07 17:28:49
      韓國前總理韓德洙涉內(nèi)亂案二審被求刑23年

      韓國前總理韓德洙涉內(nèi)亂案二審被求刑23年

      財聯(lián)社
      2026-04-07 17:04:18
      相當(dāng)于官宣了!漢密爾頓東京漂移 卡戴珊端坐副駕

      相當(dāng)于官宣了!漢密爾頓東京漂移 卡戴珊端坐副駕

      極酷體育
      2026-04-07 15:41:46
      黃一鳴帶3歲女兒在浙江湖州萬達廣場直播近12小時,銷售額破50萬元,反復(fù)提及“女兒像爺爺”;女兒奶聲吆喝“9塊9帶回家”引爭議

      黃一鳴帶3歲女兒在浙江湖州萬達廣場直播近12小時,銷售額破50萬元,反復(fù)提及“女兒像爺爺”;女兒奶聲吆喝“9塊9帶回家”引爭議

      洪觀新聞
      2026-04-07 11:13:12
      難繃!3家醫(yī)院同日宣布停診

      難繃!3家醫(yī)院同日宣布停診

      梅斯醫(yī)學(xué)
      2026-04-06 07:54:22
      賴清德對鄭麗文下手、發(fā)出2大威脅!國民黨元老出面,朱立倫跪了

      賴清德對鄭麗文下手、發(fā)出2大威脅!國民黨元老出面,朱立倫跪了

      泠泠說史
      2026-04-06 16:52:18
      看看謝潑德和卡斯?fàn)柋举惣镜臄?shù)據(jù)對比,火箭其實真不必羨慕馬刺!

      看看謝潑德和卡斯?fàn)柋举惣镜臄?shù)據(jù)對比,火箭其實真不必羨慕馬刺!

      田先生籃球
      2026-04-07 15:15:04
      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      近史談
      2026-03-31 18:57:49
      2026-04-07 18:08:49
      像素與芯片
      像素與芯片
      有態(tài)度網(wǎng)友ytd
      1175文章數(shù) 6關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      開車致女友胸部以下高位截癱后失聯(lián) 男子首發(fā)聲

      頭條要聞

      開車致女友胸部以下高位截癱后失聯(lián) 男子首發(fā)聲

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發(fā)文內(nèi)涵

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      家居
      本地
      時尚
      親子
      公開課

      家居要聞

      雅致愜意 感知生活之美

      本地新聞

      跟著歌聲游安徽,聽古村回響

      楊超越之后,全網(wǎng)頭像錦鯉的C位被她搶走了

      親子要聞

      春天孩子猛長個,多吃牛肉最管用,補鈣補蛋白身體棒

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版