<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      V-Thinker: 讓模型像人一樣「邊畫邊想」

      0
      分享至



      本文共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,主要研究方向為多模態推理,其共同完成的工作主要有We-MathWe-Math 2.0,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛。

      在人類解決復雜視覺問題的過程中,視覺交互往往是重要的認知工具。例如在幾何解題中,通過添加輔助線來顯式建模空間關系;在常識推理中,也可以通過添加標注來進一步梳理和驗證推理過程。

      圍繞這一問題,早期研究(如 LLaVA-Plus、Visual Sketchpad)開始探索在推理過程中引入視覺操作,以增強模型與圖像之間的交互。隨著強化學習方法被引入視覺推理訓練,模型在復雜視覺場景中的表現得到顯著提升。

      進一步,o3、DeepEyes、Thyme 等工作表明,模型可以在強化學習的引導下自主生成代碼,通過放大、裁剪、旋轉等操作與圖像進行交互,以此實現基于圖像思考的推理范式。

      在上述進展的基礎上,我們進一步思考:模型是否能夠像人一樣,在推理過程中實現「邊畫邊思考」的視覺推理范式?為此,我們從數據、訓練范式與評測體系等多個方面,對視覺交互推理進行了系統性探索:

      • 我們提出V-Thinker,一個面向視覺交互推理的多模態推理框架。通過冷啟動監督微調與強化學習相結合的訓練,使模型能夠在推理過程中自主生成代碼并與圖像交互,從而實現「邊畫邊思考」的視覺推理方式。
      • 在數據層面,我們提出Data Evolution Flywheel(數據演化飛輪),能夠在多樣性、質量與難度三個維度上自動合成、演化并校驗視覺交互推理數據,并進一步構建開源了數據集V-Interaction-400K,為視覺交互推理和圖像到代碼轉換等任務提供了基礎支撐。
      • 在訓練層面,我們設計了一套漸進式視覺訓練范式,通過構建V-Perception-40K首先提升模型的視覺感知能力,再通過結合監督微調與強化學習的兩階段訓練,使模型掌握基于視覺交互的推理能力。
      • 在評測方面,我們構建了VTBench,一個面向視覺交互推理場景的專家標注基準。實驗結果表明,V-Thinker 在交互式推理與通用推理任務上均有提升。



      • 論文標題:V-Thinker: Interactive Thinking with Images
      • 論文鏈接:https://arxiv.org/abs/2511.04460
      • 代碼倉庫:https://github.com/We-Math/V-Thinker
      • 數據集:https://huggingface.co/datasets/We-Math/V-Interaction-400K

      目前不僅在 X 上收獲了一定的關注度,并在首月數據下載次數突破 10K+。



      數據飛輪:

      數據合成范式的新思考

      為了實現「邊畫邊思考」的視覺推理范式,一個關鍵挑戰在于如何構建支持模型通過代碼讀取并編輯圖像的高質量數據。

      我們解決這一挑戰的核心思想在于:「讓模型充當造題者,而非解題者」。而這源自于一次偶然間的嘗試:



      如上圖所示,我們嘗試將 We-Math 2.0(先前工作)的知識點輸入至 GPT-5,引導 GPT-5 生成依賴視覺交互的推理問題(包含原圖代碼、問題、解題過程、視覺交互代碼等),驚喜地發現其所生成的代碼通過編譯能夠渲染出結構、語義一致的高質量圖像,并與推理過程保持良好一致性。

      基于這一發現,我們有了一個大膽的想法:只要能讓知識點體系足夠泛化,那就可以自動地構造大規模訓練數據。正如本文提出的數據飛輪機制所示,只要能找到對知識點產生增量的有效信號,數據的多樣性便可以在迭代過程中不斷擴展。



      因此,如上圖(左)所示,我們首先構造了一個知識點集和工具集合,讓模型根據指定知識點生成題目,并要求模型給出這個題目所需的工具。再根據這些工具,生成新的題目召回新的知識點,以此循環迭代。我們發現通過 We-Math 2.0 的知識點和手動構造的工具庫做初始,最終通過層次聚類,可以召回出 2W+ 的新知識點,覆蓋 25 個領域(數學、物理、音樂等)。

      進一步,我們構建了 Checker,分別對問題與答案、原始圖像、視覺操作后的圖像進行一致性校驗。對于在各個維度上均通過校驗的樣本,為了進一步提升問題難度并增加視覺交互的輪次,我們引入一個拓展器。其基于「推理過程本質上由問題所引導」的思想,通過重構問題,使原始問題的答案作為新的條件,引入額外的視覺交互步驟,從而生成新的問題與對應答案。

      此外,對于原始圖像與視覺操作后圖像均保持正確,但問題與答案一致性存在偏差的樣本,我們對其進行篩選,并同樣通過問題重構的方式,引導視覺操作后的圖像在推理過程中以正確的形式出現在 CoT 中。

      通過上述過程的持續迭代,我們最終構建了大規模交互推理數據集 V-Interaction-400K。



      漸進式訓練:

      從感知對齊到交互推理

      為解決現有多模態模型在細粒度感知定位能力上的不足,并逐步實現「邊畫邊思考」的視覺推理能力,我們設計了一套漸進式訓練體系。

      第一階段(感知能力):我們先對模型的視覺感知能力進行提升。如下圖所示,我們依托數據飛輪中讓模型充當造題者的核心思想,在感知空間中通過視覺元素關系、元素數量及知識點進行建模,并設計不同層級的問題進行自動合成感知數據,構建感知數據集 V-Perception-40K,以此訓練模型的細粒度定位能力。



      第二階段(交互推理能力):我們采用「SFT + GRPO」的訓練策略,使模型逐步具備穩定的視覺交互推理能力。

      • 冷啟動:通過 V-Interaction-400K 實現初步對齊。
      • 強化學習(RL):我們首先從 V-Interaction-400K 中采樣了 3k 條數據(模型在輸入原圖的情況下作答錯誤,但在輸入視覺編輯后的圖片作答正確),并從 We-Math 2.0、MMK12、ThinkLite 等開源工作中進行采樣,構成了該階段的訓練數據。
      • 訓練設定:訓練框架與獎勵函數均遵循了 Thyme 的架構與設定,引導模型在推理過程中生成并執行視覺操作代碼,在 Sandbox 中執行代碼并返回操作后的圖片再次輸入至模型進行后續推理,使模型能夠在推理過程中自主生成代碼并與圖像交互,實現「邊畫邊思考」的視覺推理范式。

      VTBench:

      面向視覺交互的評測基準

      為了進一步評估模型在視覺交互推理場景中的真實能力,我們構建了 VTBench,一個面向依賴視覺交互的評測基準。與現有的 Benchmark 不同,VTBench 聚焦于通過與圖像交互才能完成的問題,例如添加輔助線、標注關鍵區域或修改圖像結構。

      在構建過程中,所有樣本來自多個公開數據集及公共平臺,并由人工進行標注。特別地,我們在標注前進行了人工投票篩選:只有當多數認為視覺交互是解題所必需時,樣本才會被納入基準,以此增強所選題目的視覺交互必要性。



      在評測設計上,VTBench 從推理過程的不同階段出發,構建了三種不同的任務,覆蓋從基礎感知到交互推理的完整流程。具體而言,如上圖所示,包括對視覺元素的感知能力、在明確指令下執行視覺操作的能力,以及在推理過程中面向需要視覺交互任務的解題能力。針對不同類型的任務,模型需要生成可執行代碼與圖像進行交互,其結果再與人工標注進行對齊評估,以確保評測真正反映模型的視覺交互推理水平。

      實驗結果

      定量分析



      交互式視覺推理能力顯著提升:V-Thinker 在 VTBench 的三類交互任務中均顯著優于基線模型,平均準確率提升超 12%,其中在 Instruction-Guided Interaction 場景中性能提升超過 22%。

      模型在感知、視覺交互能力上仍存在提升空間:盡管 GPT-4o、Qwen2.5-VL 等模型在通用視覺推理任務中表現出較強能力,但在涉及空間關系建模與點級定位的交互任務中,性能有所下降。這一現象反映出視覺交互能力與推理能力之間仍存在差距。

      交互式推理在通用推理場景具備一定泛化性:在多個通用視覺推理基準中,V-Thinker 在 MathVision 等復雜多步推理任務上取得 6% 的性能提升,表明視覺操作驅動的推理范式不僅適用于交互任務,也具備向通用視覺推理遷移的潛力。

      定性分析

      視覺交互能力顯著提升,并在通用場景有所泛化:V-Thinker 能夠穩定生成符合問題需求的圖像編輯操作,例如繪制輔助線、標注關鍵區域或完成結構化重繪。值得注意的是,在部分不強制要求視覺交互的任務中,模型亦會主動對圖像進行標注,以輔助中間推理過程,表明視覺交互已逐漸內化為其推理策略的一部分。



      強化學習多路徑交互探索能力顯著增強:如下圖所示,我們對強化學習階段的 Rollout 樣本進行了可視化,V-Thinker 在同一圖像條件下能夠生成多樣化的交互路徑,覆蓋更廣泛的解空間。這些路徑在中間步驟和操作選擇上存在明顯差異,表明模型在交互推理階段具備更強的策略多樣性,并進一步提升模型的可解釋性。



      推理過程可視化與可解釋性提升:如下圖所示,在完整示例中,V-Thinker 能夠在推理過程中自主生成并執行圖像編輯代碼,并即時渲染中間結果,從而將原本的文本推理過程外化為可觀察的視覺中間過程。通過這種「生成—執行—反饋」的交互循環,模型能夠在保持推理一致性的同時,使復雜視覺推理過程更加直觀且具備更好的可解釋性。



      數據飛輪分析:知識系統與數據規模的演化

      數據飛輪驅動的知識體系持續擴展:我們進一步分析了數據飛輪在數據構建過程中的作用。如下圖所示,從初始知識點出發,數據飛輪能夠持續擴展知識概念與視覺工具,最終形成覆蓋 25 個領域、24,000 余個知識點的層次化知識體系。



      演化輪次與知識規模的非線性增長規律:此外,我們進一步分析了演化輪次與知識體系及視覺工具規模之間的關系。如下圖所示,隨著輪次增加,知識點與視覺工具數量呈現明顯的非線性增長趨勢,在五輪演化后整體規模擴展至初始種子的約 50 倍,且未出現明顯飽和。同時,在不同的初始設定下可以看到,更豐富的初始知識點或工具集合能夠帶來更優的演化軌跡,凸顯了初始種子多樣性在數據飛輪持續演化過程中的重要作用。



      總結與展望

      我們希望通過 V-Thinker 可以推動「Thinking with Images」這一方向的進一步發展。在這項工作中,我們渴望展現,模型不僅可以「看圖推理」,還可以在推理過程中自主生成并執行代碼,與圖像進行交互,從而實現真正意義上的「邊畫邊思考」。

      圍繞這一目標,我們從方法、數據、訓練與評測等多個層面進行了系統探索。通過引入代碼驅動的視覺交互機制、數據演化飛輪以及漸進式訓練范式,V-Thinker 不僅在數學任務中展現出了交互能力,更在通用場景展現出了泛化能力。

      此外,在這項工作的實現過程中,我們認為隨著模型規模和能力的持續提升,推理范式及應用場景將會有全新的發展可能性。一方面,數據構建范式有望進一步演化,模型充當造題者的下一步或許真的具備創造知識的可能性,畢竟現有知識的源頭也是通過人類經驗所獲得的;另一方面,模型推理能力的上限會帶來全新的應用場景。

      當然,V-Thinker 這篇工作是我們在這一領域的首次嘗試,對于感知能力和交互能力由于算力有限,還有一定的提升空間,例如可以加入不同分辨率的擾動。我們期待未來的多模態大模型能夠發展出更加出色、更加接近人類認知方式的視覺交互與推理能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

      演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

      臺州交通廣播
      2025-12-24 22:45:46
      宣布交易!楊瀚森,狂喜!

      宣布交易!楊瀚森,狂喜!

      李帕在北漂
      2025-12-26 14:32:35
      陜西黑老大鄭衛國去酒店吃飯,不料踢到鐵板,死前連中9槍寧死不跪

      陜西黑老大鄭衛國去酒店吃飯,不料踢到鐵板,死前連中9槍寧死不跪

      青青會講故事
      2024-11-01 16:45:36
      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      溫讀史
      2025-12-20 10:23:54
      “99%純金咋掉色了?”南博鎮護之寶西漢金獸遭質疑;原院長姚遷:頸部留有銅銹綠斑痕跡

      “99%純金咋掉色了?”南博鎮護之寶西漢金獸遭質疑;原院長姚遷:頸部留有銅銹綠斑痕跡

      大風新聞
      2025-12-25 11:40:08
      全球首個!中國德州發現世界罕見超富鐵礦!專家:世界罕見!

      全球首個!中國德州發現世界罕見超富鐵礦!專家:世界罕見!

      瞳哥視界
      2025-12-25 20:50:42
      NBA12月球員場均罰球榜:東契奇11.3次居首,亞歷山大僅第18

      NBA12月球員場均罰球榜:東契奇11.3次居首,亞歷山大僅第18

      懂球帝
      2025-12-26 15:28:10
      何晴閨蜜爆料許何14歲搬離許亞軍家真相,許何喪母后發消息給她

      何晴閨蜜爆料許何14歲搬離許亞軍家真相,許何喪母后發消息給她

      李健政觀察
      2025-12-26 22:25:50
      震驚!網傳廣東某醫院因業績下滑,全員工資6折發,不低于2450元

      震驚!網傳廣東某醫院因業績下滑,全員工資6折發,不低于2450元

      火山詩話
      2025-12-25 18:04:47
      我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

      我國超2億人有頸動脈斑塊!研究證實:斑塊可以消退!有4點建議

      展望云霄
      2025-12-23 21:03:05
      熊磊冬至懷念姚策,杜媽暖心安慰,堂嫂再談錯換,稱熊磊田靜不同

      熊磊冬至懷念姚策,杜媽暖心安慰,堂嫂再談錯換,稱熊磊田靜不同

      夢醉為紅顏一笑
      2025-12-27 00:09:00
      扎哈羅娃:就烏克蘭問題談判俄方立場無意讓步

      扎哈羅娃:就烏克蘭問題談判俄方立場無意讓步

      澎湃新聞
      2025-12-27 05:07:03
      神秘高人爆料,某島丑聞里的驚天內幕,足以震動世界。

      神秘高人爆料,某島丑聞里的驚天內幕,足以震動世界。

      佐與佑
      2024-12-18 22:04:21
      悲催!廣州一工廠從廣州搬遷到湖南,不去的人根本都不提怎么安排

      悲催!廣州一工廠從廣州搬遷到湖南,不去的人根本都不提怎么安排

      火山詩話
      2025-12-26 17:09:42
      向太太敢說了!向華強今年已經78了,但是她和向華強還有X生活!

      向太太敢說了!向華強今年已經78了,但是她和向華強還有X生活!

      心靜物娛
      2025-12-24 11:02:28
      今晚!CBA戰3場 遼籃PK北控,上海VS最水冠軍四川,CCTV5直播廣廈

      今晚!CBA戰3場 遼籃PK北控,上海VS最水冠軍四川,CCTV5直播廣廈

      晚池
      2025-12-27 03:39:22
      不查不知道,
一查才發現,

      不查不知道, 一查才發現,

      小光侃娛樂
      2025-12-25 22:20:03
      地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

      地主傻兒子往井里扔金條,土匪洗劫一空,他指著井底:這是后路

      牛魔王與芭蕉扇
      2025-12-22 16:51:33
      美國儲量全球第一,中國卻95%依賴進口,一旦斷供我國該如何應對

      美國儲量全球第一,中國卻95%依賴進口,一旦斷供我國該如何應對

      知識TNT
      2025-12-26 11:46:41
      笑發財了!媽媽問網友給孩子買的衣服是退是留,評論區炸鍋!

      笑發財了!媽媽問網友給孩子買的衣服是退是留,評論區炸鍋!

      另子維愛讀史
      2025-12-26 16:35:27
      2025-12-27 06:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12000文章數 142521關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      數碼
      本地
      藝術
      公開課
      軍事航空

      數碼要聞

      盛色推出“OF24TC”23.8英寸顯示器:1080P 144Hz,499元

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      藝術要聞

      閆平 2025油畫作品欣賞

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 工布江达县| 香港三级日本三级a视频| 国产成人精品一区二区三区无码 | 亚洲日韩av无码一区二区三区人| 日韩肏屄| 亚洲成人精品无码| 中文字幕亚洲区| 亚洲人成网站观看在线观看| 狠狠爱俺也去去就色| 每日更新AV| 亚洲人成电影在线播放| 2025精品视频| 538在线精品视频| 国产黄色视屏| 亚洲精品国产自在现线最新| 欧美黑人又粗又大又爽免费| 欧美肥妇毛多水多bbxx| 日韩av在线不卡一区二区三区| 国产精品成人国产乱| 国产亚洲精品第一综合| 国产精品欧美福利久久| 久久综合久色欧美综合狠狠| 色成人亚洲| 亚洲熟女综合色一区二区三区| 成人肏屄视频| 精品国产乱码久久久久夜深人妻| 男女裸交免费无遮挡全过程| 牟定县| 色噜噜狠狠一区二区三区Av蜜芽| 国产成人午夜高潮毛片| 亚洲最新无码中文字幕久久| 国产黄色在线| 亚洲人成电影在线播放| 成人午夜精品无码区久久| 亚洲欧美v| 超碰成人人人做人人爽| 熟女一区二区中文在线| 五月婷婷开心| 亚洲欧美日韩国产手机在线| 91视频免费| 国产美女久久久亚洲综合|