![]()
本文共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,主要研究方向為多模態推理,其共同完成的工作主要有We-MathWe-Math 2.0,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛。
在人類解決復雜視覺問題的過程中,視覺交互往往是重要的認知工具。例如在幾何解題中,通過添加輔助線來顯式建模空間關系;在常識推理中,也可以通過添加標注來進一步梳理和驗證推理過程。
圍繞這一問題,早期研究(如 LLaVA-Plus、Visual Sketchpad)開始探索在推理過程中引入視覺操作,以增強模型與圖像之間的交互。隨著強化學習方法被引入視覺推理訓練,模型在復雜視覺場景中的表現得到顯著提升。
進一步,o3、DeepEyes、Thyme 等工作表明,模型可以在強化學習的引導下自主生成代碼,通過放大、裁剪、旋轉等操作與圖像進行交互,以此實現基于圖像思考的推理范式。
在上述進展的基礎上,我們進一步思考:模型是否能夠像人一樣,在推理過程中實現「邊畫邊思考」的視覺推理范式?為此,我們從數據、訓練范式與評測體系等多個方面,對視覺交互推理進行了系統性探索:
- 我們提出V-Thinker,一個面向視覺交互推理的多模態推理框架。通過冷啟動監督微調與強化學習相結合的訓練,使模型能夠在推理過程中自主生成代碼并與圖像交互,從而實現「邊畫邊思考」的視覺推理方式。
- 在數據層面,我們提出Data Evolution Flywheel(數據演化飛輪),能夠在多樣性、質量與難度三個維度上自動合成、演化并校驗視覺交互推理數據,并進一步構建開源了數據集V-Interaction-400K,為視覺交互推理和圖像到代碼轉換等任務提供了基礎支撐。
- 在訓練層面,我們設計了一套漸進式視覺訓練范式,通過構建V-Perception-40K首先提升模型的視覺感知能力,再通過結合監督微調與強化學習的兩階段訓練,使模型掌握基于視覺交互的推理能力。
- 在評測方面,我們構建了VTBench,一個面向視覺交互推理場景的專家標注基準。實驗結果表明,V-Thinker 在交互式推理與通用推理任務上均有提升。
![]()
- 論文標題:V-Thinker: Interactive Thinking with Images
- 論文鏈接:https://arxiv.org/abs/2511.04460
- 代碼倉庫:https://github.com/We-Math/V-Thinker
- 數據集:https://huggingface.co/datasets/We-Math/V-Interaction-400K
目前不僅在 X 上收獲了一定的關注度,并在首月數據下載次數突破 10K+。
![]()
數據飛輪:
數據合成范式的新思考
為了實現「邊畫邊思考」的視覺推理范式,一個關鍵挑戰在于如何構建支持模型通過代碼讀取并編輯圖像的高質量數據。
我們解決這一挑戰的核心思想在于:「讓模型充當造題者,而非解題者」。而這源自于一次偶然間的嘗試:
![]()
如上圖所示,我們嘗試將 We-Math 2.0(先前工作)的知識點輸入至 GPT-5,引導 GPT-5 生成依賴視覺交互的推理問題(包含原圖代碼、問題、解題過程、視覺交互代碼等),驚喜地發現其所生成的代碼通過編譯能夠渲染出結構、語義一致的高質量圖像,并與推理過程保持良好一致性。
基于這一發現,我們有了一個大膽的想法:只要能讓知識點體系足夠泛化,那就可以自動地構造大規模訓練數據。正如本文提出的數據飛輪機制所示,只要能找到對知識點產生增量的有效信號,數據的多樣性便可以在迭代過程中不斷擴展。
![]()
因此,如上圖(左)所示,我們首先構造了一個知識點集和工具集合,讓模型根據指定知識點生成題目,并要求模型給出這個題目所需的工具。再根據這些工具,生成新的題目召回新的知識點,以此循環迭代。我們發現通過 We-Math 2.0 的知識點和手動構造的工具庫做初始,最終通過層次聚類,可以召回出 2W+ 的新知識點,覆蓋 25 個領域(數學、物理、音樂等)。
進一步,我們構建了 Checker,分別對問題與答案、原始圖像、視覺操作后的圖像進行一致性校驗。對于在各個維度上均通過校驗的樣本,為了進一步提升問題難度并增加視覺交互的輪次,我們引入一個拓展器。其基于「推理過程本質上由問題所引導」的思想,通過重構問題,使原始問題的答案作為新的條件,引入額外的視覺交互步驟,從而生成新的問題與對應答案。
此外,對于原始圖像與視覺操作后圖像均保持正確,但問題與答案一致性存在偏差的樣本,我們對其進行篩選,并同樣通過問題重構的方式,引導視覺操作后的圖像在推理過程中以正確的形式出現在 CoT 中。
通過上述過程的持續迭代,我們最終構建了大規模交互推理數據集 V-Interaction-400K。
![]()
漸進式訓練:
從感知對齊到交互推理
為解決現有多模態模型在細粒度感知定位能力上的不足,并逐步實現「邊畫邊思考」的視覺推理能力,我們設計了一套漸進式訓練體系。
第一階段(感知能力):我們先對模型的視覺感知能力進行提升。如下圖所示,我們依托數據飛輪中讓模型充當造題者的核心思想,在感知空間中通過視覺元素關系、元素數量及知識點進行建模,并設計不同層級的問題進行自動合成感知數據,構建感知數據集 V-Perception-40K,以此訓練模型的細粒度定位能力。
![]()
第二階段(交互推理能力):我們采用「SFT + GRPO」的訓練策略,使模型逐步具備穩定的視覺交互推理能力。
- 冷啟動:通過 V-Interaction-400K 實現初步對齊。
- 強化學習(RL):我們首先從 V-Interaction-400K 中采樣了 3k 條數據(模型在輸入原圖的情況下作答錯誤,但在輸入視覺編輯后的圖片作答正確),并從 We-Math 2.0、MMK12、ThinkLite 等開源工作中進行采樣,構成了該階段的訓練數據。
- 訓練設定:訓練框架與獎勵函數均遵循了 Thyme 的架構與設定,引導模型在推理過程中生成并執行視覺操作代碼,在 Sandbox 中執行代碼并返回操作后的圖片再次輸入至模型進行后續推理,使模型能夠在推理過程中自主生成代碼并與圖像交互,實現「邊畫邊思考」的視覺推理范式。
VTBench:
面向視覺交互的評測基準
為了進一步評估模型在視覺交互推理場景中的真實能力,我們構建了 VTBench,一個面向依賴視覺交互的評測基準。與現有的 Benchmark 不同,VTBench 聚焦于通過與圖像交互才能完成的問題,例如添加輔助線、標注關鍵區域或修改圖像結構。
在構建過程中,所有樣本來自多個公開數據集及公共平臺,并由人工進行標注。特別地,我們在標注前進行了人工投票篩選:只有當多數認為視覺交互是解題所必需時,樣本才會被納入基準,以此增強所選題目的視覺交互必要性。
![]()
在評測設計上,VTBench 從推理過程的不同階段出發,構建了三種不同的任務,覆蓋從基礎感知到交互推理的完整流程。具體而言,如上圖所示,包括對視覺元素的感知能力、在明確指令下執行視覺操作的能力,以及在推理過程中面向需要視覺交互任務的解題能力。針對不同類型的任務,模型需要生成可執行代碼與圖像進行交互,其結果再與人工標注進行對齊評估,以確保評測真正反映模型的視覺交互推理水平。
實驗結果
定量分析
![]()
交互式視覺推理能力顯著提升:V-Thinker 在 VTBench 的三類交互任務中均顯著優于基線模型,平均準確率提升超 12%,其中在 Instruction-Guided Interaction 場景中性能提升超過 22%。
模型在感知、視覺交互能力上仍存在提升空間:盡管 GPT-4o、Qwen2.5-VL 等模型在通用視覺推理任務中表現出較強能力,但在涉及空間關系建模與點級定位的交互任務中,性能有所下降。這一現象反映出視覺交互能力與推理能力之間仍存在差距。
交互式推理在通用推理場景具備一定泛化性:在多個通用視覺推理基準中,V-Thinker 在 MathVision 等復雜多步推理任務上取得 6% 的性能提升,表明視覺操作驅動的推理范式不僅適用于交互任務,也具備向通用視覺推理遷移的潛力。
定性分析
視覺交互能力顯著提升,并在通用場景有所泛化:V-Thinker 能夠穩定生成符合問題需求的圖像編輯操作,例如繪制輔助線、標注關鍵區域或完成結構化重繪。值得注意的是,在部分不強制要求視覺交互的任務中,模型亦會主動對圖像進行標注,以輔助中間推理過程,表明視覺交互已逐漸內化為其推理策略的一部分。
![]()
強化學習多路徑交互探索能力顯著增強:如下圖所示,我們對強化學習階段的 Rollout 樣本進行了可視化,V-Thinker 在同一圖像條件下能夠生成多樣化的交互路徑,覆蓋更廣泛的解空間。這些路徑在中間步驟和操作選擇上存在明顯差異,表明模型在交互推理階段具備更強的策略多樣性,并進一步提升模型的可解釋性。
![]()
推理過程可視化與可解釋性提升:如下圖所示,在完整示例中,V-Thinker 能夠在推理過程中自主生成并執行圖像編輯代碼,并即時渲染中間結果,從而將原本的文本推理過程外化為可觀察的視覺中間過程。通過這種「生成—執行—反饋」的交互循環,模型能夠在保持推理一致性的同時,使復雜視覺推理過程更加直觀且具備更好的可解釋性。
![]()
數據飛輪分析:知識系統與數據規模的演化
數據飛輪驅動的知識體系持續擴展:我們進一步分析了數據飛輪在數據構建過程中的作用。如下圖所示,從初始知識點出發,數據飛輪能夠持續擴展知識概念與視覺工具,最終形成覆蓋 25 個領域、24,000 余個知識點的層次化知識體系。
![]()
演化輪次與知識規模的非線性增長規律:此外,我們進一步分析了演化輪次與知識體系及視覺工具規模之間的關系。如下圖所示,隨著輪次增加,知識點與視覺工具數量呈現明顯的非線性增長趨勢,在五輪演化后整體規模擴展至初始種子的約 50 倍,且未出現明顯飽和。同時,在不同的初始設定下可以看到,更豐富的初始知識點或工具集合能夠帶來更優的演化軌跡,凸顯了初始種子多樣性在數據飛輪持續演化過程中的重要作用。
![]()
總結與展望
我們希望通過 V-Thinker 可以推動「Thinking with Images」這一方向的進一步發展。在這項工作中,我們渴望展現,模型不僅可以「看圖推理」,還可以在推理過程中自主生成并執行代碼,與圖像進行交互,從而實現真正意義上的「邊畫邊思考」。
圍繞這一目標,我們從方法、數據、訓練與評測等多個層面進行了系統探索。通過引入代碼驅動的視覺交互機制、數據演化飛輪以及漸進式訓練范式,V-Thinker 不僅在數學任務中展現出了交互能力,更在通用場景展現出了泛化能力。
此外,在這項工作的實現過程中,我們認為隨著模型規模和能力的持續提升,推理范式及應用場景將會有全新的發展可能性。一方面,數據構建范式有望進一步演化,模型充當造題者的下一步或許真的具備創造知識的可能性,畢竟現有知識的源頭也是通過人類經驗所獲得的;另一方面,模型推理能力的上限會帶來全新的應用場景。
當然,V-Thinker 這篇工作是我們在這一領域的首次嘗試,對于感知能力和交互能力由于算力有限,還有一定的提升空間,例如可以加入不同分辨率的擾動。我們期待未來的多模態大模型能夠發展出更加出色、更加接近人類認知方式的視覺交互與推理能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.