哈嘍,大家好,今天小墨這篇評論,主要來分析北郵學生如何讓AI學會"邊畫邊思考",以及這項技術為何能讓國際巨頭都保持沉默。
這兩天,一個來自北京郵電大學的AI項目在學術圈引發關注。博士生喬潤祺和碩士生譚秋納帶領團隊發布了V-Thinker,這個模型能做到一件很特別的事情,給它一張幾何題的圖,它不僅能看懂題目,還會自己在圖上畫輔助線,然后一邊畫一邊推理出答案。
![]()
![]()
![]()
V-Thinker的突破就在這里。它能在推理過程中自己生成代碼,通過代碼來操作圖像,比如畫線、標注、裁剪或者旋轉,然后再根據修改后的圖像繼續推理。整個過程就像一個學生在草稿紙上一步步演算,而不是直接蹦出答案。
![]()
有意思的是,GPT-4o生成的代碼運行后,能渲染出結構和語義都很一致的高質量圖像,并且跟推理過程能對上。基于這個發現,他們做了個大膽的嘗試,讓系統不斷迭代生成新題目,召回新知識點,再生成更多題目。
最后從最初的幾百個知識點,擴展到了24000多個,覆蓋了數學、物理、音樂等25個領域。
這個過程里,他們還設計了一個檢查器,專門驗證問題、答案、原始圖像和操作后圖像之間的一致性。對于通過驗證的樣本,再用一個拓展器增加難度,引入更多視覺交互步驟。通過這樣持續迭代,最終構建出了包含40萬條數據的V-Interaction-400K數據集。
![]()
![]()
有了數據,接下來就是訓練。團隊設計了一套漸進式的訓練方法,分兩個階段進行。
第一階段主要提升模型的視覺感知能力。他們構建了一個包含4萬條數據的V-Perception-40K數據集,專門訓練模型對圖像中視覺元素的細粒度定位能力,比如識別圖中有幾個三角形,它們之間的位置關系是什么。
![]()
第二階段才是核心,讓模型學會交互推理。這個階段用了監督微調加強化學習的組合策略。先用V-Interaction-400K數據集做初步對齊,讓模型知道什么情況下需要進行視覺操作。然后通過強化學習,引導模型在推理過程中生成并執行視覺操作代碼。
![]()
![]()
為了測試V-Thinker的實際效果,團隊專門構建了一個評測基準VTBench。這個基準跟現有的測試不太一樣,它只選那些必須通過視覺交互才能完成的題目,比如需要添加輔助線或者標注關鍵區域的幾何題。
![]()
所有樣本都來自公開數據集和平臺,并且經過人工標注。在標注之前,他們還做了人工投票篩選,只有大多數人都認為視覺交互是必需的題目,才會被納入基準。
測試結果顯示,V-Thinker在VTBench的三類交互任務中,平均準確率比基線模型提升了超過12%。在需要按照明確指令執行視覺操作的場景中,性能提升甚至超過22%。
![]()
不過團隊也坦誠地指出,模型在感知和視覺交互能力上還有提升空間。雖然GPT-4o、Qwen2.5-VL這些模型在通用視覺推理任務中表現不錯,但在涉及空間關系建模和點級定位的交互任務中,性能會下降。這說明視覺交互能力和推理能力之間還存在差距。
有個細節挺有意思,在一些不強制要求視覺交互的任務中,V-Thinker也會主動對圖像進行標注,用來輔助中間推理過程。這說明視覺交互已經逐漸成為它推理策略的一部分,而不只是被動響應指令。
![]()
團隊還對強化學習階段的過程進行了可視化。同一張圖像,模型能生成多條不同的交互路徑,覆蓋更廣的解題思路。這些路徑在中間步驟和操作選擇上都有明顯差異,說明模型在交互推理階段具備了更強的策略多樣性。
此外,V-Thinker在MathVision等復雜多步推理任務上取得了6%的性能提升。這表明視覺操作驅動的推理范式不僅適用于交互任務,也能向通用視覺推理場景遷移。
![]()
V-Thinker證明了AI可以像人類一樣,在推理過程中通過視覺交互來輔助思考。這項工作從數據構建、訓練方法到評測體系都做了系統性探索,為多模態推理打開了新的可能性。
雖然目前在感知能力和交互能力上還有改進空間,但這個方向的潛力值得期待。技術的進步從來不是一蹴而就,每一步探索都在為未來鋪路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.