![]()
你見過 7B 模型在拼圖推理上干翻 GPT-5 嗎?
不是靠堆參數,不是靠更大的數據,而是靠一件事:學會「什么時候該用工具」。
大多數「工具增強」模型是這樣的:遇到任務 X → 調用固定工具 Y → 祈禱結果正確。一旦場景稍微變化,模型就開始抽風——不知道什么工具該用、什么工具不該用。
AdaReasoner 解決的是更本質的問題:把 what / when / how(用什么、何時用、怎么用)當成推理能力來學。
![]()
- 論文標題:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
- 論文(arXiv):https://arxiv.org/abs/2601.18631
- 項目主頁:https://adareasoner.github.io
- 代碼:https://github.com/ssmisya/AdaReasoner
- 模型與數據:https://huggingface.co/collections/hitsmy/adareasoner
- 視頻(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM
先看 10 秒效果:
![]()
https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA?search_cli
AdaReasoner 工作流程示意
Google 近期宣布,為其輕量級模型 Gemini 3 Flash 引入一項名為「Agentic Vision」(代理視覺)的新能力。
這項更新標志著多模態 AI 處理圖像的方式發生了根本性轉變:從傳統的靜態識別,升級為具備「思考、行動、觀察」循環的主動調查模式。
在此之前,包括 GPT 在內的大多數前沿多模態模型處理圖像的方式類似于人類的「匆匆一瞥」:模型接收圖像,進行一次性處理并輸出結果。這種方式在面對需要細致觀察的任務時,往往會因為細節丟失而產生幻覺或猜測。
Agentic Vision 的工作機制:Gemini 3 Flash 現在能夠像人類調查員一樣通過以下循環進行推理:
- 思考(Think)——分析用戶指令和圖像初步內容,制定調查計劃。
- 行動(Act)——自動生成并執行 Python 代碼來操作圖像。例如,對圖像進行縮放、裁剪特定區域、旋轉視角或繪制輔助線。
- 觀察(Observe)——檢查代碼執行后的新視圖或數據,獲取更精確的視覺證據。
上述過程可以多次迭代,直到模型收集到足夠的確鑿證據來回答問題。
有意思的是:AdaReasoner 與 Agentic Vision 殊途同歸。AdaReasoner 同樣實現并驗證了幾乎相同的范式:
![]()
工業界與學術界同時押注「主動工具使用」,說明這個方向正在成為多模態推理的主流范式。
AdaReasoner 的獨特價值在于:我們不只是驗證了這套范式有效,更提出了一套讓開源小模型也能習得這種能力的訓練方法——這正是接下來要詳細介紹的內容。
01 痛點:多模態推理為什么
總是「看起來很會,細節就開始猜」?
在多模態推理里,「看清細節」和「多步推理」經常互相卡脖子:
感知不夠精確 → 證據不足 → 推理再漂亮也容易變成「guided guessing」;
反過來,如果能把關鍵證據用工具查出來、畫出來、驗證出來,模型就能把算力用在判斷與規劃上。
換句話說:工具不是外掛,而是把推理從「猜」拉回「查」的關鍵路徑。
02 一句話介紹 AdaReasoner:
把工具使用當成「通用推理技能」
AdaReasoner 是一個訓練范式:讓模型不僅會「調用工具」,更會做三類決策:
- 選擇:該用哪個工具?要不要組合多個工具?
- 時機:什么時候該用?什么時候不該用?
- 魯棒性:工具失敗/無用怎么辦?是否回退、是否換策略?
![]()
AdaReasoner 把「工具使用」當成推理技能來學習:會采納有用工具、丟棄無關工具,并按任務調節調用頻率。
03 三個關鍵設計:
讓「會用工具」從口號變成能力
3.1 Tool Cold Start (TC):把「犯錯-修正」寫進數據里
我們不是只給模型看「完美路徑」,而是刻意加入兩類真實世界會發生的場景:
- 反思與回溯:試一下 → 檢查 → 不對就撤回/換方案。
- 工具失敗處理:工具返回錯誤/無效 → 及時止損 → 回退到模型自身能力。
![]()
定性案例:多輪工具規劃 + 反思糾錯 + 組合工具完成復雜視覺推理
3.2 Tool-GRPO (TG):優化「多輪工具編排」,而不是單次調用
多模態工具推理往往不是「一次調用結束」,而是多回合:
觀察 → 調用 → 再觀察 → 再調用 → 最終回答。
Tool-GRPO 針對 multi-turn 場景做了專門的強化學習優化,并用自適應獎勵把工具使用變成「不確定時的可靠后備」,而不是強制流程。
3.3 Adaptive Learning (ADL):逼模型學「語義」,別背「名字」
為了避免模型死記硬背某個工具名(比如看到 "Point" 就條件反射),我們做了兩件事:
- 工具名/參數名隨機化(去掉字面提示)。
- 工具描述改寫(同一語義、多種表達)。
![]()
隨機化訓練的直觀示意
![]()
AdaReasoner 框架總覽:Tool Cold Start → Tool-GRPO → Adaptive Learning
04 最硬的證據:
小模型為什么能「跨級打怪」?
先給結論:AdaReasoner-7B 相對 base 模型在多個基準上實現顯著提升(在選取的 8 個 benchmark 上平均 +24.9%),并在結構化推理任務上接近滿分。
![]()
主實驗結果:在 VSP、Jigsaw、GUIQA 等任務上顯著提升。
更重要的是:不是「工具越多越好」,而是訓練配方決定工具是否真的幫得上忙。
例如在單任務設置下:
- VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
- Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超過 GPT-5 的 80.10)
![]()
瓶頸遷移示意:當工具規劃足夠好,性能瓶頸從「模型規模」部分遷移到「工具效用與工具規劃能力」
05 最有意思的部分:模型真的
學出了「三種自適應工具行為」
這部分是 AdaReasoner 最像「智能體」的地方:我們沒有寫規則讓它這么做,但它在 RL 過程中學會了。
行為 1:會「采納」有用的新工具(Adopt)
把 A* 規劃工具放進強化學習階段(Cold Start 沒見過),模型會逐步提高調用頻率并穩定掌握:
VSP Navigation 從 44.83 → 96.33

Navigation 任務示意
![]()
A* 工具調用頻率隨 RL 訓練演化
行為 2:會「丟棄」無關工具(Discard)
更關鍵的是:A* 對 Verify 任務沒用,甚至是干擾項。
在「只在推理時提供 A*」的設置里,Verify 會出現 94.20 → 80.00 的下降。
而在 RL 訓練后,模型會逐步壓制無關調用,讓 Verify 維持在接近滿分(99.20)。
一句話:它不僅會用工具,還會學會「別亂用」。
行為 3:會「調節」調用頻率(Modulate)
工具也不是開/關二選一。模型會根據子任務「調頻」:
Point 工具在導航更關鍵(~3.2 calls/sample),在驗證更克制(~1.0 call/sample)
![]()
Point 工具調用頻率「調頻」:Navigation 中更關鍵,Verification 中更克制
06 換工具說明書
也能用:泛化與穩健性
現實里最常見的崩潰方式是:工具定義、參數名、描述文案一變,模型就「不會用了」。
AdaReasoner 用 ADL(隨機化 + 改寫)把「工具規劃」從文本表面形式里解耦出來。
一個很直觀的證據來自工具使用統計:
- 在 Jigsaw 上達到 3.54 CPS 且工具執行成功率 98.50%,最終準確率 88.60。
- 在 VStar 這種更開放的 VQA 上仍能主動調用工具(1.47 CPS)并取得 70.68。
![]()
工具使用統計(CPS、成功率)與性能
此外,使用 ADL,模型能夠更容易在新的任務上取得更好的表現。我們僅使用 Jigsaw 這一個任務的 SFT 數據,在三個任務上 RL,可以看到,使用 ADL 的版本能夠在另外兩個任務上給模型帶來效果上的提升。
![]()
ADL 能將單個任務上學來的 agent planning 能力遷移到 SFT 沒見過的任務上。
07 我們想強調的
學術結論(Takeaways)
多模態推理不只是 「think harder」。更關鍵的是:
actively seeing, verifying, and planning with tools.
當工具編排學得足夠好,瓶頸會發生遷移:
model scale → tool utility + tool planning
這對小模型尤其重要:參數有限時,「會用工具」就是最直接的能力放大器。
從 Agentic Vision 看趨勢:Google 用 Agentic Vision 把 Think-Act-Observe 內置到 Gemini,學術界用 AdaReasoner 驗證這套范式在開源模型上的可行性——兩條路線同時驗證了「主動工具使用」的價值。對于希望在自己數據/場景上復現這種能力的研究者和開發者,AdaReasoner 提供了一套完整的開源方案。
Adaptive Learning 對提升模型的泛化性也有很大幫助,可以幫助將 agent planning 能力遷移到以前沒見過的 agent 和新的任務上去。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.