![]()
新智元報道
編輯:peter東
【新智元導讀】覺得大模型消耗的算力過大,英偉達推出的8B模型Orchestrator化身「拼好模」,通過組合工具降本增效,使用30%的預算,在HLE上拿下37.1%的成績。
最近,NVIDIA Research發現,只要經過適當微調,小模型已足以「指揮」大模型
英偉達研究團隊的新模型Orchestrator僅有 80 億參數(8B)的模型,不僅比以往的工具使用類AI智能體準確率更高、成本更低,還能在工具選擇上精準對齊用戶的偏好。
在HLE基準測試中,Orchestrator斬獲了37.1%的高分,一舉超越了GPT-5(35.1%),同時在效率上提升了2.5倍。
在tau2-Bench和FRAMES測試中,Orchestrator同樣以大幅優勢領先 GPT-5,而其成本僅為后者的30%左右。
在多項指標上,Orchestrator均實現了性能與成本的最佳平衡,并能出色地泛化至未曾見過的工具中。
![]()
預印本鏈接:https://arxiv.org/abs/2511.21689
為什么「強模型+工具」還是不夠好?
面對Humanity’s Last Exam(HLE)這類超難綜合推理考試,現在的大模型雖然「什么都懂一點」,但一到深度推理+控制成本就開始吃力。
只靠一個大模型(比如GPT-5)去調用搜索、代碼解釋器這些基礎工具,很難同時做到:夠準、夠便宜、夠可控。
為了省錢,業界第一反應是:別什么都讓最強模型上,搞個「調度者」來分配任務。
但真把主流大模型拉來做調度者,結果卻很諷刺:
當GPT-5做調度時,98%的請求還是落回GPT-5或GPT-5-mini;
換成Qwen3-8B,當它拿不準時,73%的任務直接無腦丟給GPT-5。
換句話說:我們以為造了個「調度者」,結果只是多請了一個「轉接電話的前臺」。
![]()
使用不同模型作為調度者后,給不同模型分配的任務
結果說明,僅僅通過提示詞,無法讓常見的大模型變成合格的調度者。
而ToolOrchestra,通過將「智能」從單一模型中解耦,重構為「輕量調度中樞+異構能力工具集」的復合系統,構成了一種全新的模型與工具協同范式。
接下來,看看Orchestrator是怎么訓練出來的。
Orchestrator:多輪執行與自定義RL
想象一下:過去的大模型,都像高端餐廳,全靠「米其林主廚」(GPT-5)從頭到尾親自炒菜——火候、刀工、擺盤,全靠一人。
結果呢?由于單個token成本很高,導致總成本直接原地起飛。
而英偉達新推出的「拼好飯」模式如同中央廚房,一個聰明的「調度店長」(8B小模型Orchestrator)駐守中央,店長不親自炒菜,而是:
讓街角「川菜小館」(Qwen-Math-7B)爆炒回鍋肉(數學題);
招「粵式點心師傅」(Coder-32B)蒸一籠蝦餃(寫代碼);
實在拿不準?叫米其林主廚(GPT-5)來嘗一口、定個味。
![]()
Orchestrator的架構圖
其中用于調度的8B小模型Orchestrator,會通過強化學習,根據用戶聲明的傾向,系統自動傾向本地部署模型。
而訓練過程中的獎勵函數,可分為3部分:
1. 結果,即是否答對,答對+1,否則0;由GPT5給出判斷;
2. 效率,對應金錢成本和時間延遲;
3. 對齊用戶工具偏好向量。
三部分加起來,才是強化學習的目標函數,而最終訓練得到會權衡、聽指揮、懂省錢的Orchestrator。
Orchestrator還包含類人分步求解機制:
可通過COT思維鏈,Orchestrator分析當前狀態,規劃下一步的結構化工具調用;
之后,通過環境執行(如數學推導、代碼執行輸出)并返回結果;
如此多輪循環,則是Orchestrator的另一創新點。
有了訓練方法,該研究還構建ToolScale來支撐強化學習的訓練。
作為首個大規模、可驗證的多輪工具調用合成數據集:ToolScale通過大模型自動構建10個領域(金融、醫療、航空等)的模擬環境(含數據庫+工具API),再生成43萬條含人工標記的最佳工具調用軌跡的任務。
![]()
ToolScale數據合成流程概覽
每條任務需滿足三重驗證:
執行正確性(數據庫狀態變更一致)
過程保真度(關鍵信息被提及)
操作完備性。
這些數據被用來訓練Orchestrator。
AGI的「務實主義革命」
在三大高難度基準上,Orchestrator-8B全面超越現有方法且顯著降低推理成本:
在HLE(人類終極考試)取得37.1%準確率(vs.GPT-5的35.1%),成本僅9.2美分(為GPT-5的30%);
在τ2-Bench(函數調用嚴測)上有80.2%正確率,僅有約40%的步驟調用GPT-5;
而在FRAMES(事實性推理)得分76.3%(vs.SOTA74.2%),延遲降至8.2分鐘(為GPT-5的41%)。
![]()
Orchestrator調度后的模型性能和成本對比。
相較于強大的單體大語言模型系統,Orchestrator實現了最佳的成本效益:
![]()
進一步分析揭示其卓越性能源于理性分工能力:
Orchestrator會按需調用本地檢索、Math-7B、Qwen-32B等低成本工具,僅在關鍵步調用GPT-5(1.95次/題);
若是GPT-5進行調度,那么解決一道題目需要平均調用5.23次GPT05-mini。
調用低成本的模型去解決不那么復雜的問題,正是Orchestrator能夠降本增效的根源。
![]()
Orchestrator調用不同工具的比例對比
Orchestrator還展現出極強泛化性:面對訓練未見模型(如Gemma-3-27B、Codestral-22B)或新定價策略(DeepInfra),其性能僅輕微波動,證明其學會的是工具能力抽象與成本-效益權衡的通用策略,而非過擬合特定配置。
同時在滿足用戶偏好時,Orchestrator的表現也優于其它大模型,這證明Orchestrator具有可定制、可約束、可解釋的工具調度能力。
復合AI第一步
這幾年,AI 世界一直在講同一個故事:先造出一個盡可能大的通用大腦,再通過提示詞和少量樣本,把它臨時「裝扮」成翻譯、寫作、編程等各種專家。
但隨著研究不斷推進,這個故事開始松動:
越來越多由多個模型和工具協同工作的「復合AI系統」,在安全性、速度和成本上都比單一大模型更有優勢,甚至在能力上也實現趕超。
總結來看,面對大模型使用后的高成本,高能耗問題,Orchestrator展現了通過將「決策權」與「執行權」分離,不再指望一個超人拯救世界,完全可開辟一條通往高效、可控、可擴展的實用化AGI系統的新路徑。
ToolOrchestra標志著我們朝著構建真正智能的復合AI系統邁出了第一步,這代表著一種正在興起、旨在取代單一化AI架構的新范式。
小語言模型終將成為實現可擴展智能體AI的關鍵核心。
參考資料:
https://arxiv.org/abs/2511.21689
https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/
https://research.nvidia.com/labs/lpr/ToolOrchestra/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.