<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      別讓米其林主廚削土豆!英偉達用「小腦指揮大腦」,重構AGI生產力

      0
      分享至


      新智元報道

      編輯:peter東

      【新智元導讀】覺得大模型消耗的算力過大,英偉達推出的8B模型Orchestrator化身「拼好模」,通過組合工具降本增效,使用30%的預算,在HLE上拿下37.1%的成績。

      最近,NVIDIA Research發現,只要經過適當微調,小模型已足以「指揮」大模型

      英偉達研究團隊的新模型Orchestrator僅有 80 億參數(8B)的模型,不僅比以往的工具使用類AI智能體準確率更高、成本更低,還能在工具選擇上精準對齊用戶的偏好。

      在HLE基準測試中,Orchestrator斬獲了37.1%的高分,一舉超越了GPT-5(35.1%),同時在效率上提升了2.5倍。

      在tau2-Bench和FRAMES測試中,Orchestrator同樣以大幅優勢領先 GPT-5,而其成本僅為后者的30%左右。

      在多項指標上,Orchestrator均實現了性能與成本的最佳平衡,并能出色地泛化至未曾見過的工具中。


      預印本鏈接:https://arxiv.org/abs/2511.21689

      為什么「強模型+工具」還是不夠好?

      面對Humanity’s Last Exam(HLE)這類超難綜合推理考試,現在的大模型雖然「什么都懂一點」,但一到深度推理+控制成本就開始吃力。

      只靠一個大模型(比如GPT-5)去調用搜索、代碼解釋器這些基礎工具,很難同時做到:夠準、夠便宜、夠可控

      為了省錢,業界第一反應是:別什么都讓最強模型上,搞個「調度者」來分配任務。

      但真把主流大模型拉來做調度者,結果卻很諷刺:

      • 當GPT-5做調度時,98%的請求還是落回GPT-5或GPT-5-mini

      • 換成Qwen3-8B,當它拿不準時,73%的任務直接無腦丟給GPT-5

      換句話說:我們以為造了個「調度者」,結果只是多請了一個「轉接電話的前臺」。


      使用不同模型作為調度者后,給不同模型分配的任務

      結果說明,僅僅通過提示詞,無法讓常見的大模型變成合格的調度者

      而ToolOrchestra,通過將「智能」從單一模型中解耦,重構為「輕量調度中樞+異構能力工具集」的復合系統,構成了一種全新的模型與工具協同范式。

      接下來,看看Orchestrator是怎么訓練出來的。

      Orchestrator:多輪執行與自定義RL

      想象一下:過去的大模型,都像高端餐廳,全靠「米其林主廚」(GPT-5)從頭到尾親自炒菜——火候、刀工、擺盤,全靠一人。

      結果呢?由于單個token成本很高,導致總成本直接原地起飛。

      而英偉達新推出的「拼好飯」模式如同中央廚房,一個聰明的「調度店長」(8B小模型Orchestrator)駐守中央,店長不親自炒菜,而是:

      • 讓街角「川菜小館」(Qwen-Math-7B)爆炒回鍋肉(數學題);

      • 招「粵式點心師傅」(Coder-32B)蒸一籠蝦餃(寫代碼);

      • 實在拿不準?叫米其林主廚(GPT-5)來嘗一口、定個味。


      Orchestrator的架構圖

      其中用于調度的8B小模型Orchestrator,會通過強化學習,根據用戶聲明的傾向,系統自動傾向本地部署模型。

      而訓練過程中的獎勵函數,可分為3部分:

      1. 結果,即是否答對,答對+1,否則0;由GPT5給出判斷;

      2. 效率,對應金錢成本和時間延遲;

      3. 對齊用戶工具偏好向量。

      三部分加起來,才是強化學習的目標函數,而最終訓練得到會權衡、聽指揮、懂省錢的Orchestrator。

      Orchestrator還包含類人分步求解機制:

      • 可通過COT思維鏈,Orchestrator分析當前狀態,規劃下一步的結構化工具調用;

      • 之后,通過環境執行(如數學推導、代碼執行輸出)并返回結果;

      • 如此多輪循環,則是Orchestrator的另一創新點。

      有了訓練方法,該研究還構建ToolScale來支撐強化學習的訓練。

      作為首個大規模、可驗證的多輪工具調用合成數據集:ToolScale通過大模型自動構建10個領域(金融、醫療、航空等)的模擬環境(含數據庫+工具API),再生成43萬條含人工標記的最佳工具調用軌跡的任務。


      ToolScale數據合成流程概覽

      每條任務需滿足三重驗證:

      • 執行正確性(數據庫狀態變更一致)

      • 過程保真度(關鍵信息被提及)

      • 操作完備性。

      這些數據被用來訓練Orchestrator。

      AGI的「務實主義革命」

      在三大高難度基準上,Orchestrator-8B全面超越現有方法且顯著降低推理成本

      • 在HLE(人類終極考試)取得37.1%準確率(vs.GPT-5的35.1%),成本僅9.2美分(為GPT-5的30%);

      • 在τ2-Bench(函數調用嚴測)上有80.2%正確率,僅有約40%的步驟調用GPT-5;

      • 而在FRAMES(事實性推理)得分76.3%(vs.SOTA74.2%),延遲降至8.2分鐘(為GPT-5的41%)。


      Orchestrator調度后的模型性能和成本對比。

      相較于強大的單體大語言模型系統,Orchestrator實現了最佳的成本效益:


      進一步分析揭示其卓越性能源于理性分工能力:

      • Orchestrator會按需調用本地檢索、Math-7B、Qwen-32B等低成本工具,僅在關鍵步調用GPT-5(1.95次/題);

      • 若是GPT-5進行調度,那么解決一道題目需要平均調用5.23次GPT05-mini。

      調用低成本的模型去解決不那么復雜的問題,正是Orchestrator能夠降本增效的根源。


      Orchestrator調用不同工具的比例對比

      Orchestrator還展現出極強泛化性:面對訓練未見模型(如Gemma-3-27B、Codestral-22B)或新定價策略(DeepInfra),其性能僅輕微波動,證明其學會的是工具能力抽象與成本-效益權衡的通用策略,而非過擬合特定配置。

      同時在滿足用戶偏好時,Orchestrator的表現也優于其它大模型,這證明Orchestrator具有可定制、可約束、可解釋的工具調度能力。

      復合AI第一步

      這幾年,AI 世界一直在講同一個故事:先造出一個盡可能大的通用大腦,再通過提示詞和少量樣本,把它臨時「裝扮」成翻譯、寫作、編程等各種專家。

      但隨著研究不斷推進,這個故事開始松動:

      越來越多由多個模型和工具協同工作的「復合AI系統」,在安全性、速度和成本上都比單一大模型更有優勢,甚至在能力上也實現趕超。

      總結來看,面對大模型使用后的高成本,高能耗問題,Orchestrator展現了通過將「決策權」與「執行權」分離,不再指望一個超人拯救世界,完全可開辟一條通往高效、可控、可擴展的實用化AGI系統的新路徑。

      ToolOrchestra標志著我們朝著構建真正智能的復合AI系統邁出了第一步,這代表著一種正在興起、旨在取代單一化AI架構的新范式。

      小語言模型終將成為實現可擴展智能體AI的關鍵核心。

      參考資料:

      https://arxiv.org/abs/2511.21689

      https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/

      https://research.nvidia.com/labs/lpr/ToolOrchestra/

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《凡人修仙傳》動畫片尾致謝8萬名粉絲,眾籌4025萬元登頂國漫衍生品榜首

      《凡人修仙傳》動畫片尾致謝8萬名粉絲,眾籌4025萬元登頂國漫衍生品榜首

      紅星新聞
      2025-12-17 12:56:13
      收評:今天A股漲到3881了,明天,12月18號,大概率會這樣走

      收評:今天A股漲到3881了,明天,12月18號,大概率會這樣走

      丁丁鯉史紀
      2025-12-17 14:59:01
      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      不行就換!CBA土豪又開始了,才打2輪就換外援,新援曝光,夠豪橫

      萌蘭聊個球
      2025-12-17 10:37:59
      劉亦菲的腳引熱議!20年隱痛竟藏這些秘密

      劉亦菲的腳引熱議!20年隱痛竟藏這些秘密

      落雪聽梅a
      2025-12-17 09:44:28
      霉霉發13.9億獎金!伴舞500萬,卡車司機70萬,難怪張韶涵被挖人

      霉霉發13.9億獎金!伴舞500萬,卡車司機70萬,難怪張韶涵被挖人

      鋭娛之樂
      2025-12-16 20:35:07
      豪橫!東契奇送給湖人全員圣誕禮物:狂送103件電動自行車太土豪

      豪橫!東契奇送給湖人全員圣誕禮物:狂送103件電動自行車太土豪

      追球者
      2025-12-17 05:40:14
      女研究生和大15歲導師聊天記錄流出,一個步步為營,一個照單全收

      女研究生和大15歲導師聊天記錄流出,一個步步為營,一個照單全收

      知曉科普
      2025-12-08 11:58:52
      安徽健美冠軍王昆去世!僅30歲,常年透支身體,去世當晚還在練!

      安徽健美冠軍王昆去世!僅30歲,常年透支身體,去世當晚還在練!

      有范又有料
      2025-12-17 10:03:22
      袁世凱坐龍椅的真實老照片,接受群臣朝拜,“妃子們”也非常漂亮

      袁世凱坐龍椅的真實老照片,接受群臣朝拜,“妃子們”也非常漂亮

      文史微鑒
      2025-12-13 22:13:15
      羅晉攙扶母親大孤山祈福!父親走后不到一個月,抱著大樹難掩悲傷

      羅晉攙扶母親大孤山祈福!父親走后不到一個月,抱著大樹難掩悲傷

      千言娛樂記
      2025-12-17 18:50:56
      下臺進入倒計時?高市最后算盤落空,關于中日,北約已做出選擇

      下臺進入倒計時?高市最后算盤落空,關于中日,北約已做出選擇

      博覽歷史
      2025-12-16 18:44:57
      廣東2連勝杜鋒笑不出來,胡明軒2人退化嚴重,崔永熙恢復遙遙無期

      廣東2連勝杜鋒笑不出來,胡明軒2人退化嚴重,崔永熙恢復遙遙無期

      二哥聊球
      2025-12-17 16:18:02
      日本通過投票,決定強登釣魚島,福建艦穿越臺海,中日航班將停飛

      日本通過投票,決定強登釣魚島,福建艦穿越臺海,中日航班將停飛

      離離言幾許
      2025-12-17 15:41:10
      混音曬楊瀚森力劈華山瞬間!背靠背32+16真不差 體能劣勢明顯改善

      混音曬楊瀚森力劈華山瞬間!背靠背32+16真不差 體能劣勢明顯改善

      顏小白的籃球夢
      2025-12-17 12:10:25
      天下要大亂了,美國公布最新戰略:為了中國,特朗普決心放棄世界

      天下要大亂了,美國公布最新戰略:為了中國,特朗普決心放棄世界

      Ck的蜜糖
      2025-12-16 10:49:41
      談判結果出來了?英法德承諾:出兵,美國態度變了,普京開始下令

      談判結果出來了?英法德承諾:出兵,美國態度變了,普京開始下令

      書紀文譚
      2025-12-17 17:40:57
      八大軍區司令員對調,中央開會氣氛很緊張,毛主席:先開個玩笑吧

      八大軍區司令員對調,中央開會氣氛很緊張,毛主席:先開個玩笑吧

      南書房
      2025-07-27 00:05:03
      中央國家機關和地方2026年新聞發言人名錄公布

      中央國家機關和地方2026年新聞發言人名錄公布

      極目新聞
      2025-12-16 21:50:43
      中國小伙立下大功,成功破解西方發動機絕密技術,國家獎勵800萬

      中國小伙立下大功,成功破解西方發動機絕密技術,國家獎勵800萬

      攬星河的筆記
      2025-12-02 17:36:34
      好利來大公子穿女裝惹爭議!自稱是妹妹點贊網友評論,承認變女人

      好利來大公子穿女裝惹爭議!自稱是妹妹點贊網友評論,承認變女人

      萌神木木
      2025-12-16 15:56:34
      2025-12-17 19:43:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14122文章數 66388關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      中方被指對日本提出批評并要多國支持立場 外交部回應

      頭條要聞

      中方被指對日本提出批評并要多國支持立場 外交部回應

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      時尚
      房產
      藝術
      本地
      手機

      44歲的宋慧喬面相變了!她的變美思路普通人也可以借鑒

      房產要聞

      團購14888元/㎡起!海建·鳳翔豪庭獻禮自貿港封關

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      手機要聞

      驍龍8 Gen 5+8300mAh大電池!一加 Ace 6T打造全新性價比之選

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕无码专区一VA亚洲V专 | 久久久亚洲欧洲日产国码αv | 亚洲欧美不卡高清在线| 亚洲成a人片| 狠狠干欧美| 噜妇插内射精品| 精品亚洲一区二区三区在线观看| 狠狠色噜噜狠狠狠狠2021| 精品熟女| 国产成人A码男人的天堂国产乱| 精品国产一区二区三区香蕉| 亚洲精品无码专区在线| 在线天堂中文字幕| 湛江市| 久久久久人妻一区二区三区| 与子敌伦刺激对白播放的优点| 亚洲AV永久中文无码精品综合| 91色色网| 内射老妇bbwx0c0ck| www片香蕉内射在线88av8| 日韩内射美女人妻一区二区三区| 久热99re在线无码一区| 成人av亚洲精品| 内射夜晚在线观看| WWW丫丫国产成人精品| 亚洲18禁| 人人色在线视频播放| 无码国产成人午夜电影在线观看| 中文字幕无码传媒| 久久人妻无码AⅤ毛片评价| 色综合久久一区二区三区| 欧美亚洲综合成人a∨在线| 人操人人| 亚洲成人人妻| 精品无码专区毛片| 九九久久自然熟的香蕉图片| 国产AV一二三| 射洪县| 亚洲成人www| 狠狠躁日日躁夜夜躁欧美老妇| 日韩成人一区二区三区在线观看|