<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<style id="zljff"></style>

<sub id="zljff"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

別讓米其林主廚削土豆！英偉達用「小腦指揮大腦」，重構AGI生產力

2025-12-12 07:18:57　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：peter東

【新智元導讀】覺得大模型消耗的算力過大，英偉達推出的8B模型Orchestrator化身「拼好模」，通過組合工具降本增效，使用30%的預算，在HLE上拿下37.1%的成績。

最近，NVIDIA Research發現，只要經過適當微調，小模型已足以「指揮」大模型

英偉達研究團隊的新模型Orchestrator僅有 80 億參數（8B）的模型，不僅比以往的工具使用類AI智能體準確率更高、成本更低，還能在工具選擇上精準對齊用戶的偏好。

在HLE基準測試中，Orchestrator斬獲了37.1%的高分，一舉超越了GPT-5（35.1%），同時在效率上提升了2.5倍。

在tau2-Bench和FRAMES測試中，Orchestrator同樣以大幅優勢領先 GPT-5，而其成本僅為后者的30%左右。

在多項指標上，Orchestrator均實現了性能與成本的最佳平衡，并能出色地泛化至未曾見過的工具中。

預印本鏈接：https://arxiv.org/abs/2511.21689

為什么「強模型+工具」還是不夠好？

面對Humanity’s Last Exam（HLE）這類超難綜合推理考試，現在的大模型雖然「什么都懂一點」，但一到深度推理+控制成本就開始吃力。

只靠一個大模型（比如GPT-5）去調用搜索、代碼解釋器這些基礎工具，很難同時做到：夠準、夠便宜、夠可控。

為了省錢，業界第一反應是：別什么都讓最強模型上，搞個「調度者」來分配任務。

但真把主流大模型拉來做調度者，結果卻很諷刺：

當GPT-5做調度時，98%的請求還是落回GPT-5或GPT-5-mini；
換成Qwen3-8B，當它拿不準時，73%的任務直接無腦丟給GPT-5。

換句話說：我們以為造了個「調度者」，結果只是多請了一個「轉接電話的前臺」。

使用不同模型作為調度者后，給不同模型分配的任務

結果說明，僅僅通過提示詞，無法讓常見的大模型變成合格的調度者。

而ToolOrchestra，通過將「智能」從單一模型中解耦，重構為「輕量調度中樞+異構能力工具集」的復合系統，構成了一種全新的模型與工具協同范式。

接下來，看看Orchestrator是怎么訓練出來的。

Orchestrator：多輪執行與自定義RL

想象一下：過去的大模型，都像高端餐廳，全靠「米其林主廚」（GPT-5）從頭到尾親自炒菜——火候、刀工、擺盤，全靠一人。

結果呢？由于單個token成本很高，導致總成本直接原地起飛。

而英偉達新推出的「拼好飯」模式如同中央廚房，一個聰明的「調度店長」（8B小模型Orchestrator）駐守中央，店長不親自炒菜，而是:

讓街角「川菜小館」（Qwen-Math-7B）爆炒回鍋肉（數學題）；
招「粵式點心師傅」（Coder-32B）蒸一籠蝦餃（寫代碼）；
實在拿不準？叫米其林主廚（GPT-5）來嘗一口、定個味。

Orchestrator的架構圖

其中用于調度的8B小模型Orchestrator，會通過強化學習，根據用戶聲明的傾向，系統自動傾向本地部署模型。

而訓練過程中的獎勵函數，可分為3部分：

1. 結果，即是否答對，答對+1，否則0；由GPT5給出判斷；

2. 效率，對應金錢成本和時間延遲；

3. 對齊用戶工具偏好向量。

三部分加起來，才是強化學習的目標函數，而最終訓練得到會權衡、聽指揮、懂省錢的Orchestrator。

Orchestrator還包含類人分步求解機制:

可通過COT思維鏈，Orchestrator分析當前狀態，規劃下一步的結構化工具調用;
之后，通過環境執行（如數學推導、代碼執行輸出）并返回結果;
如此多輪循環，則是Orchestrator的另一創新點。

有了訓練方法，該研究還構建ToolScale來支撐強化學習的訓練。

作為首個大規模、可驗證的多輪工具調用合成數據集：ToolScale通過大模型自動構建10個領域（金融、醫療、航空等）的模擬環境（含數據庫+工具API），再生成43萬條含人工標記的最佳工具調用軌跡的任務。

ToolScale數據合成流程概覽

每條任務需滿足三重驗證:

執行正確性（數據庫狀態變更一致）
過程保真度（關鍵信息被提及）
操作完備性。

這些數據被用來訓練Orchestrator。

AGI的「務實主義革命」

在三大高難度基準上，Orchestrator-8B全面超越現有方法且顯著降低推理成本：

在HLE（人類終極考試）取得37.1%準確率（vs.GPT-5的35.1%），成本僅9.2美分（為GPT-5的30%）；
在τ2-Bench（函數調用嚴測）上有80.2%正確率，僅有約40%的步驟調用GPT-5；
而在FRAMES（事實性推理）得分76.3%（vs.SOTA74.2%），延遲降至8.2分鐘（為GPT-5的41%）。

Orchestrator調度后的模型性能和成本對比。

相較于強大的單體大語言模型系統，Orchestrator實現了最佳的成本效益：

進一步分析揭示其卓越性能源于理性分工能力：

Orchestrator會按需調用本地檢索、Math-7B、Qwen-32B等低成本工具，僅在關鍵步調用GPT-5（1.95次/題）；
若是GPT-5進行調度，那么解決一道題目需要平均調用5.23次GPT05-mini。

調用低成本的模型去解決不那么復雜的問題，正是Orchestrator能夠降本增效的根源。

Orchestrator調用不同工具的比例對比

Orchestrator還展現出極強泛化性：面對訓練未見模型（如Gemma-3-27B、Codestral-22B）或新定價策略（DeepInfra），其性能僅輕微波動，證明其學會的是工具能力抽象與成本-效益權衡的通用策略，而非過擬合特定配置。

同時在滿足用戶偏好時，Orchestrator的表現也優于其它大模型，這證明Orchestrator具有可定制、可約束、可解釋的工具調度能力。

復合AI第一步

這幾年，AI 世界一直在講同一個故事：先造出一個盡可能大的通用大腦，再通過提示詞和少量樣本，把它臨時「裝扮」成翻譯、寫作、編程等各種專家。

但隨著研究不斷推進，這個故事開始松動：

越來越多由多個模型和工具協同工作的「復合AI系統」，在安全性、速度和成本上都比單一大模型更有優勢，甚至在能力上也實現趕超。

總結來看，面對大模型使用后的高成本，高能耗問題，Orchestrator展現了通過將「決策權」與「執行權」分離，不再指望一個超人拯救世界，完全可開辟一條通往高效、可控、可擴展的實用化AGI系統的新路徑。

ToolOrchestra標志著我們朝著構建真正智能的復合AI系統邁出了第一步，這代表著一種正在興起、旨在取代單一化AI架構的新范式。

小語言模型終將成為實現可擴展智能體AI的關鍵核心。

參考資料：

https://arxiv.org/abs/2511.21689

https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/

https://research.nvidia.com/labs/lpr/ToolOrchestra/

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

英偉達AI世界模擬器？AI P圖學會「腦補」過程了！

新智元 2025-11-04 19:33:28
0 跟貼 0
會議軟件Zoom也來搞AI了，稱在AI最難考試上“擊敗”了Gemini 3

DeepTech深科技 2025-12-15 17:00:52
1 跟貼 1

年終盤點：誰會成為中國的"Nano Banana"？

鈦媒體APP 2025-12-16 13:42:16
0 跟貼 0

小米突發新模型，主打“極致性價比”，羅福莉：“這只是我們AGI圖線路上的第二步”

華爾街見聞官方 2025-12-17 10:52:23
1 跟貼 1
Nature重磅發文：深度學習x符號學習，是AGI唯一路徑！

新智元 2025-12-16 22:52:52
1 跟貼 1

經驗記憶黑科技：LightSearcher讓AI工具調用減39.6%推理快48.6%

機器之心Pro 2025-12-17 14:49:43
0 跟貼 0

OpenAI大佬爆料：打字太慢拖后腿，人類竟成了AGI短板？

新智元 2025-12-17 18:05:21
0 跟貼 0
企業級智能體落地，誰沒踩這四種大坑？無問芯穹的系統性解法來了

量子位 2025-12-16 20:10:20
0 跟貼 0

“天才少女”羅福莉首秀：小米MiMo大模型，比DeepSeek更便宜、推理速度快三倍

鈦媒體APP 2025-12-17 15:09:09
31 跟貼 31
突發！OpenAI大神姚順雨，任騰訊首席AI科學家

新智元 2025-12-17 18:05:53
0 跟貼 0
VGGT4D：無需訓練，挖掘3D基礎模型潛力，實現4D動態場景重建

機器之心Pro 2025-12-17 17:46:42
0 跟貼 0
騰訊AI，悄然加速

華爾街見聞官方 2025-12-17 19:08:14
0 跟貼 0
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
我把賣土豆的錢退回后村民才消氣，后來土豆全部爛掉了，他們崩潰

初初知識分享 2025-12-17 03:12:00
0 跟貼 0
沐曦股份上市首日市值突破3300億元，下一代GPU“風險量產”臨考

每日經濟新聞 2025-12-17 17:13:07
0 跟貼 0
“中國版英偉達”之爭升溫！沐曦上市首日暴漲700%，市值逼近摩爾線程

華爾街見聞官方 2025-12-17 15:47:25
3 跟貼 3
英偉達CEO黃仁勛：中國半導體產業很快就會趕上美國！

知了3C 2025-12-15 20:45:22
0 跟貼 0
第一次來云南吃席，洋芋是必不可少的，云南人對洋芋太瘋狂！

爆笑小子 2025-12-16 13:19:04
1 跟貼 1
性能不是最強，但影響力最強，因為它徹底改變了世界AI格局

網易科技態度見聞 2025-12-14 07:00:00
0 跟貼 0
英偉達收購開源工作負載管理提供商SchedMD

界面新聞 2025-12-16 08:06:55
0 跟貼 0
這是最近網上很火的土豆新吃法，酸辣滑嫩，大人孩子都愛吃

南幕食歇 2025-12-15 12:30:28
1 跟貼 1
男子夢游名場面，戴著眼罩進廚房，切土豆手法讓人驚掉下巴！

歡樂奇趣坊 2025-12-16 17:16:30
1 跟貼 1
中國廚師秀刀功花式切土豆，看到最后服了!

河海觀潮 2025-12-17 15:47:16
0 跟貼 0
迪拜帆船酒店吃米其林

叫我土豆包呀 2025-12-16 10:14:01
0 跟貼 0
改良土豆采收中，不需要種植在地里輕松采摘，網友：這土豆好吃嗎？

安全與法 2025-12-13 18:15:49
0 跟貼 0
今天才知道，原來保存土豆這么簡單，不發芽不變綠，看完漲知識了

百變小廚坊VS龍兒美食 2025-12-16 02:25:07
0 跟貼 0
國外漢堡店做現切薯條，將一個土豆放機器里切成條，網友：原來這么簡單粗暴啊

星沙時報 2025-12-17 10:01:17
0 跟貼 0
東北拖拉機再就業，干完農活溜上土豆，是誰羨慕了我不說！

搞怪趣星球 2025-12-17 10:06:21
3 跟貼 3
一個土豆搭配一個洋蔥，做出來鮮香下飯，超級無敵

小安美食館 2025-12-15 10:06:31
1 跟貼 1
小伙切土豆炫技刀功，第一刀以為是搞笑的，沒想到后面是認真的

CQTV新視界 2025-12-17 17:18:55
0 跟貼 0
我是做夢也沒想到，把土豆放油里炸一炸，出鍋像花一樣漂亮

小安美食館 2025-12-16 09:44:43
1 跟貼 1
路邊攤鍋巴洋芋

就叫我喬兒吧 2025-12-15 11:23:30
2 跟貼 2
想吃燒烤就自己在家做，孩子的操作讓人學到了不少，網友：第一次知道還能下面放土豆

青廣品運 2025-12-16 19:09:31
0 跟貼 0
你見過長在半空中的土豆嗎？

碳酸熊卡 2025-12-17 09:54:30
1 跟貼 1
無預訓練模型拿下ARC-AGI榜三！Mamba作者用壓縮挑戰Scaling Law

量子位 2025-12-16 14:56:58
0 跟貼 0
一個簡單的土豆，竟能變得這么高級，感覺有點買不起了！

搞怪仙人掌 2025-12-17 15:17:44
1 跟貼 1
原來土豆是這樣種的，還以為是煤炭呢，網友：不仔細看都看不出來

馬路江湖 2025-12-16 21:57:06
0 跟貼 0
不在土里種植的土豆，采摘時都不靠挖，科技改變生活！

搞笑協會吖 2025-12-17 13:48:44
1 跟貼 1
媽媽切土豆片時，只會將土豆放在手上切！

趣聞焦點 2025-12-17 18:00:29
0 跟貼 0

《凡人修仙傳》動畫片尾致謝8萬名粉絲，眾籌4025萬元登頂國漫衍生品榜首

《凡人修仙傳》動畫片尾致謝8萬名粉絲，眾籌4025萬元登頂國漫衍生品榜首

紅星新聞

2025-12-17 12:56:13

收評：今天A股漲到3881了，明天，12月18號，大概率會這樣走

收評：今天A股漲到3881了，明天，12月18號，大概率會這樣走

丁丁鯉史紀

2025-12-17 14:59:01

不行就換！CBA土豪又開始了，才打2輪就換外援，新援曝光，夠豪橫

不行就換！CBA土豪又開始了，才打2輪就換外援，新援曝光，夠豪橫

萌蘭聊個球

2025-12-17 10:37:59

劉亦菲的腳引熱議！20年隱痛竟藏這些秘密

劉亦菲的腳引熱議！20年隱痛竟藏這些秘密

落雪聽梅a

2025-12-17 09:44:28

霉霉發13.9億獎金！伴舞500萬，卡車司機70萬，難怪張韶涵被挖人

霉霉發13.9億獎金！伴舞500萬，卡車司機70萬，難怪張韶涵被挖人

鋭娛之樂

2025-12-16 20:35:07

豪橫！東契奇送給湖人全員圣誕禮物：狂送103件電動自行車太土豪

豪橫！東契奇送給湖人全員圣誕禮物：狂送103件電動自行車太土豪

追球者

2025-12-17 05:40:14

女研究生和大15歲導師聊天記錄流出，一個步步為營，一個照單全收

女研究生和大15歲導師聊天記錄流出，一個步步為營，一個照單全收

知曉科普

2025-12-08 11:58:52

安徽健美冠軍王昆去世！僅30歲，常年透支身體，去世當晚還在練！

安徽健美冠軍王昆去世！僅30歲，常年透支身體，去世當晚還在練！

有范又有料

2025-12-17 10:03:22

袁世凱坐龍椅的真實老照片，接受群臣朝拜，“妃子們”也非常漂亮

袁世凱坐龍椅的真實老照片，接受群臣朝拜，“妃子們”也非常漂亮

文史微鑒

2025-12-13 22:13:15

羅晉攙扶母親大孤山祈福！父親走后不到一個月，抱著大樹難掩悲傷

羅晉攙扶母親大孤山祈福！父親走后不到一個月，抱著大樹難掩悲傷

千言娛樂記

2025-12-17 18:50:56

下臺進入倒計時？高市最后算盤落空，關于中日，北約已做出選擇

下臺進入倒計時？高市最后算盤落空，關于中日，北約已做出選擇

博覽歷史

2025-12-16 18:44:57

廣東2連勝杜鋒笑不出來，胡明軒2人退化嚴重，崔永熙恢復遙遙無期

廣東2連勝杜鋒笑不出來，胡明軒2人退化嚴重，崔永熙恢復遙遙無期

二哥聊球

2025-12-17 16:18:02

日本通過投票，決定強登釣魚島，福建艦穿越臺海，中日航班將停飛

日本通過投票，決定強登釣魚島，福建艦穿越臺海，中日航班將停飛

離離言幾許

2025-12-17 15:41:10

混音曬楊瀚森力劈華山瞬間！背靠背32+16真不差體能劣勢明顯改善

混音曬楊瀚森力劈華山瞬間！背靠背32+16真不差體能劣勢明顯改善

顏小白的籃球夢

2025-12-17 12:10:25

天下要大亂了，美國公布最新戰略：為了中國，特朗普決心放棄世界

天下要大亂了，美國公布最新戰略：為了中國，特朗普決心放棄世界

Ck的蜜糖

2025-12-16 10:49:41

談判結果出來了？英法德承諾：出兵，美國態度變了，普京開始下令

談判結果出來了？英法德承諾：出兵，美國態度變了，普京開始下令

書紀文譚

2025-12-17 17:40:57

八大軍區司令員對調，中央開會氣氛很緊張，毛主席：先開個玩笑吧

八大軍區司令員對調，中央開會氣氛很緊張，毛主席：先開個玩笑吧

南書房

2025-07-27 00:05:03

中央國家機關和地方2026年新聞發言人名錄公布

中央國家機關和地方2026年新聞發言人名錄公布

極目新聞

2025-12-16 21:50:43

中國小伙立下大功，成功破解西方發動機絕密技術，國家獎勵800萬

中國小伙立下大功，成功破解西方發動機絕密技術，國家獎勵800萬

攬星河的筆記

2025-12-02 17:36:34

好利來大公子穿女裝惹爭議！自稱是妹妹點贊網友評論，承認變女人

好利來大公子穿女裝惹爭議！自稱是妹妹點贊網友評論，承認變女人

萌神木木

2025-12-16 15:56:34

AI產業主平臺領航智能+時代

14122文章數 66388關注度

往期回顧全部

科技要聞

特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

頭條要聞

中方被指對日本提出批評并要多國支持立場外交部回應

頭條要聞

中方被指對日本提出批評并要多國支持立場外交部回應

體育要聞

短短一年，從爭冠到0勝墊底...

娛樂要聞

狗仔曝熱播劇姐弟戀真談了？？？

財經要聞

重磅信號！收入分配制度或迎重大突破

汽車要聞

一車多動力+雙姿態長城歐拉5上市限時9.18萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

房產

藝術

本地

手機

44歲的宋慧喬面相變了！她的變美思路普通人也可以借鑒

房產要聞

團購14888元/㎡起！海建·鳳翔豪庭獻禮自貿港封關

藝術要聞

毛主席書寫林則徐詩詞，字跡超凡，引發關注。

本地新聞

云游安徽｜踏過戰壕與石板，讀一部活的淮北史

手機要聞

驍龍8 Gen 5+8300mAh大電池！一加 Ace 6T打造全新性價比之選

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：中文字幕无码专区一VA亚洲V专 | 久久久亚洲欧洲日产国码αv | 亚洲欧美不卡高清在线| 亚洲成a人片| 狠狠干欧美| 噜妇插内射精品| 精品亚洲一区二区三区在线观看| 狠狠色噜噜狠狠狠狠2021| 精品熟女| 国产成人A码男人的天堂国产乱| 精品国产一区二区三区香蕉| 亚洲精品无码专区在线| 在线天堂中文字幕| 湛江市| 久久久久人妻一区二区三区| 与子敌伦刺激对白播放的优点| 亚洲AV永久中文无码精品综合| 91色色网| 内射老妇bbwx0c0ck| www片香蕉内射在线88av8| 日韩内射美女人妻一区二区三区| 久热99re在线无码一区| 成人av亚洲精品| 内射夜晚在线观看| WWW丫丫国产成人精品| 亚洲18禁| 人人色在线视频播放| 无码国产成人午夜电影在线观看| 中文字幕无码传媒| 久久人妻无码AⅤ毛片评价| 色综合久久一区二区三区| 欧美亚洲综合成人a∨在线| 人操人人| 亚洲成人人妻| 精品无码专区毛片| 九九久久自然熟的香蕉图片| 国产AV一二三| 射洪县| 亚洲成人www| 狠狠躁日日躁夜夜躁欧美老妇| 日韩成人一区二区三区在线观看|