<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達巧用8B模型秒掉GPT-5,開源了

      0
      分享至

      英偉達端著一個8B小模型對GPT-5說:

      不好意思,你還得練(bushi)。

      何出此言?——英偉達攜手香港大學開源的Orchestrator-8B,人類終極考試HLE分數更高、花錢更少、跑起來速度還更快。



      哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。



      而它超越GPT-5的打法是不當推理者,而是“工具主理人”,協調使用各路工具。

      如何吊打GPT-5?

      人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?

      Orchestrator干的就是這事兒。

      雖然自己只有8B參數,但手下管著一整個工具團隊。

      既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業數學工具,還有網頁搜索、本地檢索、代碼解釋器這些實用小幫手。



      它并不是自己解題,而是判斷現在該用哪個工具、控制工具的順序和使用次數、還能兼顧效果、成本、用戶偏好,工作日常如下:

      • 拿到難題先分析:這題需要算數學?那就調用Qwen2.5-Math;
      • 過程中動態調整:搜完資料發現需要驗證?那就先用代碼解釋器跑一遍;
      • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優先用本地工具。

      簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團隊干專業活。



      能讓小模型精準協調這么多工具,全靠英偉達的ToolOrchestra訓練大法。

      核心有兩個,一個是有獎有罰的強化學習,一個是量身定制的ToolScale數據集。

      訓練時給Orchestrator立了三條獎懲規則:

      • 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
      • 效率獎:用的錢少、耗時短加分,反之扣分;
      • 偏好獎:聽用戶的話加分,比如用戶要隱私保護,多用本地搜索就加分。

      研究者建了個包含金融、醫療、電商、旅游等10個領域的訓練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。

      Orchestrator-8B也在權威測試中交出了令人滿意的答卷。



      HLE測試里它拿下37.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



      FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。

      小模型的逆襲

      實際上,在AI領域工具編排和小模型驅動復合系統的賽道上,英偉達ToolOrchestra訓練的Orchestrator-8B并非孤例。

      最早探索讓小模型學會調用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監督學習+自生成數據,讓12B參數的模型學會調用計算器、翻譯API、搜索引擎等基礎工具;

      但當時,Toolformer僅聚焦基礎工具,并沒有把大模型納入工具庫。

      MIT和CMU聯合團隊的ToolRL,提出以獎勵為核心的工具學習框架,訓練小模型通過強化學習動態選擇工具,主要是解決“傳統工具學習過度依賴人工標注數據” 的問題,通過自動生成工具交互軌跡訓練模型。

      雖然也是獎勵機制,但ToolRL的獎勵函數更側重于任務的正確性和工具調用效率,并沒有明確納入用戶偏好,且工具庫以基礎工具和專業API為主。

      今年,香港大學和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調用成本優化”的小模型訓練方法。

      越來越多的團隊在做相關研究,也有越來越多的人關注該領域的進展。

      就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

      最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數量小,還能實現「強+省錢」,直接解決了落地時的成本難題。

      用低成本實現高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。

      作者簡介

      Orchestrator-8B這篇論文的一作是香港大學博士蘇弘錦,主要研究方向是數據科學和自然語言處理,現在英偉達實習。



      共一是英偉達研究院的研究科學家Shizhe Diao,主要進行大型基礎模型的預訓練、高效調優和對齊方面的研究,曾與字節跳動人工智能實驗室的李航博士合作。



      論文地址:https://arxiv.org/abs/2511.21689
      項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
      數據集:https://huggingface.co/datasets/nvidia/ToolScale
      HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國派16名特工暗殺斯諾登,駐澳特戰隊擊退CIA,榮獲集體一等功

      美國派16名特工暗殺斯諾登,駐澳特戰隊擊退CIA,榮獲集體一等功

      富強巨靠譜
      2025-02-26 09:30:43
      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      文章上海開陜西館子八號院兒!穿工服端盤子招呼客人,全程微笑

      文章上海開陜西館子八號院兒!穿工服端盤子招呼客人,全程微笑

      觀魚聽雨
      2026-04-09 20:06:27
      斯諾克單賽季獎金榜:趙心童力壓羅伯遜排第1,百萬英鎊到手!

      斯諾克單賽季獎金榜:趙心童力壓羅伯遜排第1,百萬英鎊到手!

      劉姚堯的文字城堡
      2026-04-10 09:34:16
      3-1!0-3!瘋狂一夜,維拉掀翻博洛尼亞,塞爾塔慘敗,波爾圖戰平

      3-1!0-3!瘋狂一夜,維拉掀翻博洛尼亞,塞爾塔慘敗,波爾圖戰平

      足球狗說
      2026-04-10 05:10:46
      1978年陳麗華丈夫遲重瑞罕見青春珍貴留影

      1978年陳麗華丈夫遲重瑞罕見青春珍貴留影

      荒野老五
      2026-04-08 17:55:21
      掃墓才知道家里有長輩是餓死的!網友:原來荒誕的從來都只是人生

      掃墓才知道家里有長輩是餓死的!網友:原來荒誕的從來都只是人生

      夜深愛雜談
      2026-04-08 17:04:46
      澳大利亞等7國發表聯合聲明:“以最強烈措辭”譴責造成聯合國維和人員死亡等行徑

      澳大利亞等7國發表聯合聲明:“以最強烈措辭”譴責造成聯合國維和人員死亡等行徑

      環球網資訊
      2026-04-09 14:51:06
      重磅!佤邦下令:全邦所有化工廠、炸藥廠全面停業整頓

      重磅!佤邦下令:全邦所有化工廠、炸藥廠全面停業整頓

      緬甸中文網
      2026-04-09 14:44:17
      廣東3消息!贊助商力撐杜鋒,跟隊記者披露新大外,焦泊喬新進展

      廣東3消息!贊助商力撐杜鋒,跟隊記者披露新大外,焦泊喬新進展

      多特體育說
      2026-04-09 23:18:22
      藤蔓,不要再讀téng màn了!丟不起那個人!

      藤蔓,不要再讀téng màn了!丟不起那個人!

      未央看點
      2026-04-08 05:50:07
      貝爾湖的歸屬終于有了結果?歷經8年艱苦談判,我國拿回多少面積

      貝爾湖的歸屬終于有了結果?歷經8年艱苦談判,我國拿回多少面積

      抽象派大師
      2026-04-09 14:45:59
      原來她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

      原來她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

      混沌錄
      2026-04-09 18:24:16
      作家王朔回應“被八旬作家楊本芬抄襲”:只言片語算不上抄襲,老太太挺好的,道歉必須原諒

      作家王朔回應“被八旬作家楊本芬抄襲”:只言片語算不上抄襲,老太太挺好的,道歉必須原諒

      極目新聞
      2026-04-09 15:35:29
      世錦賽開打,丁俊暉發長文引熱議!談到克魯斯堡夢想及趙心童奪冠

      世錦賽開打,丁俊暉發長文引熱議!談到克魯斯堡夢想及趙心童奪冠

      小火箭愛體育
      2026-04-10 09:45:13
      73歲大爺伺候95歲母親12年后哭訴:家有長壽母親,是我晚年的噩夢

      73歲大爺伺候95歲母親12年后哭訴:家有長壽母親,是我晚年的噩夢

      烙任情感
      2026-04-09 09:50:30
      美媒重排2025年選秀:楊瀚森掉出首輪 弗拉格狀元克努佩爾榜眼

      美媒重排2025年選秀:楊瀚森掉出首輪 弗拉格狀元克努佩爾榜眼

      羅說NBA
      2026-04-10 05:50:24
      蔣介石孫子召開發布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      蔣介石孫子召開發布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      老謝談史
      2026-03-18 18:33:35
      電動車真實用車成本曝光:省的電費全被車轱轆吃光,看完太真實了

      電動車真實用車成本曝光:省的電費全被車轱轆吃光,看完太真實了

      復轉這些年
      2026-04-08 13:12:11
      日企最后的堡壘正在崩塌,幾乎被中企逼上絕路,難怪日媒這么絕望

      日企最后的堡壘正在崩塌,幾乎被中企逼上絕路,難怪日媒這么絕望

      小熊侃史
      2026-04-08 07:40:09
      2026-04-10 11:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12448文章數 176449關注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      把孫穎莎逼入絕境后,18歲非洲女孩哭著離場

      娛樂要聞

      夏克立婚內出軌 曾參加《爸爸去哪兒》

      財經要聞

      AI短劇"買臉"成風 肖像生意成灰色產業

      汽車要聞

      全新一代理想 L8 五座旗艦+5C增程系統 三季度交付

      態度原創

      本地
      親子
      游戲
      數碼
      公開課

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      親子要聞

      一只手長7根掌骨,8根指骨,"撥亂反正”一次手術分5指

      太用心!《控制》新作有完整中文配音

      數碼要聞

      群聯潘健成:SSD主控太難做了不賺錢 咱們合并吧!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版