<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      只用512張H200!106B模型靠分布式RL殺出重圍,全網開源

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】Prime Intellect發布的INTELLECT-3,在數學、代碼等多項基準測試中取得同規模最強表現。該模型旨在將訓練前沿模型的技術棧開放給社區,推動大規模RL研究的普及與發展。

      最近,Prime Intellect正式發布了INTELLECT-3。

      這是一款擁有106B參數的混合專家(Mixture-of-Experts)模型,基于Prime Intellect的強化學習(RL)技術棧訓練。

      在數學、代碼、科學與推理的各類基準測試上,它達成了同規模中最強的成績,甚至超越了不少更大的前沿模型。

      Prime Intellect已經把完整的訓練流程——包括模型權重、訓練框架、數據集、RL環境和評測體系——全部開源,希望能推動更多關于大規模強化學習的開放研究。

      INTELLECT-3使用的訓練軟件與基礎設施,與即將在Prime Intellect平臺向所有人開放的版本完全一致。

      這意味著未來每個人、每家公司都能擁有對最先進模型進行后訓練的能力。

      多項基準,斬獲SOTA

      INTELLECT-3是一個106B參數的Mixture-of-Experts(MoE)模型,基于GLM 4.5 Air進行了監督微調(SFT)和強化學習訓練。

      它在數學、代碼、科學和推理類Benchmark上均取得了同體量中的最強表現。


      訓練框架

      訓練中,Prime Intellect使用了以下核心組件:

      • PRIME-RL:自研的分布式RL框架,支持監督微調和大規模MoE模型的強化學習。

      • Verifiers 與 Environments Hub:統一的環境接口與生態,用于各類智能體式RL環境與評測。

      • Prime Sandboxes:高吞吐、安全的代碼執行系統,用于智能體代碼類環境。

      • 算力編排:在64個互聯節點上的512張NVIDIA H200 GPU完成調度與管理。

      INTELLECT-3完整使用PRIME-RL進行端到端訓練。

      這套框架與Verifiers環境深度整合,支撐從合成數據生成、監督微調、強化學習到評估的整個后訓練體系。

      通過與Environments Hub的緊密連接,訓練系統可以順暢訪問不斷擴展的環境與評測任務集合。

      PRIME-RL最顯著的特點是全分布式(async-only)。

      研究團隊在上一代INTELLECT-2時就已經確認:

      RL的未來一定是分布式的,也就是始終處于輕微off-policy的狀態。

      因為在長時序智能體rollout中,分布式是唯一能避免速度瓶頸、真正擴大訓練規模的方式。


      過去6個月,研究團隊重點做了大量關于性能、穩定性和大規模效率的消融實驗,INTELLECT-3正是這些研究的成果。

      Prime Intellect也將在即將上線的Lab平臺提供托管式PRIME-RL,訪問者無需處理復雜基礎設施就能進行大規模RL訓練。

      訓練環境

      INTELLECT-3的訓練環境由Verifiers庫構建,并托管于Environments Hub,這是Prime Intellect面向社區的RL環境與評測中心。

      Verifiers是當前領先的開源工具,用來為模型構建RL環境與評測任務。

      它提供模塊化、可擴展的組件,讓復雜環境邏輯也能以簡潔方式描述,同時保持極高性能與吞吐。

      傳統的RL框架通常把環境強綁定在訓練倉庫里,使得版本管理、消融與外部貢獻都不方便。

      Environments Hub則把基于Verifiers的環境作為獨立、可鎖定版本的Python模塊發布,并統一入口點,讓任務可以獨立版本化、共享與持續迭代。


      INTELLECT-3使用的所有環境和評測,均已公開在Environments Hub。

      為了支持強化學習,Prime Intellect大幅擴展并升級了自研的Sandboxes基礎設施。

      在幾千條并發rollout中安全執行外部代碼,需要一個具備亞秒級啟動、毫秒級執行延遲的容器編排層。

      雖然Kubernetes提供了底層能力,但常規架構并無法滿足這種高速度的訓練需求。

      Prime Sandboxes可以繞過Kubernetes控制面板,通過Rust直接與pod通信,做到接近本地進程的延遲;即使在大規模并發下也能在10秒內啟動,且每個節點可穩定運行數百個隔離沙箱。

      在Verifiers中,研究人員將沙箱啟動與模型首輪推理并行,從而完全消除代碼執行前的可感知等待時間。

      算力調度

      研究人員在64個互聯節點上部署了512張NVIDIA H200 GPU。

      最大工程挑戰是如何在可能出現硬件故障的分布式系統里保持確定性與同步。

      • 資源準備:使用Ansible做基礎設施即代碼、自動發現硬件,并進行InfiniBand預檢以隔離慢節點或故障節點。

      • 調度:通過Slurm + cgroup v2確保任務可以干凈退出,不會留下占用GPU顯存的殘留進程。

      • 存儲:用Lustre提供高吞吐訓練I/O,用NVMe NFS作為快速元數據與便捷SSH存儲。

      • 可觀測性:通過DCGM + Prometheus監控,能在問題擴大前快速發現并下線不穩定節點。

      訓練方案

      INTELLECT-3主要分兩階段:

      基于GLM-4.5-Air的監督微調,以及大規模RL訓練。

      兩個階段以及多輪消融實驗都在512張H200 GPU上運行,總共持續兩個月。

      研究人員訓練了覆蓋數學、代碼、科學、邏輯、深度研究、軟件工程等類別的多樣化RL環境,用來提升模型的推理與智能體能力。

      所有環境均已在Environments Hub上公開。


      所有基準測試也都提供了標準化且驗證過的實現。

      未來,Prime Intellect的工作重點包括:

      • 擴展智能體式RL:研究人員將繼續訓練,并更強調智能體環境,預計能在更多任務上獲得進一步提升。

      • 更豐富的RL環境:Environments Hub已擁有 500+ 任務,涵蓋研究、電腦使用、定理證明、自動化和專業領域。INTELLECT-3 只用到了其中一小部分,下一步是讓RL覆蓋更多、更高質量的社區任務。

      • 長時序智能體:研究人員正在讓模型能夠自我管理上下文(如裁剪上下文、分支推理、維護輕量外部記憶),從而讓長時序行為真正可通過RL訓練。未來也會探索專門獎勵長時序推理的環境。

      Prime Intellect正在構建開放的超級智能技術棧,把訓練前沿模型的能力交到每個人手里。

      INTELLECT-3 也證明:即使不是大實驗室,也可以訓練出與頂尖團隊同臺競技的模型。

      參考資料:

      https://www.primeintellect.ai/blog/intellect-3

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      總決賽戰報:國羽2勝2負,國羽世界第5潰敗5-21,十連敗了

      總決賽戰報:國羽2勝2負,國羽世界第5潰敗5-21,十連敗了

      求球不落諦
      2025-12-17 14:40:16
      折疊iPhone明年見!蘋果未來兩年發布路線曝光,主打手機五款變七款

      折疊iPhone明年見!蘋果未來兩年發布路線曝光,主打手機五款變七款

      華爾街見聞官方
      2025-12-17 06:15:19
      董宇輝上綜藝直言:我的伯樂不是俞敏洪,是進入直播間的在線觀眾

      董宇輝上綜藝直言:我的伯樂不是俞敏洪,是進入直播間的在線觀眾

      好賢觀史記
      2025-12-17 09:29:49
      97歲田華現狀曝光,和小孫子相依為命,住破舊老房子,日子清貧

      97歲田華現狀曝光,和小孫子相依為命,住破舊老房子,日子清貧

      以茶帶書
      2025-12-02 18:11:43
      當著8國的面,中方一錘定音,特朗普出面撈人,西方輸得無話可說

      當著8國的面,中方一錘定音,特朗普出面撈人,西方輸得無話可說

      科普100克克
      2025-12-17 16:42:22
      湖南省委書記:從嚴懲處衙內腐敗

      湖南省委書記:從嚴懲處衙內腐敗

      極目新聞
      2025-12-17 10:16:30
      一日雙喜,廣東這兩條高鐵或同日通車,提升廣州對粵東粵西輻射力

      一日雙喜,廣東這兩條高鐵或同日通車,提升廣州對粵東粵西輻射力

      徐徐道史
      2025-12-17 15:04:57
      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      “牡丹花下死,做鬼也風流”,這一次,74歲的張紀中徹底成了笑話

      洲洲影視娛評
      2025-12-08 19:52:00
      不出高速泡溫泉!廣東首個溫泉主題特色服務區年底有望迎客

      不出高速泡溫泉!廣東首個溫泉主題特色服務區年底有望迎客

      小舟談歷史
      2025-12-17 01:02:24
      美國國務卿表示:若副總統萬斯2028年參加大選,將全力支持他!

      美國國務卿表示:若副總統萬斯2028年參加大選,將全力支持他!

      AI商業論
      2025-12-17 14:04:48
      文班亞馬,哭了!MVP!東部第一后衛誕生

      文班亞馬,哭了!MVP!東部第一后衛誕生

      籃球實戰寶典
      2025-12-17 17:24:23
      同行質疑公牛集團“10戶中國家庭,7戶用公牛”誤導宣傳,被起訴索賠420萬

      同行質疑公牛集團“10戶中國家庭,7戶用公牛”誤導宣傳,被起訴索賠420萬

      大風新聞
      2025-12-17 15:08:02
      抵達深圳,張明池正式簽約,新球隊曝光,目標沖冠,杜鋒期待

      抵達深圳,張明池正式簽約,新球隊曝光,目標沖冠,杜鋒期待

      樂聊球
      2025-12-17 12:09:20
      無業男戲癮上身扮民警12年,高升至公安局副局長,因百萬借款露餡

      無業男戲癮上身扮民警12年,高升至公安局副局長,因百萬借款露餡

      歷史品鑒倉
      2025-12-12 17:02:56
      李平康:戴琳對自己母親也經常辱罵,母親為幫他還債外出打工

      李平康:戴琳對自己母親也經常辱罵,母親為幫他還債外出打工

      懂球帝
      2025-12-16 11:45:12
      三方交易方案出爐!濃眉去馬刺,聯手文班亞馬?圣城打造三巨頭?

      三方交易方案出爐!濃眉去馬刺,聯手文班亞馬?圣城打造三巨頭?

      籃球掃地僧
      2025-12-17 15:43:39
      盧秀燕在市議會答詢時叫囂:不管是哪個國籍,包括中國、美國……

      盧秀燕在市議會答詢時叫囂:不管是哪個國籍,包括中國、美國……

      南權先生
      2025-12-17 16:48:58
      杭州小米交付中心車禍!事件經過曝光,有網友稱是自己堂弟沒了…

      杭州小米交付中心車禍!事件經過曝光,有網友稱是自己堂弟沒了…

      火山詩話
      2025-12-16 05:54:57
      日本人:我們從不用中國貨,日本專家拆臺:連棺材都是中國制造的

      日本人:我們從不用中國貨,日本專家拆臺:連棺材都是中國制造的

      鐵錘簡科
      2025-12-17 17:35:51
      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,真賣不動了

      大跳水!暴跌40%,又土又貴還開遍機場,中產的標配,真賣不動了

      小莜讀史
      2025-10-25 22:25:22
      2025-12-17 18:24:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14119文章數 66388關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      男子花十幾萬"賭石"付款前說是頂級貨 切開全是邊角料

      頭條要聞

      男子花十幾萬"賭石"付款前說是頂級貨 切開全是邊角料

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      鞠婧祎收入曝光,絲芭稱已支付1.3億

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      游戲
      手機
      健康
      數碼
      軍事航空

      《FF7重制版》制作人透露 自己平時最愛玩《健身環》

      手機要聞

      小米開伙伴大會,vivo聯手田曦薇搞活動,OPPO在比賽,榮耀在定檔

      這些新療法,讓化療不再那么痛苦

      數碼要聞

      AMD推出Radeon RX 9060 XT LP顯卡,9060 XT 16GB降頻版

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码国产精品一区二区色情男同| 少妇无码| 日本无遮挡吸乳视频| 亚洲日本91| 亚洲老妈激情一区二区三区| 一本色道久久88亚洲精品综合| 色大成| 色婷婷综合久久久久中文一区二区| 揭东县| 久久这里只精品国产2| 亚洲精品一区二区国产精华液| 色婷av| 一本二本三本亚洲??码| 无码国产精品一区二区免费3p| 日韩欧美2| 又粗又大AV| 亚洲欧美成人一区二区三区| 亚洲男人av香蕉爽爽爽爽| 91视频网页| 91久久国产成人免费观看| 亚洲日韩中文第一精品| 亚洲国产另类久久久精品小说 | 久9re热视频这里只有精品免费| 屁屁影院ccyy备用地址| 日本精品毛片| 靖远县| 3P网站| 亚洲欧美综合一区二区三区| 一本大道无码人妻精品专区| 久久久久国精品产熟女久色| 金湖县| 大色综合| 久久精品夜色噜噜亚洲A∨| 韩国三级hd中文字幕| 日韩一区国产二区欧美三区| 日本女V片| 五月婷婷开心| 久久夜色撩人精品国产av| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 人妻av无码一区二区三区| 在线免费看av|