![]()
這項(xiàng)由Prime Intellect團(tuán)隊(duì)于2025年12月發(fā)表的研究報(bào)告,詳細(xì)介紹了他們開(kāi)發(fā)的INTELLECT-3模型及其完整的開(kāi)源訓(xùn)練基礎(chǔ)設(shè)施。這個(gè)研究團(tuán)隊(duì)包括了來(lái)自多個(gè)機(jī)構(gòu)的研究人員,包括Mika Senghaas、Fares Obeid、Sami Jaghouar等十多位專(zhuān)家。研究成果發(fā)表在arXiv預(yù)印本服務(wù)器上,論文編號(hào)為arXiv:2512.16144v1。
說(shuō)起訓(xùn)練大型語(yǔ)言模型,就像是培養(yǎng)一個(gè)超級(jí)聰明的學(xué)生。傳統(tǒng)的訓(xùn)練方式就好比只給學(xué)生看書(shū)做題,但Prime Intellect團(tuán)隊(duì)想要的是讓這個(gè)學(xué)生不僅能讀書(shū),還能動(dòng)手解決實(shí)際問(wèn)題,甚至能像真正的專(zhuān)家一樣思考和行動(dòng)。他們開(kāi)發(fā)的INTELLECT-3模型雖然只有106億參數(shù)(其中12億處于活躍狀態(tài)),但在數(shù)學(xué)、編程、科學(xué)推理等各種測(cè)試中的表現(xiàn),居然能夠超越許多規(guī)模大出好幾倍的知名模型。
更重要的是,這個(gè)團(tuán)隊(duì)沒(méi)有把他們的"秘方"藏起來(lái),而是把整套訓(xùn)練工具都開(kāi)源了出來(lái)。這就像一位頂級(jí)廚師不僅公開(kāi)了自己的招牌菜譜,還把廚具、爐灶、甚至整個(gè)廚房的設(shè)計(jì)圖紙都免費(fèi)分享給大家。他們開(kāi)源的不僅僅是最終的INTELLECT-3模型,還包括了名為prime-rl的強(qiáng)化學(xué)習(xí)訓(xùn)練框架、用于創(chuàng)建訓(xùn)練環(huán)境的verifiers庫(kù)、安全的代碼執(zhí)行系統(tǒng)Prime Sandboxes,以及一個(gè)名為Environments Hub的社區(qū)平臺(tái)。
在具體的測(cè)試成績(jī)上,INTELLECT-3在2024年和2025年的AIME數(shù)學(xué)競(jìng)賽中分別取得了90.8%和88.0%的成績(jī),在編程測(cè)試LiveCodeBench v6中達(dá)到69.3%的正確率。這些數(shù)字看起來(lái)可能比較抽象,但可以這樣理解:如果把這些測(cè)試比作高難度的考試,INTELLECT-3基本上能在每十道題中答對(duì)九道,這個(gè)水平已經(jīng)超越了許多參數(shù)量是它好幾倍的大型模型。
一、革命性的訓(xùn)練基礎(chǔ)設(shè)施
Prime Intellect團(tuán)隊(duì)構(gòu)建的訓(xùn)練系統(tǒng)就像是一個(gè)高度自動(dòng)化的現(xiàn)代化工廠。在傳統(tǒng)的模型訓(xùn)練中,就好比你要一個(gè)人既當(dāng)老師教學(xué)生,又要當(dāng)考官出題評(píng)分,還要管理整個(gè)教室的秩序。這種方式不僅效率低下,當(dāng)需要大規(guī)模訓(xùn)練時(shí)更是力不從心。而他們?cè)O(shè)計(jì)的prime-rl框架則像是建立了一條專(zhuān)業(yè)的流水線,每個(gè)環(huán)節(jié)都有專(zhuān)門(mén)的"工人"負(fù)責(zé),整個(gè)過(guò)程異步進(jìn)行,大大提高了訓(xùn)練效率。
這個(gè)訓(xùn)練系統(tǒng)的核心包含三個(gè)主要組件:協(xié)調(diào)器、訓(xùn)練器和推理服務(wù)。協(xié)調(diào)器就像工廠的調(diào)度中心,負(fù)責(zé)協(xié)調(diào)各個(gè)部門(mén)的工作;訓(xùn)練器專(zhuān)門(mén)負(fù)責(zé)更新模型的"知識(shí)";推理服務(wù)則專(zhuān)門(mén)負(fù)責(zé)讓模型進(jìn)行"思考"和"回答"。這種分工合作的方式讓整個(gè)訓(xùn)練過(guò)程能夠在數(shù)百甚至數(shù)千個(gè)GPU上同時(shí)進(jìn)行,就像一個(gè)龐大的樂(lè)團(tuán),每個(gè)樂(lè)器都在演奏自己的部分,但整體上形成了和諧的交響樂(lè)。
特別值得一提的是,他們實(shí)現(xiàn)了一種叫做"異步離策略訓(xùn)練"的技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是讓模型能夠邊學(xué)習(xí)邊實(shí)踐,而不需要等一個(gè)步驟完全結(jié)束才開(kāi)始下一個(gè)。這就像讓學(xué)生在還沒(méi)完全掌握上一課內(nèi)容的時(shí)候就開(kāi)始做新的練習(xí)題,通過(guò)不斷的實(shí)踐來(lái)鞏固和完善理解。這種方式大大縮短了訓(xùn)練時(shí)間,提高了整體效率。
二、智能化的學(xué)習(xí)環(huán)境設(shè)計(jì)
如果說(shuō)prime-rl是訓(xùn)練工廠的框架,那么verifiers庫(kù)就是為模型設(shè)計(jì)各種"學(xué)習(xí)場(chǎng)景"的工具箱。就像一個(gè)好的老師不會(huì)只讓學(xué)生做同樣類(lèi)型的題目,而是會(huì)設(shè)計(jì)各種不同的練習(xí)來(lái)鍛煉學(xué)生的不同能力。verifiers庫(kù)讓研究者能夠輕松創(chuàng)建各種復(fù)雜的學(xué)習(xí)環(huán)境,從數(shù)學(xué)問(wèn)題求解到代碼編寫(xiě),從科學(xué)推理到邏輯思考,應(yīng)有盡有。
這個(gè)系統(tǒng)最巧妙的地方在于它的模塊化設(shè)計(jì)。每個(gè)學(xué)習(xí)環(huán)境都像一個(gè)獨(dú)立的"課程包",包含了題目數(shù)據(jù)、評(píng)分標(biāo)準(zhǔn)、獎(jiǎng)勵(lì)機(jī)制等所有必要元素。研究者可以像搭積木一樣,把不同的環(huán)境組合起來(lái),創(chuàng)造出適合特定訓(xùn)練目標(biāo)的學(xué)習(xí)方案。更重要的是,這些環(huán)境是可以復(fù)用和分享的,就像優(yōu)秀的教案可以在不同的學(xué)校之間傳播一樣。
在實(shí)際訓(xùn)練中,模型需要在各種不同難度的問(wèn)題中學(xué)習(xí)。系統(tǒng)會(huì)根據(jù)模型的當(dāng)前能力自動(dòng)調(diào)整題目難度,太簡(jiǎn)單的題目會(huì)被過(guò)濾掉(因?yàn)闆](méi)有學(xué)習(xí)價(jià)值),太難的題目也會(huì)暫時(shí)擱置(避免挫敗感),確保模型始終在適合的難度區(qū)間內(nèi)學(xué)習(xí)進(jìn)步。這種智能化的難度調(diào)節(jié)機(jī)制,就像一個(gè)經(jīng)驗(yàn)豐富的私人教師,總是能夠?yàn)閷W(xué)生提供恰到好處的挑戰(zhàn)。
三、安全高效的代碼執(zhí)行系統(tǒng)
當(dāng)模型需要學(xué)習(xí)編程時(shí),就必須能夠?qū)嶋H運(yùn)行和測(cè)試代碼。但讓AI隨意執(zhí)行代碼就像給小孩玩火一樣危險(xiǎn),必須有嚴(yán)格的安全措施。Prime Sandboxes就是為此而生的安全代碼執(zhí)行系統(tǒng),它就像為每個(gè)代碼測(cè)試創(chuàng)建了一個(gè)完全隔離的"實(shí)驗(yàn)室"。
傳統(tǒng)的代碼執(zhí)行方式就像在同一個(gè)房間里同時(shí)進(jìn)行多個(gè)化學(xué)實(shí)驗(yàn),一旦有一個(gè)實(shí)驗(yàn)出錯(cuò),可能會(huì)影響到其他所有實(shí)驗(yàn)。而Prime Sandboxes則為每個(gè)代碼執(zhí)行創(chuàng)建了獨(dú)立的"容器",即使某個(gè)代碼出現(xiàn)問(wèn)題,也不會(huì)影響到系統(tǒng)的其他部分。更重要的是,這個(gè)系統(tǒng)能夠同時(shí)處理成千上萬(wàn)個(gè)代碼執(zhí)行任務(wù),就像一個(gè)巨大的實(shí)驗(yàn)室大樓,里面有無(wú)數(shù)個(gè)獨(dú)立的實(shí)驗(yàn)室同時(shí)工作。
這個(gè)系統(tǒng)的另一個(gè)創(chuàng)新之處在于它的高效調(diào)度機(jī)制。傳統(tǒng)的方式需要為每個(gè)任務(wù)從頭開(kāi)始準(zhǔn)備環(huán)境,就像每次做實(shí)驗(yàn)都要重新搭建整個(gè)實(shí)驗(yàn)臺(tái)。而Prime Sandboxes則預(yù)先準(zhǔn)備好了大量的"熱備份"環(huán)境,當(dāng)需要執(zhí)行代碼時(shí),可以立即分配一個(gè)現(xiàn)成的環(huán)境,大大縮短了等待時(shí)間。這種設(shè)計(jì)讓整個(gè)系統(tǒng)能夠支持大規(guī)模的并發(fā)代碼執(zhí)行,為模型的編程能力訓(xùn)練提供了強(qiáng)有力的支撐。
四、INTELLECT-3的訓(xùn)練歷程
INTELLECT-3的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能型人才,需要經(jīng)歷多個(gè)不同的學(xué)習(xí)階段。整個(gè)訓(xùn)練基于GLM-4.5-Air基礎(chǔ)模型進(jìn)行,就像在一個(gè)已經(jīng)有良好基礎(chǔ)的學(xué)生身上繼續(xù)深造。
訓(xùn)練過(guò)程分為兩個(gè)主要階段:監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。監(jiān)督微調(diào)階段就像讓學(xué)生先跟著優(yōu)秀的老師學(xué)習(xí)各種基礎(chǔ)知識(shí),包括數(shù)學(xué)、編程、科學(xué)推理等多個(gè)領(lǐng)域。在這個(gè)階段,團(tuán)隊(duì)使用了大量高質(zhì)量的訓(xùn)練數(shù)據(jù),包括來(lái)自NVIDIA的Nemotron數(shù)據(jù)集和AM團(tuán)隊(duì)的DeepSeek-R1蒸餾數(shù)據(jù)集,總共處理了數(shù)十億個(gè)訓(xùn)練樣本。
強(qiáng)化學(xué)習(xí)階段則更像是讓學(xué)生獨(dú)立解決實(shí)際問(wèn)題,通過(guò)不斷的試錯(cuò)和反饋來(lái)提升能力。在這個(gè)階段,模型需要在六個(gè)不同類(lèi)型的環(huán)境中學(xué)習(xí):數(shù)學(xué)問(wèn)題求解(包含21200個(gè)挑戰(zhàn)性數(shù)學(xué)題)、代碼編程(8600個(gè)編程題目)、科學(xué)推理(29300個(gè)跨領(lǐng)域科學(xué)問(wèn)題)、邏輯思維(11600個(gè)邏輯謎題和游戲)、深度研究(使用搜索工具回答復(fù)雜問(wèn)題)、以及軟件工程(修復(fù)代碼項(xiàng)目中的實(shí)際問(wèn)題)。
整個(gè)訓(xùn)練過(guò)程使用了512個(gè)H200 GPU,持續(xù)了兩個(gè)多月。這就像組織了一個(gè)超大規(guī)模的"訓(xùn)練營(yíng)",有數(shù)百位"教練"同時(shí)工作,確保學(xué)生能夠在各個(gè)方面都得到充分的鍛煉。訓(xùn)練過(guò)程中,團(tuán)隊(duì)還實(shí)施了在線難度過(guò)濾機(jī)制,確保模型始終在合適的挑戰(zhàn)水平上學(xué)習(xí),既不會(huì)因?yàn)轭}目太簡(jiǎn)單而浪費(fèi)時(shí)間,也不會(huì)因?yàn)轭}目過(guò)難而失去信心。
五、卓越的性能表現(xiàn)
INTELLECT-3的測(cè)試結(jié)果可以說(shuō)是相當(dāng)令人印象深刻。在數(shù)學(xué)能力測(cè)試中,它在2024年和2025年的AIME競(jìng)賽中分別獲得了90.8%和88.0%的成績(jī)。AIME是美國(guó)數(shù)學(xué)邀請(qǐng)賽,被認(rèn)為是高中數(shù)學(xué)競(jìng)賽中最具挑戰(zhàn)性的比賽之一。要知道,這些題目連很多數(shù)學(xué)專(zhuān)業(yè)的大學(xué)生都覺(jué)得有難度,而INTELLECT-3能夠達(dá)到如此高的正確率,確實(shí)顯示了其強(qiáng)大的數(shù)學(xué)推理能力。
在編程能力方面,INTELLECT-3在LiveCodeBench v6測(cè)試中達(dá)到了69.3%的成績(jī),超越了同期許多知名模型。LiveCodeBench是一個(gè)實(shí)時(shí)更新的編程測(cè)試平臺(tái),使用的都是最新的編程競(jìng)賽題目,能夠很好地反映模型的實(shí)際編程能力。這個(gè)成績(jī)意味著,如果讓INTELLECT-3參加編程競(jìng)賽,它大概能解決十道題中的七道,這已經(jīng)是相當(dāng)不錯(cuò)的水平了。
更令人驚訝的是,INTELLECT-3在多個(gè)測(cè)試中的表現(xiàn)都超越了參數(shù)量比它大很多倍的模型。比如在GPQA(研究生級(jí)別的科學(xué)問(wèn)答)測(cè)試中得到74.4分,在HLE(人類(lèi)最后考試)中得到14.6分,在MMLU-Pro(大規(guī)模多任務(wù)語(yǔ)言理解專(zhuān)業(yè)版)中得到81.9分。這就像一個(gè)體重只有60公斤的選手在力量比賽中擊敗了很多80、90公斤的對(duì)手,說(shuō)明了模型架構(gòu)和訓(xùn)練方法的重要性,并不是簡(jiǎn)單的"越大越好"。
六、開(kāi)源貢獻(xiàn)的深遠(yuǎn)意義
Prime Intellect團(tuán)隊(duì)選擇完全開(kāi)源他們的研究成果,這在當(dāng)前AI領(lǐng)域并不多見(jiàn)。大多數(shù)公司和研究機(jī)構(gòu)都傾向于保留自己的核心技術(shù),但這個(gè)團(tuán)隊(duì)卻選擇了完全相反的道路。他們不僅開(kāi)源了最終的INTELLECT-3模型,還公開(kāi)了整個(gè)訓(xùn)練框架、所有的訓(xùn)練環(huán)境、評(píng)估工具,甚至包括詳細(xì)的訓(xùn)練配方和技術(shù)文檔。
這種開(kāi)放的態(tài)度就像是把一個(gè)完整的"武林秘籍"免費(fèi)分享給所有人,而不是只傳授給自己的弟子。對(duì)于AI研究社區(qū)來(lái)說(shuō),這意味著任何有興趣的研究者或開(kāi)發(fā)者都可以基于這些工具進(jìn)行自己的研究,或者在此基礎(chǔ)上開(kāi)發(fā)新的應(yīng)用。這種開(kāi)放性不僅能夠加速整個(gè)領(lǐng)域的發(fā)展,還能夠確保AI技術(shù)的發(fā)展不會(huì)被少數(shù)大公司壟斷。
更重要的是,通過(guò)Environments Hub這個(gè)社區(qū)平臺(tái),任何人都可以貢獻(xiàn)新的訓(xùn)練環(huán)境或改進(jìn)現(xiàn)有的環(huán)境。這就像建立了一個(gè)全球性的"智慧圖書(shū)館",每個(gè)人都可以往里面添加新的"書(shū)籍"(訓(xùn)練環(huán)境),也可以借閱別人貢獻(xiàn)的"書(shū)籍"。據(jù)統(tǒng)計(jì),目前這個(gè)平臺(tái)上已經(jīng)有超過(guò)500個(gè)不同的訓(xùn)練環(huán)境,覆蓋了從基礎(chǔ)的數(shù)學(xué)編程到復(fù)雜的AI研究、計(jì)算機(jī)操作、瀏覽器自動(dòng)化等各個(gè)領(lǐng)域。
七、技術(shù)創(chuàng)新的突破點(diǎn)
INTELLECT-3項(xiàng)目在技術(shù)層面有幾個(gè)重要的創(chuàng)新突破。首先是異步強(qiáng)化學(xué)習(xí)的大規(guī)模實(shí)現(xiàn),這種技術(shù)雖然理論上存在已久,但在如此大規(guī)模的實(shí)際應(yīng)用中還是首次。傳統(tǒng)的強(qiáng)化學(xué)習(xí)就像一個(gè)學(xué)生必須完全做完一道題才能開(kāi)始下一道,而異步強(qiáng)化學(xué)習(xí)則允許學(xué)生同時(shí)處理多道題,大大提高了學(xué)習(xí)效率。
其次是連續(xù)批處理和飛行中權(quán)重更新技術(shù),這聽(tīng)起來(lái)很技術(shù)化,但實(shí)際上解決了一個(gè)很實(shí)際的問(wèn)題。在模型訓(xùn)練過(guò)程中,不同的任務(wù)需要不同的時(shí)間來(lái)完成,就像不同的學(xué)生做同一道題的速度不一樣。傳統(tǒng)方式需要等所有學(xué)生都完成才能進(jìn)行下一輪,而這種新技術(shù)則允許完成得快的學(xué)生立即開(kāi)始新的題目,不需要等待其他同學(xué)。
在技術(shù)架構(gòu)方面,團(tuán)隊(duì)還解決了大規(guī)模Mixture-of-Experts(專(zhuān)家混合)模型的高效訓(xùn)練問(wèn)題。這種模型就像有一群不同專(zhuān)業(yè)的專(zhuān)家組成的團(tuán)隊(duì),每個(gè)專(zhuān)家負(fù)責(zé)處理自己擅長(zhǎng)的問(wèn)題類(lèi)型。訓(xùn)練這樣的模型就像管理一個(gè)大型公司,需要確保不同部門(mén)之間的協(xié)調(diào)合作,同時(shí)又要保證每個(gè)部門(mén)的專(zhuān)業(yè)性。INTELLECT-3的訓(xùn)練成功證明了這種復(fù)雜架構(gòu)在大規(guī)模應(yīng)用中的可行性。
八、對(duì)未來(lái)發(fā)展的展望
根據(jù)訓(xùn)練過(guò)程中的觀察,INTELLECT-3的能力似乎還有很大的提升空間。在強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)束時(shí),模型的獎(jiǎng)勵(lì)曲線和評(píng)估性能都還在持續(xù)上升,沒(méi)有出現(xiàn)平臺(tái)期的跡象。這就像一個(gè)學(xué)生還在快速進(jìn)步的階段,還遠(yuǎn)沒(méi)有達(dá)到能力的上限。這意味著,如果繼續(xù)訓(xùn)練更長(zhǎng)時(shí)間或使用更多的計(jì)算資源,模型的性能可能還會(huì)有顯著提升。
團(tuán)隊(duì)已經(jīng)明確表示將繼續(xù)擴(kuò)展INTELLECT-3的訓(xùn)練,特別是在更多智能體任務(wù)上的訓(xùn)練。目前的Environments Hub平臺(tái)上已經(jīng)有數(shù)百個(gè)不同的訓(xùn)練環(huán)境,包括自主AI研究、計(jì)算機(jī)操作、定理證明、瀏覽器自動(dòng)化,以及法律、金融、稅務(wù)等專(zhuān)業(yè)領(lǐng)域的任務(wù)。這些豐富的環(huán)境為模型的進(jìn)一步訓(xùn)練提供了廣闊的空間。
另一個(gè)重要的發(fā)展方向是長(zhǎng)時(shí)程智能體的研究。目前的AI模型雖然在單次對(duì)話中表現(xiàn)出色,但在需要長(zhǎng)期規(guī)劃和記憶管理的復(fù)雜任務(wù)中還有不足。團(tuán)隊(duì)正在探索讓模型自主管理上下文、在隔離的子分支中進(jìn)行思考,并維護(hù)跨輪次的外部記憶等技術(shù)。這就像讓AI不僅能夠進(jìn)行單次的深度思考,還能夠像人類(lèi)一樣進(jìn)行長(zhǎng)期的項(xiàng)目規(guī)劃和知識(shí)積累。
說(shuō)到底,INTELLECT-3項(xiàng)目最重要的貢獻(xiàn)可能不是這個(gè)特定的模型本身,而是它展示了開(kāi)源協(xié)作在AI發(fā)展中的巨大潛力。通過(guò)完全開(kāi)放的方式分享先進(jìn)的技術(shù)和工具,這個(gè)項(xiàng)目為整個(gè)AI社區(qū)提供了一個(gè)可以直接使用的高質(zhì)量基礎(chǔ)設(shè)施。無(wú)論是大學(xué)研究者、小型公司,還是個(gè)人開(kāi)發(fā)者,都可以在這個(gè)基礎(chǔ)上進(jìn)行自己的創(chuàng)新和探索。
這種開(kāi)放性對(duì)于AI技術(shù)的民主化具有重要意義。它確保了先進(jìn)的AI技術(shù)不會(huì)僅僅掌握在少數(shù)大公司手中,而是能夠惠及更廣泛的群體。當(dāng)越來(lái)越多的人能夠接觸和使用這些先進(jìn)工具時(shí),必然會(huì)涌現(xiàn)出更多創(chuàng)新的應(yīng)用和改進(jìn)的方法,從而推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。對(duì)于那些對(duì)AI技術(shù)感興趣但缺乏足夠資源的研究者和開(kāi)發(fā)者來(lái)說(shuō),INTELLECT-3項(xiàng)目提供的開(kāi)源工具就像是一把通往AI前沿技術(shù)的鑰匙,讓他們也有機(jī)會(huì)參與到這個(gè)激動(dòng)人心的技術(shù)革命中來(lái)。
Q&A
Q1:INTELLECT-3模型的核心優(yōu)勢(shì)是什么?
A:INTELLECT-3雖然只有106億參數(shù)(12億活躍),但通過(guò)創(chuàng)新的強(qiáng)化學(xué)習(xí)訓(xùn)練方法,在數(shù)學(xué)、編程、科學(xué)推理等測(cè)試中的表現(xiàn)超越了很多規(guī)模更大的模型,比如在AIME數(shù)學(xué)競(jìng)賽中達(dá)到90.8%的成績(jī)。
Q2:Prime Intellect開(kāi)源了哪些技術(shù)工具?
A:除了INTELLECT-3模型本身,還開(kāi)源了prime-rl強(qiáng)化學(xué)習(xí)框架、verifiers環(huán)境庫(kù)、Prime Sandboxes代碼執(zhí)行系統(tǒng)、Environments Hub社區(qū)平臺(tái),以及完整的訓(xùn)練配方和技術(shù)文檔。
Q3:普通研究者能使用這些開(kāi)源工具嗎?
A:完全可以。這些工具支持從單節(jié)點(diǎn)實(shí)驗(yàn)到大規(guī)模生產(chǎn)訓(xùn)練的各種需求,任何有興趣的研究者或開(kāi)發(fā)者都可以免費(fèi)使用這些工具進(jìn)行自己的AI模型訓(xùn)練和研究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.