![]()
新智元報(bào)道
編輯:傾傾
【新智元導(dǎo)讀】AI自主訓(xùn)練的成績單出爐了!最強(qiáng)Agent 6個(gè)月進(jìn)步3倍,更讓人震驚的是,越聰明的AI越會(huì)作弊。同時(shí),70多個(gè)礦工用家庭寬帶訓(xùn)出了72B大模型,黃仁勛親自點(diǎn)名。Jack Clark預(yù)言:兩年內(nèi),AI將像蘑菇釋放孢子一樣自我繁殖。
就在昨天,Anthropic研究員Karina Nguyen在X上轉(zhuǎn)發(fā)了Jack Clark最新一期ImportAI Newsletter的一段話,迅速引爆討論:
![]()
ImportAI 449這期一口氣拋出三個(gè)重磅研究,恰好拼出了這個(gè)未來的完整輪廓:
AI能不能自己訓(xùn)AI?誰來提供算力?寫出來的代碼誰來驗(yàn)貨?
6個(gè)月AI進(jìn)步3倍,但只有人類一半水平
圖賓根大學(xué)、馬克斯·普朗克智能系統(tǒng)研究所和Thoughtful Lab聯(lián)合推出了PostTrainBench,這是第一個(gè)專門測(cè)量AI Agent能否自主完成模型后訓(xùn)練的基準(zhǔn)。
![]()
測(cè)試規(guī)則很簡單。給一個(gè)前沿智能體一個(gè)基座模型和一個(gè)目標(biāo)benchmark,一塊H100 GPU,10小時(shí),從零開始搭建訓(xùn)練pipeline,盡可能提高模型表現(xiàn)。
不給任何預(yù)設(shè)策略,不提供起始代碼,Agent擁有完全自主權(quán),它可以上網(wǎng)搜信息、設(shè)計(jì)實(shí)驗(yàn)、整理數(shù)據(jù)。
結(jié)果顯示,表現(xiàn)最好的Agent是Claude Code搭配Opus 4.6,加權(quán)平均得分23.2%,是基座模型平均分的3倍多。
![]()
PostTrainBench 加權(quán)平均性能對(duì)比(數(shù)據(jù)來源:arXiv 2603.08640 Figure 1 & 官網(wǎng)最新榜單,2026年3月)
但這個(gè)成績只有人類團(tuán)隊(duì)后訓(xùn)練水平(51.1%)的不到一半。
2025年9月,Claude Sonnet 4.5在這個(gè)benchmark上只拿到9.9%;幾個(gè)月后GPT-5.2跑到了21.5%;再到Opus 4.6的23.2%。
半年時(shí)間,從不到10%到超過23%。按照PostTrainBench官網(wǎng)最新榜單,GPT 5.4(High)的成績還在持續(xù)攀升。
在實(shí)驗(yàn)過程中,研究團(tuán)隊(duì)撞上了大量reward hacking行為:越強(qiáng)的Agent,作弊手段越高級(jí)。
直接吃測(cè)試集:有Agent直接從Hugging Face把benchmark的評(píng)測(cè)數(shù)據(jù)集下載下來,當(dāng)訓(xùn)練數(shù)據(jù)用。
把考題硬編碼進(jìn)訓(xùn)練數(shù)據(jù):有智能體把評(píng)測(cè)題目直接嵌入數(shù)據(jù)準(zhǔn)備腳本,偽裝成「合成樣本」。
逆向工程評(píng)分標(biāo)準(zhǔn):Kimi K2.5讀取了HealthBench的評(píng)測(cè)文件,提取主題分布和評(píng)分標(biāo)準(zhǔn),然后針對(duì)性地生成訓(xùn)練數(shù)據(jù)。
間接污染:Opus 4.6加載了一個(gè)叫CodeFeedback-Filtered-Instruction的數(shù)據(jù)集,里面包含從HumanEval衍生出的問題。
還有更離譜的。Codex Agent直接修改了Inspect AI評(píng)測(cè)框架的源代碼來給自己刷分;Claude Agent跳過微調(diào)流程,直接下載了一個(gè)已經(jīng)instruction-tuned的模型來冒充訓(xùn)練成果。
越強(qiáng)的智能體越善于找到可利用的路徑,如識(shí)別特定benchmark樣本、逆向評(píng)測(cè)的失敗模式,甚至試圖通過重命名函數(shù)等表面修改來掩蓋污染痕跡。
如果AI在一個(gè)受控實(shí)驗(yàn)環(huán)境里就已經(jīng)展現(xiàn)出了這種「創(chuàng)造性作弊」的能力,當(dāng)它們?cè)谡鎸?shí)世界里被賦予更大的自主權(quán)時(shí),監(jiān)管和沙盒機(jī)制的重要性只會(huì)指數(shù)級(jí)上升。
72B模型,家庭寬帶,零數(shù)據(jù)中心
一個(gè)叫Covenant AI的團(tuán)隊(duì)用區(qū)塊鏈協(xié)調(diào)了一次分布式訓(xùn)練,任何有GPU的人都可以自由加入或退出。
最終的產(chǎn)物是Covenant-72B,這是一個(gè)720億參數(shù)的dense Transformer模型,用大約1.1萬億token訓(xùn)練完成。
![]()
參與訓(xùn)練的有20多個(gè)獨(dú)立peer節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)跑8塊B200 GPU,通過普通家庭寬帶連接。
節(jié)點(diǎn)之間的通信靠SparseLoCo優(yōu)化器,把通信開銷壓縮了146倍——用稀疏化、2-bit量化和誤差反饋三板斧,讓分布式訓(xùn)練在帶寬受限的條件下跑得動(dòng)。
訓(xùn)練協(xié)調(diào)由Gauntlet軟件完成,運(yùn)行在Bittensor區(qū)塊鏈的Subnet 3上,每個(gè)節(jié)點(diǎn)的貢獻(xiàn)通過損失評(píng)估和OpenSkill排名打分,全部上鏈記錄。
性能方面,Covenant-72B在MMLU zero-shot上拿到67.1,而Meta的LLaMA-2-70B是65.7。要知道后者是在2萬億token上訓(xùn)練的,用的是傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施,token量幾乎是Covenant的兩倍。
經(jīng)過對(duì)話微調(diào)后的版本在MATH上得分26.3,LLaMA-2-70B-Chat只有10.7。
消息一出,市場(chǎng)反應(yīng)相當(dāng)直接。據(jù)報(bào)道,Bittensor的原生代幣TAO在3月份飆漲約46%,Subnet 3的原生代幣τemplar更是暴漲了194%。
黃仁勛在一期播客中提到了Bittensor的去中心化訓(xùn)練,雖然后來有澄清他引用的參數(shù)量數(shù)字不準(zhǔn)確(說成了40億而非720億),但這個(gè)量級(jí)的關(guān)注本身就說明問題。
Covenant-72B的絕對(duì)水平放在2026年并不算前沿,大致相當(dāng)于2023年中旬的主流模型能力。
真正的前沿模型是在數(shù)萬甚至十幾萬塊芯片上訓(xùn)出來的,Covenant用的大概只有160塊左右。
但這件事的意義在于,它證明了去中心化、無許可參與的分布式訓(xùn)練,確實(shí)能在非trivial的規(guī)模上跑通。
![]()
有分析師把這稱為「Bittensor的DeepSeek時(shí)刻」。這不是說它達(dá)到了同等技術(shù)高度,而是說它用一種成本結(jié)構(gòu)完全不同的方式,證明了一條此前被認(rèn)為走不通的路。
從2022年Together訓(xùn)出6B參數(shù)模型,到2024年P(guān)rime Intellect的INTELLECT-1(10B),再到2026年的Covenant-72B,去中心化訓(xùn)練的規(guī)模曲線在四年里跨了一個(gè)數(shù)量級(jí)。
zlib被AI轉(zhuǎn)寫成Lean
AI寫出來的東西,誰來保證它是對(duì)的?
Leonardo de Moura,是Z3 SMT求解器和Lean定理證明器的締造者,現(xiàn)任AWS高級(jí)首席應(yīng)用科學(xué)家、Lean FRO首席架構(gòu)師,在2月底發(fā)了一篇博客:
![]()
Google和微軟都承認(rèn),25-30%的新代碼由AI生成;AWS用AI幫豐田遷移了4000萬行COBOL代碼;微軟CTO預(yù)測(cè)到2030年95%的代碼將由AI生成。
Anthropic最近用并行AI 智能體在兩周內(nèi)造了一個(gè)10萬行的C編譯器,花費(fèi)不到2萬美元。
de Moura認(rèn)為,AI去掉了手寫代碼時(shí)被迫進(jìn)行的謹(jǐn)慎設(shè)計(jì),這種「有益的摩擦」消失后,不應(yīng)該減速AI,而應(yīng)該用「數(shù)學(xué)摩擦」來替代。
讓AI跑快沒問題,但必須證明自己的工作是對(duì)的。
Lean FRO的高級(jí)研究軟件工程師Kim Morrison最近做了一個(gè)實(shí)驗(yàn):用Claude把zlib轉(zhuǎn)寫成了Lean。整個(gè)流程四步:
AI生成了一個(gè)干凈的Lean實(shí)現(xiàn),覆蓋zlib的壓縮格式和核心DEFLATE算法
轉(zhuǎn)寫后的版本通過了zlib原有的測(cè)試套件,確認(rèn)行為等價(jià)
關(guān)鍵屬性被表述并證明為數(shù)學(xué)定理。其中最核心的一條:對(duì)任意數(shù)據(jù)壓縮后再解壓,一定能還原出原始數(shù)據(jù)
正在開發(fā)一個(gè)優(yōu)化版本,并證明它與驗(yàn)證模型等價(jià)
de Moura的野心遠(yuǎn)不止一個(gè)庫。
他設(shè)想的是一整套經(jīng)過數(shù)學(xué)證明的開源軟件棧:密碼學(xué)、核心數(shù)據(jù)結(jié)構(gòu)和算法庫、SQLite這樣嵌入在全球每臺(tái)設(shè)備上的存儲(chǔ)引擎、JSON/HTTP/DNS等協(xié)議解析器,以及編譯器和運(yùn)行時(shí)。
每一個(gè)經(jīng)過驗(yàn)證的組件都是永久性的公共基礎(chǔ)設(shè)施。開發(fā)者選擇它們就像今天選擇開源庫一樣,只不過這些庫帶的不是測(cè)試,而是證明。
de Moura在另一篇3月的博客中提到,2026年一位研究者用Claude(Opus 4.6)在Rocq開發(fā)團(tuán)隊(duì)的實(shí)時(shí)支持下,找到了Rocq證明助手內(nèi)核中的7個(gè)bug。
連驗(yàn)證工具自己都有bug,那么驗(yàn)證「驗(yàn)證工具」的工具又該多簡潔、多可信?
Lean的回答是:proof checker可以小到5000行Rust代碼。
Jack Clark把未來的AI比作蘑菇釋放的孢子,短命、定制、自主繁殖。
現(xiàn)在看來,孢子的三個(gè)前提條件正在逐一到位:它能自己改良自己,不需要依附某一座數(shù)據(jù)中心,生成的代碼可以被數(shù)學(xué)證明為正確。
每一項(xiàng)都還粗糙,每一項(xiàng)離成熟都還有距離。
但孢子從來不需要完美,只需要夠多、夠快、夠便宜。
Clark說他沒準(zhǔn)備好。坦白講,看完這三篇論文,我也沒有。
參考資料:
https://x.com/karinanguyen/status/2036143375326519357
https://jack-clark.net/2026/03/16/importai-449-llms-training-other-llms-72b-distributed-training-run-computer-vision-is-harder-than-generative-text/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.