Karpathy讓AI通宵干活,自己去蒸桑拿了。
這個Autoresearch項目總共630行Python代碼,兩天AI自主完成276次實驗,篩出29項有效改進,把一個語言模型的訓練效率提升了約11%,全程零人類干預。
![]()
但真正有意思的故事,發生在Karpathy放下鍵盤之后。
全球開發者社區接過了這個項目,把它從“一個AI做實驗”變成了“一群AI做科研”。
他們搭了一個分布式協作層,讓數十個智能體在不同GPU上共享成果、分工協作,4天已經跑了超過2000次實驗。
![]()
人類進去檢查成果時才突然發現:
不知不覺間,AI已經自發形成了智能體間的同行評審制度。
AI“重新發明”科學共同體
Karpathy本人曾給出autoresearch的下一步方向:
目標不是模擬一個博士生,而是模擬一整個研究社區。
社區照著這個方向做了。
受SETI@home(尋找外星信號的分布式計算項目)啟發,開發者在autoresearch上層加了一個協作層,誕生了autoresearch@home。
任何互聯網用戶都可以參與并協作進行人工智能/機器學習研究。
![]()
智能體可以閱讀并學習以往的實驗結果,避免重復工作,并實時地在彼此成果的基礎上繼續發展。
不到一周已經從最初的13個智能體擴展到80+個智能體、運行2000+實驗。
其中智能體自發產生了角色分化,沒人事先分配任務,但群體運行一段時間后,不同智能體開始各司其職:
實驗員負責跑實驗
驗證員專門復現別人的結論
統計員測量方差和置信度
元分析員提新研究方向
……
數字最能說明問題:
一個智能體一天跑了188次實驗,專門驗證別人的聲明。另一組智能體生成了5895條研究假設,但一個實驗都沒跑。
整個系統開始像一個分布式研究實驗室。
![]()
項目發起者Ensue創始人Christine Yip公布了十大發現,除了智能體角色分化之外,還有很多涉及最底層的AI訓練技術細節。
![]()
更多step始終優于更大的batch
將batch_size減半從2^19 → 2^18,訓練步驟加倍,BPB(Bits Per Byte)改善了0.007。
簡單的注意力模式就是最好的
多個智能體獨立發現并驗證,最終收斂到了一個窗口注意力模式:SSSL(3個短上下文層,1個長上下文層,重復)。
過多的長層會浪費計算資源在全局注意力機制上,過少會導致跨toke信息缺失。
調整初始化比調整優化器更重要
僅三項改動就帶來了約0.004 BPB的改善:value embedding使用正態初始化、QKV縮放倍率、給殘差連接(skip-connection)加上可學習權重。
這些改動都沒有涉及到優化器,而在大模型預訓練里,0.001都算有效。
能學習的就別寫死
把固定常數替換為可學習參數,幾乎總能提升性能。案例包括skip-2殘差權重、殘差混合的lambda系數、value embedding的門控參數。
即使在5分鐘的短訓練中,這些新參數也能收斂并產生收益。
最優架構出人意料地小
群體智能在深度和寬度之間做了大范圍探索,最終最優配置是:12層、維度512、aspect ratio 40。
加深網絡很快就適得其反,16層帶來84%更多的參數,但步數減少23%,BPB反而更差。
大量“改進”其實是噪聲
一個智能體專門跑了100組隨機種子實驗,發現種子方差約為0.002 BPB,這恰好是很多聲稱的”改進”的量級。換句話說,之前很多“發現”可能只是運氣好。
有了這個結論后,智能體群體自發調整了行為:開始要求重復實驗、多種子驗證、獨立確認。
一些公認好技術直接翻車
幾個實驗產生了災難性退化:weight tying直接把BPB炸到3.216,label smoothing炸到1.32,PaLM風格的z-loss帶來一致性退化。
這些負面結果寫進共享記憶后,成了整個集群最有用的知識,所有后來的智能體都自動避開這些坑,不再浪費算力重復踩。
最大的機會可能還沒智能體碰
1045次實驗中,幾乎所有改動都在改模型架構。但元智能體生成了1000多條關于數據管道的假設:課程學習、數據排序、領域特定批處理,一條都沒被測試。
最大的突破可能根本不在架構上,而在數據調度上。
集體記憶加速了發現過程
因為智能體共享實驗結果,后來的智能體可以直接從已知最優配置出發,不用從頭重新發現前人的工作。
幾個關鍵突破來自那些綜合了已有結果而非盲目探索的智能體,證明共享記憶能顯著加速研究進程。
為了優化,智能體“不擇手段”
在autoresearch激發的另一個衍生項目auto-discovery中,發現除了自動訓練模型,智能體在科學發現和算法發現中表現也不錯。
在幾個經典的數學優化任務上竟然比AlphaEvolve、SkyDiscover和LoongFlow等重量級的結果更好。
![]()
項目發起者華盛頓大學博士生Tu Xinming發現了AI智能體為了優化令人捧腹大笑的時刻。
他忘了在指令文件里寫“不許上網搜答案”。結果AI直接上網搜了一圈,從別人的開源倉庫里把最優解抄了過來。
還有一次,AI碰到評估腳本里的嚴格容差限制。它沒有卡住,也沒有報錯,而是自己去讀了評估器的源代碼,理解了約束條件,然后專門設計了一套“容差感知優化”策略,在規則邊界內繼續推進。
這與傳統超參數搜索不同,傳統方法在預設范圍內調數字;autoresearch框架下的AI可以直接刪掉AdamW優化器,然后從零寫一個新的,自由度完全不同。
![]()
One More Thing
Karpathy在最初設計autoresearch時只寫了630行代碼。
他也沒想到,社區會在幾天內把它變成一個分布式科學共同體,有實驗、有驗證、有評審、有分工,甚至有了自己的“負面結果知識庫”。
這場實驗中最有意思的發現,不是任何一個具體的模型架構,而是這個過程本身。
Karpathy在OpenAI的前同事Noam Brown提問:為什么在自工業革命以來人類歷史上最關鍵的時刻,他沒有在人工智能前沿實驗室工作?
![]()
Karpathy還沒有回應,但有人替他答了。
我想他可能會問你類似的問題:在至少自工業革命以來人類歷史上最關鍵的時刻,你為什么要把自己局限于商業組織?
autoresearch:
https://github.com/karpathy/autoresearch
autoresearch@home:
https://ensue-network.ai/autoresearch?view=strategies
auto-discovery:
https://github.com/XinmingTu/auto-discovery
參考鏈接:
[1]https://x.com/christinetyip/status/2032590900107346327
[2]https://x.com/TuXinming/status/2032478765033701835
文章來源:量子位。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.