![]()
新智元報道
編輯:元宇
【新智元導讀】過去Agent比誰更會干活,現在可能要比誰更會變強。
AI已經學會「左腳踩右腳上天」了?
Meta的一項最新研究表明:AI已經開始碰自己的「進化引擎」了。
華人學者Jenny Zhang在Meta實習期間,聯合Meta AI、UBC、紐約大學等機構研究者,提出了一種新的智能體框架:HyperAgents(DGM-H)。
![]()
https://arxiv.org/abs/2603.19461
這項工作的重點,不是再造一個更能干活的Agent。
它瞄準的是更高一層的問題:
如果AI已經能夠修改自己的任務解法,那它能不能連「自己以后該怎么修改自己」這件事,也一并改掉?
論文給出的答案是:可以。
而且,這不再是概念推演,而是已經在實驗中跑通的系統能力。
HyperAgents做的關鍵一步,是把「執行任務的 agent」和「負責改進 agent 的 meta agent」合并進同一個可編輯程序里,作者將之稱為hyperagent。
![]()
DGM依賴任務與自修改能力的對齊,而DGM-H不再需要這種對齊
在新框架下,系統不只會修改任務求解邏輯,還開始修改未來生成改進方案的機制本身。
論文把這種能力稱為metacognitive self-modification,也就是:元認知自我修改。
過去行業競爭的是:誰的Agent更會干活。
而HyperAgents 指向的下一階段則可能是:誰的Agent更會變強,而且會越來越會變強。
以往的「自我進化」
其實還只是半手工
這篇論文,指出了上一代自我進化路線的天花板。
去年的Darwin G?del Machine(DGM),已經很驚艷。
它能在coding任務中不斷自改代碼、自我驗證、把成功版本存進archive,再從這些「墊腳石」里繼續往前長。
論文披露,DGM在SWE-bench上能從20.0%拉到50.0%,在Polyglot上從14.2%拉到30.7%。
但問題在于,DGM之所以能在coding里成立,是因為「評估」和「自我修改」本身也都是coding任務。
寫代碼更強了,反過來就更會改自己的代碼。任務能力和自我改進能力,在這個場景里是對齊的。
然而一旦離開coding,這個對齊關系就斷了。
比如評審論文、設計機器人獎勵函數、給IMO級數學解答打分,這些任務做得更好,不等于你就更會修改自己的元機制。
HyperAgents論文最核心的一招,就是直接把這個假設砍掉:
既然任務能力和自我改進能力未必天然對齊,那就不要再把meta層寫死。
這說明過去很多「自我進化」系統,本質上還是在人為設定的軌道里進化。
HyperAgents真正改變的,是改變機制本身。
HyperAgents新在哪里?
表面上看,HyperAgents只是多了一個meta agent。
但真正值得注意的是,它把task agent和meta agent合成了同一個可編輯程序。
以前的DGM里,系統有一個手工設計的instruction-generation機制,負責根據過往表現決定下一步怎么改。
這一步不能被改,所以它反而成了整個系統的瓶頸。
HyperAgents的做法是把這部分也納入可修改范圍。
換句話說,AI不只是改自己的答案、自己的工具、自己的流程,它開始改「自己怎么提出修改建議」。
DGM里上層機制基本固定,DGM-H里meta層本身也進入可演化空間,也就是說,它是一個會經營自己進化過程的系統。
所以,HyperAgents做的不是「再加一個Agent」,而是取消了「上層永遠不變」這個默認前提。
自我改進開始跨域遷移
在coding任務中,HyperAgents在Polyglot 上的提升,與原始DGM處在同一量級:50-task訓練子集從0.140提升到0.340,完整benchmark從0.084提升到0.267。
換句話說,它并不是只靠犧牲泛化來換局部成績。
更關鍵的是,它不只在coding任務成立,還能在paper review、robotics reward design等非coding任務上繼續自我改進。
![]()
在paper review上,初始agent在測試集得分為0.0,DGM-H提升到0.710;在robotics reward design上,則從0.060提升到0.372。
更關鍵的是,這些提升不僅出現在訓練任務里,也轉移到了held-out test tasks。
與此同時,對照組也很說明問題:去掉self-improve,效果明顯變弱;去掉open-ended exploration,系統也很難取得有意義進展;原始DGM直接搬到非coding 域幾乎失效,只有經過人工定制成DGM-custom后,才恢復競爭力。
這說明HyperAgents 的關鍵價值,不在于某一個benchmark多拿了幾個點,而在于它把原本依賴coding場景對齊關系的自我改進,推進成了一個能在非coding任務中運行的框架。
更值得注意的是遷移實驗。
![]()
作者把在paper review和robotics任務中演化出來的hyperagents,轉移到Olympiad-level math grading。
雖然這些轉移體自身初始得分仍接近0,但它們作為「生成更優agent的meta agent」,卻能在50輪內把最好生成體推到0.630,對應imp@50從0拉到0.630。
相比之下,來自DGM-custom的轉移體幾乎沒有這種能力。
換句話說,遷移過去的,不只是任務經驗,而是「如何持續變好」的能力。
它開始自己長基礎設施了
很多人看到「自我進化」會以為,無非是AI自己改prompt、調工作流、加幾個規則。
但論文展示給我們、最讓人感到沖擊力的一個地方在于:它開始自己長基礎設施了。
DGM-H在迭代中會自動長出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎設施。
![]()
![]()
論文中甚至直接給出了自動生成的性能追蹤器代碼和持久記憶條目:它開始記錄跨代指標、總結哪些代際策略有效、診斷過度修正、制定下一輪改進計劃。
這還不是「日志記錄」那么簡單,系統開始把改進看成一個長期經營過程,而不是一次次孤立的pa?tch。
它不只記錄每一代分數,還會比較趨勢、識別回退,并把跨代經驗沉淀進persistent memory。
正如網友所說,真正讓這一切變成現實的關鍵,恰恰是persistent memory的自主出現。
![]()
論文展示的memory示例中寫道:某一代評審準確率更高,但過于嚴苛;另一代平衡更好;下一輪要融合兩者優點。
![]()
沒有這層記憶,agent往往只會反復「重新發明輪子」;有了它,過去幾代的有效經驗才第一次能真正沉淀為下一輪改進的起點。
這說明Agent正在從「輸出一個結果」,走向「維護一個持續優化系統」。
這不是AGI宣言
但舊規則確實在失效
當然,這篇論文沒有證明「無限自我進化AI」已經降臨。
作者自己也寫得很清楚:
實驗都在沙箱、資源限制和人工監督下完成;外層循環還有不少部分沒有開放給系統自改,比如任務分布、parent selection、evaluation protocol等;真正無界的open-ended self-improvement,還遠遠沒到。
但風險預警已經出現。
一旦AI開始改自己的改進機制,安全討論就變得重要起來。
論文也專門有一節談風險:隨著系統越來越能開放式地修改自己,它的演化速度可能超過人類審計和理解速度。
今天靠sandbox和人工盯著還能管住,明天未必。
![]()
HyperAgents代表了一種新的路線,它可能會改寫Agent競爭。
未來比的不只是誰會調模型、誰會寫workflow、誰會做更強單點工具,而是誰能把「改進能力」本身產品化、系統化、可遷移化。
這將改變AI公司的護城河。
真正的壁壘,可能不再只是參數、算力和數據,而是有沒有一套能跨任務累積經驗、跨運行持續變好的自我改進系統。
也會改變開發者位置。
開發者不再只是寫功能的人,而更像是在設計AI可以繼續自我設計的邊界條件。
最重要的一點,它改寫了AI行業過去默認的一條規則:系統可以變強,但變強的方法由人來定義。
現在,這條規則開始松動了。
作者簡介
Jenny Zhang
![]()
Jenny Zhang
Jenny Zhang,現為英屬哥倫比亞大學人工智能博士生,師從Jeff Clune,同時也是Vector Institute研究生,并曾在Meta擔任Research Scientist Intern。
她本科畢業于帝國理工學院,研究方向聚焦開放式進化、強化學習與自我改進AI,代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。
她的長期目標,是構建能夠自主提出新任務、持續自我提升、不斷演化復雜能力的AI系統。
參考資料:
https://x.com/jennyzhangzt/status/2036099935083618487%20
https://arxiv.org/abs/2603.19461
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.