網易首頁 > 網易號 > 正文申請入駐

AI學會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

2026-04-06 12:42:55　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導讀】過去Agent比誰更會干活，現在可能要比誰更會變強。

AI已經學會「左腳踩右腳上天」了？

Meta的一項最新研究表明：AI已經開始碰自己的「進化引擎」了。

華人學者Jenny Zhang在Meta實習期間，聯合Meta AI、UBC、紐約大學等機構研究者，提出了一種新的智能體框架：HyperAgents（DGM-H）。

https://arxiv.org/abs/2603.19461

這項工作的重點，不是再造一個更能干活的Agent。

它瞄準的是更高一層的問題：

如果AI已經能夠修改自己的任務解法，那它能不能連「自己以后該怎么修改自己」這件事，也一并改掉？

論文給出的答案是：可以。

而且，這不再是概念推演，而是已經在實驗中跑通的系統能力。

HyperAgents做的關鍵一步，是把「執行任務的 agent」和「負責改進 agent 的 meta agent」合并進同一個可編輯程序里，作者將之稱為hyperagent。

DGM依賴任務與自修改能力的對齊，而DGM-H不再需要這種對齊

在新框架下，系統不只會修改任務求解邏輯，還開始修改未來生成改進方案的機制本身。

論文把這種能力稱為metacognitive self-modification，也就是：元認知自我修改。

過去行業競爭的是：誰的Agent更會干活。

而HyperAgents 指向的下一階段則可能是：誰的Agent更會變強，而且會越來越會變強。

以往的「自我進化」

其實還只是半手工

這篇論文，指出了上一代自我進化路線的天花板。

去年的Darwin G?del Machine（DGM），已經很驚艷。

它能在coding任務中不斷自改代碼、自我驗證、把成功版本存進archive，再從這些「墊腳石」里繼續往前長。

論文披露，DGM在SWE-bench上能從20.0%拉到50.0%，在Polyglot上從14.2%拉到30.7%。

但問題在于，DGM之所以能在coding里成立，是因為「評估」和「自我修改」本身也都是coding任務。

寫代碼更強了，反過來就更會改自己的代碼。任務能力和自我改進能力，在這個場景里是對齊的。

然而一旦離開coding，這個對齊關系就斷了。

比如評審論文、設計機器人獎勵函數、給IMO級數學解答打分，這些任務做得更好，不等于你就更會修改自己的元機制。

HyperAgents論文最核心的一招，就是直接把這個假設砍掉：

既然任務能力和自我改進能力未必天然對齊，那就不要再把meta層寫死。

這說明過去很多「自我進化」系統，本質上還是在人為設定的軌道里進化。

HyperAgents真正改變的，是改變機制本身。

HyperAgents新在哪里？

表面上看，HyperAgents只是多了一個meta agent。

但真正值得注意的是，它把task agent和meta agent合成了同一個可編輯程序。

以前的DGM里，系統有一個手工設計的instruction-generation機制，負責根據過往表現決定下一步怎么改。

這一步不能被改，所以它反而成了整個系統的瓶頸。

HyperAgents的做法是把這部分也納入可修改范圍。

換句話說，AI不只是改自己的答案、自己的工具、自己的流程，它開始改「自己怎么提出修改建議」。

DGM里上層機制基本固定，DGM-H里meta層本身也進入可演化空間，也就是說，它是一個會經營自己進化過程的系統。

所以，HyperAgents做的不是「再加一個Agent」，而是取消了「上層永遠不變」這個默認前提。

自我改進開始跨域遷移

在coding任務中，HyperAgents在Polyglot 上的提升，與原始DGM處在同一量級：50-task訓練子集從0.140提升到0.340，完整benchmark從0.084提升到0.267。

換句話說，它并不是只靠犧牲泛化來換局部成績。

更關鍵的是，它不只在coding任務成立，還能在paper review、robotics reward design等非coding任務上繼續自我改進。

在paper review上，初始agent在測試集得分為0.0，DGM-H提升到0.710；在robotics reward design上，則從0.060提升到0.372。

更關鍵的是，這些提升不僅出現在訓練任務里，也轉移到了held-out test tasks。

與此同時，對照組也很說明問題：去掉self-improve，效果明顯變弱；去掉open-ended exploration，系統也很難取得有意義進展；原始DGM直接搬到非coding 域幾乎失效，只有經過人工定制成DGM-custom后，才恢復競爭力。

這說明HyperAgents 的關鍵價值，不在于某一個benchmark多拿了幾個點，而在于它把原本依賴coding場景對齊關系的自我改進，推進成了一個能在非coding任務中運行的框架。

更值得注意的是遷移實驗。

作者把在paper review和robotics任務中演化出來的hyperagents，轉移到Olympiad-level math grading。

雖然這些轉移體自身初始得分仍接近0，但它們作為「生成更優agent的meta agent」，卻能在50輪內把最好生成體推到0.630，對應imp@50從0拉到0.630。

相比之下，來自DGM-custom的轉移體幾乎沒有這種能力。

換句話說，遷移過去的，不只是任務經驗，而是「如何持續變好」的能力。

它開始自己長基礎設施了

很多人看到「自我進化」會以為，無非是AI自己改prompt、調工作流、加幾個規則。

但論文展示給我們、最讓人感到沖擊力的一個地方在于：它開始自己長基礎設施了。

DGM-H在迭代中會自動長出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎設施。

論文中甚至直接給出了自動生成的性能追蹤器代碼和持久記憶條目：它開始記錄跨代指標、總結哪些代際策略有效、診斷過度修正、制定下一輪改進計劃。

這還不是「日志記錄」那么簡單，系統開始把改進看成一個長期經營過程，而不是一次次孤立的pa?tch。

它不只記錄每一代分數，還會比較趨勢、識別回退，并把跨代經驗沉淀進persistent memory。

正如網友所說，真正讓這一切變成現實的關鍵，恰恰是persistent memory的自主出現。

論文展示的memory示例中寫道：某一代評審準確率更高，但過于嚴苛；另一代平衡更好；下一輪要融合兩者優點。

沒有這層記憶，agent往往只會反復「重新發明輪子」；有了它，過去幾代的有效經驗才第一次能真正沉淀為下一輪改進的起點。

這說明Agent正在從「輸出一個結果」，走向「維護一個持續優化系統」。

這不是AGI宣言

但舊規則確實在失效

當然，這篇論文沒有證明「無限自我進化AI」已經降臨。

作者自己也寫得很清楚：

實驗都在沙箱、資源限制和人工監督下完成；外層循環還有不少部分沒有開放給系統自改，比如任務分布、parent selection、evaluation protocol等；真正無界的open-ended self-improvement，還遠遠沒到。

但風險預警已經出現。

一旦AI開始改自己的改進機制，安全討論就變得重要起來。

論文也專門有一節談風險：隨著系統越來越能開放式地修改自己，它的演化速度可能超過人類審計和理解速度。

今天靠sandbox和人工盯著還能管住，明天未必。

HyperAgents代表了一種新的路線，它可能會改寫Agent競爭。

未來比的不只是誰會調模型、誰會寫workflow、誰會做更強單點工具，而是誰能把「改進能力」本身產品化、系統化、可遷移化。

這將改變AI公司的護城河。

真正的壁壘，可能不再只是參數、算力和數據，而是有沒有一套能跨任務累積經驗、跨運行持續變好的自我改進系統。

也會改變開發者位置。

開發者不再只是寫功能的人，而更像是在設計AI可以繼續自我設計的邊界條件。

最重要的一點，它改寫了AI行業過去默認的一條規則：系統可以變強，但變強的方法由人來定義。

現在，這條規則開始松動了。

作者簡介

Jenny Zhang

Jenny Zhang

Jenny Zhang，現為英屬哥倫比亞大學人工智能博士生，師從Jeff Clune，同時也是Vector Institute研究生，并曾在Meta擔任Research Scientist Intern。

她本科畢業于帝國理工學院，研究方向聚焦開放式進化、強化學習與自我改進AI，代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。

她的長期目標，是構建能夠自主提出新任務、持續自我提升、不斷演化復雜能力的AI系統。

參考資料：

https://x.com/jennyzhangzt/status/2036099935083618487%20

https://arxiv.org/abs/2603.19461

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI邪修時刻！Meta聯手MIT投毒，左腳踩右腳強行升天

新智元 2026-04-07 09:43:43
0 跟貼 0
Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0

燒Token成KPI，8.5萬Meta員工狂刷60萬億Token，爭榜一大哥

機器之心Pro 2026-04-07 13:24:24
0 跟貼 0

模仿學習如何賦能靈巧操作？這有一份「2021-2025」全景技術圖譜

機器之心Pro 2026-04-07 13:23:01
0 跟貼 0
讓多模態檢索超越SOTA！ReCALL框架化解生成式與判別式的范式沖突

量子位 2026-04-06 23:28:00
0 跟貼 0

力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0

AI終于學會「讀懂人心」，帶飛DeepSeek R1，OpenAI o3等模型

機器之心Pro 2025-11-20 15:11:00
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0

玄甲（AgentWard）全鏈路防御操作系統正式發布

機器之心Pro 2026-04-07 13:58:00
0 跟貼 0
科技巨頭集體押注自研芯，AI芯片戰場正加速向推理端遷移

華爾街見聞官方 2026-04-07 21:48:40
0 跟貼 0
AI編程“屎山危機”來了？代碼生成過載，人工審核跟不上

智東西 2026-04-07 22:53:06
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
2026企業AI大考：別秀PPT，亮出你的「用蝦」真功夫

36氪 2026-04-07 20:54:15
0 跟貼 0
微商入局AI圈：靠賣課、傳銷、空氣幣瘋狂斂財，收割手段全揭秘

雷科技 2026-04-07 21:48:25
0 跟貼 0
內容投毒，工作埋坑，打工人開始用「魔法」對抗Skill煉化？

雷科技 2026-04-07 21:42:51
0 跟貼 0
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
1 跟貼 1
高速上跑丟倆輪子，六軸車變五軸，卡友懵了

抓貓的魚 2026-04-03 13:39:09
1 跟貼 1
“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
張雪說要革掉一些不上進的人

點時新聞 2026-04-07 14:50:35
68 跟貼 68
秸稈還田后的東北黑土地軟得像發糕

瀟湘晨報 2026-04-06 23:44:24
102 跟貼 102
6個輪子和8個輪子的行駛姿態對比

土豆配面 2026-04-05 16:45:04
1 跟貼 1
郭陽郭亮爆笑機器人！蘭花指機器人，一個不對，啪啪抽嘴巴子

騎著蝸牛追導彈85 2026-04-07 07:40:00
0 跟貼 0
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2610 跟貼 2610
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2008 跟貼 2008
嬰兒車輪子竟然是平行的，看到這個造型，不由得想起風火輪！

發怒的福貓 2026-04-03 13:42:32
19 跟貼 19
PMDformer：一個簡單減法實現長時序預測注意力機制糾偏

機器之心Pro 2026-04-07 13:31:21
0 跟貼 0
百年謎題破解！人類為什么是唯一長下巴的生物？

大橘大利 2026-04-04 15:38:57
1 跟貼 1
這機器人也太過分了吧，居然還上床睡覺，請把她的眼鏡安上！

古德拜街拍 2026-04-04 16:53:33
0 跟貼 0
車下坡溜車了，司機本來想拽著，奈何力氣體重加一起沒一個輪子重

海豚搞笑 2026-04-07 09:49:14
1 跟貼 1
輪胎店不會告訴你的30英里：這個免費檢查能救你一命

閃存獵手 2026-04-07 21:13:48
0 跟貼 0
南海對決規則變了，美軍飛行員，在萬米高空瑟瑟發抖

小魚搞笑家 2026-04-07 09:28:24
1 跟貼 1
這兩個輪子，自己走自己的，這大爺一看就帶喜感

梅花搞笑 2026-04-07 14:24:11
1 跟貼 1
狗狗跟主人出門,自己知道去到車上,也是很遵守規則!

愛耍酷的喵 2026-04-06 14:14:13
1 跟貼 1
風箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
美媒：“無法無天的世界代價高昂”

參考消息 2026-04-07 16:50:06
11 跟貼 11
讓LLM不再話癆，快手HiPO框架來了

機器之心Pro 2025-11-03 15:10:48
0 跟貼 0
“虧大了”？浙江多個小區物業主動撤場，業主卻稱：錢花得冤，背后有筆算不攏的賬

環球網資訊 2026-04-07 14:42:45
25 跟貼 25
在極限環境中就需要使用極限策略

趣知小故事 2026-04-04 11:30:41
1 跟貼 1
廣州外賣騎手去年平均薪酬15萬，快遞員、貨車司機收入下降

南方都市報 2026-04-07 18:12:09
61 跟貼 61
千尋智能30天融資30億元：馬云、雷軍罕見“同框”！重金押注“百萬小時”數據規模，具身智能馬太效應加劇

每日經濟新聞 2026-04-07 21:00:08
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

14918文章數 66754關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

親子

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI學會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

滿嘴謊言！OpenAI奧特曼黑料大起底

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

跟著歌聲游安徽，聽古村回響

好的親子關系，父母只需做好這幾點 #家長必讀 #孩子教育

春天娃長個黃金期，喝對黑豆水，個子悄悄往上竄

雅致愜意 感知生活之美

特朗普恐嚇4小時摧毀伊朗伊朗稱"打穿"海法未見攔截

特朗普恐嚇4小時摧毀伊朗伊朗稱"打穿"海法未見攔截

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

雅致愜意感知生活之美