<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI學會左腳踩右腳自進化?Meta華人新研究改寫Agent法則

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】過去Agent比誰更會干活,現在可能要比誰更會變強。

      AI已經學會「左腳踩右腳上天」了?

      Meta的一項最新研究表明:AI已經開始碰自己的「進化引擎」了。

      華人學者Jenny Zhang在Meta實習期間,聯合Meta AI、UBC、紐約大學等機構研究者,提出了一種新的智能體框架:HyperAgents(DGM-H


      https://arxiv.org/abs/2603.19461

      這項工作的重點,不是再造一個更能干活的Agent。

      它瞄準的是更高一層的問題:

      如果AI已經能夠修改自己的任務解法,那它能不能連「自己以后該怎么修改自己」這件事,也一并改掉?

      論文給出的答案是:可以。

      而且,這不再是概念推演,而是已經在實驗中跑通的系統能力。

      HyperAgents做的關鍵一步,是把「執行任務的 agent」和「負責改進 agent 的 meta agent」合并進同一個可編輯程序里,作者將之稱為hyperagent。


      DGM依賴任務與自修改能力的對齊,而DGM-H不再需要這種對齊

      在新框架下,系統不只會修改任務求解邏輯,還開始修改未來生成改進方案的機制本身。

      論文把這種能力稱為metacognitive self-modification,也就是:元認知自我修改

      過去行業競爭的是:誰的Agent更會干活。

      而HyperAgents 指向的下一階段則可能是:誰的Agent更會變強,而且會越來越會變強

      以往的「自我進化」

      其實還只是半手工

      這篇論文,指出了上一代自我進化路線的天花板。

      去年的Darwin G?del Machine(DGM),已經很驚艷。

      它能在coding任務中不斷自改代碼、自我驗證、把成功版本存進archive,再從這些「墊腳石」里繼續往前長。

      論文披露,DGM在SWE-bench上能從20.0%拉到50.0%,在Polyglot上從14.2%拉到30.7%。

      但問題在于,DGM之所以能在coding里成立,是因為「評估」和「自我修改」本身也都是coding任務。

      寫代碼更強了,反過來就更會改自己的代碼。任務能力和自我改進能力,在這個場景里是對齊的。

      然而一旦離開coding,這個對齊關系就斷了。

      比如評審論文、設計機器人獎勵函數、給IMO級數學解答打分,這些任務做得更好,不等于你就更會修改自己的元機制。

      HyperAgents論文最核心的一招,就是直接把這個假設砍掉:

      既然任務能力和自我改進能力未必天然對齊,那就不要再把meta層寫死

      這說明過去很多「自我進化」系統,本質上還是在人為設定的軌道里進化。

      HyperAgents真正改變的,是改變機制本身。

      HyperAgents新在哪里?

      表面上看,HyperAgents只是多了一個meta agent。

      但真正值得注意的是,它把task agent和meta agent合成了同一個可編輯程序。

      以前的DGM里,系統有一個手工設計的instruction-generation機制,負責根據過往表現決定下一步怎么改。

      這一步不能被改,所以它反而成了整個系統的瓶頸。

      HyperAgents的做法是把這部分也納入可修改范圍。

      換句話說,AI不只是改自己的答案、自己的工具、自己的流程,它開始改「自己怎么提出修改建議」。

      DGM里上層機制基本固定,DGM-H里meta層本身也進入可演化空間,也就是說,它是一個會經營自己進化過程的系統。

      所以,HyperAgents做的不是「再加一個Agent」,而是取消了「上層永遠不變」這個默認前提

      自我改進開始跨域遷移

      在coding任務中,HyperAgents在Polyglot 上的提升,與原始DGM處在同一量級:50-task訓練子集從0.140提升到0.340,完整benchmark從0.084提升到0.267。

      換句話說,它并不是只靠犧牲泛化來換局部成績。

      更關鍵的是,它不只在coding任務成立,還能在paper review、robotics reward design等非coding任務上繼續自我改進。


      在paper review上,初始agent在測試集得分為0.0,DGM-H提升到0.710;在robotics reward design上,則從0.060提升到0.372。

      更關鍵的是,這些提升不僅出現在訓練任務里,也轉移到了held-out test tasks。

      與此同時,對照組也很說明問題:去掉self-improve,效果明顯變弱;去掉open-ended exploration,系統也很難取得有意義進展;原始DGM直接搬到非coding 域幾乎失效,只有經過人工定制成DGM-custom后,才恢復競爭力。

      這說明HyperAgents 的關鍵價值,不在于某一個benchmark多拿了幾個點,而在于它把原本依賴coding場景對齊關系的自我改進,推進成了一個能在非coding任務中運行的框架。

      更值得注意的是遷移實驗。


      作者把在paper review和robotics任務中演化出來的hyperagents,轉移到Olympiad-level math grading。

      雖然這些轉移體自身初始得分仍接近0,但它們作為「生成更優agent的meta agent」,卻能在50輪內把最好生成體推到0.630,對應imp@50從0拉到0.630。

      相比之下,來自DGM-custom的轉移體幾乎沒有這種能力。

      換句話說,遷移過去的,不只是任務經驗,而是「如何持續變好」的能力。

      它開始自己長基礎設施了

      很多人看到「自我進化」會以為,無非是AI自己改prompt、調工作流、加幾個規則。

      但論文展示給我們、最讓人感到沖擊力的一個地方在于:它開始自己長基礎設施了

      DGM-H在迭代中會自動長出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎設施。



      論文中甚至直接給出了自動生成的性能追蹤器代碼和持久記憶條目:它開始記錄跨代指標、總結哪些代際策略有效、診斷過度修正、制定下一輪改進計劃。

      這還不是「日志記錄」那么簡單,系統開始把改進看成一個長期經營過程,而不是一次次孤立的pa?tch。

      它不只記錄每一代分數,還會比較趨勢、識別回退,并把跨代經驗沉淀進persistent memory。

      正如網友所說,真正讓這一切變成現實的關鍵,恰恰是persistent memory的自主出現。


      論文展示的memory示例中寫道:某一代評審準確率更高,但過于嚴苛;另一代平衡更好;下一輪要融合兩者優點。


      沒有這層記憶,agent往往只會反復「重新發明輪子」;有了它,過去幾代的有效經驗才第一次能真正沉淀為下一輪改進的起點。

      這說明Agent正在從「輸出一個結果」,走向「維護一個持續優化系統」

      這不是AGI宣言

      但舊規則確實在失效

      當然,這篇論文沒有證明「無限自我進化AI」已經降臨。

      作者自己也寫得很清楚:

      實驗都在沙箱、資源限制和人工監督下完成;外層循環還有不少部分沒有開放給系統自改,比如任務分布、parent selection、evaluation protocol等;真正無界的open-ended self-improvement,還遠遠沒到。

      但風險預警已經出現。

      一旦AI開始改自己的改進機制,安全討論就變得重要起來。

      論文也專門有一節談風險:隨著系統越來越能開放式地修改自己,它的演化速度可能超過人類審計和理解速度。

      今天靠sandbox和人工盯著還能管住,明天未必。


      HyperAgents代表了一種新的路線,它可能會改寫Agent競爭。

      未來比的不只是誰會調模型、誰會寫workflow、誰會做更強單點工具,而是誰能把「改進能力」本身產品化、系統化、可遷移化。

      這將改變AI公司的護城河。

      真正的壁壘,可能不再只是參數、算力和數據,而是有沒有一套能跨任務累積經驗、跨運行持續變好的自我改進系統。

      也會改變開發者位置。

      開發者不再只是寫功能的人,而更像是在設計AI可以繼續自我設計的邊界條件。

      最重要的一點,它改寫了AI行業過去默認的一條規則:系統可以變強,但變強的方法由人來定義。

      現在,這條規則開始松動了。

      作者簡介

      Jenny Zhang


      Jenny Zhang

      Jenny Zhang,現為英屬哥倫比亞大學人工智能博士生,師從Jeff Clune,同時也是Vector Institute研究生,并曾在Meta擔任Research Scientist Intern。

      她本科畢業于帝國理工學院,研究方向聚焦開放式進化、強化學習與自我改進AI,代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。

      她的長期目標,是構建能夠自主提出新任務、持續自我提升、不斷演化復雜能力的AI系統。

      參考資料:

      https://x.com/jennyzhangzt/status/2036099935083618487%20

      https://arxiv.org/abs/2603.19461

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      看來美帝是真的準備打地面戰爭了

      看來美帝是真的準備打地面戰爭了

      仰望星空的一粒沙子
      2026-04-04 19:18:21
      聯合國警告特朗普政府:若襲擊伊朗民用設施 或構成戰爭罪

      聯合國警告特朗普政府:若襲擊伊朗民用設施 或構成戰爭罪

      新京報
      2026-04-07 20:17:06
      張學良得知楊虎城一家被殺細節,不相信是蔣所為,見楊后人極冷漠

      張學良得知楊虎城一家被殺細節,不相信是蔣所為,見楊后人極冷漠

      大千世界觀
      2026-04-06 21:40:05
      發達了!廣西一男子全包家族清明拜祖費用,網友:這就是光宗耀祖

      發達了!廣西一男子全包家族清明拜祖費用,網友:這就是光宗耀祖

      火山詩話
      2026-04-07 18:41:53
      中國已通知俄羅斯,愿意將俄羅斯公民免簽政策延長一年?外交部回應

      中國已通知俄羅斯,愿意將俄羅斯公民免簽政策延長一年?外交部回應

      環球網資訊
      2026-04-07 15:25:14
      教育部發布“教師二十嚴禁”!這回,老師不準做的事,全寫清楚了

      教育部發布“教師二十嚴禁”!這回,老師不準做的事,全寫清楚了

      笑熬漿糊111
      2026-04-05 00:05:25
      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      阿器談史
      2026-04-02 13:31:44
      連燒30小時!百億航母變廢鐵?5700人全被扣押,福建艦成全球唯一

      連燒30小時!百億航母變廢鐵?5700人全被扣押,福建艦成全球唯一

      小熊侃史
      2026-04-07 10:29:19
      突發!北京又一大型商場即將閉店!

      突發!北京又一大型商場即將閉店!

      大北京早知道
      2026-04-07 16:14:42
      伊朗首都響起密集爆炸聲

      伊朗首都響起密集爆炸聲

      北青網-北京青年報
      2026-04-07 16:18:04
      4 種最佳抗衰老的運動,平均壽命延長5-10年

      4 種最佳抗衰老的運動,平均壽命延長5-10年

      增肌減脂
      2026-04-07 21:15:04
      14分鐘兩次離譜錯判!U20女足進球被吹,對手后衛手球被無視

      14分鐘兩次離譜錯判!U20女足進球被吹,對手后衛手球被無視

      奧拜爾
      2026-04-07 21:25:48
      清明節,兒子寫燒給母親的祭文,看哭了14億中國人!

      清明節,兒子寫燒給母親的祭文,看哭了14億中國人!

      每日一首古詩詞
      2026-04-05 06:07:07
      霍爾木茲海峽,大消息!特朗普發聲!伊朗回應!黃金、白銀、美股,跳水!原油飆漲

      霍爾木茲海峽,大消息!特朗普發聲!伊朗回應!黃金、白銀、美股,跳水!原油飆漲

      證券時報e公司
      2026-04-07 22:06:55
      王楚欽奪得世界杯冠軍成全了多少人?樊振東張本智和都得發來賀電

      王楚欽奪得世界杯冠軍成全了多少人?樊振東張本智和都得發來賀電

      羅納爾說個球
      2026-04-06 16:43:41
      東北3歲小網紅繼續做吃播,父母是真不想上班

      東北3歲小網紅繼續做吃播,父母是真不想上班

      九方魚論
      2026-04-07 05:02:58
      從權傾朝野到滿門抄斬,他的九十歲老母都被砍頭示眾!

      從權傾朝野到滿門抄斬,他的九十歲老母都被砍頭示眾!

      歷史按察使司
      2026-04-07 12:41:15
      海康威視辟謠“300人被帶走”,在伊朗無相關業務

      海康威視辟謠“300人被帶走”,在伊朗無相關業務

      局市
      2026-04-07 18:20:19
      董宇輝爭議言論炸上熱搜,人設大反轉!

      董宇輝爭議言論炸上熱搜,人設大反轉!

      陳意小可愛
      2026-04-07 18:09:49
      日媒:日本一老人在景點與女子發生爭執啃咬對方手臂,被捕后短時間內死亡,警方正調查死因

      日媒:日本一老人在景點與女子發生爭執啃咬對方手臂,被捕后短時間內死亡,警方正調查死因

      環球網資訊
      2026-04-07 11:12:37
      2026-04-07 23:43:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      本地
      教育
      親子
      家居
      公開課

      本地新聞

      跟著歌聲游安徽,聽古村回響

      教育要聞

      好的親子關系,父母只需做好這幾點 #家長必讀 #孩子教育

      親子要聞

      春天娃長個黃金期,喝對黑豆水,個子悄悄往上竄

      家居要聞

      雅致愜意 感知生活之美

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版