<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepMind新論文炸鍋:AI全自動進化算法,寫出專家都想不到的解,網友:這可能就是“王牌”

      0
      分享至

        

        作者 | 木子

        說起 AI Coding,之前很多人好歹還有個“心理安慰”:AI 也就寫寫“腳手架代碼”、補補前端頁面,真到核心算法、業務邏輯,還是得人來。

        但這道“最后防線”,也正在松動。

        谷歌 DeepMind最近做了一件更狠的事:他們讓LLM 驅動的智能體,直接去改寫、進化算法代碼本身——不是調參數,而是改算法邏輯。

        改完就丟進真實博弈環境里反復跑,自動評測、優勝劣汰,一輪輪進化。

        結果呢?它真的做出了全新的多智能體學習算法,在多項測試中超過了人類專家手工打磨的版本。

        重要的是,這些機制并不直觀,屬于人類很難靠經驗窮舉出來的解。

        更關鍵的是:人只用定義好了算法骨架,之后的搜索、修改、篩選,全程自動完成,不用手調參數,不用反復試錯,也不靠研究者的直覺微調。

        

        這個智能體叫AlphaEvolve,延續了 DeepMind 一貫的“Alpha”命名傳統(AlphaGo、AlphaZero、AlphaFold)。其中 “Evolve” 意為“進化”,點明它的核心機制:通過類似生物進化的方式不斷改寫和篩選算法。

        這個 AlphaEvolve 本身去年就有,但這是它第一次被用來學習算法

        它把 Gemini 系列大模型,和進化搜索結合起來,把代碼不斷生成、測試、篩選、再進化。

        

        DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文,題為《基于大語言模型的多智能體學習算法自動發現》(Discovering Multiagent Learning Algorithms with Large Language Models),一發出來就炸了技術圈。

        

        有網友看完直呼,這玩意真挺“可怕”的:

      “這看起來像是 DeepMind 手中的一張王牌,我認為它可能導致谷歌贏得比賽。”

        

        有人銳評:

      “這就像教一個孩子讀書,然后看著它自己編寫教科書。”

        

        還有人已經開始往更遠處想:既然 AI 已經能設計更好的學習算法,那或許它也該先給自己設計一套更完善的“倫理引擎”,在 ASI 真正爆發之前,先把對齊這件事想清楚。

        

        人只選定算法框架,

        AI 全自動閉環進化

        來展開看看實驗設計和操作過程。

        需要說明的是,研究團隊沒有讓模型“從零寫算法”,而是選定兩個成熟框架:

        CFR(后悔最小化):CFR 算法族,依賴遞歸定義來累積后悔值并構建平均策略。

        PSRO(策略種群訓練):通過迭代計算最優響應并求解元策略,不斷擴展策略種群。

        過去,在不完全信息博弈求解(比如撲克)中,像 CFR、PSRO 這些經典算法雖然理論扎實,但真正好用的“升級版”,還是要靠人類專家一點點憑經驗調參、改規則、試出來。

        然后,研究人員把算法核心邏輯,拆成幾個可被改寫的 Python 函數,例如:regret 累積規則、當前策略生成方式、平均策略更新規則、PSRO 的 meta-solver 邏輯。

        也就是說,他們只開放了“關鍵決策邏輯”給 LLM 改,其余框架固定。這一步很關鍵,相當于給進化定義“基因范圍”。

        接下來就進入真正的“進化環節”。

        AlphaEvolve 把當前算法代碼當作“個體”,由 LLM 生成若干語義上有意義的改寫版本:不是隨便亂改,而是改具體邏輯、控制流或更新規則。

        每一個改寫后的版本,都會被自動編譯、運行,然后丟進一組博弈環境里真實對戰,用 exploitability 這樣的指標打分。表現更好的版本被保留下來,作為下一輪搜索的基礎;表現差的直接淘汰。

        整個過程是閉環的:生成 → 運行 → 評估 → 篩選 → 再生成,循環推進。人類不參與中間調參,也不手動篩選,只負責設定規則和評價標準。

        

        圖注:這張示意圖也是 AI 做的

        結果,AI 進化出了兩個全新算法

        先看 CFR 這一派。AlphaEvolve 進化出了 VAD-CFR。

        AI 沒有去調那點小參數,而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯。

        比如引入了 volatility-sensitive discounting(根據波動動態折扣)、hard warm-start schedule(前期蓄力、后期發力)這樣的機制。

        聽起來挺抽象的,但效果明顯:在多個博弈里,它超過了目前人類手工打磨出來的最強版本。

        

        這張圖很直觀,展示了多種 CFR 變體在不同博弈環境中的收斂表現。上半部分是用于搜索階段的訓練游戲,下半部分是規模更大、更復雜的測試游戲。

        橫軸是迭代次數(最多 1000 次),縱軸是 exploitability(越低越接近均衡)。曲線降得越快、越低,說明算法越強。

        灰色那條線就是 VAD-CFR。可以看到,在多數游戲里,它下滑得更快、落得更低,明顯壓過 CFR+、DCFR、PCFR+ 這些人類優化過多輪的版本。

        在一些游戲中,大約 500 次迭代之后,曲線像突然“踩了油門”,下降速度明顯加快——這正是它預熱階段結束、正式發力的時刻。

        前半段像是在默默蓄力,后半段才真正沖刺。

        更關鍵的是,在規模更大、難度更高的測試游戲中,VAD-CFR 依然比傳統的 CFR、CFR+、DCFR 等人工設計的算法收斂更快、結果更優,沒有出現“只會做模擬題”的情況。

        這說明,它不是針對訓練游戲做了小技巧,而是在算法結構層面找到了一種更高效的更新方式。

        再看PSRO這一派:AI 進化出了SHOR-PSRO算法。

        它做的事情很簡單也很大膽:重新設計“元求解器”。

        傳統方法要么偏探索,要么偏逼近均衡,權衡是固定的。而 SHOR 直接把多種更新機制混合在一起,設計了一種混合型 meta-solver,而且隨著訓練進程動態調整,讓訓練過程自動從“多樣性探索”過渡到“逼近均衡”。

        

        這張圖,展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經典方法的對比。

        圖中不同顏色代表不同元求解器:Uniform、Nash、AlphaRank、PRD、Regret Matching(RM),以及進化得到的 SHOR(棕色線)。

        整張圖分為上下兩部分。上半部分是訓練游戲,下半部分是規模更大、更復雜的測試游戲,用來檢驗算法是否具有泛化能力。

        橫軸是 PSRO 迭代次數(最多 100 輪),縱軸是 exploitability(可被利用度,對數坐標);數值越低,說明算法越接近博弈均衡、表現越好。

        可以看到,在多數游戲中,SHOR 曲線下降更快,而且在第 100 次迭代時的 exploitability 更低,說明它在同樣迭代次數下更有效地逼近均衡。

        尤其是在更復雜的測試游戲中(如 4-player Kuhn、6-sided Liar’s Dice),SHOR 依然保持優勢,沒有明顯退化。

        簡單說,SHOR-PSRO 在“什么時候多探索、什么時候專注逼近均衡”這件事上,比傳統方法更靈活、更聰明。

        它不是靠調參數贏的,而是把調度邏輯本身改了。

        論文地址:

      https://arxiv.org/abs/2602.16928

        https://x.com/hasantoxr/status/2026371848217456738

        https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北大碩士廖天野:29歲上岸深圳公務員,竟對農村父母拳腳相加

      北大碩士廖天野:29歲上岸深圳公務員,竟對農村父母拳腳相加

      小蜜情感說
      2026-03-02 12:10:16
      水利部長傅作義無實際職權,副部長代替簽字,周總理:一律無效

      水利部長傅作義無實際職權,副部長代替簽字,周總理:一律無效

      興趣知識
      2026-02-27 22:03:38
      歷史罕見!接發球員、面對賽點、超時被罰分、直接輸掉比賽

      歷史罕見!接發球員、面對賽點、超時被罰分、直接輸掉比賽

      網球之家
      2026-03-03 12:51:46
      佩斯科夫:普京將向伊朗方面轉達海灣國家關切

      佩斯科夫:普京將向伊朗方面轉達海灣國家關切

      界面新聞
      2026-03-03 18:30:53
      從大S最后的歲月中可以看出,大S可能已經相當不滿意光頭了

      從大S最后的歲月中可以看出,大S可能已經相當不滿意光頭了

      喜歡歷史的阿繁
      2026-03-03 17:30:57
      北京銀行撤銷用戶1.6元/g買入的積存金、扣回金額,功能現已恢復

      北京銀行撤銷用戶1.6元/g買入的積存金、扣回金額,功能現已恢復

      湘財Plus
      2026-03-03 09:37:41
      伊朗機票暴漲10倍一票難求,382萬天價機票回上海,各種亂象開始

      伊朗機票暴漲10倍一票難求,382萬天價機票回上海,各種亂象開始

      眼光很亮
      2026-03-02 08:00:22
      中國不先使用核武器,如果美國炸毀北斗衛星,中國是不是就輸了?

      中國不先使用核武器,如果美國炸毀北斗衛星,中國是不是就輸了?

      暗香暗香
      2026-02-24 01:54:48
      突發!伊朗現在已經沒有海軍了!

      突發!伊朗現在已經沒有海軍了!

      達文西看世界
      2026-03-03 14:05:39
      美伊大戰后果來了,石油漲價歐佩克宣布增產,中國能源轉型很明智

      美伊大戰后果來了,石油漲價歐佩克宣布增產,中國能源轉型很明智

      甜檸聊史
      2026-03-02 16:51:07
      出大事了,美以計劃恐要落空,伊朗政壇突變,軍隊1.5小時內反擊

      出大事了,美以計劃恐要落空,伊朗政壇突變,軍隊1.5小時內反擊

      說歷史的老牢
      2026-03-02 12:26:58
      伊朗放開手腳,首次使用子母彈頭!以色列緊急向民眾發出警示

      伊朗放開手腳,首次使用子母彈頭!以色列緊急向民眾發出警示

      點燃好奇心
      2026-03-03 04:59:44
      就在今晚!3月3日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      就在今晚!3月3日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-03-03 11:15:55
      再也不用換港幣!香港的士掃碼支付4月1日執行:違者最高罰5000港元及監禁6個月

      再也不用換港幣!香港的士掃碼支付4月1日執行:違者最高罰5000港元及監禁6個月

      快科技
      2026-03-03 09:00:09
      男朋友拍照有多“陰間”?網友:隨便一張都能做山海經的插圖

      男朋友拍照有多“陰間”?網友:隨便一張都能做山海經的插圖

      另子維愛讀史
      2026-02-28 23:36:50
      博主吐槽媽媽愛舅舅勝過她!網友:把車收回去,現在就是燙手山芋

      博主吐槽媽媽愛舅舅勝過她!網友:把車收回去,現在就是燙手山芋

      另子維愛讀史
      2026-03-02 20:31:27
      我擦!詹庫連線要來了,勇士你來真的嗎?

      我擦!詹庫連線要來了,勇士你來真的嗎?

      體育新角度
      2026-03-03 16:00:16
      湖記:庫里和追夢計劃在休賽期全力招募詹姆斯

      湖記:庫里和追夢計劃在休賽期全力招募詹姆斯

      體壇周報
      2026-03-03 16:11:19
      中核集團的顧軍被查了。最讓人脊背發涼的是他的第一個身份

      中核集團的顧軍被查了。最讓人脊背發涼的是他的第一個身份

      南權先生
      2026-02-02 16:05:36
      起飛后在空中聽說戰爭爆發了!“最后一趟航班”旅客感嘆:很幸運回到了祖國的懷抱

      起飛后在空中聽說戰爭爆發了!“最后一趟航班”旅客感嘆:很幸運回到了祖國的懷抱

      極目新聞
      2026-03-03 13:59:57
      2026-03-03 19:04:49
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1335文章數 132關注度
      往期回顧 全部

      科技要聞

      擁抱AI的"牛馬":邊提效邊自嘲"自費"上班

      頭條要聞

      襲擊伊朗后 特朗普首次發表白宮講話:將不惜一切代價

      頭條要聞

      襲擊伊朗后 特朗普首次發表白宮講話:將不惜一切代價

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      特朗普“不惜一切”!全球股債齊崩

      汽車要聞

      第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

      態度原創

      游戲
      親子
      旅游
      數碼
      時尚

      解謎冒險游戲《Apopia:糖衣冒險》 于今日上線Steam 舉行限時九折優惠活動

      親子要聞

      親媽勸女兒一定要有經濟來源!網友:不落自己身上都不知道痛

      旅游要聞

      一夜驟降11℃!仙游晚上可能“雨打燈”

      數碼要聞

      谷歌Home新增實時搜索功能:Gemini已能理解攝像頭實時畫面

      普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

      無障礙瀏覽 進入關懷版