網易首頁 > 網易號 > 正文申請入駐

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網友：這可能就是“王牌”

2026-02-27 14:05:02　來源: AI前線

北京舉報

分享至

　　作者 | 木子

　　說起 AI Coding，之前很多人好歹還有個“心理安慰”：AI 也就寫寫“腳手架代碼”、補補前端頁面，真到核心算法、業務邏輯，還是得人來。

　　但這道“最后防線”，也正在松動。

　　谷歌 DeepMind最近做了一件更狠的事：他們讓LLM 驅動的智能體，直接去改寫、進化算法代碼本身——不是調參數，而是改算法邏輯。

　　改完就丟進真實博弈環境里反復跑，自動評測、優勝劣汰，一輪輪進化。

　　結果呢？它真的做出了全新的多智能體學習算法，在多項測試中超過了人類專家手工打磨的版本。

　　重要的是，這些機制并不直觀，屬于人類很難靠經驗窮舉出來的解。

　　更關鍵的是：人只用定義好了算法骨架，之后的搜索、修改、篩選，全程自動完成，不用手調參數，不用反復試錯，也不靠研究者的直覺微調。

　　這個智能體叫AlphaEvolve，延續了 DeepMind 一貫的“Alpha”命名傳統（AlphaGo、AlphaZero、AlphaFold）。其中 “Evolve” 意為“進化”，點明它的核心機制：通過類似生物進化的方式不斷改寫和篩選算法。

　　這個 AlphaEvolve 本身去年就有，但這是它第一次被用來學習算法。

　　它把 Gemini 系列大模型，和進化搜索結合起來，把代碼不斷生成、測試、篩選、再進化。

　　DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文，題為《基于大語言模型的多智能體學習算法自動發現》（Discovering Multiagent Learning Algorithms with Large Language Models），一發出來就炸了技術圈。

　　有網友看完直呼，這玩意真挺“可怕”的：

“這看起來像是 DeepMind 手中的一張王牌，我認為它可能導致谷歌贏得比賽。”

　　有人銳評：

“這就像教一個孩子讀書，然后看著它自己編寫教科書。”

　　還有人已經開始往更遠處想：既然 AI 已經能設計更好的學習算法，那或許它也該先給自己設計一套更完善的“倫理引擎”，在 ASI 真正爆發之前，先把對齊這件事想清楚。

　　人只選定算法框架，

　　AI 全自動閉環進化

　　來展開看看實驗設計和操作過程。

　　需要說明的是，研究團隊沒有讓模型“從零寫算法”，而是選定兩個成熟框架：

　　CFR（后悔最小化）：CFR 算法族，依賴遞歸定義來累積后悔值并構建平均策略。

　　PSRO（策略種群訓練）：通過迭代計算最優響應并求解元策略，不斷擴展策略種群。

　　過去，在不完全信息博弈求解（比如撲克）中，像 CFR、PSRO 這些經典算法雖然理論扎實，但真正好用的“升級版”，還是要靠人類專家一點點憑經驗調參、改規則、試出來。

　　然后，研究人員把算法核心邏輯，拆成幾個可被改寫的 Python 函數，例如：regret 累積規則、當前策略生成方式、平均策略更新規則、PSRO 的 meta-solver 邏輯。

　　也就是說，他們只開放了“關鍵決策邏輯”給 LLM 改，其余框架固定。這一步很關鍵，相當于給進化定義“基因范圍”。

　　接下來就進入真正的“進化環節”。

　　AlphaEvolve 把當前算法代碼當作“個體”，由 LLM 生成若干語義上有意義的改寫版本：不是隨便亂改，而是改具體邏輯、控制流或更新規則。

　　每一個改寫后的版本，都會被自動編譯、運行，然后丟進一組博弈環境里真實對戰，用 exploitability 這樣的指標打分。表現更好的版本被保留下來，作為下一輪搜索的基礎；表現差的直接淘汰。

　　整個過程是閉環的：生成 → 運行 → 評估 → 篩選 → 再生成，循環推進。人類不參與中間調參，也不手動篩選，只負責設定規則和評價標準。

　　圖注：這張示意圖也是 AI 做的

　　結果，AI 進化出了兩個全新算法。

　　先看 CFR 這一派。AlphaEvolve 進化出了 VAD-CFR。

　　AI 沒有去調那點小參數，而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯。

　　比如引入了 volatility-sensitive discounting（根據波動動態折扣）、hard warm-start schedule（前期蓄力、后期發力）這樣的機制。

　　聽起來挺抽象的，但效果明顯：在多個博弈里，它超過了目前人類手工打磨出來的最強版本。

　　這張圖很直觀，展示了多種 CFR 變體在不同博弈環境中的收斂表現。上半部分是用于搜索階段的訓練游戲，下半部分是規模更大、更復雜的測試游戲。

　　橫軸是迭代次數（最多 1000 次），縱軸是 exploitability（越低越接近均衡）。曲線降得越快、越低，說明算法越強。

　　灰色那條線就是 VAD-CFR。可以看到，在多數游戲里，它下滑得更快、落得更低，明顯壓過 CFR+、DCFR、PCFR+ 這些人類優化過多輪的版本。

　　在一些游戲中，大約 500 次迭代之后，曲線像突然“踩了油門”，下降速度明顯加快——這正是它預熱階段結束、正式發力的時刻。

　　前半段像是在默默蓄力，后半段才真正沖刺。

　　更關鍵的是，在規模更大、難度更高的測試游戲中，VAD-CFR 依然比傳統的 CFR、CFR+、DCFR 等人工設計的算法收斂更快、結果更優，沒有出現“只會做模擬題”的情況。

　　這說明，它不是針對訓練游戲做了小技巧，而是在算法結構層面找到了一種更高效的更新方式。

　　再看PSRO這一派：AI 進化出了SHOR-PSRO算法。

　　它做的事情很簡單也很大膽：重新設計“元求解器”。

　　傳統方法要么偏探索，要么偏逼近均衡，權衡是固定的。而 SHOR 直接把多種更新機制混合在一起，設計了一種混合型 meta-solver，而且隨著訓練進程動態調整，讓訓練過程自動從“多樣性探索”過渡到“逼近均衡”。

　　這張圖，展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經典方法的對比。

　　圖中不同顏色代表不同元求解器：Uniform、Nash、AlphaRank、PRD、Regret Matching（RM），以及進化得到的 SHOR（棕色線）。

　　整張圖分為上下兩部分。上半部分是訓練游戲，下半部分是規模更大、更復雜的測試游戲，用來檢驗算法是否具有泛化能力。

　　橫軸是 PSRO 迭代次數（最多 100 輪），縱軸是 exploitability（可被利用度，對數坐標）；數值越低，說明算法越接近博弈均衡、表現越好。

　　可以看到，在多數游戲中，SHOR 曲線下降更快，而且在第 100 次迭代時的 exploitability 更低，說明它在同樣迭代次數下更有效地逼近均衡。

　　尤其是在更復雜的測試游戲中（如 4-player Kuhn、6-sided Liar’s Dice），SHOR 依然保持優勢，沒有明顯退化。

　　簡單說，SHOR-PSRO 在“什么時候多探索、什么時候專注逼近均衡”這件事上，比傳統方法更靈活、更聰明。

　　它不是靠調參數贏的，而是把調度邏輯本身改了。

　　論文地址：

https://arxiv.org/abs/2602.16928

　　https://x.com/hasantoxr/status/2026371848217456738

　　https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

硅谷AI公司的組織革命：從Anthropic到Cursor，效率從哪來？

鈦媒體APP 2026-03-02 19:18:12
19 跟貼 19
谷歌AI攻克6道世界級難題，比IMO金牌更震撼！陶哲軒指明新玩法

新智元 2026-03-01 09:08:07
95 跟貼 95

CL-Bench的故事沒有結束，生成式CL-Bench：GENIUS來了

機器之心Pro 2026-03-02 17:46:26
0 跟貼 0

AI主權的底層戰爭：全同態加密正在成為新基礎設施

36氪 2026-02-28 17:20:13
0 跟貼 0
大學無用？奧特曼輟學當了CEO，但名校生撐起了整個OpenAI！

36氪 2026-01-18 10:45:08
35 跟貼 35

波士頓機器狗練成“輕功”！連續七個后空翻

量子位 2025-09-07 01:03:18
21 跟貼 21

王興興署名，宇樹機器人春晚后又進化：單個策略就能學習極限動作

機器之心Pro 2026-03-03 15:29:45
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0

五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
官宣｜FlagOS 鏡像登陸騰訊云 HAI社區，快速部署OpenClaw 實現“養蝦”自由

智東西 2026-03-03 15:02:07
0 跟貼 0
今年最值得關注的AI榜單來啦！申報即日啟動

量子位 2026-03-03 18:48:23
0 跟貼 0
耶魯學霸用Claude干翻了百人律師團隊，重構法律執業模式

DeepTech深科技 2026-03-03 18:09:59
0 跟貼 0
19歲天才少年做AI應用，下載量超1500萬次、年入2億，反手被行業頭部玩家收購

智東西 2026-03-03 18:58:10
0 跟貼 0
Dense、MoE之外第三條Scaling路徑：交大提出JTok模塊，省1/3算力

機器之心Pro 2026-03-02 18:55:21
0 跟貼 0
人大&通義：IterResearch用40K上下文輕松實現2048輪交互不退化

機器之心Pro 2026-03-02 19:18:23
0 跟貼 0
推薦系統進入「雙動力」時代！首篇LLM-RL協同推薦綜述深度解析

機器之心Pro 2026-03-03 13:16:12
0 跟貼 0
超兩成孩子只想和AI聊天，父母輸給了算法

新浪財經 2026-03-03 18:07:32
0 跟貼 0
第一次，戰爭的底牌攥在AI手里

版面之外 2026-03-03 18:59:06
0 跟貼 0
當視頻難以被表征：UCSD、HKUST等機構聯合提出FlowRVS

機器之心Pro 2026-03-03 17:30:01
0 跟貼 0
4個常見測量血糖的數值分別要怎么看？

陳薇醫生 2026-03-03 12:51:27
0 跟貼 0
媽媽教育哥哥，高情商妹妹一招“曲線救哥”，全家逗笑了

潤林手工 2026-03-02 04:02:49
0 跟貼 0
把激光雷達干到500線以上，華為乾崑到底圖什么？

一點財經 2026-03-03 17:58:39
0 跟貼 0
圍繞美以襲擊伊朗，蔡正元分享“精準預判”的思考邏輯，值得一聽

搞笑龍眼 2026-03-03 05:36:08
0 跟貼 0
寧波一旅游團所乘郵輪滯留迪拜，船上有約200名中國游客

上觀新聞 2026-03-02 16:05:11
4200 跟貼 4200
“看到新家，整個人都懵了！”上海小伙動遷分房“不喜反憂”，相關部門回應→

新民晚報 2026-03-02 18:59:35
553 跟貼 553
蘋果推出iPhone 17e 3月4日起接受預購

界面新聞 2026-03-02 22:11:14
7745 跟貼 7745
很少有人知道曲線鋸背后原理！自制超實用木工工具！

大春不一樣 2026-02-28 11:46:42
0 跟貼 0
20萬以內買油車還是電車，啥都不用看，只說一點邏輯你就懂了

領笑之家 2026-02-27 16:54:58
15 跟貼 15
中國母女迪拜36萬囤12張機票等回國

大象新聞 2026-03-03 10:47:07
2818 跟貼 2818
持續進化中！謝潑德攻防拉滿轟19分7板10助6斷2帽，杜蘭特看嗨了

董老師看競技 2026-03-03 15:27:55
0 跟貼 0
下棋中路搶攻策略

青樹檸檬q 2026-03-02 08:52:15
0 跟貼 0
男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區回應：“八仙過海”石雕屬于公共區域無人值守，后續會加強巡邏

三湘都市報 2026-02-28 13:37:39
960 跟貼 960
OpenAI與美國軍方合作引發用戶反對

財聯社 2026-03-03 11:28:05
407 跟貼 407

AI前線

面向AI愛好者、開發者和科學家，提供AI領域技術資訊。

1335文章數 132關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

親子

旅游

數碼

時尚

手機 / 數碼

房產 / 家居

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網友：這可能就是“王牌”

擁抱AI的"牛馬"：邊提效邊自嘲"自費"上班

襲擊伊朗后 特朗普首次發表白宮講話：將不惜一切代價

襲擊伊朗后 特朗普首次發表白宮講話：將不惜一切代價

35輪后積分-7，他們遭遇史上最早的降級

謝娜霸氣護夫：喊話薛之謙給張杰道歉

特朗普“不惜一切”！全球股債齊崩

第一梯隊輔助駕駛加持 iCAR V27定檔3月13日上市

態度原創

解謎冒險游戲《Apopia:糖衣冒險》 于今日上線Steam 舉行限時九折優惠活動

親媽勸女兒一定要有經濟來源！網友：不落自己身上都不知道痛

一夜驟降11℃！仙游晚上可能“雨打燈”

谷歌Home新增實時搜索功能：Gemini已能理解攝像頭實時畫面

普通人穿衣真的很簡單！單品選對、搭配合理，大方舒適又得體

襲擊伊朗后特朗普首次發表白宮講話：將不惜一切代價

襲擊伊朗后特朗普首次發表白宮講話：將不惜一切代價

解謎冒險游戲《Apopia:糖衣冒險》于今日上線Steam 舉行限時九折優惠活動