網易首頁 > 網易號 > 正文申請入駐

谷歌DeepMind利用AI發(fā)現(xiàn)了全新的博弈論算法，命名為AlphaEvolve

2026-02-26 21:48:12　來源: 知識圈

北京舉報

分享至

近日，Google DeepMind發(fā)布最新研究成果，提出一種名為AlphaEvolve的方法，用大語言模型驅動的進化式搜索框架，自動發(fā)現(xiàn)新的多智能體強化學習算法。這項工作已經以論文形式發(fā)布，題為《Discovering Multiagent Learning Algorithms with Large Language Models》。

多智能體強化學習主要研究多個智能體在同一環(huán)境中博弈與協(xié)作的問題，廣泛應用于博弈論、自動對弈系統(tǒng)以及復雜策略優(yōu)化場景。長期以來，這一領域的重要算法框架，如反事實遺憾最小化（CFR）和策略響應預言機（PSRO），雖然理論基礎扎實，但具體變體的設計往往依賴研究者不斷試驗、調參和經驗判斷。

Google DeepMind此次提出的AlphaEvolve，則嘗試改變這一傳統(tǒng)路徑。研究團隊將大語言模型用于生成和修改算法代碼，通過自動化演化過程，在大規(guī)模搜索空間中探索可能的算法結構。系統(tǒng)不再僅僅優(yōu)化參數，而是直接對算法邏輯本身進行改寫和組合，從而產生新的訓練規(guī)則和更新機制。

在論文中，研究團隊報告了兩個主要成果。

其一是提出了一種名為VAD-CFR的新型遺憾最小化方法。該方法在傳統(tǒng)CFR框架基礎上，引入了與波動性相關的折扣機制、強調一致性的樂觀更新方式，以及特定的策略累積調度方案。在多個測試環(huán)境中，VAD-CFR的表現(xiàn)優(yōu)于當前常用的Discounted Predictive CFR+等基線算法。

其二是在PSRO框架下，演化出一種名為SHOR-PSRO的元求解器。該方法將樂觀遺憾匹配與溫度控制的平滑最優(yōu)響應策略結合起來，并通過動態(tài)調整混合系數，實現(xiàn)從策略多樣性探索到均衡收斂的平穩(wěn)過渡。實驗結果顯示，SHOR-PSRO在收斂速度和穩(wěn)定性方面優(yōu)于傳統(tǒng)靜態(tài)元求解器。

研究團隊在論文中指出，這些新算法中包含一些“非直觀”的機制組合，也就是說，它們并非研究者憑借經驗自然會想到的結構，但在實證測試中表現(xiàn)良好。這意味著，AI系統(tǒng)不僅可以輔助調參，還可以參與到算法結構設計本身。

這項工作的意義在于，算法設計這一長期以來被視為高度依賴人類創(chuàng)造力和理論直覺的領域，開始出現(xiàn)由AI系統(tǒng)自動生成有效方案的案例。過去，多智能體強化學習算法往往需要多年迭代改進，而現(xiàn)在，大語言模型驅動的演化系統(tǒng)能夠在較短時間內探索大量可能路徑，并篩選出具有競爭力的方案。

從更廣的視角看，這種“用AI設計訓練AI的算法”的模式，可能會在強化學習、博弈論優(yōu)化乃至更一般的機器學習框架中產生影響。如果類似方法在更多任務上被驗證有效，未來算法創(chuàng)新的方式可能會逐步發(fā)生變化。

目前，這項研究仍處于學術驗證階段，相關算法的實際應用效果還有待更多場景測試。但可以確定的是，AI正在從“執(zhí)行既定算法”走向“參與算法創(chuàng)造”，這為人工智能研究帶來了新的方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.