近日,Google DeepMind發(fā)布最新研究成果,提出一種名為AlphaEvolve的方法,用大語言模型驅動的進化式搜索框架,自動發(fā)現(xiàn)新的多智能體強化學習算法。這項工作已經以論文形式發(fā)布,題為《Discovering Multiagent Learning Algorithms with Large Language Models》。
![]()
多智能體強化學習主要研究多個智能體在同一環(huán)境中博弈與協(xié)作的問題,廣泛應用于博弈論、自動對弈系統(tǒng)以及復雜策略優(yōu)化場景。長期以來,這一領域的重要算法框架,如反事實遺憾最小化(CFR)和策略響應預言機(PSRO),雖然理論基礎扎實,但具體變體的設計往往依賴研究者不斷試驗、調參和經驗判斷。
Google DeepMind此次提出的AlphaEvolve,則嘗試改變這一傳統(tǒng)路徑。研究團隊將大語言模型用于生成和修改算法代碼,通過自動化演化過程,在大規(guī)模搜索空間中探索可能的算法結構。系統(tǒng)不再僅僅優(yōu)化參數,而是直接對算法邏輯本身進行改寫和組合,從而產生新的訓練規(guī)則和更新機制。
![]()
在論文中,研究團隊報告了兩個主要成果。
其一是提出了一種名為VAD-CFR的新型遺憾最小化方法。該方法在傳統(tǒng)CFR框架基礎上,引入了與波動性相關的折扣機制、強調一致性的樂觀更新方式,以及特定的策略累積調度方案。在多個測試環(huán)境中,VAD-CFR的表現(xiàn)優(yōu)于當前常用的Discounted Predictive CFR+等基線算法。
其二是在PSRO框架下,演化出一種名為SHOR-PSRO的元求解器。該方法將樂觀遺憾匹配與溫度控制的平滑最優(yōu)響應策略結合起來,并通過動態(tài)調整混合系數,實現(xiàn)從策略多樣性探索到均衡收斂的平穩(wěn)過渡。實驗結果顯示,SHOR-PSRO在收斂速度和穩(wěn)定性方面優(yōu)于傳統(tǒng)靜態(tài)元求解器。
研究團隊在論文中指出,這些新算法中包含一些“非直觀”的機制組合,也就是說,它們并非研究者憑借經驗自然會想到的結構,但在實證測試中表現(xiàn)良好。這意味著,AI系統(tǒng)不僅可以輔助調參,還可以參與到算法結構設計本身。
![]()
這項工作的意義在于,算法設計這一長期以來被視為高度依賴人類創(chuàng)造力和理論直覺的領域,開始出現(xiàn)由AI系統(tǒng)自動生成有效方案的案例。過去,多智能體強化學習算法往往需要多年迭代改進,而現(xiàn)在,大語言模型驅動的演化系統(tǒng)能夠在較短時間內探索大量可能路徑,并篩選出具有競爭力的方案。
從更廣的視角看,這種“用AI設計訓練AI的算法”的模式,可能會在強化學習、博弈論優(yōu)化乃至更一般的機器學習框架中產生影響。如果類似方法在更多任務上被驗證有效,未來算法創(chuàng)新的方式可能會逐步發(fā)生變化。
目前,這項研究仍處于學術驗證階段,相關算法的實際應用效果還有待更多場景測試。但可以確定的是,AI正在從“執(zhí)行既定算法”走向“參與算法創(chuàng)造”,這為人工智能研究帶來了新的方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.