網易首頁 > 網易號 > 正文申請入駐

<span class="js_title_inner">探索最先進的強化學習算法

2026-01-30 16:47:17　來源: CreateAMind

上海舉報

分享至

Discovering state-of-the-art reinforcement learning algorithms

探索最先進的強化學習算法

https://www.nature.com/articles/s41586-025-09761-x

人類和其他動物使用強大的強化學習（RL）機制，這些機制是通過進化在許多代的試錯過程中發現的。相比之下，人工智能體通常使用手工設計的學習規則進行學習。盡管數十年來人們對此抱有濃厚興趣，但自主發現強大RL算法的目標一直難以實現1??。本文表明，機器有可能發現一種最先進的RL規則，其性能優于手工設計的規則。這一成果是通過對大量復雜環境中智能體群體的累積經驗進行元學習而實現的。具體而言，我們的方法發現了用于更新智能體策略和預測的RL規則。在我們的大規模實驗中，所發現的規則在公認的Atari基準測試上超越了所有現有規則，并且在發現過程中未曾見過的具有挑戰性的基準測試上，其表現也優于多種最先進的RL算法。我們的研究結果表明，先進人工智能所需的RL算法可能很快將能夠從智能體的經驗中自動發現，而非依賴于手工設計。

人工智能的主要目標是設計出能夠像人類一樣在復雜環境中進行預測并采取行動以實現目標的智能體。許多最成功的智能體基于強化學習（RL），即智能體通過與環境交互進行學習。數十年的研究產生了日益高效的RL算法，從而在人工智能領域取得眾多里程碑式成果，包括掌握圍棋?、國際象棋?、《星際爭霸》?和《我的世界》1?等復雜競技游戲、發明新的數學工具11，以及控制復雜的物理系統12。

與人類不同——人類的學習機制是通過生物進化自然發現的——RL算法通常由人工手動設計。這一過程通常緩慢而費力，并受限于對人類知識與直覺的依賴。盡管已有若干嘗試致力于自動發現學習算法1??，但尚無方法被證明具備足夠的效率與通用性以取代手工設計的RL系統。

在本研究中，我們提出了一種自主發現RL規則的方法，該方法僅通過多代智能體與各類環境交互所積累的經驗實現（圖1a）。所發現的RL規則在多種具有挑戰性的RL基準測試上達到了最先進性能。我們的方法相較于先前工作在兩個維度上形成對比：第一，先前方法通常在狹窄的RL規則空間中進行搜索（例如超參數13,1?或策略損失1,?），而我們的方法允許智能體探索表達能力更強的潛在RL規則空間；第二，先前工作聚焦于在簡單環境（例如網格世界3,1?）中進行元學習，而我們的方法則在更復雜多樣且規模更大的環境中進行元學習。

為選擇一個通用的發現空間，我們觀察到標準RL算法的核心組成部分是一條更新規則，該規則將一個或多個預測以及策略本身朝著某些目標進行更新，而這些目標是未來獎勵與未來預測等量的函數。基于不同目標的RL規則示例包括時序差分學習1?、Q學習1?、近端策略優化（PPO）1?、輔助任務1?、后繼特征2?以及分布強化學習21。在每種情況下，目標的選擇決定了預測的本質，例如它們是否成為價值函數、模型或后繼特征。

在我們的框架中，一條RL規則由一個元網絡（meta-network）表示，該網絡決定智能體應將其預測與策略朝向哪些目標進行更新（圖1c）。這使得系統能夠在沒有預定義語義的情況下發現有用的預測，以及這些預測的使用方式。原則上，該系統可能重新發現以往的RL規則，但其靈活的函數形式也允許智能體發明可能專門適應特定興趣環境的新RL規則。

在發現過程中，我們實例化一個智能體群體，其中每個智能體與其自身所處的環境實例進行交互，這些環境取自一組多樣化的挑戰性任務。每個智能體的參數根據當前的RL規則進行更新。隨后我們采用元梯度方法13逐步改進該RL規則，使其能夠引導產生性能更優的智能體。

我們的大規模實證結果表明，我們所發現的RL規則（我們稱之為DiscoRL）在元學習所用的環境中超越了所有現有RL規則。值得注意的是，這包括Atari游戲22——這或許是RL領域最成熟且信息量最豐富的基準測試。此外，DiscoRL在發現過程中從未接觸過的其他若干挑戰性基準測試（例如ProcGen23）上也達到了最先進性能。我們還證明，隨著發現過程中使用更多樣化和更復雜的環境，DiscoRL的性能與通用性會進一步提升。最后，我們的分析表明，DiscoRL發現了獨特的預測語義，這些語義不同于價值函數等現有RL概念。據我們所知，這是首次提供實證證據表明：在通用性與效率兩方面超越手工設計的RL算法的目標終于觸手可及。

發現方法

我們的發現方法涉及兩種類型的優化：智能體優化（agent optimization）與元優化（meta-optimization）。智能體參數通過將其策略與預測朝向RL規則所產生的目標進行更新而得到優化；與此同時，RL規則的元參數則通過更新其目標以最大化智能體的累積獎勵而得到優化。

智能體網絡

大量強化學習研究關注智能體應當做出何種預測（例如價值），以及應使用何種損失函數來學習這些預測（例如時序差分（TD）學習）并改進策略（例如策略梯度）。我們并未手工設計這些要素，而是定義了一個無預定義語義的、表達能力豐富的預測空間，并通過元網絡（meta-network）來表示并元學習智能體所需優化的內容。理想情況下，該設計應既能保留表達現有RL算法核心思想的能力，又能支持大量新穎算法可能性的探索。

為此，我們令由參數 θ 參數化的智能體在輸出策略（π）之外，還輸出兩類預測：一個以觀測為條件的向量預測 y(s) ∈ ??（維度 n 任意）和一個以動作為條件的向量預測 z(s, a) ∈ ??（維度 m 任意），其中 s 與 a 分別表示觀測與動作（圖1b）。這些預測的形式源于預測與控制之間的根本性區分1?。例如，價值函數通常被劃分為用于預測的狀態價值函數 v(s) 與用于控制的動作價值函數 q(s, a)；RL中的許多其他概念，如獎勵與后繼特征，同樣具有以觀測為條件的版本與以動作為條件的版本。因此，預測 (y, z) 的函數形式具有足夠的通用性，能夠表示（但不限于此）RL中眾多既有的基本概念。

除待發現的預測外，在我們的大多數實驗中，智能體還會生成具有預定義語義的預測。具體而言，智能體會輸出一個動作價值函數 q(s,?a) 以及一個以動作為條件的輔助策略預測 p(s,?a)?。這一設計促使發現過程聚焦于通過 y 與 z 發掘新的概念。

元網絡

現代強化學習規則中有很大一部分采用強化學習的前向視角（forward view）1?。在此視角下，RL規則接收從時間步 t 到 t?+?n 的軌跡，并利用該信息更新智能體的預測或策略。它們通常將預測或策略朝向自舉（bootstrapped）目標進行更新，即朝向未來的預測進行更新。

相應地，我們的RL規則采用一個元網絡（圖1c）作為函數，用以確定智能體應將其預測與策略朝向哪些目標進行更新。為在時間步 t 生成目標，元網絡接收從時間步 t 到 t?+?n 的智能體預測與策略軌跡，以及獎勵和回合終止信號作為輸入。元網絡使用標準的長短期記憶網絡（LSTM）2?處理這些輸入，盡管也可采用其他架構（擴展數據圖3）。

元網絡的輸入與輸出設計保留了手工設計RL規則的若干理想特性。第一，元網絡能夠處理任意觀測以及任意規模的離散動作空間。這之所以可能，是因為元網絡并不直接接收觀測作為輸入，而僅通過預測間接接收；此外，它通過對動作維度共享權重來處理與動作相關的輸入與輸出，從而能夠泛化至截然不同的環境。第二，元網絡對智能體網絡的設計保持中立，因為它僅“看到”智能體網絡的輸出。只要智能體網絡產生所需形式的輸出（π, y, z），所發現的RL規則即可泛化至任意的智能體架構或規模。第三，元網絡所定義的搜索空間包含了自舉（bootstrapping）這一重要的算法思想。第四，由于元網絡同時處理策略與預測，它不僅能夠元學習輔助任務2?，還能直接利用預測來更新策略（例如，為方差縮減提供基線）。最后，輸出目標在表達能力上嚴格強于輸出標量損失函數，因為該設計將Q學習等半梯度方法也納入了搜索空間。

在繼承標準RL算法這些特性的基礎上，豐富的參數化神經網絡使所發現的規則能夠實現潛在效率更高、上下文適應性更強的算法。

智能體優化

智能體的參數（θ）通過最小化其預測與策略同元網絡所生成目標之間的距離來進行更新。智能體的損失函數可表示為：

元優化

實證結果

我們在一組復雜環境中，利用大規模智能體群體實現了所提出的發現方法。我們將所發現的RL規則命名為DiscoRL。在評估中，對于包含多個任務的基準測試，我們采用歸一化得分的四分位均值（interquartile mean, IQM）來衡量綜合性能，該指標已被證明具有統計可靠性2?。

Atari

Atari基準測試22是強化學習歷史上研究最為廣泛的基準之一，包含57款Atari 2600游戲。這些游戲要求復雜的策略、規劃能力以及長期信用分配，對人工智能體而言掌握它們并非易事。過去十年間，已有數百種RL算法在該基準上接受評估，其中包括MuZero?與Dreamer1?。

為探究直接從該基準中發現的規則所能達到的性能強度，我們對一條RL規則Disco57進行了元訓練，并在同一組57款游戲上對其進行評估（圖2a）。在此評估中，我們采用的網絡架構參數量與MuZero所用規模相當，大于發現過程中所使用的網絡；因此，所發現的RL規則必須能夠泛化至該設置。Disco57取得了13.86的IQM得分，在Atari基準上超越了所有現有RL規則?,1?,1?,3?，且相較于最先進的MuZero具有顯著更高的實際運行效率（擴展數據圖4）。

這一結果表明，我們的方法能夠從如此具有挑戰性的環境中自動發現出強大的RL規則。

泛化能力

我們進一步通過在多種保留基準測試（held-out benchmarks）上評估Disco57，來探究其泛化能力。這些基準測試包含智能體在發現過程中從未接觸過的觀測與動作空間、多樣的環境動態、各異的獎勵結構以及未曾見過的智能體網絡架構。元訓練的超參數僅在訓練環境（即Atari）上進行調優，以防止該規則被隱式地針對保留基準測試進行優化。

在ProcGen23基準測試上的結果（圖2b及擴展數據表2）表明，盡管Disco57在發現過程中從未與ProcGen環境交互，其性能仍優于所有已發表的現有方法，包括MuZero?與PPO1?。該基準測試包含16款程序生成的二維游戲。此外，Disco57在Crafter31任務上取得了具有競爭力的性能（圖2d及擴展數據表5），在該任務中智能體需要學習廣泛的能力以求生存。在NetHack NeurIPS 2021挑戰賽32中（超過40支隊伍參賽），Disco57位列排行榜第三名（圖2e及擴展數據表4）。與競賽中提交的頂尖智能體33不同，Disco57未使用任何領域特定知識來定義子任務或進行獎勵塑形。為進行公平比較，我們使用與Disco57相同的設置訓練了一個基于重要性加權演員-學習者架構（IMPALA）算法3?的智能體。IMPALA的性能明顯更弱，這表明Disco57發現了一種比標準方法更高效的RL規則。除環境外，Disco57對多種智能體特定設置（如網絡規模、回放比例及評估中的超參數）也表現出穩健性（擴展數據圖1）。

復雜且多樣的環境

為理解復雜多樣環境對發現過程的重要性，我們進一步擴展了元學習的規模，引入了更多環境。具體而言，我們利用包含Atari、ProcGen和DMLab-303?基準測試在內的103個更具多樣性的環境，發現了另一條規則Disco103。該規則在Atari基準測試上表現與Disco57相當，同時在圖2中所有其他已見與未見的基準測試上均提升了得分。特別是，Disco103在Crafter上達到了人類水平性能，并在Sokoban3?上接近MuZero的最先進性能。這些結果表明，用于發現的環境集合越復雜多樣，所發現的規則就越強大且泛化能力越強，即使在發現過程中未曾見過的保留環境中亦是如此。與發現Disco57相比，發現Disco103僅需更換環境集合，無需對發現方法本身進行任何改動。這表明發現過程本身具有穩健性、可擴展性與通用性。

為進一歩驗證使用復雜環境的重要性，我們在57個網格世界任務上運行了我們的發現過程，這些任務是對先前工作3的擴展，并采用與Disco57相同的元學習設置。新發現的規則在Atari基準測試上表現顯著更差（圖3c）。這驗證了我們關于直接從復雜且具挑戰性的環境中進行元學習重要性的假設。盡管使用此類環境至關重要，但無需精心篩選“正確”的環境集合；我們僅使用了文獻中流行的基準測試。

效率與可擴展性

為深入理解我們方法的可擴展性與效率，我們在發現過程中不同階段評估了多個Disco57版本（圖3a）。最佳規則在每款Atari游戲約6億步交互內即被發現，總計僅需在57款Atari游戲上進行3次實驗。這或許比手工發現RL規則更為高效，后者通常需要執行更多實驗，外加研究人員投入的時間成本。

此外，隨著用于發現的Atari游戲數量增加，DiscoRL在未見的ProcGen基準測試上的表現也持續提升（圖3b），表明所發現的RL規則能夠隨用于發現的環境數量與多樣性良好擴展。換言之，所發現規則的性能是數據（即環境）與計算資源的函數。

發現新預測的作用

為研究所發現預測語義（圖1b中的y, z）的影響，我們通過改變智能體的輸出類型（包含或不包含某些類型的預測）來比較不同規則。圖3c的結果表明，價值函數的使用顯著改善了發現過程，這凸顯了這一RL基礎概念的重要性。然而，圖3c的結果同時也表明，發現超越預定義預測的新預測語義（y與z）同樣至關重要。總體而言，相較于先前工作1??，擴大發現范圍是取得成功的關鍵。在下一節中，我們將提供進一步分析以揭示所發現的語義本質。

分析

定性分析我們以Disco57為案例研究了所發現規則的特性（圖4）。從定性角度看，所發現的預測會在顯著事件（如獲得獎勵或策略熵變化）發生前產生明顯峰值（圖4a）。我們還通過測量觀測各部分對應的梯度范數，探究了哪些觀測特征會引發元學習預測的強烈響應。圖4b的結果表明，元學習預測傾向于關注未來可能相關的物體，這與策略和價值函數的關注點存在差異。這些結果表明，DiscoRL已學會在適度時間范圍內識別并預測顯著事件，從而對策略和價值函數等現有概念形成有效補充。

信息分析為驗證定性發現，我們進一步研究了預測中包含的信息內容。首先，我們從DiscoRL智能體在10款Atari游戲中的數據中提取樣本，訓練神經網絡分別從所發現的預測、策略或價值函數中預測關鍵量。圖4c的結果顯示，相較于策略和價值函數，所發現的預測包含更多關于未來大額獎勵和策略熵的信息。這表明所發現的預測可能捕獲了策略與價值函數未能有效表征的獨特任務相關信息。

自舉機制的涌現

先前工作

人工智能體中的元學習（meta-learning）或“學會學習”（learning to learn）思想可追溯至20世紀80年代3?，當時已有利用梯度反向傳播訓練元學習系統的提議3?。利用較慢的元學習過程對快速學習或適應過程進行元優化這一核心思想3?,??已在多種應用場景中得到廣泛研究，包括遷移學習?1、持續學習?2、多任務學習?3、超參數優化??以及自動化機器學習??。

早期將元學習應用于強化學習智能體的嘗試主要集中于元學習信息搜尋行為??。后續許多工作聚焦于對現有RL算法的少量超參數進行元學習13,1?。此類方法雖取得了一定成果，但無法顯著突破底層手工設計算法的框架。另一研究方向試圖摒棄歸納偏置，通過元學習完全黑盒的算法實現，例如以循環神經網絡??或突觸學習規則??的形式。盡管在概念上頗具吸引力，但這些方法容易對元訓練中見過的任務產生過擬合??。

利用更廣泛類別預測來表示知識的思想最早在時序差分網絡（temporal-difference networks）??中被提出，但未結合任何元學習機制。類似思想亦被用于元學習輔助任務2?。我們的工作將這一思想拓展至有效發現智能體所優化的完整損失函數，覆蓋了范圍遠為廣闊的潛在RL規則。此外，與先前工作不同，所發現的知識能夠泛化至未見過的環境。

近期，學界對發現通用RL規則的興趣日益增長1,3??,1?。然而，大多數研究受限于小型智能體與簡單任務，或發現范圍僅限于部分RL規則。因此，其規則未能在具有挑戰性的基準測試上與最先進規則進行充分比較。相比之下，我們在更大的規則空間中進行搜索（包括全新的預測形式），并將發現過程擴展至大量復雜環境。結果表明，發現一種在挑戰性基準測試上超越多種最先進規則的通用RL規則是可行的。

結論

使機器能夠自主發現學習算法，是人工智能領域最具前景的方向之一，因其具備開放式自我改進的潛力。本工作朝著機器設計的RL算法邁出了重要一步——此類算法不僅能在復雜環境中與頂尖手工設計算法競爭，甚至在某些情況下實現超越。我們還證明，隨著所接觸環境的多樣性增加，所發現的規則將變得更強大且更具泛化能力。這表明，未來先進人工智能所需的RL算法設計，或將由能夠隨數據與算力有效擴展的機器來主導。

原文鏈接：https://www.nature.com/articles/s41586-025-09761-x

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.