超大規模進化策略
Evolution Strategies at the Hyperscale
https://arxiv.org/pdf/2511.16652
![]()
摘要
![]()
![]()
1 引言
進化策略(ES)(Rechenberg, 1978;Beyer, 1995;Beyer & Schwefel, 2002)是相對于基于梯度反向傳播的一階方法的一個有吸引力的替代方案,原因有幾點。首先,ES 不需要可微性,因此可以優化更廣泛的模型類別,例如具有離散參數化空間的模型(元胞自動機),并且可以優化梯度不可用或帶有噪聲的目標,如大語言模型微調中的僅結果獎勵(Qiu et al., 2025)。其次,ES 對噪聲和病態優化景觀更具魯棒性(Wierstra et al., 2011;Xue et al., 2021)。與梯度不同,基于種群的探索可以平滑不規則性(Salimans et al., 2017),容忍不連續性,并緩解長期或循環設置中的病態曲率或梯度消失和爆炸等問題(Hansen, 2023)。第三,ES 非常易于通過并行化進行擴展,因為適應度評估在種群成員之間是獨立的,且僅需通信標量適應度,這清晰地映射到現代推理基礎設施,并在大型集群上實現近線性加速(Salimans et al., 2017)。相比之下,反向傳播需要在設備間通信和聚合梯度,帶來高昂的內存和計算成本。此外,在使用低精度數據類型訓練模型時,反向傳播需要特別小心,而 ES 可以直接優化任何在推理時使用相同數據類型的模型。這些特性共同使 ES 成為訓練大型、離散或混合架構以及具有不可微組件的端到端系統(包括大語言模型(LLMs)(Brown et al., 2020;Chowdhery et al., 2023;Du et al., 2022;Fedus et al., 2022))的潛在強大基礎。
盡管具有這些潛力,但大規模應用 ES 存在實際障礙。在深度學習架構(Goodfellow et al., 2016)中,大部分可訓練參數形成了由矩陣表示的線性映射(Rosenblatt, 1962;Hochreiter & Schmidhuber, 1996;Bengio et al., 2000;Krizhevsky et al., 2012;Goodfellow et al., 2014;Kingma & Welling, 2014;Vaswani et al., 2017);因此樸素地應用 ES 需要生成全秩矩陣擾動,為每個種群成員復制整個參數集。這膨脹了內存成本,并迫使大型權重張量頻繁移動。評估這些擾動然后需要為每個成員分別進行矩陣乘法序列,因此總計算量和掛鐘時間大致隨種群規模和序列長度擴展。在十億參數規模下,這兩項成本占主導地位,使得將 ES 擴展到小模型或小種群之外變得困難(Qiu et al., 2025;Korotyshova et al., 2025)。
![]()
![]()
2 預備知識
本文所有理論結果的證明見附錄。
2.1 低秩矩陣逼近
![]()
![]()
2.2 高斯矩陣分布與矩陣范數
![]()
![]()
![]()
2.3 進化策略
![]()
![]()
2.4 高斯矩陣 ES
![]()
![]()
我們指出,對于高斯種群分布,式(4)中的進化策略(ES)更新與自然進化策略(NES)更新僅相差一個σ2因子。NES(Wierstra et al., 2008; 2011)的更新遵循式(1)中目標函數的自然梯度(Amari, 1998; Kakade, 2001)。這意味著在我們的問題設定中,當σ被視為固定并被吸收進式(2)的學習率時,高斯矩陣ES與NES是等價的。自然梯度的一個關鍵優勢在于:在更新搜索分布時,它考慮了底層參數空間的局部幾何結構,從而使更新對參數化的選擇具有不變性。
3 相關工作
3.1 進化算法
進化算法長期以來一直是基于反向傳播訓練方法的一種引人注目的替代方案。盡管涵蓋廣泛的算法類別(例如遺傳算法(Such et al., 2018)或符號進化(Koza, 1994)),當代關于進化的多數研究已轉向更適用于大規模神經網絡參數的算法(Jaderberg et al., 2017; Hansen & Ostermeier, 2001; Salimans et al., 2017)。
我們的工作聚焦于對預定義架構的權重進行進化,其基礎源于NES(Wierstra et al., 2011)方法族。自Salimans等人(2017)將NES應用于傳統強化學習環境中的策略學習以緩解策略梯度方法面臨的挑戰(如長視野環境)以來,此類方法的影響力日益增長。此后,進化算法被廣泛應用于其他領域,包括元學習(如Lu et al., 2022; Metz et al., 2022; Lange et al., 2023; Goldie et al., 2024; 2025)、超參數調優(如Parker-Holder et al., 2021; Tani et al., 2021; Vincent & Jidesh, 2023)以及藥物發現(Towers et al., 2025)。本文關注將進化策略應用于超大規模場景時的局限性與解決方案,超越了前述工作所涉及的小型網絡與種群規模,重點聚焦于策略學習。特別地,Salimans et al. (2017)使用的最大種群規模為1440,而我們的最大種群規模可達數十萬量級。
進化策略受限于其對適應度函數進行完整(可能代價高昂)評估的需求,這源于在長視野環境中模擬策略以及潛在的高內存占用。持久進化策略(Persistent Evolution Strategies, Vicol et al., 2021)通過在線更新網絡(即在展開過程中更新)實現了顯著加速,后續工作進一步提供了方差縮減方法(Li et al., 2023b; Vicol et al., 2023)。我們指出,這些工作與我們關注擴大進化策略種群規模的目標正交;將這些技術與EGGROLL結合應用留待未來研究。
3.2 大語言模型中的進化策略
盡管梯度反向傳播通常用于大語言模型的訓練與微調,先前研究已探索進化策略變體在微調中的應用。特別是,零階優化(Zhang et al., 2024)——其等價于種群規模為1的進化策略——被Malladi等人(2023)用于實現內存高效的大語言模型微調。Yu et al. (2025)通過將擾動投影至低秩子空間,改進了零階優化的收斂性。Jin et al. (2024)則直接在LoRA矩陣上執行進化策略。這些工作聚焦于監督微調場景,在性能上可與完整微調相媲美,但未確定零階方法是否適用于預訓練;我們發現預訓練性能需要大規模種群,這表明零階優化方法可能不適用于預訓練。
近期研究也探索了進化策略在大語言模型推理中的應用。Korotyshova et al. (2025)首先通過監督微調(SFT)訓練LoRA適配器,隨后將其分解為固定的SVD基與通過CMA-ES訓練的奇異值,在數學推理基準測試上以顯著更短的時鐘時間達到與GRPO(Shao et al., 2024)相當的性能。Qiu et al. (2025)則直接使用進化策略優化大語言模型的全部參數進行推理,在倒計時推理任務上表現優于GRPO。然而,這兩種方法均采用相對較小的種群規模(每次更新約百量級的獨特擾動),并通過為每個擾動收集數百條軌跡采樣以高效利用GPU。相比之下,我們的方法允許所有生成過程使用不同擾動,使得每次更新的最大種群規模提升數個數量級(等于最大推理批處理大小),同時不犧牲token生成吞吐量。
4 EGGROLL
我們現在介紹并闡述我們的方法EGGROLL,該方法在算法1中給出。在第4.1節中,我們推導了一種低秩進化策略更新,用以近似全秩進化策略梯度。使用低秩矩陣近似的一個實際問題是,除退化情形外,其分布與得分函數均無解析解;因此在第4.2節中,我們從極限高秩高斯分布出發推導出一個替代得分函數,并將其作為近似方案提出。
4.1 低秩進化策略
![]()
![]()
![]()
![]()
4.2 得分函數逼近
![]()
![]()
![]()
![]()
我們指出,EGGROLL并不局限于任何特定的得分函數近似器;我們在附錄B中推導并探索了一組均場近似器作為替代方案。然而,我們的實驗表明,高斯近似器在所評估的任務集合上具有最佳的整體性能。我們使用Nworkers個樣本對式(5)中的期望進行蒙特卡洛估計,并通過(近似的)隨機梯度上升法優化參數μ,從而得到高斯EGGROLL更新:
![]()
![]()
4.3 硬件高效的 EGGROLL 實現
使用 EGGROLL 而非標準 ES 的一個關鍵原因是,由于低秩擾動,大規模種群可以在 GPU 上并行模擬。為了便于闡述,我們從單個工作者 i 的角度撰寫方程,并在文本中解釋這如何對應于批量 GPU 操作。
![]()
![]()
5 逼近分析
我們現在分析公式(7)中的高斯得分逼近以多快的速度收斂到公式(4)中的真實高斯 ES 矩陣梯度。我們對適應度函數引入以下形式正則性假設:
![]()
![]()
6 實驗
6.1 RNN語言模型的純整數預訓練
為展示EGGROLL作為通用優化方法的潛力,我們研究了EGGROLL是否可用于語言模型預訓練。由于EGGROLL不依賴梯度,我們可以專門設計語言模型架構以提高推理效率和硬件友好性。具體而言,我們在以下約束條件下構建模型,以強調EGGROLL的靈活性:
- 純整數訓練:在H100系統上,int8是最快速的數據類型,其中int8矩陣乘法配合int32累加是最快的張量核心操作。此外,整數數據類型在硬件中實現更為簡單,為高吞吐量系統提供巨大的能源節省(Horowitz, 2014)。因此,我們在整個訓練過程中將所有權重保持在int8格式,所有激活值保持在整數格式,絕不進行任何浮點轉換。
- 非線性RNN:現代語言模型使用Transformer和SSM等序列并行架構,因為它們能夠在不通過時間反向傳播的情況下實現穩定的梯度。然而,大多數此類序列并行架構無法處理簡單的狀態跟蹤(Merrill et al., 2024),而LSTM和GRU等經典循環網絡只需單層即可處理這些問題。由于EGGROLL不需要通過時間反向傳播,我們可以使用更廣泛復雜線性RNN在無界序列長度上進行訓練(Li et al., 2023a)。具體而言,我們開發了minGRU模型(Heck & Salem, 2017)的一個變體,該變體在整數格式下執行所有操作。
- 移除所有激活函數:受Foerster (2017)啟發,我們移除了所有激活函數(如修正線性單元和雙曲正切),這是由于int8數據類型本身已存在非線性。具體而言,int8值的飽和加法提供了足夠的非線性,這源于值隱式裁剪到int8動態范圍,而進化策略可以利用這一特性。
我們將最終得到的語言模型稱為EGG(Evolved Generative GRU),一種對EGGROLL友好的架構。其架構類似于標準的預層歸一化transformer解碼器模型,但我們在以下方面進行了修改:(1) 使用L1歸一化的變體替代L2歸一化以避免平方根計算;(2) 用自定義GRU替換自注意力機制;(3) 所有操作均在整數數據類型下執行。有關架構的更多細節請參見附錄C。
我們在minipile數據集(Kaddour, 2023)上訓練一個具有6層和256隱藏維度的EGG模型進行字符級預測。每個種群成員在處理100個token后更新參數,通過保留隱藏狀態并在文檔邊界重置來應用截斷ES。我們在圖2b中繪制了不同種群規模下訓練步驟的測試損失,其中最佳測試損失為3.41 bits/byte。我們發現訓練過程穩定,損失曲線相對平滑,尤其是在大規模種群情況下,避免了基于反向傳播訓練在低精度數據類型下常見的損失尖峰、NaN值和其他不穩定性。
![]()
值得注意的是,我們最大的種群規模為比Salimans等人(2017)進行的最大實驗規模大兩個數量級,而僅需單個GPU進行訓練。我們觀察到,將種群規模乘以8會使損失在測試的種群值范圍內降低約0.4,盡管這種模式最終會因損失必須嚴格為正而中斷。我們在附錄E中進行了更多消融實驗,確定如何通過EGGROLL實現數據高效的訓練,并驗證了大批量規模的重要性。
6.2 強化學習任務
在本組實驗中,我們將EGGROLL與Salimans等人(2017)實現的標準OpenES在強化學習任務上的性能進行對比。鑒于網絡規模較小,此尺度下可使用OpenES;但我們指出,隨著網絡規模增大,標準OpenES的使用將變得不可行。我們采用標準設定,即僅優化環境中的最終回報。對于EGGROLL與OpenES,我們分別為每個環境單獨進行超參數優化(HPO)。針對每種算法–環境組合,我們基于先前工作與初步實驗為所有關鍵超參數定義合理范圍,隨后執行20次隨機搜索試驗,每次試驗對應一次采用隨機采樣超參數配置的獨立訓練運行。每種配置根據訓練結束時均值策略參數所達到的最終回報進行評估。完成所有試驗后,我們選擇產生最高最終回報的配置,并基于該最優配置運行10次獨立隨機種子以評估性能,報告這些種子的均值與均值標準誤。
我們使用包含3層、每層256個神經元的策略網絡,并在一系列展示不同能力的環境中進行評估。評估涵蓋Navix(Pignatelli et al., 2024)、Craftax(Matthews et al., 2024)、Brax(Freeman et al., 2021)、Kinetix(Matthews et al., 2025)與Jumanji(Bonnet et al., 2024)環境套件,共計16個環境。環境選擇標準為:根據原始論文,該環境對PPO而言既非平凡可解亦非完全不可解;同時在條件允許時,我們選擇屬于不同類別的環境(例如Kinetix中的環境尺寸或Jumanji中的類別)。
我們在圖4中展示了部分評估環境的結果,其余環境結果見附錄G.1。研究發現,EGGROLL在16個環境中與OpenES性能相當者占7個,表現遜色者占2個,表現更優者占7個。此比較尚未計入相較于OpenES(全秩更新)的速度提升。我們推測性能提升的原因在于:大規模網絡對OpenES而言難以優化,而低秩更新對此類網絡更為適用。所有超參數配置細節見附錄G.1。
![]()
6.3 大語言模型推理任務微調
我們將EGGROLL應用于RWKV-7(Peng et al., 2025)模型在兩類推理任務上的微調:倒計時(countdown)與GSM8K。RWKV架構是一種循環模型,相較于Transformer,其特別適合并行化——原本用于KV緩存的內存可轉而用于評估種群成員。圖5a展示了倒計時任務中EGGROLL與GRPO的訓練曲線。在相同硬件與實際運行時間下,基于RWKV-7 1.5B模型的EGGROLL微調在倒計時任務上收斂至更高的驗證準確率(35%,對比GRPO的23%)。類似地,圖5b表明EGGROLL在GSM8K微調任務上亦優于GRPO。我們的得分函數與GRPO的組相對優勢具有相似性。具體而言,為對一組擾動方向E ≡ {E?, ..., E?}進行評分,我們首先計算其在|q| = m個問題上的準確率{s?,??, ..., s?,??},形成得分矩陣。隨后按問題計算z分數,主要區別在于我們使用全局方差σ?,并對所有問題取平均以計算擾動方向E?的最終得分:
![]()
![]()
該得分函數的目的是使同一批次內所有問題在不同種群成員間獲得同等權重。
7 結論
本文提出EGGROLL,一種強大的黑盒優化方法,通過低秩搜索矩陣將進化策略擴展至十億參數規模及以上的模型。實驗表明,EGGROLL在秩低至r = 1時仍保持有效性,相較于全秩ES更新,僅帶來可忽略的性能下降,卻實現了顯著的計算與內存節省。實證結果顯示,EGGROLL在白板式(tabula rasa)與多智能體強化學習任務中相比樸素ES帶來大幅加速,并可支撐大語言模型的端到端訓練流程。我們的理論分析表明,低秩EGGROLL更新隨秩r快速收斂,但當r = 1時方法仍取得成功的原因尚需進一步理論闡釋。
展望未來,我們正致力于將EGGROLL應用于現代基于梯度的技術難以觸及的其他問題。特別是,EGGROLL可賦能大規模端到端神經符號系統的訓練(Sarker et al., 2021),此類系統包含不可微分組件。例如,我們可以訓練能與符號模塊直接交互的神經網絡,以執行記憶或計算等專用功能;亦可優化由語言模型構成的端到端系統,使其在訓練階段即具備對推理時工具鏈及復雜系統中與其他智能體交互的認知能力。
原文鏈接:https://arxiv.org/pdf/2511.16652
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.