![]()
近日,清華大學等機構的研究團隊提出了MARSHAL框架。該框架利用強化學習,讓大模型在策略游戲中進行自博弈(Self-Play)。實驗表明,這種多輪、多智能體訓練不僅提升了模型在游戲中的博弈決策水平,更將其推理能力有效泛化到了通用的多智能體系統:在如數學競賽和專家級問答等一般推理任務中,顯著提升了多智能體系統的整體表現。
![]()
- 論文標題:MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
- 論文鏈接:https://arxiv.org/abs/2510.15414
- 項目主頁:https://thu-nics.github.io/MARSHAL/
- 代碼開源:https://github.com/thu-nics/MARSHAL
- 模型倉庫:https://huggingface.co/collections/nics-efc/marshal
一、 背景與挑戰
盡管 DeepSeek-R1 等大模型已在數學、問答等單輪、單智能體場景中,驗證了可驗證獎勵強化學習(RLVR)對提升推理能力的巨大價值;但在多智能體系統(MAS)復雜的多輪、多智能體交互場景中,這一方法的應用仍處于探索階段。具體而言,將 RLVR 拓展至多智能體領域面臨著兩大核心技術挑戰:
- 多輪交互的信用分配:現有的單輪 RLVR 方法難以精準地將最終結果回溯并分配給每一個具體的輪次或動作,進而影響了模型的有效學習。
- 多智能體的優勢估計:不同智能體通常具有高度的異構性,其在優勢估計(advantage estimation)中的優勢基準(baseline)存在顯著差異,導致多智能體聯合訓練難以收斂,策略表現波動劇烈。
為了解決上述問題,為多智能體系統訓練更強的推理模型,清華大學研究團隊提出了MARSHAL(Multi-Agent Reasoning through Self-play witH strAtegic LLMs)框架,通過策略游戲中的多智能體自博弈和端到端強化學習,激發大模型的在通用多智能體系統中的推理決策能力。
![]()
圖 1 MARSHAL 在策略游戲的表現及通用推理基準泛化性能
核心實驗結果:
- 策略游戲:多智能體博弈決策表現顯著提升,測試游戲勝率提升高達28.7%。
- 泛化表現:將模型集成至通用多智能體系統中時,在一般推理任務中展現出顯著泛化性 ——AIME 準確率提升10.0%(AutoGen 框架 [1]);GPQA-Diamond 準確率提升7.6%(MAD 框架 [2]);所有基準測試平均提升3.5%。
二、MARSHAL 方法介紹
![]()
圖 2 MARSHAL 框架概覽
面向策略游戲自博弈中多輪次、多智能體訓練的挑戰,MARSHAL 基于 Group-Relative Policy Optimization (GRPO) 架構,提出了兩項關鍵算法改進:
- 輪次級優勢估計器 (Turn-level Advantage Estimator):針對多輪交互中的信用分配問題,MARSHAL 摒棄了經典單輪 GRPO 粗糙的軌跡級評估,引入精細的輪次級(Turn-level)獎勵機制,并設計了 “先求累計和再歸一化(Sum-then-Normalize)” 的方法進行穩定的優勢計算。
- 分角色的優勢歸一化 (Agent-specific Advantage Normalization):針對角色異構性導致的回報分布差異,MARSHAL 實施了嚴格區分角色的歸一化策略:在計算優勢時,系統不再將所有智能體混為一談,而是根據角色的不同(例如 “玩家 1” 與 “玩家 2”)將數據分組。
為了培養全面的多智能體推理能力,研究團隊精心挑選了六款策略游戲(其中三款用于訓練,另外三款用于測試),涵蓋了從簡單到復雜、從競爭到合作的多種博弈類型。
![]()
圖 3 MARSHAL 使用的游戲集合
三、核心實驗
研究團隊以 Qwen3-4B 為基線模型,在三款訓練游戲(Tic-Tac-Toe、Kuhn Poker、Mini Hanabi)中訓練了兩種類型的智能體:
- 專家智能體 (Specialist):僅在單一游戲上訓練。
- 通用智能體 (Generalist):在所有三款游戲上混合訓練。
游戲策略能力的泛化
MARSHAL 訓練出的專家智能體在各自的同類型游戲中展現出出色的泛化性;通用智能體則在所有游戲類型中的綜合表現最佳,在測試游戲中取得了高達28.7%的勝率提升。這些結果表明,模型并非僅僅記住了特定游戲的規則,而是真正掌握了通用的博弈邏輯(如 “先手優勢利用”、“信息推斷” 等),并能將其靈活泛化到全新的游戲環境中。
![]()
圖 4 MARSHAL 專家智能體在各類策略游戲中的勝率對比
通用推理能力的泛化
這是本研究最核心的實驗,研究團隊將 MARSHAL 模型作為基座集成到主流的多智能體框架(MAD 和 AutoGen)中,測試其在7種數學和問答基準測試上的成績,最終得到兩個關鍵結論:
- 在策略游戲中習得的多智能體博弈能力,能夠跨域泛化到通用的多智能體系統中,提升系統在一般推理任務中的表現。綜合表現最強的 MARSHAL 通用智能體在數學測試 AIME 和問答測試 GPQA 中分別取得高達10.0%和7.6%的提升;在所有測試中的平均提升高達3.5%。
- 能力泛化領域高度對齊:在競爭性多智能體系統 MAD 中,競爭性游戲(Tic-Tac-Toe)訓練的模型表現更優;而在合作性多智能體系統 AutoGen 中,合作性游戲(Hanabi)訓練的模型表現更優。
![]()
圖 5 MARSHAL 智能體在數學和問答推理測試中的泛化表現
以上實驗結果強有力地證明了自博弈是提升多智能體系統推理能力的磨刀石。此外,在擴展到 8B 模型的實驗中,MARSHAL 依然保持了強勁的增長勢頭,驗證了該方法良好的可擴展性(Scalability)。
四、推理模式分析:模型學到了什么?
為了探究 MARSHAL 成功泛化的原因,研究團隊從定性和定量兩個維度進行了深入分析。
- 定性分析:通過對思維鏈(Chain-of-Thought)的深入解讀,研究發現游戲訓練激發了模型兩項關鍵的涌現能力:1)角色意識(Role-Awareness),根據自身角色調整決策策略;2)意圖識別(Intent Recognition),在不確定信息場景中根據其他智能體的決策動作判斷其意圖。
![]()
圖 6 推理模型定性分析
- 定量分析(Quantitative Analysis):為了進一步量化 MARSHAL 帶來的多智能體推理能力的提升,研究團隊對多智能體系統進行了失敗模式分析。結果顯示,MARSHAL 將智能體間未對齊(Inter-Agent Misalignment)的情況減少了 11.5%,顯著提升了模型在跨智能體的溝通效率和理解能力。
![]()
圖 7 失敗模式定量分析
五、消融實驗
自博弈 vs 固定對手
與固定專家對手進行訓練相比,自博弈展現出了不可替代的優勢。實驗發現,針對固定對手訓練的模型容易對訓練環境過擬合,在測試游戲中性能急劇下降。
![]()
圖 8 MARSHAL 自博弈和固定對手訓練方式在策略游戲中的對比
優勢估計算法設計
研究團隊通過逐步移除核心算法組件,驗證了 MARSHAL 算法設計的必要性:1)輪次級優勢估計的精細信用分配是處理長序列決策的關鍵;2)分角色歸一化在角色回報差異大的競爭性游戲中(如 Tic-Tac-Toe)影響巨大,而在角色回報分布相似的合作游戲(如 Hanabi)中影響則相對較小。
![]()
圖 9 MARSHAL 算法設計的消融實驗
![]()
圖 10 角色回報分布的差異性分析
六、總結
該項研究工作提出了MARSHAL框架,通過在策略游戲中進行自博弈,成功增強了大語言模型在多智能體系統中的推理能力,提高了其在一般推理任務中的表現。核心結論如下:
- 驗證了策略游戲自博弈的泛化性:在簡單的策略游戲中通過自博弈習得的博弈技巧(如角色意識、意圖識別)能夠泛化到通用多智能體系統,在一般的推理任務中取得顯著的效果提升。
- 提出了有效的技術方案:通過輪次級優勢估計和分角色的歸一化等算法設計,為多輪、多智能體強化學習中的穩定訓練提供了有效方案。
盡管目前主要聚焦于雙人博弈,但 MARSHAL 為未來通向更復雜的 “社會沙盒”(如多智能體協作編程、搜索、科研等)指明了潛在方向:自博弈不僅是 AlphaGo 戰勝人類的法寶,也能成為大模型邁向更高階群體智能的關鍵引擎。
參考文獻
[1] Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation." COLM 2024.
[2] Liang, Tian, et al. "Encouraging divergent thinking in large language models through multi-agent debate." EMNLP 2024.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.