<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      清華大學提出新方案,提升大模型多智能體推理能力!

      0
      分享至



      近日,清華大學等機構的研究團隊提出了MARSHAL框架。該框架利用強化學習,讓大模型在策略游戲中進行自博弈(Self-Play)。實驗表明,這種多輪、多智能體訓練不僅提升了模型在游戲中的博弈決策水平,更將其推理能力有效泛化到了通用的多智能體系統:在如數學競賽和專家級問答等一般推理任務中,顯著提升了多智能體系統的整體表現。



      • 論文標題:MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
      • 論文鏈接:https://arxiv.org/abs/2510.15414
      • 項目主頁:https://thu-nics.github.io/MARSHAL/
      • 代碼開源:https://github.com/thu-nics/MARSHAL
      • 模型倉庫:https://huggingface.co/collections/nics-efc/marshal

      一、 背景與挑戰

      盡管 DeepSeek-R1 等大模型已在數學、問答等單輪、單智能體場景中,驗證了可驗證獎勵強化學習(RLVR)對提升推理能力的巨大價值;但在多智能體系統(MAS)復雜的多輪、多智能體交互場景中,這一方法的應用仍處于探索階段。具體而言,將 RLVR 拓展至多智能體領域面臨著兩大核心技術挑戰:

      • 多輪交互的信用分配:現有的單輪 RLVR 方法難以精準地將最終結果回溯并分配給每一個具體的輪次或動作,進而影響了模型的有效學習。
      • 多智能體的優勢估計:不同智能體通常具有高度的異構性,其在優勢估計(advantage estimation)中的優勢基準(baseline)存在顯著差異,導致多智能體聯合訓練難以收斂,策略表現波動劇烈。

      為了解決上述問題,為多智能體系統訓練更強的推理模型,清華大學研究團隊提出了MARSHAL(Multi-Agent Reasoning through Self-play witH strAtegic LLMs)框架,通過策略游戲中的多智能體自博弈和端到端強化學習,激發大模型的在通用多智能體系統中的推理決策能力。



      圖 1 MARSHAL 在策略游戲的表現及通用推理基準泛化性能

      核心實驗結果:

      • 策略游戲:多智能體博弈決策表現顯著提升,測試游戲勝率提升高達28.7%。
      • 泛化表現:將模型集成至通用多智能體系統中時,在一般推理任務中展現出顯著泛化性 ——AIME 準確率提升10.0%(AutoGen 框架 [1]);GPQA-Diamond 準確率提升7.6%(MAD 框架 [2]);所有基準測試平均提升3.5%。

      二、MARSHAL 方法介紹



      圖 2 MARSHAL 框架概覽

      面向策略游戲自博弈中多輪次、多智能體訓練的挑戰,MARSHAL 基于 Group-Relative Policy Optimization (GRPO) 架構,提出了兩項關鍵算法改進:

      • 輪次級優勢估計器 (Turn-level Advantage Estimator):針對多輪交互中的信用分配問題,MARSHAL 摒棄了經典單輪 GRPO 粗糙的軌跡級評估,引入精細的輪次級(Turn-level)獎勵機制,并設計了 “先求累計和再歸一化(Sum-then-Normalize)” 的方法進行穩定的優勢計算。
      • 分角色的優勢歸一化 (Agent-specific Advantage Normalization):針對角色異構性導致的回報分布差異,MARSHAL 實施了嚴格區分角色的歸一化策略:在計算優勢時,系統不再將所有智能體混為一談,而是根據角色的不同(例如 “玩家 1” 與 “玩家 2”)將數據分組。

      為了培養全面的多智能體推理能力,研究團隊精心挑選了六款策略游戲(其中三款用于訓練,另外三款用于測試),涵蓋了從簡單到復雜、從競爭到合作的多種博弈類型。



      圖 3 MARSHAL 使用的游戲集合

      三、核心實驗

      研究團隊以 Qwen3-4B 為基線模型,在三款訓練游戲(Tic-Tac-Toe、Kuhn Poker、Mini Hanabi)中訓練了兩種類型的智能體:

      • 專家智能體 (Specialist):僅在單一游戲上訓練。
      • 通用智能體 (Generalist):在所有三款游戲上混合訓練。

      游戲策略能力的泛化

      MARSHAL 訓練出的專家智能體在各自的同類型游戲中展現出出色的泛化性;通用智能體則在所有游戲類型中的綜合表現最佳,在測試游戲中取得了高達28.7%的勝率提升。這些結果表明,模型并非僅僅記住了特定游戲的規則,而是真正掌握了通用的博弈邏輯(如 “先手優勢利用”、“信息推斷” 等),并能將其靈活泛化到全新的游戲環境中。



      圖 4 MARSHAL 專家智能體在各類策略游戲中的勝率對比

      通用推理能力的泛化

      這是本研究最核心的實驗,研究團隊將 MARSHAL 模型作為基座集成到主流的多智能體框架(MAD 和 AutoGen)中,測試其在7種數學和問答基準測試上的成績,最終得到兩個關鍵結論:

      • 在策略游戲中習得的多智能體博弈能力,能夠跨域泛化到通用的多智能體系統中,提升系統在一般推理任務中的表現。綜合表現最強的 MARSHAL 通用智能體在數學測試 AIME 和問答測試 GPQA 中分別取得高達10.0%和7.6%的提升;在所有測試中的平均提升高達3.5%。
      • 能力泛化領域高度對齊:在競爭性多智能體系統 MAD 中,競爭性游戲(Tic-Tac-Toe)訓練的模型表現更優;而在合作性多智能體系統 AutoGen 中,合作性游戲(Hanabi)訓練的模型表現更優。



      圖 5 MARSHAL 智能體在數學和問答推理測試中的泛化表現

      以上實驗結果強有力地證明了自博弈是提升多智能體系統推理能力的磨刀石。此外,在擴展到 8B 模型的實驗中,MARSHAL 依然保持了強勁的增長勢頭,驗證了該方法良好的可擴展性(Scalability)。

      四、推理模式分析:模型學到了什么?

      為了探究 MARSHAL 成功泛化的原因,研究團隊從定性和定量兩個維度進行了深入分析。

      • 定性分析:通過對思維鏈(Chain-of-Thought)的深入解讀,研究發現游戲訓練激發了模型兩項關鍵的涌現能力:1)角色意識(Role-Awareness),根據自身角色調整決策策略;2)意圖識別(Intent Recognition),在不確定信息場景中根據其他智能體的決策動作判斷其意圖。



      圖 6 推理模型定性分析

      • 定量分析(Quantitative Analysis):為了進一步量化 MARSHAL 帶來的多智能體推理能力的提升,研究團隊對多智能體系統進行了失敗模式分析。結果顯示,MARSHAL 將智能體間未對齊(Inter-Agent Misalignment)的情況減少了 11.5%,顯著提升了模型在跨智能體的溝通效率和理解能力。



      圖 7 失敗模式定量分析

      五、消融實驗

      自博弈 vs 固定對手

      與固定專家對手進行訓練相比,自博弈展現出了不可替代的優勢。實驗發現,針對固定對手訓練的模型容易對訓練環境過擬合,在測試游戲中性能急劇下降。



      圖 8 MARSHAL 自博弈和固定對手訓練方式在策略游戲中的對比

      優勢估計算法設計

      研究團隊通過逐步移除核心算法組件,驗證了 MARSHAL 算法設計的必要性:1)輪次級優勢估計的精細信用分配是處理長序列決策的關鍵;2)分角色歸一化在角色回報差異大的競爭性游戲中(如 Tic-Tac-Toe)影響巨大,而在角色回報分布相似的合作游戲(如 Hanabi)中影響則相對較小。



      圖 9 MARSHAL 算法設計的消融實驗



      圖 10 角色回報分布的差異性分析

      六、總結

      該項研究工作提出了MARSHAL框架,通過在策略游戲中進行自博弈,成功增強了大語言模型在多智能體系統中的推理能力,提高了其在一般推理任務中的表現。核心結論如下:

      • 驗證了策略游戲自博弈的泛化性:在簡單的策略游戲中通過自博弈習得的博弈技巧(如角色意識、意圖識別)能夠泛化到通用多智能體系統,在一般的推理任務中取得顯著的效果提升。
      • 提出了有效的技術方案:通過輪次級優勢估計和分角色的歸一化等算法設計,為多輪、多智能體強化學習中的穩定訓練提供了有效方案。

      盡管目前主要聚焦于雙人博弈,但 MARSHAL 為未來通向更復雜的 “社會沙盒”(如多智能體協作編程、搜索、科研等)指明了潛在方向:自博弈不僅是 AlphaGo 戰勝人類的法寶,也能成為大模型邁向更高階群體智能的關鍵引擎。

      參考文獻

      [1] Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation." COLM 2024.

      [2] Liang, Tian, et al. "Encouraging divergent thinking in large language models through multi-agent debate." EMNLP 2024.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      別墅是中產返貧的最大陷阱!過來人血淚總結:別墅的四大硬傷

      別墅是中產返貧的最大陷阱!過來人血淚總結:別墅的四大硬傷

      流蘇晚晴
      2026-01-02 17:56:17
      韃靼人:作為俄羅斯第二大族群,和蒙古族有何聯系?

      韃靼人:作為俄羅斯第二大族群,和蒙古族有何聯系?

      掠影后有感
      2026-01-09 11:04:45
      中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

      中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

      愛吃醋的貓咪
      2025-12-27 16:24:13
      三針新冠疫苗真相大揭秘!這些關鍵信息,沒接種的趕緊看

      三針新冠疫苗真相大揭秘!這些關鍵信息,沒接種的趕緊看

      王曉愛體彩
      2026-01-09 10:35:44
      大反轉!500萬歐中超內馬爾接近加盟遼寧鐵人:成最大牌外援

      大反轉!500萬歐中超內馬爾接近加盟遼寧鐵人:成最大牌外援

      邱澤云
      2026-01-10 19:24:18
      剛剛,萬人合唱!柳州這場演唱會刷屏!李榮浩:點螺螄粉要加鴨腳,加豆腐bo!

      剛剛,萬人合唱!柳州這場演唱會刷屏!李榮浩:點螺螄粉要加鴨腳,加豆腐bo!

      柳州全攻略
      2026-01-10 23:30:47
      四川省城市足球聯賽總決賽階段抽簽結果揭曉,首戰計劃在3月14日打響!

      四川省城市足球聯賽總決賽階段抽簽結果揭曉,首戰計劃在3月14日打響!

      紅星新聞
      2026-01-11 00:23:08
      男子借宿同學家后持刀行兇致1死1重傷 第二次精神鑒定結果:具有限定刑事責任能力

      男子借宿同學家后持刀行兇致1死1重傷 第二次精神鑒定結果:具有限定刑事責任能力

      紅星新聞
      2026-01-10 20:43:14
      善惡終有報。離婚半年婆婆“落網”,孫怡給董子健好好上了一課

      善惡終有報。離婚半年婆婆“落網”,孫怡給董子健好好上了一課

      失寵的小野豬
      2026-01-10 22:27:10
      舊金山飛北京首都機場一航班降落前突然復飛,備降至大興機場,美聯航客服:天氣原因導致

      舊金山飛北京首都機場一航班降落前突然復飛,備降至大興機場,美聯航客服:天氣原因導致

      極目新聞
      2026-01-10 15:13:10
      外媒:美國商務部撤銷將中國制造無人機列入所謂“受管制清單”的計劃

      外媒:美國商務部撤銷將中國制造無人機列入所謂“受管制清單”的計劃

      環球網資訊
      2026-01-10 11:06:09
      從天堂到地獄再殺回來!王欣瑜狂救賽點,她靠什么終結0-8魔咒?

      從天堂到地獄再殺回來!王欣瑜狂救賽點,她靠什么終結0-8魔咒?

      曹老師評球
      2026-01-10 17:59:12
      弗萊徹:就算不轉正我也能接受,一直當U18梯隊教練我也開心

      弗萊徹:就算不轉正我也能接受,一直當U18梯隊教練我也開心

      懂球帝
      2026-01-11 07:06:28
      王新軍沒想到,閆學晶人設崩塌不到半月,秦海璐因一句話口碑暴增

      王新軍沒想到,閆學晶人設崩塌不到半月,秦海璐因一句話口碑暴增

      阿纂看事
      2026-01-09 19:28:02
      茶葉保質期標注“100年”?知名品牌回應

      茶葉保質期標注“100年”?知名品牌回應

      環球網資訊
      2026-01-10 09:52:17
      養老金儲備大調查:退休前沒存到這個數,可能真的要靠子女接濟了

      養老金儲備大調查:退休前沒存到這個數,可能真的要靠子女接濟了

      小白鴿財經
      2026-01-11 07:05:02
      章澤天回國策劃播客節目,她素顏開會很有氣質,她換了新發色很美

      章澤天回國策劃播客節目,她素顏開會很有氣質,她換了新發色很美

      秋之潔
      2026-01-10 09:16:55
      Jennie臺北機場全程臭臉,沒給一秒鐘好臉,網友怒轟:態度好差

      Jennie臺北機場全程臭臉,沒給一秒鐘好臉,網友怒轟:態度好差

      并不擅長圈粉的鐵任
      2026-01-10 01:21:39
      狗頭蘿莉被虎牙申請限消

      狗頭蘿莉被虎牙申請限消

      雷達財經
      2026-01-11 01:05:00
      背刺打工人漲價又縮水,漢堡像馬卡龍!麥當勞被笑上了熱搜……

      背刺打工人漲價又縮水,漢堡像馬卡龍!麥當勞被笑上了熱搜……

      柴狗夫斯基
      2026-01-10 21:35:31
      2026-01-11 07:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12088文章數 142534關注度
      往期回顧 全部

      科技要聞

      必看 | 2026開年最頂格的AI對話

      頭條要聞

      宜家確定關閉全國7家商場清倉 大批上海人涌入"撿漏"

      頭條要聞

      宜家確定關閉全國7家商場清倉 大批上海人涌入"撿漏"

      體育要聞

      怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

      娛樂要聞

      吳速玲曝兒子Joe是戀愛腦

      財經要聞

      這不算詐騙嗎?水滴保誘導扣款惹眾怒

      汽車要聞

      寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

      態度原創

      數碼
      房產
      親子
      本地
      公開課

      數碼要聞

      熊貓主題圈粉老外,長虹AI家電亮相CES,東方元素成頂流

      房產要聞

      66萬方!4755套!三亞巨量房源正瘋狂砸出!

      親子要聞

      寶寶第一次吃米糊,寶寶:有這好東西不早點拿出來!網友:眼里全是對食物的渴望

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲小说少妇区图片| 国产一区二区三区在线影院| 国产毛a片啊久久久久久保和丸| 屄视频| 成人综合网址| 亚洲成人视屏| 国产大学生粉嫩无套流白浆| 亚洲av永久无码精品水牛影视| 脱了老师内裤猛烈进入的软件| 女人被做到高潮视频| 同江市| 欧美老熟妇喷水| 亚洲无码丝袜| 日本va欧美va精品发布| 97人妻免费公开视频| 乱色熟女综合一区二区| 九九久久自然熟的香蕉图片| 亚洲av偷拍一区二区三区| 夜夜高潮次次欢爽av女| 夜夜高潮夜夜爽国产伦精品| 亚洲色成人www永久网站| 呼和浩特市| 亚洲精品国产精品国自产| 亚洲成人免费网站| 亚洲国产无线乱码在线观看| 多人乱p视频在线免费观看| 天天久久综合| 99自拍视频| 另类小说av| 中文字幕av无码免费一区| 大胸少妇午夜三级| 亚洲国产精品一区二区第一页| 天天综合天天色| 亚洲欧洲日产国码高潮αv| 国产午精品午夜福利757视频播放| 999zyz玖玖资源站永久| 欧美黑人又粗又硬xxxxx喷水| 欧美成人猛片aaaaaaa| 沂水县| 亚洲成a人v欧美综合天堂下载 | 彭阳县|