<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI智能體不是越多越強:信息冗余構成了LLM Agent Scaling的瓶頸

      0
      分享至



      近年來,基于大語言模型的多智能體系統(LLM-based Multi-Agent Systems, MAS)被廣泛用于復雜推理任務。典型做法是讓多個 agent 獨立生成并通過投票或辯論等機制聚合決策,從而在算術推理、常識推斷與專業問答中提升準確率。

      隨著 test-time compute(推理時計算)成為常見的能力提升手段,一個自然的問題隨之出現:MAS 是否能通過不斷增加 agent 數量而持續變強?直覺上,這個設想似乎成立:類似 ensemble 或 self-consistency 的「多次采樣 + 聚合」往往能提高覆蓋正確答案的概率。

      來自上海交通大學、UC Berkeley、加州理工學院以及約翰?霍普金斯大學的聯合研究論文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能體系統「擴不動」的真正原因,并不是 Agent 不夠多,而是信息冗余。 系統實驗發現,單純堆規模收益迅速枯竭,而引入多樣性可以顯著延緩飽和、以更少的 Agent 獲得更強的性能。



      • 論文標題:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
      • 論文地址:https://arxiv.org/pdf/2602.03794
      • GitHub 代碼:https://github.com/SafeRL-Lab/Agent-Scaling

      同質擴展的失效:

      規模帶來的收益迅速飽和

      論文首先直接檢驗「增加 agent 數是否有效」。在同質設置下,所有 agent 共享相同底座模型與系統提示(無 persona 差異,配置一致),采用兩類常見協作機制:

      • Vote:單輪獨立生成后多數投票;
      • Debate:多輪交互后再給出最終答案(交互 4 輪)。

      僅改變 agent 數 N,在 7 個基準任務(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上評估。



      結果在不同任務與模型上高度一致:當 N 從 1 增至 2 或 4 時,性能通常明顯提升;但繼續增加 N 后,準確率迅速進入平臺期,邊際收益接近 0,部分設置甚至出現回落。這說明:在同質配置下,單純堆疊更多 agent calls 并不能持續注入新的有效信息。

      多樣性帶來的對照現象:

      少量異質 agent 勝過大規模同質系統

      與同質擴展的快速飽和形成鮮明對比的是,多樣性配置下的實驗結果。論文進一步比較了兩類系統:一類由同一模型多次獨立運行構成,另一類則由不同 backbone 模型或不同 persona prompt 組成。在匹配計算預算(固定總 agent calls)的前提下,異質系統在同預算下整體更高,并且在更大的 N 上仍能保持增益。





      為了更系統地理解這一現象,作者在實驗中將多樣性拆解為不同來源,包括 persona 多樣性、模型多樣性,以及二者結合的完全多樣性,并在統一設置下進行對比。

      在 GSM8K、ARC、HellaSwag、TruthfulQA 等七個基準任務上,作者系統比較了:

      • Agent 完全一致(L1)
      • Agent Persona 多樣性(L2)
      • Base Model 多樣性(L3)
      • Persona多樣性兼Base Model多樣性(L4)

      結果顯示,每引入一層新的多樣性,系統整體性能都會顯著上移;其中,模型多樣性和 persona 多樣性各自都具有獨立貢獻,而二者結合時效果最為顯著。



      這一趨勢在效率層面體現得尤為明顯:在多個任務上,僅使用2 個完全異質的 agent,就可以達到甚至超過16 個同質 agent的平均性能。



      限制多智能體擴展的不是規模

      而是信息冗余

      將這些實驗結果串聯起來,論文在經驗層面得出了一個清晰結論:多智能體系統的擴展瓶頸并不來自 agent 數量不足,而來自 agent 輸出之間的高度相關性。在同質配置下,多個 agent 往往沿著相似的推理路徑生成答案,新增調用所帶來的大多是重復信息;而多樣性的作用,在于引入互補視角,降低輸出冗余,使系統能夠在相同甚至更小的計算預算下獲得更多有效證據。





      基于這一系列實驗現象,作者進一步提出信息論分析框架,引入「有效信息通道」等概念,對「規模失效」與「多樣性優勢」給出統一解釋。與其說這項工作提出了新的 agent 架構,不如說它明確指出:多智能體系統里真正稀缺的資源不是調用次數,而是非冗余的信息來源

      信息論視角:

      性能由「有效信息」而非「調用次數」主導

      作者考慮一個包含 N 個大模型智能體的多智能體系統,每個智能體具有自身配置,包括基座模型(backbone model)、系統提示詞(system prompt)、角色設定(persona)與工具能力(tool access)。系統接收問題輸入 X,按預設工作流執行若干次推理(記為 n 次),最終輸出答案。



      從信息論角度,得到正確答案 Y 的成功率并不簡單由 N 與 n 決定,而取決于系統能夠提供多少關于 Y 的信息。作者用條件熵 H (Y|X) 刻畫任務的內在難度:在給定問題 X 的情況下,正確答案 Y 仍然存在的剩余不確定性。

      • 同質配置下,即便新增智能體,往往也只是在相似推理路徑下重復采樣,因而對降低不確定性幫助有限;
      • 異質配置下,新增智能體更可能引入新的推理路徑,與既有路徑互補,從而更有效地減少不確定性。

      為刻畫這一差異,作者定義:



      在該設定下,作者基于若干建模假設推導出一個近似形式,用于刻畫趨勢而非精確預測。作者認為,系統可獲得的有效信息量(并據此關聯成功率)主要受如下量支配:



      該結果強調:影響系統性能的關鍵不在于 “智能體數量或推理次數”,而在于系統中有效信息通道的數量—— 也就是多樣化所帶來的非冗余信息規模。它也解釋了為何實踐中常見「邊際效益遞減」:當有效信息通道增長受限時,新增調用帶來的有效信息增量會快速衰減。

      作者還給出了在實踐中估計有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等數據集上驗證:經驗成功率與理論預測總體吻合。



      進一步地,作者將系統輸出拆分為「正確推理路徑」與「錯誤推理路徑」,分別估算其對應的有效信息通道數量。實驗一致表明:當正確推理路徑對應的有效信息通道更多時,多智能體系統表現更好。這意味著系統設計不應盲目追求多樣性本身,而應追求與任務相關的推理多樣性 —— 即提升與正確推理相關的有效信息通道數。



      總結

      論文的核心經驗結論是:多智能體擴展的關鍵不在于把 N 做大,而在于讓新增調用帶來新的有效證據。只要輸出高度相關,同質擴展就會很快進入平臺期;而多樣性能夠提升效率,是因為它更可能產生互補推理路徑。換句話說,多智能體系統里稀缺的不是調用次數,而是非冗余信息。

      實踐上可以用一個簡單標準指導擴展:當增加 agent 主要帶來「同一思路的重復」 時,應停止堆同質數量,轉而引入可控的異質性(方法互補的 persona、不同模型家族、工具能力互補);只有當這些改動確實帶來額外增益時,再繼續擴大規模。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央視江蘇衛視等六大劇集今明開播,演員陣容強大

      央視江蘇衛視等六大劇集今明開播,演員陣容強大

      青杉依舊啊啊
      2026-04-13 11:42:56
      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      皇家選妃秘聞:裸檢是最后一關,細節變態到九成女子都過不去

      皇家選妃秘聞:裸檢是最后一關,細節變態到九成女子都過不去

      千秋文化
      2026-02-07 17:26:57
      藍戰非領獎穿著被吐槽!網友:都是千萬級別網紅,郭有財紳士儒雅

      藍戰非領獎穿著被吐槽!網友:都是千萬級別網紅,郭有財紳士儒雅

      火山詩話
      2026-04-11 15:43:54
      黎巴嫩一國兩軍:真主黨這個“國中之國”,為何徹底綁架黎巴嫩?

      黎巴嫩一國兩軍:真主黨這個“國中之國”,為何徹底綁架黎巴嫩?

      環球情報員
      2026-04-11 21:23:51
      張杰16場鳥巢豪賭慘淡收場?演唱會票價腰斬背后,行業泡沫誰買單

      張杰16場鳥巢豪賭慘淡收場?演唱會票價腰斬背后,行業泡沫誰買單

      一盅情懷
      2026-04-12 16:13:23
      女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

      女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

      另子維愛讀史
      2026-03-10 22:56:08
      “梅姨”被指除9名男生還拐過3名女孩,“梅姨案”延長偵查期限;實探“梅姨”生活過的村莊:與鐘彬被賣地僅相距約40公里

      “梅姨”被指除9名男生還拐過3名女孩,“梅姨案”延長偵查期限;實探“梅姨”生活過的村莊:與鐘彬被賣地僅相距約40公里

      揚子晚報
      2026-04-13 15:36:22
      這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

      這是李鴻章妻妾的真實樣貌,個個美艷身材修長,顏值不輸當代女星

      阿廢冷眼觀察所
      2026-04-11 18:41:14
      什么事讓你瞬間感到毛骨悚然?網友:從此再沒見過她老公發脾氣

      什么事讓你瞬間感到毛骨悚然?網友:從此再沒見過她老公發脾氣

      另子維愛讀史
      2026-03-10 23:08:46
      美高官:先打中國再打朝鮮,打不過就核戰,因中國火箭軍太強大

      美高官:先打中國再打朝鮮,打不過就核戰,因中國火箭軍太強大

      尋墨閣
      2026-04-13 04:07:48
      美股深V拉升,英特爾市值8日狂飆1000億美元,油價直線下跌

      美股深V拉升,英特爾市值8日狂飆1000億美元,油價直線下跌

      21世紀經濟報道
      2026-04-13 23:25:13
      常冰玉轟147,狂賺157萬獎金!賽后紳士行為引熱議,像極了趙心童

      常冰玉轟147,狂賺157萬獎金!賽后紳士行為引熱議,像極了趙心童

      球場沒跑道
      2026-04-13 08:26:20
      美國人想不通:為什么這種不需要插電的燈,中國賣得比電池還便宜

      美國人想不通:為什么這種不需要插電的燈,中國賣得比電池還便宜

      丁丁鯉史紀
      2026-04-13 15:15:45
      張本智和“比99%中國網友更優秀”?張本宇公開稱:他是日本英雄

      張本智和“比99%中國網友更優秀”?張本宇公開稱:他是日本英雄

      開成運動會
      2026-04-13 22:55:12
      美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

      美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

      夜深愛雜談
      2026-03-08 21:28:24
      經參特稿·開局之年看信心丨“促發展”與“惠民生”雙向奔赴——“投資于人”新理念落地觀察

      經參特稿·開局之年看信心丨“促發展”與“惠民生”雙向奔赴——“投資于人”新理念落地觀察

      新華社
      2026-04-13 09:03:12
      哭不出來別尬哭!要不是43歲的萬茜哭上熱搜,我都不知道好劇播了

      哭不出來別尬哭!要不是43歲的萬茜哭上熱搜,我都不知道好劇播了

      娛樂故事
      2026-04-11 22:17:18
      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有1個

      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有1個

      史行途
      2026-04-12 12:15:00
      沙特能源大動脈迅速“止血”:東西向輸油管道恢復滿負荷運行

      沙特能源大動脈迅速“止血”:東西向輸油管道恢復滿負荷運行

      財聯社
      2026-04-13 12:50:10
      2026-04-14 00:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12751文章數 142624關注度
      往期回顧 全部

      科技要聞

      "抄作業"近四年,馬斯克版微信周五上線

      頭條要聞

      上海女子2個月內結2次婚 生下的孩子卻是第3個男人的

      頭條要聞

      上海女子2個月內結2次婚 生下的孩子卻是第3個男人的

      體育要聞

      一支球隊不夠爛,也是一種悲哀

      娛樂要聞

      初代“跑男團”合體,鄧超、鹿晗缺席

      財經要聞

      談判未完全關閉?3國力促美伊重啟談判

      汽車要聞

      不止命名更純粹 領克10/10+要做純電操控新王

      態度原創

      親子
      教育
      時尚
      本地
      旅游

      親子要聞

      老了才明白:不管多 心疼兒女,幫忙帶 娃時,都要留意這3點

      教育要聞

      老師們活的通透的幾大標準,看看你做到了嗎?

      今年春夏一定要擁有的4條裙子,這樣穿減齡又好看!

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      旅游要聞

      蘭圃開放夜間游覽!來廣州越秀逛蘭緣盛薈,承包你的春日快樂

      無障礙瀏覽 進入關懷版