機器之心編輯部
在最近 AI 領域內,智能體(Agent)的研究和應用越來越多,原生多智能體工作的基礎模型也已開始出現。
作為一個能夠推理、規劃和行動的系統,智能體正逐漸成為現實世界人工智能應用的常見范式。從編程助手到私人健康教練,AI 應用正從單次問答轉向持續的多步驟交互。盡管研究人員長期以來一直利用既定指標來優化傳統機器學習模型的準確性,但 AI 智能體引入了新的復雜性。
與孤立的預測不同,AI 智能體必須應對持續的多步驟交互,其中單個錯誤可能會在整個工作流程中引發連鎖反應。這種轉變促使我們超越標準的準確性進行思考:究竟該如何設計這些系統才能實現最佳性能?
在實踐上,我們常常依賴啟發式方法,例如「智能體越多越好」的假設,認為增加專業智能體就能持續提升結果。論文《More Agents Is All You Need》指出,大語言模型(LLM)的性能會隨著智能體數量的增加而提升,而《Scaling Large Language Model-based Multi-Agent Collaboration》發現,多智能體協作「…… 通常通過集體推理超越單個智能體的性能」。
在 Google DeepMind 的新論文中,研究人員對這一假設提出了挑戰。通過對 180 種智能體配置進行大規模受控評估,DeepMind 推導出了智能體系統的首個定量規模化原則,揭示了「增加智能體數量」的方法往往會遇到瓶頸,如果與任務的具體屬性不匹配,甚至會降低性能。
![]()
- 論文:Towards a Science of Scaling Agent Systems
- 鏈接:https://arxiv.org/abs/2512.08296
定義「智能體」評估
為了理解智能體如何擴展,研究人員首先定義了「智能體任務」的構成要素。傳統的靜態基準測試衡量模型的知識水平,但無法捕捉部署的復雜性。其認為智能體任務需要具備三個特定屬性:
1. 與外部環境持續進行多步驟互動;
2. 在部分可觀測性條件下進行迭代信息收集;
3. 基于環境反饋的自適應策略改進。
研究人員評估了五種典型架構:一種單智能體系統 (SAS) 和四種多智能體變體(獨立式、集中式、分散式和混合式),并在四個不同的基準測試中進行了測試,包括 Finance-Agent(金融推理)、BrowseComp-Plus(網頁導航)、PlanCraft(規劃)和 Workbench(工具使用)。智能體架構定義如下:
- 單智能體(SAS):一個獨立的智能體,使用統一的記憶流按順序執行所有推理和行動步驟;
- 獨立:多個智能體并行處理子任務,彼此不進行通信,僅在最后匯總結果;
- 集中式:一種「中心輻射式」模型,有中央協調者將任務委派給作業者并綜合他們的輸出;
- 去中心化:一種點對點網絡,其中的智能體直接相互通信,共享信息并達成共識;
- 混合型:結合層級監督和點對點協調,以平衡中央控制和靈活執行。
![]()
本研究評估了五種典型的智能體架構,并總結了它們的計算復雜度、通信開銷和協調機制。k = 每個智能體的最大迭代次數, n = 智能體數量, r = 協調器輪數, d = 辯論輪數, p = 對等通信輪數, m = 每輪平均對等請求數。通信開銷統計智能體間的消息交換次數。獨立架構以最小的協調實現最大程度的并行化。去中心化架構采用順序辯論輪次。混合架構結合了協調器控制和定向對等通信。
結果:「增加智能體」只是神話
為了量化模型能力對智能體性能的影響,DeepMind 評估了這些架構在三大主流模型系列(OpenAI GPT、Google Gemini 和 Anthropic Claude)上的表現。結果揭示了模型能力與協調策略之間復雜的關聯。
如下圖所示,雖然性能通常會隨著模型能力的提升而提高,但多智能體系統并非萬能解決方案 —— 根據具體配置的不同,它們既可能顯著提升性能,也可能意外地降低性能。
![]()
對三大主要模型系列(OpenAI GPT、Google Gemini、Anthropic Claude)的性能比較,展示了不同的智能體架構如何隨著模型智能的提升而擴展,其中多智能體系統可能會根據配置的不同而提升或降低性能。
以下結果比較了五種架構在不同領域(例如網頁瀏覽和金融分析)的性能。箱線圖表示每種方法的準確率分布,而百分比則表示多智能體團隊相對于單智能體基線的相對改進(或下降)。這些數據表明,雖然增加智能體可以顯著提升并行任務的性能,但在順序性更強的流程中,往往會導致收益遞減,甚至性能下降。
![]()
特定任務的性能表明,多智能體協調在可并行化的任務(如 Finance-Agent)上取得了顯著的收益(+81%),但在順序任務(如 PlanCraft)上的性能卻有所下降(-70%)。
對齊原則
對于像金融推理這樣可并行化的任務(例如,不同的智能體可以同時分析收入趨勢、成本結構和市場對比),集中式協調比單個智能體的性能提升了 80.9%。將復雜問題分解為子任務的能力使得智能體能夠更高效地工作。
順序處罰
相反,在需要嚴格順序推理的任務(例如 PlanCraft 中的規劃)中,研究人員測試的每個多智能體變體的性能都下降了 39% 到 70%。在這些情況下,通信開銷會打斷推理過程,導致實際任務所需的「認知預算」不足。
工具使用瓶頸
DeepMind 研究人員發現了一個「工具協調權衡」。隨著任務需要更多工具(例如一個編碼代理需要訪問 16 種以上的工具),協調多個智能體的「成本」會不成比例地增加。
安全特性
或許對實際部署而言最重要的是,該工作發現了架構與可靠性之間的關系。DeepMind 測量了誤差放大率,即一個智能體的錯誤傳播到最終結果的速率。
![]()
跨架構的綜合指標顯示,集中式系統在成功率和錯誤控制之間實現了最佳平衡,而獨立的多智能體系統將錯誤放大了高達 17.2 倍。
研究發現,獨立的多智能體系統(智能體并行工作但不進行通信)會將錯誤放大 17.2 倍。由于缺乏相互檢查機制,錯誤會不受控制地級聯傳播。集中式系統(帶有協調器)則將這種放大倍數控制在 4.4 倍。協調器有效地充當了「驗證瓶頸」,在錯誤傳播之前將其捕獲。
智能體設計的預測模型
最后,作者不再局限于回顧性分析,而是開發了一個預測模型(R2 = 0.513),該模型利用工具數量和可分解性等可測量的任務屬性來預測哪種架構性能最佳。該模型能夠正確識別 87% 未見過的任務配置的最佳協調策略。
這表明我們正在邁向智能體擴展的新科學。開發者不再需要猜測是使用智能體集群還是單個強大的模型,而是可以根據任務的特性,特別是其順序依賴關系和工具密度,做出基于原則的工程決策。
結論
隨著 Gemini 等基礎模型的不斷發展,Google DeepMind 的研究表明,更智能的模型并不能取代多智能體系統,而是加速了其發展,但這只有在架構正確的情況下才能實現。通過從啟發式方法轉向定量原則,我們可以構建下一代 AI 智能體,它們不僅數量更多,而且更智能、更安全、更高效。
參考內容:
https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.