![]()
機器之心報道
編輯:Panda
智能體(Agent),即基于語言模型且具備推理、規(guī)劃和行動能力的系統(tǒng),正在成為現(xiàn)實世界 AI 應用的主導范式。
盡管其已被廣泛采用,但決定其性能的原則仍未被充分探索,導致從業(yè)者只能依賴啟發(fā)式經(jīng)驗,而非有原理依托的設計選擇。
現(xiàn)在,谷歌的一篇新論文填補了這一空白!
他們通過大量實驗找到了智能體的 Scaling Law,只不過他們將其稱為quantitative scaling principles,即定量擴展原則。
![]()
- 論文標題:Towards a Science of Scaling Agent Systems
- 論文地址:https://arxiv.org/abs/2512.08296
具體來說,他們將這種擴展定義為智能體數(shù)量、協(xié)作結(jié)構(gòu)、模型能力和任務屬性之間的相互作用。
他們在四個不同的基準測試中對此進行了評估:Finance-Agent(金融推理)、BrowseComp-Plus(網(wǎng)絡導航)、PlanCraft(游戲規(guī)劃)和 Workbench(工作流執(zhí)行)。
![]()
利用五種典型的智能體架構(gòu)(單智能體系統(tǒng)以及四種多智能體系統(tǒng):獨立型、中心化、去中心化、混合型),并在三個 LLM 家族(OpenAI, Google, Anthropic)中進行實例化,谷歌這個團隊對 180 種配置進行了受控評估,標準化了工具、提示結(jié)構(gòu)和 token 預算,以將架構(gòu)效應從實施混雜因素中隔離出來。
![]()
他們使用經(jīng)驗性的協(xié)作指標(包括效率、開銷、錯誤放大和冗余)推導出了一個預測模型,該模型實現(xiàn)了交叉驗證 R2=0.513,通過對任務屬性建模而非過度擬合特定數(shù)據(jù)集,實現(xiàn)了對未見任務領域的預測。
是的,智能體的 Scaling Law 找到了!并且準確度還相當高,谷歌表示:「我們的框架在預測保留任務的最佳架構(gòu)方面實現(xiàn)了 87% 的準確率。」這樣一來,智能體的部署決策將第一次獲得強有力的原則支撐。
![]()
實驗與結(jié)果:打破「人多力量大」的迷思
為了找到這套定量原則,谷歌團隊沒有僅僅停留在理論推導,而是進行了一場堪稱暴力窮舉的實證研究。
他們動用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、網(wǎng)購、游戲規(guī)劃等不同場景下進行了 180 組受控實驗。
實驗結(jié)果不僅令人意外,甚至顛覆了許多開發(fā)者的直覺。簡單來說,他們發(fā)現(xiàn)了一些規(guī)律。
任務決定成敗:有的場景是神助攻,有的是豬隊友
過去人們常說「三個臭皮匠,頂個諸葛亮」,但這篇論文告訴我們:這完全取決于你們在干什么任務。
![]()
紅榜(適合組團): 在金融分析(Finance-Agent)這類任務中,多智能體協(xié)作是大殺器。中心化架構(gòu)(有一個「指揮官」分派任務)能讓性能暴漲 80.9%。為什么?因為這類任務可以拆分 —— 你查財報,我算匯率,他做總結(jié),大家并行工作,效率極高。
黑榜(切忌組團): 在游戲規(guī)劃(PlanCraft)這類任務中,所有多智能體架構(gòu)都翻車了,性能慘跌 39% 到 70%。原因在于這類任務環(huán)環(huán)相扣(必須先砍樹,才能做木板),強行把流程拆給不同的人,光是溝通成本就把推理能力消耗殆盡了。
三大隱形殺手:什么在阻礙智能體變強?
通過對數(shù)據(jù)的深度挖掘,谷歌團隊量化了阻礙智能體擴展的三大核心因素:
第一,工具越多,協(xié)作越難(工具-協(xié)作權(quán)衡)
如果任務需要用到大量工具(比如 16 個以上的 API),再引入多智能體協(xié)作就是一場災難。實驗數(shù)據(jù)顯示,工具密集的任務會因巨大的溝通開銷而不僅沒變快,反而變慢、變笨。
第二,能力有天花板(能力飽和效應)
這是最反直覺的一點:如果單個智能體已經(jīng)夠聰明了,就別再給它找?guī)褪至恕?數(shù)據(jù)表明,當單智能體的基線準確率超過 45% 時,再增加智能體進行協(xié)作,收益往往是負的。所謂「幫倒忙」,在 AI 世界里是真實存在的。
第三,沒有指揮官,錯誤會指數(shù)級放大
如果你讓一群智能體各自為戰(zhàn)(獨立型架構(gòu)),錯誤會被放大 17.2 倍 —— 因為沒人檢查,一個人的錯會傳給所有人。但如果引入一個「指揮官」進行中心化管理,錯誤放大率能被控制在 4.4 倍。這證明了在多智能體系統(tǒng)中,架構(gòu)設計比單純堆人數(shù)更重要。
模型性格測試:誰是最佳指揮官?
除了任務和架構(gòu),論文還發(fā)現(xiàn)了一個有趣的現(xiàn)象:不同廠商的模型有不同的協(xié)作性格。在選擇團隊成員時,你不能只看智商(IQ),還要看它們合不合群。
Google Gemini:擅長「層級管理」的執(zhí)行官。Gemini 模型在中心化架構(gòu)下表現(xiàn)出了驚人的適應性。在金融任務中,Gemini 的中心化協(xié)作帶來了 +164.3% 的恐怖提升。數(shù)據(jù)表明,它最聽指揮,執(zhí)行力最強,且在不同架構(gòu)下的性價比最為平衡。
OpenAI GPT:擅長「復雜溝通」的交際花。GPT 系列在混合型架構(gòu)(Hybrid)中表現(xiàn)最佳 。雖然混合架構(gòu)的溝通成本很高,但 GPT 似乎擁有獨特的「通信協(xié)同效應」(Communication Synergy),能駕馭復雜的交互網(wǎng)絡,不僅能聽指揮,還能搞定同級之間的橫向溝通 。
Anthropic Claude:穩(wěn)健但敏感的保守派。Claude 對協(xié)作開銷非常敏感,一旦溝通太復雜,成本就會飆升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最適合簡單直接的中心化架構(gòu),表現(xiàn)最穩(wěn)(方差最小)。更有趣的是,它是唯一一個在「弱指揮官帶強兵」(異構(gòu)混合)模式下還能提升性能的模型,展現(xiàn)出了獨特的容錯性
![]()
結(jié)果:這就是我們要找的「預測公式」
最終,基于上述發(fā)現(xiàn),谷歌推導出了一個預測模型。這個模型不依賴玄學,而是基于效率、開銷、錯誤放大率等硬指標。
![]()
![]()
它的威力如何?在預測完全沒見過的任務配置時,這套理論能以 87% 的準確率告訴你:對于當前的任務和模型,到底該用單打獨斗,還是團隊協(xié)作,亦或是某種特定的組隊方式。
這標志著智能體系統(tǒng)設計正式告別了「煉金術(shù)」時代,進入了可計算、可預測的「化學」時代。
更多詳情請訪問原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.