網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

谷歌發(fā)布智能體Scaling Law：180組實驗打破傳統(tǒng)煉金術(shù)

2025-12-12 10:18:00　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

智能體（Agent），即基于語言模型且具備推理、規(guī)劃和行動能力的系統(tǒng)，正在成為現(xiàn)實世界 AI 應用的主導范式。

盡管其已被廣泛采用，但決定其性能的原則仍未被充分探索，導致從業(yè)者只能依賴啟發(fā)式經(jīng)驗，而非有原理依托的設計選擇。

現(xiàn)在，谷歌的一篇新論文填補了這一空白！

他們通過大量實驗找到了智能體的 Scaling Law，只不過他們將其稱為quantitative scaling principles，即定量擴展原則。

論文標題：Towards a Science of Scaling Agent Systems
論文地址：https://arxiv.org/abs/2512.08296

具體來說，他們將這種擴展定義為智能體數(shù)量、協(xié)作結(jié)構(gòu)、模型能力和任務屬性之間的相互作用。

他們在四個不同的基準測試中對此進行了評估：Finance-Agent（金融推理）、BrowseComp-Plus（網(wǎng)絡導航）、PlanCraft（游戲規(guī)劃）和 Workbench（工作流執(zhí)行）。

利用五種典型的智能體架構(gòu)（單智能體系統(tǒng)以及四種多智能體系統(tǒng)：獨立型、中心化、去中心化、混合型），并在三個 LLM 家族（OpenAI, Google, Anthropic）中進行實例化，谷歌這個團隊對 180 種配置進行了受控評估，標準化了工具、提示結(jié)構(gòu)和 token 預算，以將架構(gòu)效應從實施混雜因素中隔離出來。

他們使用經(jīng)驗性的協(xié)作指標（包括效率、開銷、錯誤放大和冗余）推導出了一個預測模型，該模型實現(xiàn)了交叉驗證 R2=0.513，通過對任務屬性建模而非過度擬合特定數(shù)據(jù)集，實現(xiàn)了對未見任務領域的預測。

是的，智能體的 Scaling Law 找到了！并且準確度還相當高，谷歌表示：「我們的框架在預測保留任務的最佳架構(gòu)方面實現(xiàn)了 87% 的準確率。」這樣一來，智能體的部署決策將第一次獲得強有力的原則支撐。

實驗與結(jié)果：打破「人多力量大」的迷思

為了找到這套定量原則，谷歌團隊沒有僅僅停留在理論推導，而是進行了一場堪稱暴力窮舉的實證研究。

他們動用了三大模型家族（Google Gemini、OpenAI GPT、Anthropic Claude），在金融、網(wǎng)購、游戲規(guī)劃等不同場景下進行了 180 組受控實驗。

實驗結(jié)果不僅令人意外，甚至顛覆了許多開發(fā)者的直覺。簡單來說，他們發(fā)現(xiàn)了一些規(guī)律。

任務決定成敗：有的場景是神助攻，有的是豬隊友

過去人們常說「三個臭皮匠，頂個諸葛亮」，但這篇論文告訴我們：這完全取決于你們在干什么任務。

紅榜（適合組團）：在金融分析（Finance-Agent）這類任務中，多智能體協(xié)作是大殺器。中心化架構(gòu)（有一個「指揮官」分派任務）能讓性能暴漲 80.9%。為什么？因為這類任務可以拆分 —— 你查財報，我算匯率，他做總結(jié)，大家并行工作，效率極高。

黑榜（切忌組團）：在游戲規(guī)劃（PlanCraft）這類任務中，所有多智能體架構(gòu)都翻車了，性能慘跌 39% 到 70%。原因在于這類任務環(huán)環(huán)相扣（必須先砍樹，才能做木板），強行把流程拆給不同的人，光是溝通成本就把推理能力消耗殆盡了。

三大隱形殺手：什么在阻礙智能體變強？

通過對數(shù)據(jù)的深度挖掘，谷歌團隊量化了阻礙智能體擴展的三大核心因素：

第一，工具越多，協(xié)作越難（工具-協(xié)作權(quán)衡）

如果任務需要用到大量工具（比如 16 個以上的 API），再引入多智能體協(xié)作就是一場災難。實驗數(shù)據(jù)顯示，工具密集的任務會因巨大的溝通開銷而不僅沒變快，反而變慢、變笨。

第二，能力有天花板（能力飽和效應）

這是最反直覺的一點：如果單個智能體已經(jīng)夠聰明了，就別再給它找?guī)褪至恕?數(shù)據(jù)表明，當單智能體的基線準確率超過 45% 時，再增加智能體進行協(xié)作，收益往往是負的。所謂「幫倒忙」，在 AI 世界里是真實存在的。

第三，沒有指揮官，錯誤會指數(shù)級放大

如果你讓一群智能體各自為戰(zhàn)（獨立型架構(gòu)），錯誤會被放大 17.2 倍 —— 因為沒人檢查，一個人的錯會傳給所有人。但如果引入一個「指揮官」進行中心化管理，錯誤放大率能被控制在 4.4 倍。這證明了在多智能體系統(tǒng)中，架構(gòu)設計比單純堆人數(shù)更重要。

模型性格測試：誰是最佳指揮官？

除了任務和架構(gòu)，論文還發(fā)現(xiàn)了一個有趣的現(xiàn)象：不同廠商的模型有不同的協(xié)作性格。在選擇團隊成員時，你不能只看智商（IQ），還要看它們合不合群。

Google Gemini：擅長「層級管理」的執(zhí)行官。Gemini 模型在中心化架構(gòu)下表現(xiàn)出了驚人的適應性。在金融任務中，Gemini 的中心化協(xié)作帶來了 +164.3% 的恐怖提升。數(shù)據(jù)表明，它最聽指揮，執(zhí)行力最強，且在不同架構(gòu)下的性價比最為平衡。

OpenAI GPT：擅長「復雜溝通」的交際花。GPT 系列在混合型架構(gòu)（Hybrid）中表現(xiàn)最佳。雖然混合架構(gòu)的溝通成本很高，但 GPT 似乎擁有獨特的「通信協(xié)同效應」（Communication Synergy），能駕馭復雜的交互網(wǎng)絡，不僅能聽指揮，還能搞定同級之間的橫向溝通。

Anthropic Claude：穩(wěn)健但敏感的保守派。Claude 對協(xié)作開銷非常敏感，一旦溝通太復雜，成本就會飆升（每提升 1% 性能的成本是 Google 的 2 倍）。因此，它最適合簡單直接的中心化架構(gòu)，表現(xiàn)最穩(wěn)（方差最小）。更有趣的是，它是唯一一個在「弱指揮官帶強兵」（異構(gòu)混合）模式下還能提升性能的模型，展現(xiàn)出了獨特的容錯性

結(jié)果：這就是我們要找的「預測公式」

最終，基于上述發(fā)現(xiàn)，谷歌推導出了一個預測模型。這個模型不依賴玄學，而是基于效率、開銷、錯誤放大率等硬指標。

它的威力如何？在預測完全沒見過的任務配置時，這套理論能以 87% 的準確率告訴你：對于當前的任務和模型，到底該用單打獨斗，還是團隊協(xié)作，亦或是某種特定的組隊方式。

這標志著智能體系統(tǒng)設計正式告別了「煉金術(shù)」時代，進入了可計算、可預測的「化學」時代。

更多詳情請訪問原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.