網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

谷歌MIT聯(lián)手：首個(gè)智能體Scaling Law出爐，盲目堆Agent性能暴跌70%

2025-12-11 23:27:47　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

↑閱讀之前記得關(guān)注+星標(biāo)??，，每天才能第一時(shí)間接收到更新

AI圈里一直流傳著一句信條：“More agents is all you need”（智能體越多越好）。

大家的直覺很簡單：一個(gè)諸葛亮不夠，那就找三個(gè)臭皮匠來湊。甚至有人覺得，只要我把一堆AI拉進(jìn)一個(gè)群里，讓它們互相討論、投票，無論什么任務(wù)都能做得更好

但現(xiàn)在，Google Research、DeepMind聯(lián)合MIT的一項(xiàng)重磅研究，給這個(gè)想法潑了一盆冷水

paper：

https://arxiv.org/pdf/2512.08296

他們做了一場史上最嚴(yán)苛的壓力測試，結(jié)果發(fā)現(xiàn)了一個(gè)反直覺的真相：

盲目組建AI團(tuán)隊(duì)，不僅不能提升能力，甚至可能把原本聰明的模型搞成“人工智障”，性能暴跌70%。

為此，研究團(tuán)隊(duì)總結(jié)出了一套 “智能體Scaling Law”，這是第一套能幫你算清楚“到底該單干還是群毆”的數(shù)學(xué)公式

為了搞清楚AI協(xié)作的真相，研究人員沒有只測一種模型，而是把市面上最強(qiáng)的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂臺

他們設(shè)計(jì)了180種不同的配置，不僅有單打獨(dú)斗的（單智能體），還有四種不同的“組隊(duì)模式”：

1.各自為戰(zhàn)：大家各干各的，最后湊一起。
2.中心化指揮：有個(gè)“經(jīng)理”負(fù)責(zé)分派任務(wù)和檢查。
3.去中心化討論：大家圍成一圈開會，互相辯論。
4.混合模式：既有經(jīng)理，底下人也能私聊

為了公平，不管是單人還是團(tuán)隊(duì)，手里能花的錢（Token預(yù)算）和能用的工具都是一樣的

測試結(jié)果出來后，呈現(xiàn)出了極端的兩極分化，就像兩個(gè)平行宇宙。

宇宙一：人多力量大

在金融分析（Finance-Agent）這類任務(wù)里，多智能體簡直殺瘋了

因?yàn)榻鹑谌蝿?wù)可以拆得非常細(xì)，比如A查財(cái)報(bào)，B看K線，C做風(fēng)控，最后匯總。在這種場景下，找個(gè)“經(jīng)理”來指揮（中心化架構(gòu)），性能直接比單干提升了80.9%

宇宙二：人多即地獄

但在“規(guī)劃任務(wù)”（PlanCraft，比如在Minecraft里合成物品）里，情況完全失控

這類任務(wù)講究邏輯的連貫性：你得先砍樹，才能做木板，再做工作臺。步驟環(huán)環(huán)相扣

結(jié)果研究發(fā)現(xiàn)，只要引入?yún)f(xié)作，所有多智能體架構(gòu)全部崩盤
因?yàn)榇蠹移咦彀松嗟赜懻摯驍嗔送评淼倪B貫性，把寶貴的計(jì)算資源都浪費(fèi)在了溝通上。比起單干，性能最高暴跌了70%

還有個(gè)中間派：

模擬真實(shí)職場打工（Workbench）的任務(wù)，結(jié)果顯示，這就屬于費(fèi)力不討好。折騰半天組建團(tuán)隊(duì)，最好的結(jié)果也就提升了5.7%，甚至有的架構(gòu)還倒退了

為什么會出現(xiàn)這種差異？研究團(tuán)隊(duì)通過那套Scaling Law公式，像法醫(yī)一樣解剖了背后的原因，找到了三條鐵律：

鐵律1：工具越重，開會越廢（工具-協(xié)作權(quán)衡）

想象一下，如果一個(gè)工匠要用16種不同的錘子和鋸子干活

單干時(shí)，他拿起工具就干。但如果是個(gè)團(tuán)隊(duì)，每換個(gè)工具都要跟隊(duì)友確認(rèn)、同步信息

數(shù)據(jù)顯示，任務(wù)需要的工具越多，協(xié)作帶來的內(nèi)耗就越嚴(yán)重。在這種“重工具”場景下，把資源花在溝通上簡直是浪費(fèi)，不如留給單人去思考

鐵律2：高手不需要隊(duì)友（能力飽和）

研究劃定了一條殘酷的“紅線”：45%。

如果一個(gè)單智能體自己做這道題的準(zhǔn)確率已經(jīng)超過了45%，那么給它加隊(duì)友往往是負(fù)收益

就像學(xué)霸做題，自己做能得90分。非要給他配幾個(gè)60分的隊(duì)友在旁邊指指點(diǎn)點(diǎn)，最后成績反而會被拉低。

鐵律3：沒經(jīng)理的團(tuán)隊(duì)是災(zāi)難（錯(cuò)誤放大）

這是最嚇人的數(shù)據(jù)

如果你讓一群AI各自跑結(jié)果（獨(dú)立架構(gòu)），卻沒人負(fù)責(zé)檢查，錯(cuò)誤率會被放大17.2倍！

因?yàn)橐粋€(gè)AI犯了錯(cuò)，沒糾正，另一個(gè)AI接著錯(cuò)，最后錯(cuò)上加錯(cuò)

只有引入“中心化”的經(jīng)理角色，強(qiáng)制進(jìn)行檢查驗(yàn)證，才能把錯(cuò)誤控制住（只放大4.4倍）

結(jié)論：算好這筆賬

這項(xiàng)研究最大的貢獻(xiàn)，就是告訴大家：別迷信人海戰(zhàn)術(shù)了

Google和MIT把這些發(fā)現(xiàn)濃縮成了一個(gè)預(yù)測模型。現(xiàn)在，只要你輸入三個(gè)數(shù)據(jù)：

1. 模型本身聰不聰明？
2. 任務(wù)要用多少工具？
3. 這任務(wù)能不能拆解？

這個(gè)公式就能以87%的準(zhǔn)確率告訴你：該單干，還是該組隊(duì)

簡單來說，這就是一本AI算力經(jīng)濟(jì)學(xué)：在預(yù)算有限的情況下，把算力花在讓一個(gè)大腦深思熟慮上，往往比讓一群大腦開會吵架更劃算——除非，你真的有一個(gè)好經(jīng)理和容易拆分的任務(wù)

--end--

最后記得??我，每天都在更新：歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評論，別忘了關(guān)注我

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

預(yù)測下一個(gè)像素還需要幾年？谷歌：五年夠了

機(jī)器之心Pro 2025-11-26 15:48:35
0 跟貼 0
AI智能體不是越多越強(qiáng)：信息冗余構(gòu)成了LLM Agent Scaling的瓶頸

機(jī)器之心Pro 2026-02-27 14:45:03
1 跟貼 1

2026年，大模型訓(xùn)練的下半場屬于「強(qiáng)化學(xué)習(xí)云」

機(jī)器之心Pro 2026-01-12 14:03:47
0 跟貼 0

鷹和龍：iRobot，被驚醒的美國夢

鈦媒體APP 2025-12-19 08:46:13
0 跟貼 0
【數(shù)智周報(bào)】OpenAI宣布獲得1100億美元新投資；Anthropic指控三家中國模型“非法蒸餾” 馬斯克：賊喊捉賊；國產(chǎn)芯片公司集體漲價(jià)

鈦媒體APP 2026-03-01 11:00:06
3 跟貼 3

“AI編程明星”Cursor CEO：AI軟件開發(fā)的“第三時(shí)代”已經(jīng)到來

華爾街見聞官方 2026-03-01 15:59:52
2 跟貼 2

具身數(shù)據(jù)戰(zhàn)開打！普通人都能上手，邊采邊篩，只喂機(jī)器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0
如何迎接AI重塑？美的與伊利各有心得

虎嗅APP 2026-03-01 05:55:04
1 跟貼 1

MiniMax來承包你的桌面了-4

機(jī)器之心Pro 2026-01-20 20:19:42
0 跟貼 0
老外用不起GPT，全跑來“薅”中國大模型的羊毛了

鈦媒體APP 2026-03-01 08:43:07
3 跟貼 3
Seedance2.0從“地表最強(qiáng)”變“排隊(duì)最長”，記者實(shí)測：基礎(chǔ)會員要排10小時(shí)

每日經(jīng)濟(jì)新聞 2026-03-01 18:05:05
0 跟貼 0
榮耀機(jī)器人手機(jī)亮相

每日經(jīng)濟(jì)新聞 2026-03-01 21:48:05
0 跟貼 0
首屆中關(guān)村（海淀）國際機(jī)器人產(chǎn)業(yè)園科技廟會啟幕

中國日報(bào)網(wǎng) 2026-03-01 20:54:03
2 跟貼 2
10萬億年后的宇宙：地球早已消失不見，所有的恒星都會熄滅

觀察宇宙 2026-02-26 22:20:00
29 跟貼 29
四維空間是真實(shí)存在還是憑空想象的？進(jìn)入四維空間會發(fā)生什么？

宇宙時(shí)空 2026-03-01 18:50:03
11 跟貼 11
已知宇宙最大的行星，比地球大45萬倍！

小似睡不醒 2026-02-26 03:14:31
0 跟貼 0
MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規(guī)則

DeepTech深科技 2026-02-25 17:32:10
0 跟貼 0
硅谷最貴華人放棄 14 億天價(jià) offer，上交校友龐若鳴提桶投奔 OpenAI

愛范兒 2026-02-26 13:35:07
2 跟貼 2
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓(xùn)練極致性能

機(jī)器之心Pro 2026-01-13 14:54:45
0 跟貼 0
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
66 跟貼 66
女生觀看火箭發(fā)射，手機(jī)對著模型拍了半天后，發(fā)現(xiàn)火箭在旁邊

搞笑龍卷風(fēng) 2026-02-28 09:43:55
2 跟貼 2
深度解析谷歌版「豆包手機(jī)」：Android 的統(tǒng)治者下了一盤什么棋？｜AI 器物志

愛范兒 2026-02-27 10:28:30
2 跟貼 2
宇宙的最低溫只有-273.15度，最高溫卻高達(dá)1.4億億億億度？

萬物研究 2026-03-01 00:12:12
4 跟貼 4
機(jī)器人進(jìn)汽車廠，給波士頓動力，裝上谷歌最強(qiáng)大腦

機(jī)器之心Pro 2026-01-06 19:02:05
3 跟貼 3
人眼能看到的最遠(yuǎn)天體，是254萬光年外的仙女座星系

觀察宇宙 2026-03-01 20:48:28
0 跟貼 0
谷歌Nano Banana 2發(fā)布，支持4K，成本減半

甲子光年 2026-02-28 12:01:16
0 跟貼 0
“翻版”豆包AI手機(jī)，谷歌和三星還是太保守了

鈦媒體APP 2026-02-28 21:14:14
0 跟貼 0
李想：指望AI和Agent抹平專業(yè)價(jià)值差距的觀點(diǎn)純屬做夢

網(wǎng)易汽車 2026-02-27 16:06:08
147 跟貼 147
“手機(jī)將全面漲價(jià)”沖上熱搜

南方都市報(bào) 2026-02-27 14:31:12
20636 跟貼 20636
1500年前的神秘石球，人們懷疑內(nèi)藏有黃金，敲開后令人意外！

科普百家 2026-02-25 19:42:48
0 跟貼 0
下一代谷歌頭顯，XREAL x Google 定義混合現(xiàn)實(shí)頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
DeepMind負(fù)責(zé)人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯(cuò)！

新智元 2025-12-16 16:55:25
0 跟貼 0
滬游觀察｜谷歌AI項(xiàng)目將顛覆游戲業(yè)？

澎湃新聞 2026-02-28 15:58:28
0 跟貼 0
宇宙是如何誕生的？物理學(xué)家霍金給出結(jié)果，不給神留一點(diǎn)位置！

老友地理 2026-03-01 17:51:08
4 跟貼 4
谷歌突發(fā)Nano Banana 2，性能屠榜速度飛升

極果酷玩 2026-02-27 17:27:47
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
科技領(lǐng)先人類一萬年，宇宙中的三級文明，究竟有多可怕？

老友地理 2026-02-27 16:46:57
1 跟貼 1
理想汽車CEO李想稱AI不能抹平專業(yè)價(jià)值差距：平庸的人藏不住了

識礁Farsight 2026-02-27 14:06:11
2 跟貼 2
新加坡大滿貫冷門不斷，孫穎莎強(qiáng)勢晉級，陳熠新戰(zhàn)術(shù)擊潰橋本

極度說球 2026-02-27 22:17:10
4 跟貼 4
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

谷歌MIT聯(lián)手：首個(gè)智能體Scaling Law出爐，盲目堆Agent性能暴跌70%

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起 真的被嚇到

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起 真的被嚇到

火箭輸給熱火：烏度卡又輸斯波教練

黃景瑜 李雪健坐鎮(zhèn)！38集犯罪大劇來襲

中東局勢升級 如何影響A股、黃金和原油

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

中考數(shù)學(xué)復(fù)習(xí)，中考數(shù)學(xué)重難點(diǎn)二次函數(shù)，經(jīng)典壓軸題，難度大

2025年第二屆少兒美術(shù)教師作品展 | 油畫選刊

寧愿挨一刀也不愿順產(chǎn)？宋玉希四胎道出想剖腹產(chǎn)的原因，太不值當(dāng)

Uperfect M140G12筆記本三屏擴(kuò)展套件，辦公好幫手！

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起真的被嚇到

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起真的被嚇到

黃景瑜李雪健坐鎮(zhèn)！38集犯罪大劇來襲

中東局勢升級如何影響A股、黃金和原油

理想汽車2月交付26421輛歷史累計(jì)交付超159萬輛