![]()
↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新
AI圈里一直流傳著一句信條:“More agents is all you need”(智能體越多越好)。
大家的直覺很簡單:一個(gè)諸葛亮不夠,那就找三個(gè)臭皮匠來湊。甚至有人覺得,只要我把一堆AI拉進(jìn)一個(gè)群里,讓它們互相討論、投票,無論什么任務(wù)都能做得更好
但現(xiàn)在,Google Research、DeepMind聯(lián)合MIT的一項(xiàng)重磅研究,給這個(gè)想法潑了一盆冷水
paper:
https://arxiv.org/pdf/2512.08296
![]()
他們做了一場史上最嚴(yán)苛的壓力測試,結(jié)果發(fā)現(xiàn)了一個(gè)反直覺的真相:
盲目組建AI團(tuán)隊(duì),不僅不能提升能力,甚至可能把原本聰明的模型搞成“人工智障”,性能暴跌70%。
為此,研究團(tuán)隊(duì)總結(jié)出了一套 “智能體Scaling Law”,這是第一套能幫你算清楚“到底該單干還是群毆”的數(shù)學(xué)公式
為了搞清楚AI協(xié)作的真相,研究人員沒有只測一種模型,而是把市面上最強(qiáng)的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂臺
他們設(shè)計(jì)了180種不同的配置,不僅有單打獨(dú)斗的(單智能體),還有四種不同的“組隊(duì)模式”:
1.各自為戰(zhàn): 大家各干各的,最后湊一起。
2.中心化指揮: 有個(gè)“經(jīng)理”負(fù)責(zé)分派任務(wù)和檢查。
3.去中心化討論:大家圍成一圈開會,互相辯論。
4.混合模式:既有經(jīng)理,底下人也能私聊
為了公平,不管是單人還是團(tuán)隊(duì),手里能花的錢(Token預(yù)算)和能用的工具都是一樣的
測試結(jié)果出來后,呈現(xiàn)出了極端的兩極分化,就像兩個(gè)平行宇宙。
宇宙一:人多力量大
在 金融分析(Finance-Agent)這類任務(wù)里,多智能體簡直殺瘋了
因?yàn)榻鹑谌蝿?wù)可以拆得非常細(xì),比如A查財(cái)報(bào),B看K線,C做風(fēng)控,最后匯總。在這種場景下,找個(gè)“經(jīng)理”來指揮(中心化架構(gòu)),性能直接比單干提升了80.9%
宇宙二:人多即地獄
但在“規(guī)劃任務(wù)”(PlanCraft,比如在Minecraft里合成物品)里,情況完全失控
這類任務(wù)講究邏輯的連貫性:你得先砍樹,才能做木板,再做工作臺。步驟環(huán)環(huán)相扣
結(jié)果研究發(fā)現(xiàn),只要引入?yún)f(xié)作,所有多智能體架構(gòu)全部崩盤
因?yàn)榇蠹移咦彀松嗟赜懻摯驍嗔送评淼倪B貫性,把寶貴的計(jì)算資源都浪費(fèi)在了溝通上。比起單干,性能最高暴跌了70%
還有個(gè)中間派:
模擬真實(shí)職場打工(Workbench)的任務(wù),結(jié)果顯示,這就屬于費(fèi)力不討好。折騰半天組建團(tuán)隊(duì),最好的結(jié)果也就提升了5.7%,甚至有的架構(gòu)還倒退了
為什么會出現(xiàn)這種差異?研究團(tuán)隊(duì)通過那套Scaling Law公式,像法醫(yī)一樣解剖了背后的原因,找到了三條鐵律:
鐵律1:工具越重,開會越廢(工具-協(xié)作權(quán)衡)
想象一下,如果一個(gè)工匠要用16種不同的錘子和鋸子干活
單干時(shí),他拿起工具就干。但如果是個(gè)團(tuán)隊(duì),每換個(gè)工具都要跟隊(duì)友確認(rèn)、同步信息
數(shù)據(jù)顯示,任務(wù)需要的工具越多,協(xié)作帶來的內(nèi)耗就越嚴(yán)重。在這種“重工具”場景下,把資源花在溝通上簡直是浪費(fèi),不如留給單人去思考
鐵律2:高手不需要隊(duì)友(能力飽和)
研究劃定了一條殘酷的“紅線”:45%。
如果一個(gè)單智能體自己做這道題的準(zhǔn)確率已經(jīng)超過了45%,那么給它加隊(duì)友往往是負(fù)收益
就像學(xué)霸做題,自己做能得90分。非要給他配幾個(gè)60分的隊(duì)友在旁邊指指點(diǎn)點(diǎn),最后成績反而會被拉低。
鐵律3:沒經(jīng)理的團(tuán)隊(duì)是災(zāi)難(錯(cuò)誤放大)
這是最嚇人的數(shù)據(jù)
如果你讓一群AI各自跑結(jié)果(獨(dú)立架構(gòu)),卻沒人負(fù)責(zé)檢查,錯(cuò)誤率會被放大17.2倍!
因?yàn)橐粋€(gè)AI犯了錯(cuò),沒糾正,另一個(gè)AI接著錯(cuò),最后錯(cuò)上加錯(cuò)
只有引入“中心化”的經(jīng)理角色,強(qiáng)制進(jìn)行檢查驗(yàn)證,才能把錯(cuò)誤控制住(只放大4.4倍)
結(jié)論:算好這筆賬
這項(xiàng)研究最大的貢獻(xiàn),就是告訴大家:別迷信人海戰(zhàn)術(shù)了
Google和MIT把這些發(fā)現(xiàn)濃縮成了一個(gè)預(yù)測模型。現(xiàn)在,只要你輸入三個(gè)數(shù)據(jù):
1. 模型本身聰不聰明?
2. 任務(wù)要用多少工具?
3. 這任務(wù)能不能拆解?
這個(gè)公式就能以87%的準(zhǔn)確率告訴你:該單干,還是該組隊(duì)
簡單來說,這就是一本AI算力經(jīng)濟(jì)學(xué):在預(yù)算有限的情況下,把算力花在讓一個(gè)大腦深思熟慮上,往往比讓一群大腦開會吵架更劃算——除非,你真的有一個(gè)好經(jīng)理和容易拆分的任務(wù)
--end--
最后記得??我,每天都在更新:歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評論,別忘了關(guān)注我
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.