<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      谷歌發(fā)布智能體Scaling Law:180組實驗打破傳統(tǒng)煉金術(shù)

      0
      分享至




      機器之心報道

      編輯:Panda

      智能體(Agent),即基于語言模型且具備推理、規(guī)劃和行動能力的系統(tǒng),正在成為現(xiàn)實世界 AI 應用的主導范式。

      盡管其已被廣泛采用,但決定其性能的原則仍未被充分探索,導致從業(yè)者只能依賴啟發(fā)式經(jīng)驗,而非有原理依托的設計選擇。

      現(xiàn)在,谷歌的一篇新論文填補了這一空白!

      他們通過大量實驗找到了智能體的 Scaling Law,只不過他們將其稱為quantitative scaling principles,即定量擴展原則。



      • 論文標題:Towards a Science of Scaling Agent Systems
      • 論文地址:https://arxiv.org/abs/2512.08296

      具體來說,他們將這種擴展定義為智能體數(shù)量、協(xié)作結(jié)構(gòu)、模型能力和任務屬性之間的相互作用。

      他們在四個不同的基準測試中對此進行了評估:Finance-Agent(金融推理)、BrowseComp-Plus(網(wǎng)絡導航)、PlanCraft(游戲規(guī)劃)和 Workbench(工作流執(zhí)行)。



      利用五種典型的智能體架構(gòu)(單智能體系統(tǒng)以及四種多智能體系統(tǒng):獨立型、中心化、去中心化、混合型),并在三個 LLM 家族(OpenAI, Google, Anthropic)中進行實例化,谷歌這個團隊對 180 種配置進行了受控評估,標準化了工具、提示結(jié)構(gòu)和 token 預算,以將架構(gòu)效應從實施混雜因素中隔離出來。



      他們使用經(jīng)驗性的協(xié)作指標(包括效率、開銷、錯誤放大和冗余)推導出了一個預測模型,該模型實現(xiàn)了交叉驗證 R2=0.513,通過對任務屬性建模而非過度擬合特定數(shù)據(jù)集,實現(xiàn)了對未見任務領域的預測。

      是的,智能體的 Scaling Law 找到了!并且準確度還相當高,谷歌表示:「我們的框架在預測保留任務的最佳架構(gòu)方面實現(xiàn)了 87% 的準確率。」這樣一來,智能體的部署決策將第一次獲得強有力的原則支撐。



      實驗與結(jié)果:打破「人多力量大」的迷思

      為了找到這套定量原則,谷歌團隊沒有僅僅停留在理論推導,而是進行了一場堪稱暴力窮舉的實證研究。

      他們動用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、網(wǎng)購、游戲規(guī)劃等不同場景下進行了 180 組受控實驗。

      實驗結(jié)果不僅令人意外,甚至顛覆了許多開發(fā)者的直覺。簡單來說,他們發(fā)現(xiàn)了一些規(guī)律。

      任務決定成敗:有的場景是神助攻,有的是豬隊友

      過去人們常說「三個臭皮匠,頂個諸葛亮」,但這篇論文告訴我們:這完全取決于你們在干什么任務。



      紅榜(適合組團): 在金融分析(Finance-Agent)這類任務中,多智能體協(xié)作是大殺器。中心化架構(gòu)(有一個「指揮官」分派任務)能讓性能暴漲 80.9%。為什么?因為這類任務可以拆分 —— 你查財報,我算匯率,他做總結(jié),大家并行工作,效率極高。

      黑榜(切忌組團): 在游戲規(guī)劃(PlanCraft)這類任務中,所有多智能體架構(gòu)都翻車了,性能慘跌 39% 到 70%。原因在于這類任務環(huán)環(huán)相扣(必須先砍樹,才能做木板),強行把流程拆給不同的人,光是溝通成本就把推理能力消耗殆盡了。

      三大隱形殺手:什么在阻礙智能體變強?

      通過對數(shù)據(jù)的深度挖掘,谷歌團隊量化了阻礙智能體擴展的三大核心因素:

      第一,工具越多,協(xié)作越難(工具-協(xié)作權(quán)衡)

      如果任務需要用到大量工具(比如 16 個以上的 API),再引入多智能體協(xié)作就是一場災難。實驗數(shù)據(jù)顯示,工具密集的任務會因巨大的溝通開銷而不僅沒變快,反而變慢、變笨。

      第二,能力有天花板(能力飽和效應)

      這是最反直覺的一點:如果單個智能體已經(jīng)夠聰明了,就別再給它找?guī)褪至恕?數(shù)據(jù)表明,當單智能體的基線準確率超過 45% 時,再增加智能體進行協(xié)作,收益往往是負的。所謂「幫倒忙」,在 AI 世界里是真實存在的。

      第三,沒有指揮官,錯誤會指數(shù)級放大

      如果你讓一群智能體各自為戰(zhàn)(獨立型架構(gòu)),錯誤會被放大 17.2 倍 —— 因為沒人檢查,一個人的錯會傳給所有人。但如果引入一個「指揮官」進行中心化管理,錯誤放大率能被控制在 4.4 倍。這證明了在多智能體系統(tǒng)中,架構(gòu)設計比單純堆人數(shù)更重要。

      模型性格測試:誰是最佳指揮官?

      除了任務和架構(gòu),論文還發(fā)現(xiàn)了一個有趣的現(xiàn)象:不同廠商的模型有不同的協(xié)作性格。在選擇團隊成員時,你不能只看智商(IQ),還要看它們合不合群。

      Google Gemini:擅長「層級管理」的執(zhí)行官。Gemini 模型在中心化架構(gòu)下表現(xiàn)出了驚人的適應性。在金融任務中,Gemini 的中心化協(xié)作帶來了 +164.3% 的恐怖提升。數(shù)據(jù)表明,它最聽指揮,執(zhí)行力最強,且在不同架構(gòu)下的性價比最為平衡。

      OpenAI GPT:擅長「復雜溝通」的交際花。GPT 系列在混合型架構(gòu)(Hybrid)中表現(xiàn)最佳 。雖然混合架構(gòu)的溝通成本很高,但 GPT 似乎擁有獨特的「通信協(xié)同效應」(Communication Synergy),能駕馭復雜的交互網(wǎng)絡,不僅能聽指揮,還能搞定同級之間的橫向溝通 。

      Anthropic Claude:穩(wěn)健但敏感的保守派。Claude 對協(xié)作開銷非常敏感,一旦溝通太復雜,成本就會飆升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最適合簡單直接的中心化架構(gòu),表現(xiàn)最穩(wěn)(方差最小)。更有趣的是,它是唯一一個在「弱指揮官帶強兵」(異構(gòu)混合)模式下還能提升性能的模型,展現(xiàn)出了獨特的容錯性



      結(jié)果:這就是我們要找的「預測公式」

      最終,基于上述發(fā)現(xiàn),谷歌推導出了一個預測模型。這個模型不依賴玄學,而是基于效率、開銷、錯誤放大率等硬指標。





      它的威力如何?在預測完全沒見過的任務配置時,這套理論能以 87% 的準確率告訴你:對于當前的任務和模型,到底該用單打獨斗,還是團隊協(xié)作,亦或是某種特定的組隊方式。

      這標志著智能體系統(tǒng)設計正式告別了「煉金術(shù)」時代,進入了可計算、可預測的「化學」時代。

      更多詳情請訪問原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      佩通坦訪問柬埔寨時,在洪森家中舉行晚宴后留下的照片。

      佩通坦訪問柬埔寨時,在洪森家中舉行晚宴后留下的照片。

      南權(quán)先生
      2025-12-13 16:50:24
      美日急著聯(lián)手派兵,趕在高市訪美前?聲稱不準中國改變現(xiàn)狀!

      美日急著聯(lián)手派兵,趕在高市訪美前?聲稱不準中國改變現(xiàn)狀!

      貓眼觀史
      2025-12-17 18:39:53
      歐陽娜娜海邊一張照沖上熱搜:女孩最好的狀態(tài),藏在這三個字里!

      歐陽娜娜海邊一張照沖上熱搜:女孩最好的狀態(tài),藏在這三個字里!

      動物奇奇怪怪
      2025-12-18 12:58:32
      110億美元軍售敲定!美國批準八項對臺武器交易,敏感裝備在列

      110億美元軍售敲定!美國批準八項對臺武器交易,敏感裝備在列

      老馬拉車莫少裝
      2025-12-18 16:25:03
      狄龍再懟詹姆斯:上一場就該最后讓他投三分,那球肯定三不沾

      狄龍再懟詹姆斯:上一場就該最后讓他投三分,那球肯定三不沾

      懂球帝
      2025-12-18 08:06:12
      2026央視春晚期待名單出爐,網(wǎng)友質(zhì)疑春晚混子為何又入選

      2026央視春晚期待名單出爐,網(wǎng)友質(zhì)疑春晚混子為何又入選

      荒野老五
      2025-12-17 19:35:06
      快扔掉!戴一天,輻射量相當于拍117次胸片

      快扔掉!戴一天,輻射量相當于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      猖狂!張本智和采訪,竟引用高市早苗的話,中國隊格局高下立判

      猖狂!張本智和采訪,竟引用高市早苗的話,中國隊格局高下立判

      翰飛觀事
      2025-12-18 20:12:05
      歷史開了個玩笑,第一個倒下的不是烏克蘭,而是百年中立的瑞士

      歷史開了個玩笑,第一個倒下的不是烏克蘭,而是百年中立的瑞士

      壹知眠羊
      2025-12-15 07:11:38
      初代網(wǎng)紅半藏森林:她的寫真中腳丫為何成亮點?

      初代網(wǎng)紅半藏森林:她的寫真中腳丫為何成亮點?

      星美圖
      2025-12-17 18:11:05
      大瓜!西安一健身教練被指勾引45歲有夫之婦,更多出軌細節(jié)流出…

      大瓜!西安一健身教練被指勾引45歲有夫之婦,更多出軌細節(jié)流出…

      火山詩話
      2025-12-17 10:21:05
      英國向阿布發(fā)最后通牒:把出售切爾西所得25億英鎊賠償給烏克蘭

      英國向阿布發(fā)最后通牒:把出售切爾西所得25億英鎊賠償給烏克蘭

      體育妞世界
      2025-12-18 07:49:40
      正式上任!劉國梁官宣新身份,這次他讓樊振東和整個乒壇刮目相看

      正式上任!劉國梁官宣新身份,這次他讓樊振東和整個乒壇刮目相看

      林輕吟
      2025-11-26 08:56:02
      泡泡瑪特虧麻了!股價暴跌40%,Labubu從炒到5千跌到白菜價

      泡泡瑪特虧麻了!股價暴跌40%,Labubu從炒到5千跌到白菜價

      雷科技
      2025-12-18 18:47:47
      第92分鐘絕殺!19歲天才絕境爆發(fā),英超豪強險勝,成功晉級4強

      第92分鐘絕殺!19歲天才絕境爆發(fā),英超豪強險勝,成功晉級4強

      足球狗說
      2025-12-18 06:20:41
      泰國定義柬埔寨園區(qū)為“犯罪團伙”,國人卻稱他們?yōu)椤半娫p人員”

      泰國定義柬埔寨園區(qū)為“犯罪團伙”,國人卻稱他們?yōu)椤半娫p人員”

      清書先生
      2025-12-17 17:32:36
      今年秋冬流行的“毛衣+牛仔褲”,這樣穿時髦又高級,真的美爆了

      今年秋冬流行的“毛衣+牛仔褲”,這樣穿時髦又高級,真的美爆了

      時尚穿搭生活館
      2025-12-18 20:27:25
      江蘇省文旅廳回應“南博藏品現(xiàn)身拍賣”

      江蘇省文旅廳回應“南博藏品現(xiàn)身拍賣”

      第一財經(jīng)資訊
      2025-12-18 14:32:56
      總決賽后,國乒2028奧運6人陣容初定!

      總決賽后,國乒2028奧運6人陣容初定!

      十點街球體育
      2025-12-17 12:44:48
      被指收藏仇英《江南春》圖卷的南京藏家已于5月去世,當?shù)厥詹丶覅f(xié)會回應

      被指收藏仇英《江南春》圖卷的南京藏家已于5月去世,當?shù)厥詹丶覅f(xié)會回應

      上游新聞
      2025-12-18 16:14:05
      2025-12-18 21:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11950文章數(shù) 142513關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      確認涉刑案 上海市中心西裝男子突然當街下跪:對不起

      頭條要聞

      確認涉刑案 上海市中心西裝男子突然當街下跪:對不起

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      數(shù)碼
      教育
      公開課

      藝術(shù)要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      倒反天罡!老外學中文硬闖國服 只為吃一口中國特供?

      數(shù)碼要聞

      集邦:HBM3E與DDR5價差削減促轉(zhuǎn)產(chǎn),反作用推高HBM3E定價

      教育要聞

      初升高|除了關(guān)注中考,對于綿陽學生,更重要的是……

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 天天看片视频免费观看| 五月丁香六月综合缴清无码| 亚洲综合伊人| 乐至县| 亚洲成a人片在线观看无码| 鄂尔多斯市| 文登市| 国产成人无码www免费视频播放| 安西县| 国产真人性做爰久久网站 | 汉沽区| 久久XXX| 亚州成人在线| 无码人妻中文字幕| 一区二区AV| 操日本屄| 精品国产av| 久久99精品久久久久久琪琪| 天天躁夜夜踩很很踩2022| 人妻成人在线| 无码h黄肉动漫在线观看网站| 99白浆| 亚洲激情一区二区三区视频| 国产做a爱免费视频在线观看| 门国产乱子视频观看| 国产AV一区二区三区| 久久久久无码| 中文无码热在线视频| 狠狠色综合网站久久久久久久 | 青草精品国产福利在线视频| 2020无码专区人妻系列日韩 | 中文字幕日韩精品人妻| 精品国产一区二区三区大| 99在线观看视频| 久久婷婷大香萑太香蕉AV人| 亚洲性日韩精品一区二区| 九九天堂| 欧美深度肠交惨叫| 婷婷久久综合九色综合88| 夜夜国自一区| 最新亚洲人成无码网www电影|