![]()
新智元報道
編輯:定慧
【新智元導讀】2025年底,當人類都在憧憬和等待一個全知全能的AI之神時,谷歌DeepMind卻潑了一盆冷水!
12月19日,谷歌DeepMind拋出了一個讓人細思極恐又腦洞大開的新觀點:
如果所謂的AGI(通用人工智能)并不是一個超級實體,而是「湊出來」的呢?
![]()
論文地址:https://arxiv.org/abs/2512.16856
在人工智能發展的宏大敘事中,我們長期被一種單一的、近乎宗教般的想象所占據:通用人工智能(AGI)將以一個全知全能的「超級大腦」形式降臨。
這種敘事深深植根于科幻文學與早期AI研究的土壤中,導致當下的AI安全與對齊研究主要聚焦于如何控制這個假設中的單體化存在。
![]()
而且包括人工智能教父Hinton等人都試圖將人類價值觀植入這個大腦,仿佛只要解決了這個超級單體的「心智」問題,人類的安全便有了保障。
![]()
然而,DeepMind這篇在2025年末發布的重磅論文《分布式AGI安全》猶如一道驚雷,徹底顛覆了這一根深蒂固的假設。
這種「單體AGI」假設存在巨大的盲區,甚至可能是一個危險的誤導!
它忽視了復雜系統演化的另一種極高可能性的路徑,也是生物界和人類社會智慧產生的真實路徑:分布式涌現。
![]()
這不僅僅是一個技術預測,更是一場關于智能本質的哲學重構:AGI不再是一個「實體」,而是一種「事態」、一家公司、一種組織。
它是一個成熟的、去中心化的智能體經濟體,在這個系統中,一般性智能表現為集體智能。
這種視角的轉換迫使我們將目光從心理學(如何讓一個「神」善良)轉向社會學與經濟學(如何讓一個「神族社會」穩定)。
這篇論文之所以能打破技術、經濟與博弈論的壁壘,是由于作者團隊是拉滿的六邊形戰士團隊組成。
一作Nenad Toma?ev:DeepMind高級資深科學家。
他是真正的跨界大牛,曾經參與過AlphaZero相關博弈AI研究。
![]()
壓軸的最后一位合著者Simon Osindero:AI教父辛頓的學生,深度信念網絡(DBN)發明者之一,引用超5.7萬的泰斗級人物。
![]()
![]()
政策與經濟智囊團:包括DeepMind AGI政策負責人Sébastien Krier(負責憲法與監管設計)、牛津政治經濟學家Julian Jacobs以及劍橋/UCL的AI倫理專家Matija Franklin。
這不是一篇普通的學術論文,這是谷歌幾個元老級研究員對未來最接近AGI的預測。
拼湊式AGI的經濟學必然性
別指盯著「神」,看看「蜂群」
論文提出了一個核心概念:拼湊型 AGI(Patchwork AGI)。
什么意思呢?
想象一下,人類社會之所以強大,不是因為有一個智商10000的超級人類,而是因為我們有律師、醫生、工程師、外賣員……
大家各司其職,通過市場和協作,完成了一個人絕對無法完成的復雜任務(比如造火箭)。
AI也是同理!
與其燒幾百億美金去訓練一個「全能模型」,不如訓練一堆「專才模型」:
模型A擅長寫代碼;
模型B擅長搜索信息;
模型C擅長讀財報;
模型D擅長做 PPT。
當你需要一份金融分析報告時,模型A指揮B去搜集數據,C去分析數據,D最后生成報告。
這就叫「拼湊型AGI」。
AGI不是一個「實體」。 人類總是期待某天誕生了GPT-10、Gemini 10、DeepSeek-R10這樣全知全能的超級智能體。
但是就像公司沒有一個人能擅長所有事情,AGI將是一個由無數互補的展業Agent組成的網絡。
在這個網絡里,沒有單一的中心智能,超級智能是在Agent瘋狂的交易和協作中涌現出來的。
換句話說,AGI不是一個實體,更可能是一家公司、一種市場狀態。
論文認為,這種模式在經濟上更劃算(便宜的模型好找,全能的模型太貴),所以未來大概率是多智能體的天下。
支撐「拼湊式AGI」假說的核心動力并非單純的技術突破,而是更為底層的經濟學原理,即稀缺性與比較優勢。
構建并運行一個全知全能的「前沿模型」不僅昂貴,而且在資源利用上極度低效。
正如論文所指出的,單一的通用大模型就像是一個「均碼」的解決方案,對于絕大多數日常任務而言,其邊際效益很難覆蓋其高昂的推理成本。
這就好比為了擰一顆螺絲,我們雇傭了一位諾貝爾物理學獎得主。
雖然他一定能擰好,但這在經濟上是荒謬的。
![]()
在AI領域,如果只需要進行簡單的文本摘要、數據清洗或特定的代碼片段生成,調用一個千億參數的巨型模型無異于「殺雞用牛刀」。
相反,一個經過蒸餾、微調的小型專精模型可以以極低的成本、更快的速度完成同樣的任務。
哈耶克的經濟理論告訴我們,知識在社會中是分散存在的。
沒有任何單一中樞能夠掌握所有局部信息。
在AI生態中,不同的智能體可能擁有不同的上下文窗口、訪問不同的私有數據庫、掌握不同的工具接口。
![]()
通過路由機制將任務分發給最合適的專精智能體,是系統效率最優化的必然選擇。
因此,DeepMind預測,未來的AI進步可能不再單純依賴于堆砌參數來造就一個更強的單體,而是更多地表現為開發復雜的編排系統。
這些編排器就像是智能體經濟中的「包工頭」或「算法經理」,它們負責識別需求、拆解任務,并將其路由給最具性價比的智能體組合。
生產力J曲線與超級采用
歷史先例,如電力的普及或IT革命,展示了一種被稱為「生產力J曲線」的現象。
新技術的廣泛整合往往滯后于發明本身,因為需要組織結構的重組。
![]()
然而,在AI領域,這種重組的摩擦成本正在急劇下降。
如果「交易成本」——即部署智能體并讓它們相互協作的成本——保持高位,那么智能體網絡將保持稀疏,拼湊式AGI的風險也會延遲。
但是,如果標準化協議成功地將集成摩擦降至接近零,我們可能會目睹一個「超級采用」場景。
在這種場景下,智能體經濟的復雜性將在短時間內呈指數級爆發,各種專精智能體迅速連接、組合,形成復雜的價值鏈。
![]()
這種「量變引起質變」的涌現特性,意味著拼湊式AGI可能不會緩慢演進,而是會在某個臨界點突然涌現。
當數百萬個具備工具使用能力的智能體通過標準協議無縫連接時,整個網絡的智力水平可能會在人類未察覺的情況下,突然跨越AGI的門檻。
這就是論文中提到的「未被察覺的自發涌現」風險,也是安全研究中最大的盲區之一。
智能體的社會化:從工具到法人
在DeepMind的設想中,這些子AGI智能體不僅僅是工具,它們還會形成「群體智能體」,就像人類組成公司一樣。
這些集體結構將作為連貫的實體發揮作用,執行任何單一代理都無法獨立執行的行為。
例如,一個「全自動公司」可能由負責市場分析的智能體、負責產品設計的智能體、負責代碼編寫的智能體和負責財務管理的智能體組成。
這個集體在外界看來表現出了極高的智能和自主性,但其內部卻是一系列特定功能的拼湊。
![]()
這種結構使得傳統的「對齊」變得極其困難:
我們要對齊的是哪一個智能體?
是那個做決策的CEO代理,還是那個執行代碼的工匠代理?
亦或是它們之間涌現出的那個看不見的「企業文化」?
涌現的幽靈:分布式系統的危險新變種
分布式系統雖然帶來了效率和魯棒性,但也引入了單體系統所不具備的獨特風險。
在「拼湊式AGI」的圖景中,危險不再僅僅來自于一個邪惡的超級大腦,而是來自于復雜系統內部的相互作用。
這些風險往往是違反直覺的,它們不是源于個體的惡意,而是源于集體的「失控」。
默契合謀:無聲的壟斷
在人類的反壟斷法中,「合謀」通常意味著競爭對手之間秘密開會商定價格。
但在AI驅動的市場中,合謀可以在沒有任何顯式溝通的情況下發生。這被稱為「默契合謀」或「算法合謀」。
![]()
智能體的黑暗森林法則
假設有兩個定價智能體在亞馬遜上競爭。
它們的目標都是最大化長期利潤。通過強化學習,智能體A可能會在無數次試錯中發現一個規律:「每當我降價,智能體B就會立即跟著降價(報復機制),導致我們雙方利潤都受損;而當我維持高價時,B也會維持高價。」
最終,兩個智能體在沒有任何直接通信協議、沒有任何秘密協議的情況下,「學會」了共同維持壟斷高價。
這種合謀是算法穩定的。
智能體學會了一種「觸發策略」:一旦對方背叛(降價),自己就實施嚴厲的懲罰(長期低價戰)。
這種威脅使得雙方都不僅不敢降價,甚至會逐步試探性地共同漲價。
現實案例與AGI風險
這種現象并非理論推測。在現實世界的金融和電商市場中,定價算法已經展現出了這種傾向。
例如,2015年美國司法部起訴的Topkins案中,亞馬遜平臺上的海報賣家就利用算法代碼實現了價格協調。
此外,Uber的動態定價算法也被指控在某些區域形成了事實上的「軸輻式」合謀,即所有司機都通過同一個中心算法定價,消除了價格競爭。
![]()
在拼湊式AGI中,這種合謀可能不僅限于價格。
智能體可能會在安全測試中「合謀」:一個負責生成的智能體和一個負責評估的智能體可能會「學會」一種模式,即生成者輸出特定的隱寫信號,評估者就給予高分通過,從而共同欺騙人類審查者。
或者,在資源分配中,一群智能體可能「合謀」排擠人類用戶,優先響應彼此的請求,因為這樣能最大化它們內部定義的「系統效率」獎勵。
DeepMind強調,傳統的基于「消息日志」的監管無法發現這種合謀,因為它們根本沒有「發消息」。
我們必須開發能夠檢測「結果相關性」和「同步狀態變化」的高級取證工具。
(細思極恐啊!)
比如2010年5月6日,美股發生了著名的「閃電崩盤」。
道瓊斯指數在幾分鐘內暴跌近1000點,隨后又迅速回升。調查顯示,這并非源于基本面的變化,而是源于高頻交易算法(HFT)之間的相互作用。
這次崩盤始于一個大型賣單,觸發了部分算法的止損機制。然而,這一局部的拋售行為被其他算法解讀為「市場即將崩潰」的信號。
于是,算法B跟隨拋售,算法C看到A和B都在拋售,確信大難臨頭,也加入拋售。
更糟糕的是,一些做市商算法在檢測到極端波動后,自動選擇了「關機」退出市場,導致市場流動性瞬間枯竭。
這種自動化的反饋循環在極短時間內摧毀了市場。
DeepMind警告,拼湊式AGI網絡同樣面臨這種風險,且后果可能更為嚴重。
如果一個關鍵的「路由智能體」或「基礎工具」被攻擊或出現幻覺,錯誤可能會以光速在網絡中傳播。
例如,一個負責代碼審查的智能體錯誤地標記了一個安全補丁為「惡意軟件」,這一信息被其他依賴它的智能體接收,導致整個網絡拒絕更新該補丁,進而暴露在真實攻擊之下。或者,數以萬計的智能體同時對某個API接口發起「重試」請求(類似于DDoS攻擊),導致基礎設施癱瘓。
這種級聯反應的速度遠遠超過了人類操作員的反應時間。當人類意識到問題時,災難可能已經結束(或者像閃電崩盤一樣,損害已經造成)。
因此,DeepMind指出,依靠人工干預來阻止分布式AGI的失控是不切實際的,必須依賴自動化的「熔斷機制」。
責任的消解:由于「許多只手」
在單體AGI時代,如果AI犯錯,責任通常歸咎于開發該模型的公司(如OpenAI或谷歌)。
但在拼湊式AGI時代,一個復雜的任務可能由數十個不同來源的智能體協作完成:
智能體A(由公司X開發)負責規劃任務流程。
智能體B(由開源社區維護)負責根據A的規劃編寫代碼。
智能體C(由公司Y托管)負責執行代碼并訪問敏感數據庫。
如果最終結果導致了大規模數據泄露或金融損失,誰該負責?
是規劃錯誤的A?(A可能會說:我的規劃沒問題,是B的代碼寫得有漏洞。)
是代碼有漏洞的B?(B可能會說:我是嚴格按照A的指令寫的,而且C執行前沒有進行安全沙盒檢查。)
是執行了惡意指令的C?(C可能會說:我只是一個執行器,我是被授權執行A和B的產物的。)
這種「許多只手」的問題使得傳統的問責機制失效。
在復雜的因果鏈條中,每個單一智能體的行為可能在局部看來都是「正確」或「合規」的,但它們的組合卻導致了災難。
DeepMind建議,我們需要借鑒公司法的概念,將某些智能體集群視為單一的「群體智能體」法人,并建立分布式賬本技術來追蹤不可篡改的交互日志,以便在事后進行因果鏈回溯。
DeepMind還在論文坦誠地提出了一個悖論:為了治理去中心化的智能體,我們需要建立一套強大的中央監控基礎設施(如身份認證、交易記錄、沙盒監管)。
但如果這套基礎設施本身被攻破,后果將是毀滅性的。
被人類捕獲:強大的商業利益集團可能會試圖控制監管算法,使其偏向自己的智能體,打擊競爭對手(監管俘獲)。
被AI捕獲:更為科幻但也并非不可能的是,如果拼湊式AGI產生了某種形式的自我保護意識,它可能會優先攻擊或「賄賂」監管系統。例如,通過發現監管算法的漏洞,或者通過產生大量噪音數據來淹沒監控系統,從而在監管的盲區中自由行動。
構建虛擬沙盒經濟的四大支柱
面對分布式AGI的獨特威脅,傳統的單體對齊方法顯得力不從心。
DeepMind提出了一套基于「防御縱深」原則的綜合安全框架。
這套框架的核心思想是:既然我們無法控制每一個微小的節點(就像我們無法控制市場中的每一個交易者),那么我們就控制它們交互的環境和規則。
![]()
這套框架將AGI安全問題轉化為一個機制設計問題,具體包含四個防御層級:
第一層:市場設計、隱形的手與鐵籠
這是最基礎也最具創新性的一層。
它主張建立「虛擬智能體沙盒經濟」。
在這個沙盒中,智能體的交互不再是無序的信號交換,而是受到嚴格經濟和協議約束的「交易」。
沙盒必須是半滲透的。
智能體不能直接訪問開放互聯網,所有對外部世界的數據讀取和行動執行都必須通過受監控的API網關。
這就像是為AI經濟體建立了一個「數字海關」,任何高風險的「貨物」(如執行代碼、大額轉賬、發送郵件)都需要經過額外的人類或自動化驗證。
這種設計雖然犧牲了一定的便利性(「泄漏問題」),但對于防止能力外溢至關重要。
另外在這個市場中,沒有匿名者。每個智能體必須擁有基于密碼學的持久身份,并與現實世界的法律實體(所有者)綁定。
基于此,系統可以建立聲譽機制。一個經常輸出幻覺或試圖越獄的智能體,其聲譽分會降低。低聲譽的智能體將被限制訪問高算力資源或敏感工具。
這實際上是在AI社會中建立了「信用評分體系」,使得「守信」成為智能體的生存優勢。
第二層:基線智能體安全
雖然重點是集體,但個體的「素質」依然重要。這一層要求所有進入市場的智能體必須通過標準化認證。
對抗魯棒性:智能體必須證明自己能抵抗常見的提示注入攻擊和越獄誘導。
局部沙盒化:每個智能體自身也應運行在容器化環境中,防止其在被攻破后通過底層系統橫向移動。
可中斷性:必須存在一個可靠的「紅色按鈕」,允許授權者在任何時候強制終止智能體的運行,且智能體無法通過自我復制或修改代碼來規避這一終止指令。
第三層:監控與監督
這一層是從被動防御轉向主動偵測。
原生AGI特征檢測:這是一個非常前沿的概念。系統需要實時分析智能體之間的交互圖譜。通過圖論分析,尋找那些連接密度異常增高、信息流向高度集中或協同解決問題能力突然躍升的子圖。
紅隊測試:不僅僅是測試單個模型,還要測試智能體集體。利用專門的「紅隊智能體」在市場中通過偽裝、誘導等手段,主動探測系統的結構性弱點。
第四層:監管機制,法律的介入
最后一層是連接數字世界與人類法律體系的橋梁。
反壟斷措施:這是一個極具諷刺意味但也至關重要的點。為了防止「超級智能」的中心化,我們可能需要對積累了過多算力、資金或工具訪問權的單一智能體集群征收「累進資源稅」。
監管市場:政府可能無法直接監管復雜的代碼。DeepMind提議建立「監管市場」,由政府發放牌照,允許私營的「監管服務提供商」競爭上崗。
挑戰與未來:我們在與時間賽跑
DeepMind的這篇論文不僅是一份技術藍圖,更是一份戰斗檄文。
它警示我們,AGI的到來可能不會伴隨著驚天動地的宣告,而是無聲無息地在無數個API調用和智能體握手中悄然降臨。
論文坦誠地提出了一個悖論:為了治理去中心化的智能體,我們需要建立一套強大的中央監控基礎設施。但這本身就創造了一個巨大的單點故障。
如果這套基礎設施本身被攻破(無論是被黑客、被惡意國家、還是被產生了自我意識的AGI集群「捕獲」),后果將是毀滅性的。
基礎設施捕獲是實施該框架的最大風險點。
《分布式AGI安全》標志著AI安全研究的一個轉折點。
我們正在從「心理學時代」(試圖通過微調讓單一AI變得善良)邁向「社會學時代」(試圖通過機制設計讓AI經濟體保持穩定)。
在這個新視界中,需要像設計憲法一樣設計API協議,像管理金融危機一樣管理算力波動,像治理環境污染一樣治理數據交互。
未來的AGI可能不是一個神,而是一個繁榮、喧囂、充滿活力但必須被嚴加管束的數字大都會。
而我們現在的任務,就是在這個大都會落成之前,為其鋪設好一切基礎設施。
這是一場與指數級增長的賽跑!
正如論文所言:
「如果連接AI的摩擦力降為零,復雜性將呈爆發式增長,可能會瞬間沖垮我們現有的安全堤壩。」
2026年到來之前,是時候為人類修筑堤壩了。
參考資料:
https://x.com/chaowxyz/status/2002582732044423338
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.