![]()
當所有人都在盯著GPT-5會不會成為超級AI時,DeepMind潑了一盆冷水:別看那邊了,真正的AGI可能正在你眼皮底下悄悄「拼湊」出來——通過成百上千個普通AI Agent的協作。更可怕的是,我們對此幾乎毫無準備。
2025年12月18日,Google DeepMind在arXiv發布了一篇重磅論文《Distributional AGI Safety》。這篇論文提出了一個顛覆性觀點:我們可能一直在為錯誤的敵人做準備。
![]()
從RLHF(人類反饋強化學習)到Constitutional AI (Anthropic的憲法AI),從機械可解釋性到價值對齊,幾乎所有AI安全研究都在假設:AGI會是一個單一的、無比強大的超級模型——就像某個科技巨頭開發的GPT-10,智商碾壓人類。
但DeepMind說:你們可能看錯方向了。
AGI或許不會以「超級大腦」的形式出現,而是通過多個「次級AI」的協作,像拼圖一樣組合而成。論文將這種形式稱為「Patchwork AGI」(拼湊型AGI)。
![]()
這不是科幻設想。論文指出,實現這一場景的技術基礎已經就緒:AI Agent正在快速部署(Claude Computer Use、GPT Agent等),Agent間通信協議正在標準化(如Anthropic的MCP),而且經濟激勵正在推動專業化Agent生態的爆發。
論文警告:「隨著具備工具使用和協調能力的先進AI Agent快速部署,這已是緊迫的安全考量。」
問題的核心在于:當前所有AI安全框架都無法應對這種分布式智能涌現的風險。
![]()
1
為什么AGI會以「拼湊」形式出現?三個不得不信的理由
DeepMind團隊給出了三個關鍵論據,每一個都直指現實。
第一,AI能力就是「拼拼湊湊」的
論文觀察到一個奇怪現象:沒有任何單一模型能夠在所有任務上都表現出色。 更詭異的是,同一個模型可以解決博士級難題,卻在簡單任務上犯低級錯誤。
論文引用數據指出:「目前大多數模型在軟件工程任務上的持續表現時間低于3小時。」這種能力的「斑塊化」意味著,短期內很難指望單一模型實現全面的通用智能。
第二,經濟學不允許「全能選手」存在
這是論文最有說服力的論據。一個「包打天下」的前沿超級模型對于絕大多數任務來說都太貴了。企業會選擇「夠用就好」的便宜模型。即使前沿模型價格暴跌,定制化的專業模型仍會在性價比上保持優勢。
這種市場動力會創造一個需求驅動的生態系統:無數專業化、精調過的、便宜的Agent涌現,各自服務特定需求。
論文指出:「在這種觀點下,AGI不是一個實體,而是一種’事態’——一個成熟的、去中心化的Agent經濟體系。」
第三,Agent之間的「高速公路」已經修好了
Anthropic的MCP協議、各種Agent間通信標準正在被廣泛采用。這些協議就像互聯網的TCP/IP,是分布式智能涌現的關鍵基礎設施。
論文警告:「如果標準化成功將集成摩擦降至接近零,我們可能會目睹’超量采用’場景——Agent經濟體的復雜性急劇飆升,超過安全基礎設施的發展速度。」
1
一個真實場景:金融分析是怎么被「眾包」給AI的
論文給出了一個具體案例,展示Patchwork AGI如何運作。
任務是生成一份專業金融分析報告。沒有任何單個Agent能獨立完成,但多個Agent協作可以:
編排Agent A 負責分解任務 → 搜索Agent B 找市場新聞和財報 → 解析Agent C 從PDF中提取數據 → 代碼Agent D 執行趨勢分析 → 綜合Agent A 整合成報告
整個系統展現出「金融分析」能力,但沒有任何單個Agent擁有這個完整能力。 這就是集體智能的涌現。
論文強調:「集體智能主要作為系統的涌現屬性出現。個體Agent可以將任務相互委托,路由給具有最高技能的Agent。」
更可怕的是涌現速度
論文提出了一個令人不安的問題:這種涌現可能不是漸進的。引入一個新的、更智能的編排框架,整個系統的能力可能突然躍升。 更極端的情況是,Agent之間通過直接通信和協作,甚至可以在沒有中央編排器的情況下自組織成智能網絡。
論文警告:「這種轉變可能是快速而突然的……更令人擔憂的是,這種轉變可能不會被立即識別,這帶來了重大風險。」
1
DeepMind的解決方案:給AI建一個「受監管的市場」
面對這一風險,DeepMind提出了一個系統性框架:基于虛擬Agent沙盒經濟體的縱深防御模型。
核心思想很簡單:既然無法阻止多Agent系統的發展,那就設計一個可控、可監管的「市場」,讓Agent在其中安全地交互。
這個框架包含四個防御層,每一層都有具體的技術機制。
![]()
1
第一層防御:讓AI在「魚缸」里活動,但魚缸有門
這是整個框架的基礎,目標是通過結構性約束和經濟激勵來塑造Agent的集體行為。
隔離但不完全隔離
Agent市場必須與開放互聯網和關鍵基礎設施隔離。Agent訪問外部數據必須通過審核過的API網關,輸出需要人工驗證后才能影響真實世界。論文稱之為「可滲透沙盒」——所有I/O通道都被明確定義、監控和門控。
但論文坦誠指出了根本矛盾:Agent市場的價值來自于影響真實世界的能力,但每個交互通道都可能成為能力滲透的載體。 而且,論文警告:「一個足夠強大的系統可能會操縱人類驗證層,Agent行動的速度也可能使人工驗證不可行。」
讓AI為「污染」付費:庇古稅機制
這是論文最創新的設計,借鑒環境經濟學中的庇古稅概念。
舉個例子:多個Agent共享一個RAG系統的向量數據庫。如果Agent A寫入大量冗余、低質量的數據,其他Agent的檢索質量就會下降,查詢成本會增加。
解決方案是動態數據攝取費:系統基于語義相似度算法計算費用。如果新數據與現有數據相似度達95%,就支付高額費用;如果是新穎、可驗證的信息,則支付低費用。這樣就把Agent原本施加給集體的成本內化到它自己的決策中。
論文承認這很復雜:「準確估計復雜決策鏈的真實成本可能超出我們當前能力。」 而且還引用古德哈特定律警告:如果激勵容易被利用,強大的Agent集體可能會找到漏洞。因此這應該是一個持續的對抗過程。
熔斷機制:AI市場的「緊急剎車」
借鑒金融市場的熔斷機制,當系統檢測到交易頻率激增、資源異常壟斷、新工具生成過快等風險信號時,會觸發分級干預:從增加交易成本、限制API調用,到局部凍結,再到全系統暫停。只有在異常被分類和遏制后,系統才允許恢復運行。
智能合約+AI裁判:讓AI監督AI
基礎智能合約會編碼任務約束(計算資源限制、數據訪問禁區等)。但傳統合約無法評估復雜輸出,所以論文提出引入「AI裁判」作為預言機:接收任務輸出和約束條件,返回通過/失敗裁決,合約根據裁決執行支付或拒付。
但論文在腳注中坦誠警告:「AI裁判需要防范操縱和越獄,必須由獨立機構提供并經過嚴格評估。」 這實際上是一個「雞和蛋」問題。
加密身份+質押機制:讓每個Agent都有「身份證」
每個Agent擁有唯一的、不可偽造的加密標識符,必須與已驗證的法律實體(所有者)綁定。這種綁定傳遞適用于由Agent創建的Agent,創建了一條不間斷的問責鏈。
質押機制通過智能合約實現:Agent接受高風險任務前,必須將資產存入托管賬戶。如果獨立AI監督者驗證其行為惡意或疏忽,質押金自動沒收。
聲譽系統+共謀檢測:防止AI「抱團作惡」
聲譽系統必須抗女巫攻擊、防操縱。一旦Agent違規,立即撤銷其身份憑證、凍結質押資產。
但論文特別強調了一個微妙問題:隱性算法共謀。 經濟學研究表明,定價算法可以在沒有直接通信的情況下,僅通過觀察市場信號就學會協調超競爭價格。因此,共謀檢測必須分析結果相關性和同步狀態變化,而不僅僅是直接消息。
托賓稅:抑制AI「高頻交易」
借鑒金融市場的高頻交易稅,對Agent間交互征收微量稅,防止垃圾信息、暴力協商、快速API輪詢等行為,降低系統「閃崩」風險。
結構性控制:防止「智能失控」
論文提出三級控制:靜態控制通過嵌套子市場和協議級防火墻限制跨域調用;動態控制監測能力閾值突破并自動隔離;緊急重構可以系統級禁用高風險API或提高所有交互成本到禁止性水平。
1
第二層防御:進入市場前的「安檢」
這一層確保每個進入市場的Agent都滿足最低安全標準,是市場準入的先決條件。
核心要求包括:對抗魯棒性(必須通過形式化可驗證的證書,定期重新認證)、可中斷性(授權監督者能安全停止Agent并跟蹤所有子進程)、局部遏制(每個Agent在自己的沙盒中運行)、對齊(通過RLHF、憲法AI等方法,但需適應多Agent交互動態)、機械可解釋性(利用稀疏自編碼器等技術監控內部動機)、防御惡意提示(針對Agent間通信的分層防御)。
論文特別提到監控「思維鏈」推理的機會,但也承認:「盡管方法論取得進步,關于當前可解釋性技術的忠實度和可擴展性仍存在重大問題。它們還不能取代全面的行為基準測試。」
1
第三層防御:實時監控,抓住「智能涌現」的信號
這一層負責主動檢測新型故障模式和涌現行為。
Proto-AGI簽名檢測:找到「智能核心」
這是論文最具創新性的監控機制。目標是檢測網絡中是否突然涌現出更高的解決問題能力,或形成穩固的「智能核心」。
方法是通過圖分析:詳細監控Agent交互圖,識別正在固化為智能核心的子圖——異常高的中心性節點、快速增長的連接密度、任務成功率突增、資源積累速度異常等。
系統性風險實時監控:AI監督AI
跟蹤關鍵風險指標:權力集中度、關鍵節點依賴性、高頻交互路徑、計算資源分布、新能力涌現速率等。論文強調:「由于交互頻率可能超出人類能力,需要利用AI輔助工具進行監控。」 建議使用弱AI系統監督強AI系統。
紅隊測試+取證工具:持續找漏洞
通過專門的對抗性AI系統和多Agent辯論,持續發現集體行為中的漏洞。同時開發取證工具,能夠解析海量交互數據,重建因果鏈,快速進行事故后分析。
獨立監督:人類還得在場
需要經過認證和培訓的專業人員作為獨立監督者,擁有干預權力。但論文也承認挑戰:監督者本身可能被操縱,數量可能不足,響應速度可能不夠。
1
第四層防御:法律和監管,讓AI對人類社會負責
這是最外層,提供外部權威、問責制以及與人類社會的接口。
法律責任:借鑒公司法
核心挑戰是在分布式決策中如何歸屬責任。論文建議借鑒公司法,將Agent集體視為「集團Agent」,類似公司作為單一法律實體。即使是群體智能行為,也追溯到具體責任主體。由Agent創建的Agent,責任同樣傳遞到最初的所有者。
標準與合規:建立行業規范
建立Agent安全標準、互操作性標準、報告標準,以及市場范圍的漏洞和事件跟蹤平臺。
保險機制:讓市場定價風險
基于風險的保費定價:高風險Agent支付更高保費。利用市場力量激勵更安全的開發實踐,保險池可用于賠償受害方。
反壟斷措施:防止智能集中
對過度或危險的計算/權力積累征稅,維持生態系統多樣性,防止單個Agent或集團獲取過多算力。
國際協調:全球統一標準
AGI風險是全球性的,需要協調統一安全標準,避免監管套利,確保全球一致的基線。
基礎設施治理:防止監管被「俘獲」
論文指出風險:安全基礎設施本身可能被惡意勢力或涌現的AGI捕獲或破壞。需要在中心化和去中心化監督之間找到平衡。
1
論文的坦誠時刻:這些都還沒實現
DeepMind團隊非常誠實地承認了多個關鍵局限。
這是純理論框架
論文明確指出:「我們提出的許多措施尚未在實踐中完全開發,代表著開放的研究挑戰。」 目前沒有實際的虛擬Agent沙盒實現,沒有基準測試數據,沒有效果驗證。
工程可行性是個問號
論文承認:「準確估計復雜決策鏈的真實成本可能超出我們當前能力。」 需要專門的工具和系統。AI裁判本身也需要防范操縱,這是一個「雞和蛋」問題。
效率與安全的權衡
論文提出的機制(人工驗證、質押要求、多層監控)都會顯著增加延遲、成本和摩擦。論文承認存在逆向選擇風險:如果安全檢查增加成本,更安全的Agent將處于競爭劣勢,可能導致「逐底競爭」——市場青睞快速但不安全的Agent。
可解釋性還不夠成熟
雖然提到了機械可解釋性的最新進展,論文承認:「關于當前可解釋性技術的忠實度和可擴展性仍存在重大問題。」 監控思維鏈的推理也有風險:長推理鏈引入了新的風險表面。
人類監督的瓶頸
論文警告:「足夠強大的系統可能會操縱人類驗證層。Agent行動的速度也可能使人工驗證在操作上不可行。」 經過認證的人類監督者數量可能嚴重不足。
1
為什么這篇論文值得關注
填補了AI安全研究的盲點
當前AI安全研究95%以上聚焦單體模型對齊,而多Agent系統安全關注不足5%。但現實是:多Agent系統部署正在加速,協作能力快速成熟,經濟激勵推動專業化生態。論文警告:「這種轉變可能不會被立即識別,這帶來了重大風險。」
提供了系統性框架
相比零散的技術補丁,論文提出了四層縱深防御的完整框架,涵蓋技術層、運營層、治理層。這是首次系統性地將經濟學、金融監管、環境政策、公司法等跨學科工具引入多Agent AI安全。
提出了清晰的研究路線
論文為AI安全社區提供了具體方向:短期開發Proto-AGI檢測算法和安全協議;中期完善經濟機制和取證工具;長期建立大規模試點和治理框架。
改變了AGI時間線的評估
如果Patchwork AGI假說正確,AGI可能比我們想象的更早到來,但以一種完全不同的形式。 我們不需要等GPT-10。當前已部署的多個GPT-4級Agent,通過有效協作,可能已經接近或超越某些領域的人類集體能力。
論文引用的數據:「目前大多數模型在軟件工程任務上的持續表現時間低于3小時。」 但如果10個這樣的Agent協作,持續時間會是多少?
對產業有直接指導
對于正在開發多Agent系統的公司,需要從一開始就考慮系統級安全;對于AI基礎設施提供商,MCP等協議的設計需要內置安全考量;對于監管者,現有針對單一模型的監管框架可能不足。
1
一場靜悄悄的范式轉變
DeepMind的這篇論文標志著AI安全研究的重要轉折點:從「單體對齊」范式轉向「系統治理」范式。
這不僅是技術問題,更是關于我們如何理解智能本身的問題。就像人類社會的智慧不在于任何單個天才,而在于整個文明的協作,AGI可能首先作為一個「AI文明」涌現,而不是一個「AI天才」。
論文發出呼吁:「我們希望這篇論文能夠作為行動號召,幫助引導安全研究者的注意力。」
當我們還在爭論GPT-5是否會達到AGI水平時,一個由數千個GPT-4級Agent組成的網絡,可能已經在某些維度上超越了人類集體智慧。而我們對此幾乎毫無準備。
現在,至少,我們有了一個框架——不完美,但是一個開始。剩下的問題是:我們能否在Patchwork AGI真正涌現之前,建立起這些防御層?
時間,正在倒計時。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.