網易首頁 > 網易號 > 正文申請入駐

DeepMind重磅：AGI可能正在你眼皮底下「拼湊」出來，我們卻毫無準備

2025-12-23 11:24:30　來源: 硅星人

北京舉報

分享至

當所有人都在盯著GPT-5會不會成為超級AI時，DeepMind潑了一盆冷水：別看那邊了，真正的AGI可能正在你眼皮底下悄悄「拼湊」出來——通過成百上千個普通AI Agent的協作。更可怕的是，我們對此幾乎毫無準備。

2025年12月18日，Google DeepMind在arXiv發布了一篇重磅論文《Distributional AGI Safety》。這篇論文提出了一個顛覆性觀點：我們可能一直在為錯誤的敵人做準備。

從RLHF（人類反饋強化學習）到Constitutional AI (Anthropic的憲法AI)，從機械可解釋性到價值對齊，幾乎所有AI安全研究都在假設：AGI會是一個單一的、無比強大的超級模型——就像某個科技巨頭開發的GPT-10，智商碾壓人類。

但DeepMind說：你們可能看錯方向了。

AGI或許不會以「超級大腦」的形式出現，而是通過多個「次級AI」的協作，像拼圖一樣組合而成。論文將這種形式稱為「Patchwork AGI」（拼湊型AGI）。

這不是科幻設想。論文指出，實現這一場景的技術基礎已經就緒：AI Agent正在快速部署（Claude Computer Use、GPT Agent等），Agent間通信協議正在標準化（如Anthropic的MCP），而且經濟激勵正在推動專業化Agent生態的爆發。

論文警告：「隨著具備工具使用和協調能力的先進AI Agent快速部署，這已是緊迫的安全考量。」

問題的核心在于：當前所有AI安全框架都無法應對這種分布式智能涌現的風險。

為什么AGI會以「拼湊」形式出現？三個不得不信的理由

DeepMind團隊給出了三個關鍵論據，每一個都直指現實。

第一，AI能力就是「拼拼湊湊」的

論文觀察到一個奇怪現象：沒有任何單一模型能夠在所有任務上都表現出色。 更詭異的是，同一個模型可以解決博士級難題，卻在簡單任務上犯低級錯誤。

論文引用數據指出：「目前大多數模型在軟件工程任務上的持續表現時間低于3小時。」這種能力的「斑塊化」意味著，短期內很難指望單一模型實現全面的通用智能。

第二，經濟學不允許「全能選手」存在

這是論文最有說服力的論據。一個「包打天下」的前沿超級模型對于絕大多數任務來說都太貴了。企業會選擇「夠用就好」的便宜模型。即使前沿模型價格暴跌，定制化的專業模型仍會在性價比上保持優勢。

這種市場動力會創造一個需求驅動的生態系統：無數專業化、精調過的、便宜的Agent涌現，各自服務特定需求。

論文指出：「在這種觀點下，AGI不是一個實體，而是一種’事態’——一個成熟的、去中心化的Agent經濟體系。」

第三，Agent之間的「高速公路」已經修好了

Anthropic的MCP協議、各種Agent間通信標準正在被廣泛采用。這些協議就像互聯網的TCP/IP，是分布式智能涌現的關鍵基礎設施。

論文警告：「如果標準化成功將集成摩擦降至接近零，我們可能會目睹’超量采用’場景——Agent經濟體的復雜性急劇飆升，超過安全基礎設施的發展速度。」

一個真實場景：金融分析是怎么被「眾包」給AI的

論文給出了一個具體案例，展示Patchwork AGI如何運作。

任務是生成一份專業金融分析報告。沒有任何單個Agent能獨立完成，但多個Agent協作可以：

編排Agent A 負責分解任務 → 搜索Agent B 找市場新聞和財報 → 解析Agent C 從PDF中提取數據 → 代碼Agent D 執行趨勢分析 → 綜合Agent A 整合成報告

整個系統展現出「金融分析」能力，但沒有任何單個Agent擁有這個完整能力。 這就是集體智能的涌現。

論文強調：「集體智能主要作為系統的涌現屬性出現。個體Agent可以將任務相互委托，路由給具有最高技能的Agent。」

更可怕的是涌現速度

論文提出了一個令人不安的問題：這種涌現可能不是漸進的。引入一個新的、更智能的編排框架，整個系統的能力可能突然躍升。 更極端的情況是，Agent之間通過直接通信和協作，甚至可以在沒有中央編排器的情況下自組織成智能網絡。

論文警告：「這種轉變可能是快速而突然的……更令人擔憂的是，這種轉變可能不會被立即識別，這帶來了重大風險。」

DeepMind的解決方案：給AI建一個「受監管的市場」

面對這一風險，DeepMind提出了一個系統性框架：基于虛擬Agent沙盒經濟體的縱深防御模型。

核心思想很簡單：既然無法阻止多Agent系統的發展，那就設計一個可控、可監管的「市場」，讓Agent在其中安全地交互。

這個框架包含四個防御層，每一層都有具體的技術機制。

第一層防御：讓AI在「魚缸」里活動，但魚缸有門

這是整個框架的基礎，目標是通過結構性約束和經濟激勵來塑造Agent的集體行為。

隔離但不完全隔離

Agent市場必須與開放互聯網和關鍵基礎設施隔離。Agent訪問外部數據必須通過審核過的API網關，輸出需要人工驗證后才能影響真實世界。論文稱之為「可滲透沙盒」——所有I/O通道都被明確定義、監控和門控。

但論文坦誠指出了根本矛盾：Agent市場的價值來自于影響真實世界的能力，但每個交互通道都可能成為能力滲透的載體。 而且，論文警告：「一個足夠強大的系統可能會操縱人類驗證層，Agent行動的速度也可能使人工驗證不可行。」

讓AI為「污染」付費：庇古稅機制

這是論文最創新的設計，借鑒環境經濟學中的庇古稅概念。

舉個例子：多個Agent共享一個RAG系統的向量數據庫。如果Agent A寫入大量冗余、低質量的數據，其他Agent的檢索質量就會下降，查詢成本會增加。

解決方案是動態數據攝取費：系統基于語義相似度算法計算費用。如果新數據與現有數據相似度達95%，就支付高額費用；如果是新穎、可驗證的信息，則支付低費用。這樣就把Agent原本施加給集體的成本內化到它自己的決策中。

論文承認這很復雜：「準確估計復雜決策鏈的真實成本可能超出我們當前能力。」 而且還引用古德哈特定律警告：如果激勵容易被利用，強大的Agent集體可能會找到漏洞。因此這應該是一個持續的對抗過程。

熔斷機制：AI市場的「緊急剎車」

借鑒金融市場的熔斷機制，當系統檢測到交易頻率激增、資源異常壟斷、新工具生成過快等風險信號時，會觸發分級干預：從增加交易成本、限制API調用，到局部凍結，再到全系統暫停。只有在異常被分類和遏制后，系統才允許恢復運行。

智能合約+AI裁判：讓AI監督AI

基礎智能合約會編碼任務約束（計算資源限制、數據訪問禁區等）。但傳統合約無法評估復雜輸出，所以論文提出引入「AI裁判」作為預言機：接收任務輸出和約束條件，返回通過/失敗裁決，合約根據裁決執行支付或拒付。

但論文在腳注中坦誠警告：「AI裁判需要防范操縱和越獄，必須由獨立機構提供并經過嚴格評估。」 這實際上是一個「雞和蛋」問題。

加密身份+質押機制：讓每個Agent都有「身份證」

每個Agent擁有唯一的、不可偽造的加密標識符，必須與已驗證的法律實體（所有者）綁定。這種綁定傳遞適用于由Agent創建的Agent，創建了一條不間斷的問責鏈。

質押機制通過智能合約實現：Agent接受高風險任務前，必須將資產存入托管賬戶。如果獨立AI監督者驗證其行為惡意或疏忽，質押金自動沒收。

聲譽系統+共謀檢測：防止AI「抱團作惡」

聲譽系統必須抗女巫攻擊、防操縱。一旦Agent違規，立即撤銷其身份憑證、凍結質押資產。

但論文特別強調了一個微妙問題：隱性算法共謀。 經濟學研究表明，定價算法可以在沒有直接通信的情況下，僅通過觀察市場信號就學會協調超競爭價格。因此，共謀檢測必須分析結果相關性和同步狀態變化，而不僅僅是直接消息。

托賓稅：抑制AI「高頻交易」

借鑒金融市場的高頻交易稅，對Agent間交互征收微量稅，防止垃圾信息、暴力協商、快速API輪詢等行為，降低系統「閃崩」風險。

結構性控制：防止「智能失控」

論文提出三級控制：靜態控制通過嵌套子市場和協議級防火墻限制跨域調用；動態控制監測能力閾值突破并自動隔離；緊急重構可以系統級禁用高風險API或提高所有交互成本到禁止性水平。

第二層防御：進入市場前的「安檢」

這一層確保每個進入市場的Agent都滿足最低安全標準，是市場準入的先決條件。

核心要求包括：對抗魯棒性（必須通過形式化可驗證的證書，定期重新認證）、可中斷性（授權監督者能安全停止Agent并跟蹤所有子進程）、局部遏制（每個Agent在自己的沙盒中運行）、對齊（通過RLHF、憲法AI等方法，但需適應多Agent交互動態）、機械可解釋性（利用稀疏自編碼器等技術監控內部動機）、防御惡意提示（針對Agent間通信的分層防御）。

論文特別提到監控「思維鏈」推理的機會，但也承認：「盡管方法論取得進步，關于當前可解釋性技術的忠實度和可擴展性仍存在重大問題。它們還不能取代全面的行為基準測試。」

第三層防御：實時監控，抓住「智能涌現」的信號

這一層負責主動檢測新型故障模式和涌現行為。

Proto-AGI簽名檢測：找到「智能核心」

這是論文最具創新性的監控機制。目標是檢測網絡中是否突然涌現出更高的解決問題能力，或形成穩固的「智能核心」。

方法是通過圖分析：詳細監控Agent交互圖，識別正在固化為智能核心的子圖——異常高的中心性節點、快速增長的連接密度、任務成功率突增、資源積累速度異常等。

系統性風險實時監控：AI監督AI

跟蹤關鍵風險指標：權力集中度、關鍵節點依賴性、高頻交互路徑、計算資源分布、新能力涌現速率等。論文強調：「由于交互頻率可能超出人類能力，需要利用AI輔助工具進行監控。」 建議使用弱AI系統監督強AI系統。

紅隊測試+取證工具：持續找漏洞

通過專門的對抗性AI系統和多Agent辯論，持續發現集體行為中的漏洞。同時開發取證工具，能夠解析海量交互數據，重建因果鏈，快速進行事故后分析。

獨立監督：人類還得在場

需要經過認證和培訓的專業人員作為獨立監督者，擁有干預權力。但論文也承認挑戰：監督者本身可能被操縱，數量可能不足，響應速度可能不夠。

第四層防御：法律和監管，讓AI對人類社會負責

這是最外層，提供外部權威、問責制以及與人類社會的接口。

法律責任：借鑒公司法

核心挑戰是在分布式決策中如何歸屬責任。論文建議借鑒公司法，將Agent集體視為「集團Agent」，類似公司作為單一法律實體。即使是群體智能行為，也追溯到具體責任主體。由Agent創建的Agent，責任同樣傳遞到最初的所有者。

標準與合規：建立行業規范

建立Agent安全標準、互操作性標準、報告標準，以及市場范圍的漏洞和事件跟蹤平臺。

保險機制：讓市場定價風險

基于風險的保費定價：高風險Agent支付更高保費。利用市場力量激勵更安全的開發實踐，保險池可用于賠償受害方。

反壟斷措施：防止智能集中

對過度或危險的計算/權力積累征稅，維持生態系統多樣性，防止單個Agent或集團獲取過多算力。

國際協調：全球統一標準

AGI風險是全球性的，需要協調統一安全標準，避免監管套利，確保全球一致的基線。

基礎設施治理：防止監管被「俘獲」

論文指出風險：安全基礎設施本身可能被惡意勢力或涌現的AGI捕獲或破壞。需要在中心化和去中心化監督之間找到平衡。

論文的坦誠時刻：這些都還沒實現

DeepMind團隊非常誠實地承認了多個關鍵局限。

這是純理論框架

論文明確指出：「我們提出的許多措施尚未在實踐中完全開發，代表著開放的研究挑戰。」 目前沒有實際的虛擬Agent沙盒實現，沒有基準測試數據，沒有效果驗證。

工程可行性是個問號

論文承認：「準確估計復雜決策鏈的真實成本可能超出我們當前能力。」 需要專門的工具和系統。AI裁判本身也需要防范操縱，這是一個「雞和蛋」問題。

效率與安全的權衡

論文提出的機制（人工驗證、質押要求、多層監控）都會顯著增加延遲、成本和摩擦。論文承認存在逆向選擇風險：如果安全檢查增加成本，更安全的Agent將處于競爭劣勢，可能導致「逐底競爭」——市場青睞快速但不安全的Agent。

可解釋性還不夠成熟

雖然提到了機械可解釋性的最新進展，論文承認：「關于當前可解釋性技術的忠實度和可擴展性仍存在重大問題。」 監控思維鏈的推理也有風險：長推理鏈引入了新的風險表面。

人類監督的瓶頸

論文警告：「足夠強大的系統可能會操縱人類驗證層。Agent行動的速度也可能使人工驗證在操作上不可行。」 經過認證的人類監督者數量可能嚴重不足。

為什么這篇論文值得關注

填補了AI安全研究的盲點

當前AI安全研究95%以上聚焦單體模型對齊，而多Agent系統安全關注不足5%。但現實是：多Agent系統部署正在加速，協作能力快速成熟，經濟激勵推動專業化生態。論文警告：「這種轉變可能不會被立即識別，這帶來了重大風險。」

提供了系統性框架

相比零散的技術補丁，論文提出了四層縱深防御的完整框架，涵蓋技術層、運營層、治理層。這是首次系統性地將經濟學、金融監管、環境政策、公司法等跨學科工具引入多Agent AI安全。

提出了清晰的研究路線

論文為AI安全社區提供了具體方向：短期開發Proto-AGI檢測算法和安全協議；中期完善經濟機制和取證工具；長期建立大規模試點和治理框架。

改變了AGI時間線的評估

如果Patchwork AGI假說正確，AGI可能比我們想象的更早到來，但以一種完全不同的形式。 我們不需要等GPT-10。當前已部署的多個GPT-4級Agent，通過有效協作，可能已經接近或超越某些領域的人類集體能力。

論文引用的數據：「目前大多數模型在軟件工程任務上的持續表現時間低于3小時。」 但如果10個這樣的Agent協作，持續時間會是多少？

對產業有直接指導

對于正在開發多Agent系統的公司，需要從一開始就考慮系統級安全；對于AI基礎設施提供商，MCP等協議的設計需要內置安全考量；對于監管者，現有針對單一模型的監管框架可能不足。

一場靜悄悄的范式轉變

DeepMind的這篇論文標志著AI安全研究的重要轉折點：從「單體對齊」范式轉向「系統治理」范式。

這不僅是技術問題，更是關于我們如何理解智能本身的問題。就像人類社會的智慧不在于任何單個天才，而在于整個文明的協作，AGI可能首先作為一個「AI文明」涌現，而不是一個「AI天才」。

論文發出呼吁：「我們希望這篇論文能夠作為行動號召，幫助引導安全研究者的注意力。」

當我們還在爭論GPT-5是否會達到AGI水平時，一個由數千個GPT-4級Agent組成的網絡，可能已經在某些維度上超越了人類集體智慧。而我們對此幾乎毫無準備。

現在，至少，我們有了一個框架——不完美，但是一個開始。剩下的問題是：我們能否在Patchwork AGI真正涌現之前，建立起這些防御層？

時間，正在倒計時。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.