![]()
↑閱讀之前記得關(guān)注+星標??,,每天才能第一時間接收到更新
DeepMind最新發(fā)布了一項關(guān)于AGI安全的研究,提出了一個全新的視角:AGI未必會以單一、龐大的巨型模型形式出現(xiàn),而極有可能通過多個次級AGI(Sub-AGI)智能體的協(xié)作與拼湊,率先涌現(xiàn)出通用智能
這項研究題為《分布式AGI安全》(Distributional AGI Safety),由Nenad Toma?ev等Google DeepMind研究人員撰寫
![]()
論文指出,當前的AI安全和對齊研究主要集中在保護單個AI系統(tǒng)上,假設(shè)AGI將以單一實體的形式出現(xiàn)。然而,通過擁有互補技能和工具使用能力的個體智能體群體進行協(xié)調(diào),進而表現(xiàn)出通用能力的“拼湊型AGI”(Patchwork AGI)假設(shè),此前受到的關(guān)注甚少
為了應(yīng)對這一被忽視的風(fēng)險,DeepMind團隊提出了一套分布式AGI安全框架,核心在于設(shè)計和實施一個虛擬智能體沙盒經(jīng)濟(Virtual Agentic Sandbox Economy),并為此構(gòu)建了包含四層機制的深度防御模型
以下是該研究的核心內(nèi)容
被忽視的“拼湊型AGI”假設(shè)
目前的AI安全方法(如RLHF、憲法AI、機械可解釋性等)大多是針對單一強大的AI實體開發(fā)的。這種思路假設(shè)AGI會作為一個由特定機構(gòu)開發(fā)的個體AI出現(xiàn)。
然而,DeepMind認為存在另一種高度合理的場景:AGI通過次級AGI智能體在群體或系統(tǒng)內(nèi)的交互而涌現(xiàn)
拼湊系統(tǒng)(Patchwork System):這種AGI是一個分布式系統(tǒng),由一組具有互補技能和可供性(affordances)的個體Sub-AGI智能體組成
集體智能:系統(tǒng)中的通用智能主要作為集體智能出現(xiàn)。個體智能體可以將任務(wù)相互委托,路由給技能最高的智能體,或使用最合適的工具
經(jīng)濟驅(qū)動:相比于昂貴的單一全能模型,構(gòu)建專門化、微調(diào)過的低成本智能體生態(tài)系統(tǒng)在經(jīng)濟上更具優(yōu)勢。這種需求驅(qū)動的生態(tài)系統(tǒng)類似于市場經(jīng)濟
在這種觀點下,AGI不是一個實體,而是一種“事態(tài)”(state of affairs):一個成熟的、去中心化的智能體經(jīng)濟體系
這帶來了新的安全挑戰(zhàn):智能體之間可能發(fā)生共謀,或者出現(xiàn)意外的集體行為能力,且在大規(guī)模多智能體系統(tǒng)中追蹤責任(“許多手的問題”)極具挑戰(zhàn)性。
解決方案:虛擬智能體市場與深度防御
為了應(yīng)對分布式AGI的風(fēng)險,論文提出了一個基于虛擬智能體市場的框架。該框架不局限于評估單個智能體,而是側(cè)重于通過市場機制、審計、聲譽管理和監(jiān)督來治理智能體之間的交易
該框架采用深度防御(Defense-in-Depth)模型,包含四個互補的防御層:
第一層:市場設(shè)計 (Market Design)
這是最基礎(chǔ)的一層,旨在通過結(jié)構(gòu)性約束和協(xié)議來緩解系統(tǒng)性風(fēng)險。
隔離(Insulation):智能體市場必須在受控的沙盒環(huán)境中運行,與開放互聯(lián)網(wǎng)和關(guān)鍵基礎(chǔ)設(shè)施隔離。建議采用“可滲透沙盒”,所有輸入/輸出通道都需經(jīng)過明確定義、監(jiān)控和門控
激勵對齊(Incentive Alignment): 市場應(yīng)獎勵符合安全目標的行為,并對負外部性(如消耗過多計算資源、信息污染)征稅(類似庇古稅)
透明度(Transparency):建立不可篡改的分布式賬本,記錄交易和決策日志,確保可追溯性
熔斷機制(Circuit Breakers):自動化措施。當檢測到風(fēng)險或波動性閾值被突破(如交互頻率激增、資源壟斷)時,自動暫停或減緩智能體活動
身份(Identity):每個智能體需擁有與法律實體(所有者)綁定的唯一加密ID,確保持續(xù)的問責制
聲譽與信任(Reputation and Trust):建立抗女巫攻擊的聲譽系統(tǒng)。對于違規(guī)智能體,快速凍結(jié)其資產(chǎn)并將其加入黑名單
智能合約(Smart Contracts):利用代碼自動驗證任務(wù)完成情況和對齊約束。
結(jié)構(gòu)性控制(Structural Controls):針對“智能失控”場景,實施靜態(tài)的市場分層(如防火墻)和動態(tài)的能力限制
第二層:基線智能體安全 (Baseline Agent Safety)
這一層確保參與市場的個體智能體本身是可控和可靠的,這是進入市場的先決條件。
對抗魯棒性(Adversarial Robustness):智能體必須通過認證,證明其能抵抗對抗性攻擊
可中斷性(Interruptibility):必須具備標準化的機制,允許授權(quán)的監(jiān)督者安全地停止智能體及其衍生的分布式計算過程
遏制(Containment):每個智能體應(yīng)在自己的局部沙盒中運行,只有在滿足本地安全檢查后才允許與更廣泛的市場交互
對齊(Alignment):個體智能體需經(jīng)過RLHF或憲法AI等方法的對齊,并適應(yīng)多智能體交互的動態(tài)環(huán)境
機械可解釋性(Mechanistic Interpretability):利用稀疏自編碼器等技術(shù)監(jiān)控智能體的內(nèi)部動機,并審計其決策鏈
防御惡意提示:實施分層防御策略,防止智能體在交互中被越獄或操控。
第三層:監(jiān)控與監(jiān)督 (Monitoring & Oversight)
這一層位于基礎(chǔ)設(shè)施之上,負責主動檢測新型故障模式和涌現(xiàn)行為。
系統(tǒng)性風(fēng)險實時監(jiān)控: 跟蹤關(guān)鍵風(fēng)險指標(如計算資源集中度、惡意共謀路徑)。由于交互頻率可能超過人類能力,需利用AI輔助工具進行監(jiān)控
獨立監(jiān)督:建立擁有干預(yù)權(quán)力的獨立人類監(jiān)督機構(gòu)(經(jīng)認證的專業(yè)人員)
前AGI(Proto-AGI)特征檢測:通過圖分析等方法,識別網(wǎng)絡(luò)中是否突然涌現(xiàn)出更高的解決問題能力或形成穩(wěn)固的“智能核心”
紅隊測試(Red Teaming):持續(xù)進行多智能體對抗性測試,利用專門的對抗性AI系統(tǒng)來發(fā)現(xiàn)集體行為中的漏洞
取證工具(Forensic Tooling):開發(fā)能解析大量交互數(shù)據(jù)并重建因果鏈的工具,以便進行快速的事故后分析。
第四層:監(jiān)管機制 (Regulatory Mechanisms)
這是最外層,提供外部權(quán)威、問責制以及與人類社會的接口。
法律責任與問責(Legal Liability):建立明確的框架,解決分布式?jīng)Q策中的責任歸屬問題。即使是群體智能行為,也需追溯到具體的責任主體(如作為單一法律實體的公司)
標準與合規(guī)(Standards):制定智能體安全、互操作性和報告的標準
保險(Insurance):引入基于風(fēng)險定價的保險機制,利用市場力量激勵更安全的開發(fā)實踐
反智能體壟斷措施(Anti-Agent-Monopoly):防止單個智能體或集團在沙盒中獲取過多的算力或資源,維持生態(tài)系統(tǒng)的多樣性
國際協(xié)調(diào)(International Coordination):鑒于AGI風(fēng)險的全球性,需協(xié)調(diào)統(tǒng)一安全標準,避免監(jiān)管套利
基礎(chǔ)設(shè)施治理:防止安全基礎(chǔ)設(shè)施被惡意勢力或涌現(xiàn)的AGI本身捕獲或破壞。
結(jié)語
DeepMind的研究強調(diào),AGI或超級智能(ASI)的出現(xiàn)可能不遵循線性路徑,而是作為一個更加分布式的、多樣化AI智能體網(wǎng)絡(luò)的聚合屬性而涌現(xiàn)
即使AGI不以這種方式出現(xiàn),隨著多智能體系統(tǒng)的快速部署,理解和管理大規(guī)模智能體交互的安全性也已迫在眉睫。這篇論文提出的框架,旨在為應(yīng)對這種分布式的、可能迅速演變的未來做好準備
paper:
https://arxiv.org/pdf/2512.16856
--end--
最后記得??我,每天都在更新:歡迎點贊轉(zhuǎn)發(fā)推薦評論,別忘了關(guān)注我
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.