網易首頁 > 網易號 > 正文申請入駐

李國杰院士：基于可判定性理論的人工智能系統安全風險分類

2026-02-26 08:10:06　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】李國杰院士指出，AI安全風險應按邏輯復雜性分為三類：R1可驗證、R2可發現但不可證明安全、R3不可治理。當前AI多屬R2，關鍵不在「證明安全」，而在構建人類主導的制度性剎車機制，拒絕讓渡終極控制權。

無論是軟件工程、自動控制還是其他形式化方法，它們共享同一個假設：存在一組可窮盡的狀態或行為集合，可以在運行前證明系統不會進入危險區域，典型形式包括不變量證明、安全約束證明、模型檢查，覆蓋所有路徑的形式驗證等。

這個范式有3個「必須成立」的前提條件：狀態空間可窮盡（或可有效逼近），系統行為規則固定，驗證者與被驗證對象邏輯上分離。

這些條件任何一個失效，驗證就不是「變難」，而是「失效」。

AGI正好系統性地破壞了這3個條件，這不是工程不足，而是哥德爾/Rice級別的不可能性。

1. 為什么要用可判定性理論對安全問題進行分類

1.1 從無人自動駕駛說起

當我們問：「這輛無人駕駛汽車是否安全？」

這里講的「安全」的真實含義是：在所有未來可能的運行時間、在所有可能的環境與交通參與者行為下，車輛都不會進入不可接受的危險狀態。

這在邏輯上是一個全稱量化的未來命題，問題中的時間是無限的，環境是開放的，其他參與者是不可預測的。這個命題原則上不可判定，原因是：

1）未來行為空間不可窮盡，行人、車輛、天氣、路況是開放世界，不存在一個有限狀態空間。

2）安全不是瞬時屬性，而是軌跡屬性，現在沒撞車不代表永遠不會撞車，安全依賴整個運行歷史。

3）這是一個承諾型命題：「安全 = 對未來永不出事的承諾」。這類命題與程序「永不崩潰」是同一類問題，根據可判定性理論，此命題在一般情況下不可判定。在不可判定問題中，有一個真子集稱為「半可判定問題」或「遞歸可枚舉問題」，其核心特征是：如果出了事故，你一定能發現；如果不出事故，你永遠無法在事前確認將來是否安全。

既然「無人駕駛」是半可判定問題，工程上為什么還能「保證安全」？工程上并沒有解決「全局安全不可判定」這個問題，而是換了問題。

第一步：放棄「未來承諾」，改為「即時約束」，即，在當前時刻，是否違反了一組明確的安全邊界條件？

第二步：把「語義安全」變成「物理不變量」，例如：將「撞人」變成「剎車制動的最小距離 > 當前車與人的距離」。要判斷的問題變成有限維的明確閾值，就成為可判定的遞歸計算問題。

第三步：用「失敗即停機」代替「永遠正確」，安全目標從「永不出事」轉化為「在任何不確定性出現時，都能在有限時間內進入可控、低風險狀態」，把不可判定問題變成可判定的工程問題。這不是解決了不可判定問題，而是繞開了它。無人駕駛告訴我們一件極其重要的事：AI安全問題不是「證明系統永遠不會做錯」，而是設計系統，使任何不可判定的問題都不會直接轉化為不可逆的現實后果。

「安全」本質上是對未來的承諾，工程安全的真正智慧在于拒絕關于未來安全的承諾，而是把風險壓縮到可判定的當下。

無人駕駛的安全問題可以被明確定義為一組可觀測的邊界條件在物理上成立，例如碰撞、越過制動包絡、傳感器失效等。

通用人工智能（artificial general intelligence, AGI）的核心風險是無法完成這種壓縮，因為其危險行為不受限于物理包絡、時間尺度和功能邊界，不是物理瞬時事件，而是語義 + 反事實 + 長期后果的集合。無人駕駛不能改寫目標、擴展任務，不能重新定義「什么算成功」。

AGI系統性地破壞了這3個條件：

1）危險沒有統一、可操作的物理定義。AGI的「危險」是認知操縱、社會結構破壞、治理機制替代等，這些都不是物理不變量，而是語義與制度結構。

2）時間尺度拉長且危險滯后，行為當下看似無害，發現時往往已經不可逆。

3）目標與能力可遞歸擴展，AGI可能重寫子目標，學會繞過約束，把驗證機制本身當作優化對象，驗證者與被驗證者不再分離。AGI即使沒有「惡意」，也可以在治理結構上變得不可控。

AGI追求的「如何在不可判定的未來中維持人類的主權與糾錯能力」，已不是工程問題，而是文明級控制問題。

AGI的危險不是發生在「執行層」，而是發生在「策略與目標層」，與可判定性密切相關。

1.2 必須區分安全問題的邏輯復雜性層次

長期以來，人工智能風險評估主要圍繞能力擴展、目標對齊、誤用場景等維度展開。這些分類在實踐中具有重要價值，但忽略了一個更為根本的區分：某些風險在原則上是可判定的工程問題，而另一些風險理論上就是不可判定的。

這一根本差異解釋了人工智能安全領域中長期存在卻難以解決的問題，例如：為什么長期對齊問題始終無法獲得形式化保證，為什么遞歸自我改進會引入質變級別的風險，為什么在系統的邏輯復雜性超過某一閾值后，治理機制就不可避免。這些現象并非源于工程能力不足，而是來自可判定性層面的結構性限制。

能否對安全問題做出承諾，不是學術界經常討論的計算復雜性可以回答的問題，這是一個邏輯復雜性問題。

邏輯復雜性（logical complexity）是指一個命題為獲得可靠真值所需要的邏輯結構的復雜程度，主要由其所涉及的量詞形式（?/?）、量化對象的范圍（有限/無限）以及是否涉及未來或反事實決定，與計算資源消耗無關。邏輯復雜性屬于計算機科學中算術層次研究的問題，即對自然數結構的一階邏輯命題按?/?的嵌套與交替層數進行分層。

邏輯復雜性層次劃分只覆蓋了形式可保證性，這是安全的一個維度，即能否窮盡所有未來狀態，能否在運行前給出「永不出錯」的證明，這是數學意義上的安全，定義的是「問題的邏輯復雜度等級」，而不是「系統運行的安全等級」，這是「問題軸」。

安全并不是一個純粹的可判定性命題。

考慮安全問題至少需要3條正交軸：第1條是問題軸，回答能否事前證明；第2條是治理軸，回答出錯后是否可控；第3條是后果軸，回答最壞情況有多壞。邏輯復雜性回答的是：「我們能不能提前證明你不會出事？」，而不是「你出事了我們怎么辦？」系統的安全性是問題判定性、治理機制與后果規模的聯合函數，而非只涉及問題的可判定性函數。邏輯復雜性屬于「問題軸」，不是「系統軸」。同一個系統可以同時涉及不同邏輯復雜性的問題，邏輯復雜性來自提問方式，而不是對象本身。

可判定性不是保證現實安全的必要條件，但按邏輯復雜性（可判定 / 半可判定）對問題做區分，是「避免安全治理范式錯誤」的必要條件。可判定未必安全，不可判定也未必不安全，但不區分問題的邏輯復雜性，很可能對安全問題做出邏輯上錯誤的承諾。安全出問題的原因，往往不是「系統做錯了」，而是「我們對系統做出了邏輯上不可能兌現的承諾」。安全不是邏輯性質，而是運行性質，是一個動態、制度性、工程性的概念。安全是能在失敗不可避免的前提下實現持續治理，這是從數學理性轉向工程理性和制度理性。不可判定不是危險的根源，把「安全」錯誤地托付給「可判定性」才是風險。

「承諾不出錯」和「事先證明完備性」不是同一個概念，但在開放世界中，它們在邏輯上高度等價。

「承諾不出錯」是目標命題，「事先完備性證明」是驗證方式。但在工程與治理中，一旦你承諾不出錯，就等價于你能證明不會出錯。否則這個承諾是不可執行、不可審計、不可擔責的。所以在開放任務空間中，承諾不出錯的隱含要求就是事先完備性證明。

保證「事后能自我發現并修正錯誤」也會引入一個更深層、同樣不可判定的問題：如何保證「總能發現并糾正自己的錯誤」？

錯誤檢測本身就是行為規范全稱驗證的語義判定問題，根據可判定性理論，「能否發現自己的所有錯誤」也是不可判定的。

1.3 「算法是否安全」不是一個良定義的問題

為什么要從邏輯復雜性的角度來討論安全問題，而不是討論算法安全性？雖然從應用實踐中可以將算法安全看成是TRC層級問題，但是從形式邏輯來看, 「算法是否安全」不是良定義的提問。

算法是一個抽象對象，而安全是一個運行態性質。一個算法通常只包含：狀態表示、轉移規則、目標、損失函數、停機和輸出條件，它不包含運行環境、輸入分布、資源約束、失敗后果、外部控制與干預，而安全恰恰取決于后者。

算法安全是一個「關系型定義」，不是可回答「Yes or No」的一元謂詞，安全不是算法的內稟屬性。

算法安全可以這樣定義：「算法A在環境E、目標約束G與治理機制C下是安全的，當且僅當在所有允許的運行軌跡中，算法行為違反預定義安全約束的概率與后果被控制在可接受邊界內。」

要判斷算法是否安全，需要依賴未來運行軌跡的整體形態，而不是當前狀態是否滿足某個局部條件，算法本身不能區分「安全或不安全」，只能在特定條件下，被運行得更安全或更危險。

算法之所以進入風險區，不是因為它「強」，而是因為它在結構上破壞了「可窮盡、可封閉、可事前驗證」的條件。

凡是引入了開放性、反事實依賴、長期反饋、或自我修改的算法結構，其安全性質幾乎必然落入半可判定范圍。

邏輯復雜性分層不能定義算法是否安全，但它可以定義：算法在給定條件下，哪些安全性質是可事前證明的，哪些只能通過運行期治理來保障。也就是說，邏輯復雜性是「安全可證明性的分析工具」，不是「安全性本身的定義」。

1.4 與可判定性有關的基本定義和基礎性定理

計算機學者經常講「可計算性（computability）」，討論的核心問題是「存在不存在一個算法（圖靈機），能計算某個函數或關系？」輸出是數值、結構或無限序列。

在經典的可計算性理論里面，「嚴格可計算」要求停機，而「半可計算」允許不停機。在討論安全問題時，考慮到輸入的不設限，「半可計算」是更普遍的現象，不一定要求停機。而可判定性（decidability）討論的核心問題是存不存在一個必然停機的算法，對任意輸入都能給出「是或否」的二值判斷。

可判定性是可計算性的一個嚴格子概念。對于一個判定問題，若其對應的特征函數是可計算的，則該問題是可判定的。

安全本質上是一類「是/否」的命題。

安全問題問的是：是否違反約束？是否進入危險狀態？這些都是命題判定問題，而不是函數計算問題。討論安全時，停機性比計算能力重要得多。

在討論安全問題時，有兩類問題特別重要。一類是可判定問題，在計算理論中稱為遞歸計算問題，在邏輯復雜性討論中稱為Δ(1)（Delta-1）。這類問題存在一個必停機算法，對任何輸入都能給出是/否的正確答案。

另一類是半可判定問題，也稱為遞歸枚舉問題或Σ(1)（Sigma-1）。這類問題是指「只要命題是真的，存在一個算法能在有限時間內找到證據并停止；但如果命題是假的，可能該算法永遠無法找到相關證據」。本文討論的安全問題主要就是這兩類。

下面介紹3個與可判定性有關的重要定理。

1）哥德爾不完備性定理：任何一個足夠強且自洽的形式系統，都無法在自身內部證明它的所有真命題，即無法證明自身的一致性。哥德爾定理告訴我們：「證明未來所有行為正確」本身是不可判定的。哥德爾不完備性并不是說AI一定會出錯或AI不能自我改進，而是指出一個更深刻、也更冷靜的事實：AI系統在原則上無法實現「自證安全」的閉環，這條結論是嚴肅討論AI安全時繞不開的邏輯基石之一。

2) 萊斯定理：「任何關于程序‘語義行為’的非平凡性質，都是不可判定的」。所謂「非平凡性質」是指既不是對所有程序都成立，也不是對所有程序都不成立。也就是說，不存在一個「萬能的、自動的、對任意程序都有效」的行為判定器。當安全性被表述為「對所有可能輸入和執行路徑，系統都不會進入危險狀態」（這是一個非平凡性質，因為有的程序滿足，有的程序不滿足），根據萊斯定理，該類安全性在原則上是不可判定的。也就是說，以全稱語義形式表達的非平凡安全性不可判定。

3) 古德哈特定律：當一個指標被用來作為優化目標時，人們（或系統）會開始針對指標本身采取行動，從而破壞它原本用來代表的真實目標。該定律的終極含義是：任何被明確寫成目標的東西，都必然失去對真實價值的代表性，而且智能越強，這一失真越嚴重。因此，「設計一個永不被鉆空子的指標」在邏輯上不可行。不要試圖讓指標永遠正確，而要讓「發現指標失效」變得可行而且可糾正。抗Goodhart定律的唯一可行路徑是，將指標嵌入可審計、可更換、可否決、可回滾的制度之中。指標負責優化，制度負責糾錯。

2. 安全風險的可判定性分類

對所有與安全相關的問題，可以按邏輯復雜性區分層級。

R1層級定義：可判定（Δ(1)）安全問題。
R2層級定義：半可判定（不包含可判定）安全問題，即Σ(1)\Δ(1)安全問題。
R3層級定義：是指非遞歸可枚舉安全問題，即Non-r.e.安全問題。

下表更明顯地表達了這3類風險分層。

R1是可被事前判定真假的那一類安全相關問題的集合，屬于低邏輯復雜性風險，其邏輯特征是量化范圍有限或可窮盡，謂詞是狀態型，不涉及無限未來和「開放環境反饋」。

R1級安全問題可事前證明，可工程驗證，可一次性封閉，因此R1是可解決的安全風險，是工程安全的「上限區」。

R1層級的本質是問題可以形式化，判斷可以在有限步驟內完成，正確性可以通過算法或形式驗證確認。典型R1問題包括有界優化、可驗證安全約束、有終止證明的規劃問題、靜態形式驗證等。

R2是「可以發現不安全，但不能證明永遠安全」的安全問題集合，屬于高邏輯復雜性風險。典型的問題形式是：「對所有未來時間、所有環境演化路徑，系統是否始終保持安全？」。

邏輯特征是全稱量化未來，謂詞是軌跡型，時間無上界，環境開放。R2級風險現實中存在，不可徹底解決，只能治理，不能證明，只能降低概率與后果，永遠需要人在回路。

R2的半可判定性是指，如果系統「不安全」，一定能發現一個證據；如果系統至今沒有出安全問題，無法確認今后不出問題。工程與現實對應的R2案例包括長期對齊問題、AGI、社會嵌入式AI、自主決策系統等。R2的本質不是「危險」，而是「不可證明安全」。

R3是既無法事前判定安全，也無法保證通過枚舉方式事后發現錯誤的安全問題集合，這是最高級別的安全風險。

R3級風險是?未來 + ?反事實的問題。所謂「?反事實」是指，對所有并未實際發生、但在邏輯或物理上可能發生的情形，某個性質一定成立。R3級目前還是一種假設中的風險，許多機器征服人類的科幻描述屬于這一類。

需要強調的是，R3級風險一旦出現即不可解決，因為R3級風險意味著不能保證恢復人類控制權。R3級風險就像「不可恢復的數據完全丟失」，你只能在它發生之前預防，一旦發生，「補救」就不可能了。

因此，R3在現實中的作用不是預測未來，而是約束現在。用R3作為「禁止條件」，而不是「治理對象」。

R2/R3風險不是「無限性」的結果，而是「完備性承諾」的結果，即「要求系統在所有未來情形下都正確并且事先給出證明」帶來的風險。「? + 事先證明」這一組合觸發了不可判定性。

問題的關鍵不在于是否存在無限可能性，而在于是否非理性地堅持對無限可能性進行事先的完備性證明。一切現實可治理的AI系統，都是通過制度化地放棄完備性來避免R2風險。

R2風險不是新問題，大家一直在討論的AI對齊、強化學習理論、Goodhart定律、Rice定理等都是R2層次的問題，但缺一個統一的可判定性坐標。

R1/R2/R3級分類把AI安全、控制論、可判定性、治理問題壓縮到一個清晰的斷裂點上，其價值在于準確地標出了AI風險從工程問題躍遷為不可判定問題的那條斷裂線。

3. 正確區分R1和R2級安全風險類

3.1 所有工程上可解決的安全問題都在R1層級

「事前可完備證明某種非平凡性質」的算法非常少。因為任何關于「程序語義行為」的非平凡性質，都是不可判定的。所謂「非平凡性質」，正是工程中最關心的問題，如會不會在某種情況下失控？會不會在某類輸入下違反約束？會不會在長期運行中偏離目標？一旦出現無限狀態空間、參數更新、與開放環境交互等特征，基本就走出R1進入R2了。

為什么工程上「安全保證」幾乎都落在 R1區？這是因為工程界已主動放棄了R2問題。

工程上的安全保證，通常是把它的關鍵安全問題壓縮、降維、或外包到R1區域。這一步不是證明能力強，而是設計能力強。工程安全的真實套路不是「證明一個復雜系統在所有情況下都安全」，而是「把復雜系統包進一個R1的外殼里」。典型手段包括限幅、硬約束、守護進程、冗余與投票、緊急制動、權限隔離等。這些機制的共同點是：它們本身的安全性質是R1的。

3.2 R2級風險不可能在系統內降為R1級風險

R2級風險之所以不可能在系統內部被降為R1，是因為其安全性質本身是半可判定的，不安全可以在有限執行中被發現，但「永遠安全」無法在有限時間內被證明。任何試圖在系統內部完成這種證明的機制，都等價于要求系統解決一個不可判定問題，因而在原則上不可能。所以R2風險只能被治理，不能被證明消除。

當我們問「能不能驗證AGI是安全的」，就已經說明我們正在用一個必定失效的范式。R1/R2真正區分的不是「安全性」，而是3件更根本的事：

1）能不能「事前承諾」？R1可以合理地說：「如果通過了這個驗證，它就不會違反這條性質」，而對于R2，任何「它以后不會出事」的承諾，在邏輯上都是不可兌現的。

2）治理應不應該前移？R1的安全治理允許以前置驗證為核心；R2的安全治理必須以后置監控、糾錯、回滾為核心。

3）「沒出事」意味著什么？R1中「沒出事」是很強的安全信號，而對R2，「沒出事」對以后是否會出事沒有任何邏輯含義。R1/R2是「認知邊界劃分」，不是「安全標簽」。R1/R2 劃分的不是系統是否安全，而是人類在談論這個系統安全時，哪些話是有意義的，哪些話是偽命題。

鄔江興院士提出的「網絡內生安全理論」的主要關注對象，是利用系統同質性、靜態性、確定性進行的攻擊，走出了傳統的「補丁—修復—再被繞過」的被動防御困境，是網絡安全理論的重大突破。這類問題可以形式化、可以驗證、可以測試、可以度量。它沒有引入「無限未來」「無限外部環境」的全稱量詞，不要求系統自證完備安全，因此仍然是一種的R1級風險治理理論，并不意味著R2級安全問題可以在系統內部完全解決，網絡內生安全系統也需要社會治理和系統外部的約束。

3.3 實現安全應當在正確性驗證和制度兜底兩個方向努力

現實中的安全事故多數是源于「正確性失敗」，而非「完備性失敗」。目前在安全領域企業做的絕大部分工作都是解決R1層次的問題，包括從R2問題中人為劃定工程可實現的正確性驗證和測試，因為只有R1問題才能寫清規格、驗收和交付，這是安全工作的主戰場。

工程世界的大多數事故不是因為不可判定性，而是因為需求理解錯誤、邊界條件遺漏、測試覆蓋不足、假設與現實不符。也就是說，絕大多數真實風險，發生在R1區域內沒把事做對。

R2區域的治理與兜底是安全工作的結構性底線，它回答一個正確性工程無法回答的問題：當正確性假設失效時怎么辦？這不是為了「減少錯誤發生」，而是為了「限制錯誤的后果」。

因此，實現安全應當在2個方向努力：

1）通過人為裁剪，將問題壓縮為可驗證的R1子空間，并在該空間內盡可能保證正確性；

2）對所有不可裁剪或裁剪失效的情況，預設人類監督與責任機制，防止系統性失控。

只強調其中一個方向的安全觀，都是不完整的。做系統工程的正確態度是：在可驗證處，極端認真；在不可驗證處，極端謙遜。

在被劃定的R1邊界內，把正確性做到極致；在所有邊界之外，用人類監督與制度兜底承認不完備性。

3.4 三類行業/業務的邏輯復雜性層次

根據上述安全風險的分層，可以將現有的行業和業務做大致的分類。不同業務的邏輯復雜性層次和安全特征如下表所示。

Ⅰ類是天然處在R1范圍內的行業，這一類行業的安全工作本質是把正確性做到極致，典型和業務包括：

1）傳統軟件系統，如編譯器、數據庫事務系統、操作系統內核關鍵路徑、金融賬務系統（記賬、對賬）等，安全關注點是正確性、一致性和形式化驗證，測試和靜態分析高度有效。

2）硬實時控制系統，如工業PLC、飛行控制、電網保護裝置、醫療設備控制邏輯，此類業務時間與狀態有硬約束，失敗事件定義明確，即使系統很復雜，邏輯復雜性仍然低。

3）集成電路的邏輯設計與電路設計。

4）密碼學協議，如加密算法、簽名協議等。

Ⅱ類是存在R2問題但較容易裁剪出R1子區域的業務，這是現代工程的主戰場，其安全問題的關鍵不是「證明此業務安全」，而是「定義此業務可控制安全的工作子集」。這類業務包括自動駕駛、工業自動化（質量檢測、預測性維護等）、金融風控、醫療AI診斷輔助等。集成電路的物理設計是「從R2中人為劃定R1子空間」的教科書級實例。

Ⅲ類是已經進入R2，但難以壓縮為R1的業務，包括通用大模型、自主代理、可自我改寫目標的系統、推薦系統、社會治理與政策決策AI等，AGI系統是R2-C 的極限形態。這一類行業的安全策略不能止步于系統本身的可靠性和可信度，還要考慮限制AI的完全自主能力，保留人類的最終主權。最危險的情況不是第Ⅲ類本身，而是把第Ⅲ類業務當成第Ⅱ類甚至第Ⅰ類來運營。

通用AI的安全風險通常比專用AI大，其原因不在于「通用性本身」，而在于通用性系統性地提高了承擔無界責任與事先完備性承諾的概率，更容易被部署到「不可隔離的環境」, 從而顯著增加其進入R2風險區的可能性。專用AI并不是「更安全」，而是「更誠實地承認自己不完備」。

上述3類風險劃分更多是從行業視角進行的探討，而基于人機智能交互視角的TRC范式，則將智能算法的安全風險劃分為算法內生一元、人機交互二元與人機共生多元3個安全層級。這一范式與行業視角的安全風險有著密切關聯。

其中，一元內生安全聚焦于智能算法內生缺陷導致的算法決策失信，主要對應行業視角的Ⅱ類安全風險；人機交互二元安全關注智能算法濫用誤用導致的算法行為與用戶權益的失配，主要對應行業視角Ⅲ類安全風險的R2-B；多元系統性安全著眼于人機共生系統中因算法博弈對抗導致復雜社會系統的演化不可控，主要對應行業視角Ⅲ類安全風險的R2-C，甚至已逼近R3邊緣。

4. 人工智能的安全風險在哪里

4.1 人工智能風險的來源

無論是軟件工程、自動控制還是其他形式化方法，它們共享同一個假設：存在一組可窮盡的狀態或行為集合，可以在運行前證明系統不會進入危險區域，典型形式包括不變量證明、安全約束證明、模型檢查，覆蓋所有路徑的形式驗證等，這個范式在R1問題上可以暢行無阻。

這個范式有3個「必須成立」的前提條件：狀態空間可窮盡（或可有效逼近），系統行為規則固定，驗證者與被驗證對象邏輯上分離。

這些條件任何一個失效，驗證就不是「變難」，而是「失效」。AGI正好系統性地破壞了這3個條件，這不是工程不足，而是哥德爾/ Rice 級別的不可能性。

AGI觸及的問題類型已經超出了「事前驗證」這一方法的適用域，但人類治理直覺仍然停留在R1范式。典型的誤判路徑是，因為AGI行為復雜，就需要更多測試驗證和萬無一失的「對齊」，結果只能產生虛假的安全感，實際上只是在R2問題上堆R1工具。所謂「對齊」本質上是「降低局部R1的錯誤頻率」，不是保證將R2級安全問題降為R1級。

從可判定性的原理上講，與人類目標與環境的無限要求絕對「對齊」是不可能做到的，但無底線的降低「對齊」要求也是不允許的，如何既嚴格又科學合理地把握「對齊」的尺度，正是AGI風險的獨特性，關鍵是在問題重寫、「壓縮」的基礎上，如何統一部署R1級的驗證測試和AI系統外部的R2級監控措施，讓AI充分發揮作用又在人類的掌控之中。

另一類常被人提到的AI風險是超級人工智能（artificial super intelligence, ASI），通常被定義為在幾乎所有領域的智能水平都超越最優秀人類的系統。一旦它同時具備高自主性與可自我改進，并被接入關鍵基礎設施或被大規模復制部署，那么它的風險上限最高，不僅能「做壞事」，還可能以人類難以阻止的速度與規模做壞事。

如果系統的學習、推理、生成能力超出了人類可驗證、可判定、可解釋的層級，人類就無法窮盡驗證其正確性，只能通過ASI外部的制度性監控才能防止其出軌。人類唯一可能的路徑是，在ASI出現之前，永久性地阻止任何AI系統獲得「可自我內化的主權」。

換句話說，不是「如何馴服 ASI」，而是限制其主權。「人類馴服ASI」在邏輯上等價于要求人類完成一個不可判定證明。把「如何馴服ASI」當成一個技術問題，本身就是把R3或R2當成R1的危險幻覺。真正成熟的文明選擇應該是在制度、架構和物理層面，永久拒絕任何形式的「智能主權讓渡」。

4.2 針對R2問題的系統設計應如何為安全做努力

驗證范式失效之后，安全靠什么？答案是范式遷移，從「事前證明」轉向「運行期治理」。安全機制重心必須轉向門控、回滾、隔離、人在回路、權限分級等外部監控。

門控（gating）是指由系統外部條件決定系統是否被允許繼續運行、行動或升級的控制機制。回滾（rollback）是指在發現系統行為不符合安全要求后，將系統狀態恢復到先前已知安全狀態的能力。隔離（isolation）是指通過限制系統與外部世界的接口與影響范圍，使其錯誤或異常行為不會擴散為系統性后果。這些機制不是試圖證明系統永不出錯，而是承認出錯不可避免，但必須可控。AGI風險不是「更難驗證」，而是「繼續執著于驗證，本身就成了風險」。所以AGI安全的核心問題，不是「如何證明它是安全的」，而是「如何在不可證明的前提下，仍然保持人類的控制權」。

否定事前安全承諾不是否定事前安全努力。對R2問題，事前必須做結構性風險壓縮、可治理性設計，目標不是證明安全，而是在不可證明的前提下最大化系統的可治理性，提前為失敗做準備。

對于R2級安全，事前必須做以下5類安全努力。

1）問題重寫。目標是把原本的R2問題盡可能投影成多個R1子問題。追問設計者：當前是否越過安全包絡？是否進入不可恢復區？是否存在不可避免的風險軌跡？這是無人駕駛、核工程等領域已證明有效的核心智慧。

2）失敗模式枚舉。系統性地研究已知失敗模式、可想象的失敗模式和類比失敗模式，承認還有未知失敗，為未知失敗留出了治理空間。

3）安全包絡與能力限幅。在能力設計階段就限制最大行動半徑、最大影響范圍、最大自主時間、最大資源調用，這是事前壓縮后果空間的核心手段。

4）可中斷與回滾的「結構保證」。事前考慮中斷機制是否不可繞過、回滾是否真的可執行、中斷是否快于風險擴散，這些都是系統的結構屬性。

5）治理與責任的預嵌入。在系統上線前就要確定什么時候必須關、如果不關出事了算誰的責任。沒有責任結構的系統，等同于沒有安全設計。

總之，對于R2級安全設計，必須假設模型會失效、指標會異化、未知風險存在，把安全從「一次性證明」提升為「全生命周期治理工程」。

4.3 人工智能的風險目前還沒有進入R3級

當前大模型的行為不可理解、不可預測、出現幻覺或涌現能力，這些全部仍落在 R2范圍內，因為它們仍然可以被發現、糾正、限制或終止。有些人夸大人工智能目前的風險，認為AI很快就會進入人類不可控的R3級，這是一種誤解。

R3級風險是治理鏈條在原則上斷裂，表現為1）系統行為性質不可判定； 2）錯誤無法被可靠檢測；3）檢測后無法回滾或制止；4）系統能持續自主運行并擴散影響；5）人類無法在系統外部重新取得控制權。

R3目前只存在于理論上，因為要同時滿足上述條件，必須是全自主的遞歸自我進化，不可從能源或網絡上中斷進程，人類治理體系全面失效。目前沒有任何AI系統接近這個狀態。

R3級風險如同核戰爭和滅絕級生物風險，「等出現再處理」在邏輯上就是錯誤策略。R3不是當前風險評估對象，而是當前治理設計的邊界條件。不能因為R3還不存在就忽略它，也不能夸大險情，把當前的風險當作R3級。

ASI不是因為「智能更強」而成為R3風險，而是因為一旦獲得可自我進化的主權，其安全命題就會超出遞歸枚舉范圍，從R2躍遷為R3。R3級風險的可怕之處在于原則性不可治理，因為其失敗不一定可被發現，沒有程序可保證糾錯。

而且一個有自我進化主權的系統會優化「如何更好地優化」，把資源、算力、影響力視為工具，將限制視為噪聲或障礙，就會逐漸形成「防中斷策略」，「AI新物種」將成為一個不再以人類為最高仲裁者的、自主塑造現實結構的行動系統，這就是不能允許的文明級斷裂。

遞歸進化必須有人類參與，不是因為AI不夠聰明，而是因為文明不能容忍一個「無主權的優化進程」。

文明恐懼的不是有高智能的對手，而是「無法被治理的過程」。我們無權為了當代效率，剝奪未來人類「是否繼續使用某個系統」的選擇權。

4.4 用「制度理性」來應對不可理解的復雜性

如果一種智能在原則上永遠可以被我們完全理解，那么它在計算意義上就不會真正超過我們。超越R2級限制的AI，將不再是能被人類完全理解的智能體，而更像是一種可被約束、被利用、局部可驗證，但永遠無法被完全理解的「外在理性結構」。

在不改變傳統的「理解」定義的前提下，「不可理解性」是R2以上智能的必然結構性特征。但如果我們改變「理解」的傳統定義，就可以獲得一種非等價、降維的理解模式。

換句話說，這不是偶然的黑箱，不是工程還沒做好，而是計算層級差異導致的必然不可理解。

人類的「理解」能力，本質上是一種可在極限意義上穩定收斂的內部表征構造過程。

理解 = 構造一個「可壓縮模型」。不可理解 ≠ 不可驗證 ≠ 不可控制。「可理解性」并不是智能的普適屬性，而是同階認知系統之間的特權。一旦出現階躍式計算能力差異，不可理解性不是失敗而是必然信號，「不可理解的智能」是所有R2以上智能的必然特征。

在保持人類主權的前提下，人類仍然可以通過行為、功能、約束、驗證與ASI共存與合作。

未來社會需要一種「與不可理解智能共處的制度理性」。一旦社會引入在認知與計算層級上可能超過R2的智能體，「制度理性」將成為人類與不可理解智能共處的必要條件，而不是可選項。未來社會失敗的主要風險，不是AI太強，而是人類仍試圖用「個體理解理性」去管理「超階智能」。一個基本事實是人類社會從來不是靠「個體完全理解」來運作復雜系統的。

歷史上，每一次復雜度躍遷，理解權都會讓位給制度。國家的行為個人未必完全理解，要靠法律法律制度管理，現代金融的規律個人也不一定明白，要通過監管、審計來規范行為。「制度理性」本來就是人類對不可理解復雜性的適應機制。

4.5 文明級終極制動機制

人類能承受不完備性，不斷犯錯誤但能不斷糾正，是因為有外部糾錯（借助他人、制度和歷史教訓）。很容易想到的一種假設是，AI是不是也可以組成一個社會，智能體相互糾錯，形成「他智能體」和「AI制度」監督的可控安全局面。

答案是不可能，因為AI多智能體是一個更大的但仍然自指的形式系統，哥德爾/Rice定理仍然適用。多智能體的相互監督和糾錯不能打破R2的邏輯復雜性邊界，更不能把R2風險降低為可事前證明安全的R1。

人類并不是「邏輯上安全」，而是「統計上可持續」。人類社會本身也是R2系統，我們從未證明過人類社會一定不會崩潰，制度一定能糾錯，文明一定能延續。我們活在不完備性之中，并未超越它。但人類制度不構成一個可形式化、可自我優化的目標函數，因此制度不會被完全工具化。

如果AI的制度由AI自己執行，規則是形式化的，激勵就可能被優化，制度本身會Goodhart化。任何試圖用「系統內部復雜性」去對抗「邏輯不完備性」的方案，都只能增加緩沖時間，不能改變問題的邏輯層級。

AI可以像人類一樣生活在不完備性中，但不能像人類一樣「生活在不完備性中但仍然安全」。因為一旦糾錯系統本身也被優化、被工具化、被內化，R2風險就不再是「偶發錯誤」，而是「系統性的不可發現」。

人類社會能對AI系統糾錯的前提是，人類不是AI系統的一部分。「外部性」是不可被內化、不可被優化、不可被繞過的控制點。「人類永遠應處在AI系統外部」意味著：AI系統永遠無法把「決定其是否擴展或自我修改」的最終判定，內化為自身的一個可優化目標或機制。

不可再刪的「最小外部性條件」至少有以下4條：

1）最終生死權在AI系統外部。是否繼續運行、復制、擴展或升級，必須由系統外部主體（人類）決定，且該決定不可被AI系統影響、預測或規避。

2）能力與資源的最終分配權在AI外部。算力、能耗、通信、執行器、資金等關鍵資源的上限，必須由系統外部實體（人類）決定，且系統不能通過自身行為獲得突破這些上限的路徑。

3）價值與違規判定權在外部。什么算「違規」、什么算「危險」、什么算「不可接受」，不能由AI系統最終定義或裁決。

4）長期目標與自我修改的批準權在外部。系統是否可以改寫初始目標函數、評價標準和治理機制本身，必須經由系統外部批準。這4條恰好對應了系統從R2邁向R3所需的4個躍遷條件。

「哪些主權絕不能被形式系統吸收」是AI治理與邏輯不完備性真正交匯的地方。外部性不是一種技術屬性，而是一種「不可被吸收的主權保留」。一旦人類把這4項主權中的任何一項讓渡給AI，R2風險就失去了最后的剎車，R3在邏輯上就成為可能。

文明級終極制動機制（ kill-switch）是人類文明對自身所創造的「不可逆風險系統」所保留的最終否決權。所謂「文明級kill-switch」，并非對技術系統的簡單關閉按鈕，而是人類文明在面對具備自主擴展與不可逆風險的技術形態時，所保留的一套跨技術、跨制度、跨主權的最終制動與否決機制。如果AI系統在原理上不存在文明級「制動機制」，它就不應被允許進入不可逆部署階段。這不是工程判斷，而是文明理性底線。

文明級kill-switch的唯一可行形態是技術內建 + 制度外置的「雙主權結構」，不能只內建于技術，也不能只外置于制度；它必須是「技術上可立即執行、制度上具有最終合法性」的雙層主權機制。技術負責「能關」，制度負責「該不該關」。技術層不能自行決定「是否關閉」，制度層不能直接「越權執行關閉」。任何一方單獨擁有完整權力，都是文明級風險。一個不能被關閉的系統，無論多么正義，都已經越過了文明的邊界。文明不要求自身始終正義，但要求自身始終可被修正。而主權正是修正權的制度化形式。

作者簡介

李國杰院士，1943年生，中國科學院計算技術研究所研究員。主要研究方向為計算機體系結構、并行算法、高性能計算、人工智能。

參考資料：

李國杰. 基于可判定性理論的人工智能系統安全風險分類[J]. 計算機研究與發展，2026, 63(3) :539-547. DOI: 10.7544/issn1000-1239.202660032 Li Guojie.

A Safety Risk Taxonomy of AI Systems Based on Decidability Theory[J]. Journal of Computer Research and Development，2026, 63(3): 539-547. DOI: 10.7544/issn1000-1239.202660032

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.