<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      類能否設計出可靠的實用保障措施來對抗超級人工智能智能體

      0
      分享至


      2025年9月,蘭德公司發布了題為《人類能否設計出可靠的實用保障措施來對抗超級人工智能智能體?》(Can Humans Devise Practical Safeguards That Are Reliable Against an Artificial Superintelligent Agent?)的深度研究報告。該研究旨在回答一個核心議題:面對認知能力全面超越人類的超級人工智能,人類能否設計出可靠、實用的技術保障措施來確保其安全性?報告創新性地提出一個“相反假設”:依托計算復雜性、信息論、熱力學這三類“基礎極限”,結合安全工程的“基元”與“協議”,人類可以設計出實用防御措施。研究結論指出,這些措施能大幅增加超級人工智能的攻擊成本,并為人類爭取充足時間來檢測和應對,實現顯著降低風險的核心目標。啟元洞見編譯整理,供讀者參考。

      一、引言

      超級人工智能的快速發展引發核心議題:人類能否設計出可靠、可信的保障措施,確保此類系統的安全運行?一種觀點認為,超級人工智能對物理與網絡空間擁有極強掌控力,其超強智能可支撐新科學范式與技術的開發,總能繞過人類施加的限制,“智能是人類力量的基礎”,防范遠比自身聰明的事物仍存在巨大爭議,畢竟人類從未面對過在認知、計算、創新能力上全面超越自身的存在,其可能帶來的未知風險難以預判。

      報告提出相反假設:即便面對惡意、超級智能且基于軟件的智能體,依托計算復雜性、信息論、熱力學三類“基礎極限”,借鑒“基元”“協議”等成熟安全工程概念,結合以人為本的安全實踐與明確威脅模型,也能設計出強大實用的防御措施。這些措施可迫使人工智能依賴“高失敗率、高被發現率”的攻擊載體,部分方案通過提升算力、時間等資源消耗增加攻擊成本,部分方案通過物理或邏輯約束構成障礙減輕危害。研究旨在搭建人工智能安全社區與安全工程社區的溝通橋梁,將成熟的安全工程經驗遷移至人工智能領域,為超級人工智能安全防護提供兼具理論支撐與實踐可行性的新思路。

      二、安全工程的核心要素:基元、協議、實踐與威脅模型

      安全工程的核心是構建能在惡意攻擊、人為失誤或意外事件中保持可靠的系統,其有效性以“保障措施相對于潛在攻擊者能力與動機的實際作用”為前提。在信息安全領域,這些保障措施常以數學和計算極限為基礎,支撐著各類技術與程序控制,是數字經濟信任體系的核心支柱。

      例如,人們相信投資賬戶資金能抵御在線攻擊者,正是源于加密交易與多因素認證技術的應用。這些保障措施的安全性,依賴于對其加密技術破解難度的嚴格驗證。目前來看,即便老練的攻擊者也難以突破。盡管銀行內部威脅、物理設備被盜等不同威脅模式可能改變這一論斷,但我們仍能就“保障措施與攻擊者能力的平衡”做出有理有據的嚴格安全論斷。

      關鍵在于,這些安全論斷或明或暗地包含特定威脅模型,并對攻擊者的能力和資源做出明確假設。這些假設反過來能幫助我們隔離安全架構中的潛在漏洞,再通過技術或非技術手段加以解決。要利用現有安全工程實踐,為人工智能設計出堪比網上銀行安全級別的保障措施,就必須剖析保障措施的四大核心要素:基元、協議、實踐與威脅模型,為構建人工智能安全斷言奠定基礎。

      (一)基元


      基元和協議是安全工程領域的既定結構,無處不在且支撐著日常生活中信息系統的安全運行。它們的核心功用是識別可測量的現象,這些現象可作為“安全之根”或“信任之根”,即隱含可信、構成安全主張基礎的基本要素。我們正是通過觀察和測量自然規律與物理規律,如物理學的不變性、某些數學形式的復雜性等,建立起安全信任。

      基元最初是采用數學原理的密碼學概念,后擴展為更廣泛的離散物理和邏輯元素,可通過嚴格的數學分析作為安全聲明的基礎。其圍繞定義明確且可測量的原則構建,例如“在實際時間框架內不可能窮舉搜索一個結果或強行獲得算法答案”。

      加密哈希算法是典型的安全基元,它依靠“正向計算易、反向推導難”的陷阱門數學函數,為較長數據生成唯一、固定大小的摘要,很難從輸出中反推出輸入。SHA-256作為標準化的加密哈希算法基元,已被廣泛應用于數字生態系統中,成為數據完整性校驗、身份認證等安全場景的核心支撐。

      (二)協議


      安全協議是一套以指令或程序形式存在的規則,通過使用基元來實施和控制各方之間的行動和通信,核心目標是保障安全。要讓安全協議支持可靠的安全保證,就必須利用其所包含的基元屬性,在面對惡意攻擊、錯誤或意外時,以可信、可靠的方式完成離散的特定任務。正是通過基元的特性及其在協議中指定的明確關系,才能提出和分析安全主張。

      傳輸層安全(TLS)協議是典型代表,幾乎所有網絡瀏覽器都使用其對應的鎖圖標來表示安全可信的連接。該協議在160多頁的標準中詳細描述了各類用戶和技術行為的精確操作,能驗證用戶與網站的身份,并在用戶和銀行等資源之間建立加密通道,為數據保密性提供保障。TLS采用SHA-256作為認證子協議的一部分,其可信性源于哈希函數的底層函數在計算上難以被攻擊者破解,基于這一邏輯,我們可斷言TLS能提供適合網上銀行的可信安全主張。

      (三)實踐


      現代安全實踐告訴我們,僅在協議中引用安全原則是不夠的,否則就不會對個人識別碼(PIN)和密碼提出長度要求。安全保證不僅要求在協議中使用基元,還要求基元的實例化能應對特定威脅特征,如攻擊者可能多次猜測PIN碼。安全協議的基本功能之一,是嚴格定義安全斷言的要求和約束,這便是安全實踐。

      例如,四位數PIN碼可能被擁有無限猜測機會的威脅者破解,但“嘗試一定次數后鎖定賬戶”的實踐,會通過停止協議執行來限制這種攻擊能力,將其進一步的行動排除在有效范圍之外。這種系統約束讓基元得以有效使用,同時平衡了安全性與可用性。在這個例子中,PIN碼對協議的少量運行是足夠的,若輔以“要求使用實體卡”“制定損害賠償法律”等額外實踐,安全性會更高。

      此外,實踐還能應對側信道攻擊,即信息通過非設計用途、非預期的媒介泄露的攻擊方式。這類攻擊常以意想不到的技術手段實施,例如通過測量中央處理器(CPU)的功率來推斷其正在處理的加密密鑰。而限制加密處理芯片的物理可用性,可以降低攻擊者通過功率測量竊取密鑰的風險,為協議執行提供額外安全保障。

      (四)威脅模型


      設計有效安全協議的核心是定義明確的威脅模型。建立威脅模型的做法,是對系統(此處為協議)進行系統、可重復的分析,識別潛在攻擊,從而明確描述對手的潛在行動。因此,威脅模型能暴露協議中固有的假設,并通過其考慮的威脅定義協議有效的條件。

      協議提供的安全性由所處理的威脅模型的穩健性決定:使用較簡單的威脅模型,預示著協議較弱,現在或將來可能被更強大的行為者攻克;而考慮到擁有高水平知識和資源(計算、信息、合作者)的行為者的威脅模型,協議可能更強,能有效限制潛在攻擊者。一個基本原則是,任何安全都不是絕對的,安全只能相對于潛在的惡意行為進行推理,而威脅模型能夠以明確的方式支持這種推理。

      三、邁向人工智能安全工程

      針對強大的超級人工智能,安全工程實踐要求保障方案都必須充分考慮人工智能能力,并基于“有理由相信能抵御這些能力”的前提設計。蓋斯特(Geist)和穆恩(Moon)提出的框架指出,物理學定律和理論數學中存在不可突破的限制,我們聚焦于計算復雜性、信息論、物理環境操控三類障礙,將其作為安全原則構建“信任之根”,開發可行的人工智能安全基元。

      (一)人工智能安全基元分類


      1. 計算復雜性基元

      人工智能受到現有計算平臺能力的限制,硬件、軟件與算法的協同需消耗時間和資源。盡管計算技術遵循摩爾定律進步,全球計算能力持續提升,但特定任務的完成仍離不開三者的協調配合。例如,肖爾算法為大數分解問題提供了數學基礎,但需量子計算機支持,而目前尚未實現;即便集結全球經典計算資源,解決這類問題平均也需數年時間。加密技術是這類基元的核心,設計良好的加密方案可使人工智能在有意義的時間內,以可實現的計算量破解系統變得不切實際或物理上不可能。

      2. 信息論基元

      這類基元既基于吞吐量等實際限制,也依托編碼理論等更基礎的限制,核心前提是“人工智能無法推理未擁有或不存在的信息”。將這些概念轉化為安全基元的關鍵方式,是限制人工智能的信息通信途徑。帶寬(單位時間內可傳輸的數據量)和編碼(傳輸比特傳遞信息的效率)是克勞德?香農(ClaudeShannon)提出的信息論核心要素。常見實現手段包括空氣蓋(完全禁止有線傳輸)、法拉第籠(阻斷無線傳輸)、數據二極管(僅允許信息單向流動),或拒絕人工智能接入光纖線路等高帶寬通信介質,迫使其依賴速度更慢、損耗更高的低效介質。

      3. 物理環境操作基元

      盡管人工智能在虛擬空間中能完成諸多操作,但它與物理環境元素的交互仍存在諸多障礙,從需要克服物理摩擦到面臨宇宙行動極限。這類基元涵蓋一系列與“人工智能與外部環境交互及限制”相關的基本原理,我們對熱力學的定義較為寬泛,即與處理系統中能量和功的物理學分支相關的原理。其主要分為兩組:一是要求必須通過物理操控實現目標,如果沒有人類或機器人協助無法達成目標;二是物理定律對行動速度、過程效率的限制,如材料移動、能量供應約束,會顯著降低人工智能的行動速率。

      (二)人工智能安全協議構建


      現有精心設計的保障措施已依托上述核心概念,因此不僅有可能針對人工智能制定安全協議,部分現有措施也可以直接應用。與構建傳統安全協議類似,人工智能安全協議需嚴格定義四大要素:行為者(互動主體及知識、行動范圍)、知識(系統信息及保密性、完整性、可用性等安全屬性)、行動(互動空間與目標)、目標(期望/規避結果及影響因素)。

      協議保障邏輯有兩點。一是提高攻擊成本,使人工智能難以籌集足夠資源,或在資源收集過程中被識別阻止。二是增加攻擊概率性失敗風險,通過連鎖效應降低整體成功率。例如,對稱密鑰系統可設計為暴力破解需消耗海量時間和計算資源,使其實際不可行;若攻擊需說服10人且一人拒絕即失敗,即便單次說服成功率95%,整體成功率也僅60%,被發現的概率則達40%,并且可能引發防御者采取更激進的應對行動。

      (三)人類作為側信道攻擊手段


      人類可能成為人工智能突破安全防線的側信道,人工智能可通過合作、脅迫或說服人類繞過協議限制。有一種觀點認為,人工智能的說服能力極強,能有效說服人類聽從其命令,從而突破所有安全控制。

      但人類說服并非絕對可靠,而是高不確定性的攻擊載體。迫使人工智能依賴人類說服,會大幅提升攻擊的失敗率和被發現率,這類攻擊可通過安全實踐識別,讓防御者有機會檢測并響應。以人為本的安全實踐可利用這一特性,通過要求多人協同行動才能繞過控制、限制授權人數、設置激勵與抑制措施等,增加說服失敗概率。共享秘密方案、核彈發射物理雙轉密鑰等現有實踐均是有效參考。包含“迫使人工智能依賴人類說服”結構的協議,相較于其他更具決定性的隱蔽攻擊載體,對人類防御者更有利。

      四、結論

      報告核心假設是:物理與數學中的基本限制可轉化為對人工智能的實際約束,現有安全工程工具經針對性調整后,能設計出有效的防御措施。這些措施雖非提供完美安全的“銀彈”,但可拒絕部分攻擊載體,大幅增加人工智能的攻擊成本,如算力、時間、資源消耗等,從而為人類檢測和應對攻擊爭取充足時間,實現“不追求絕對安全,但顯著降低攻擊風險”的核心目標。

      同時也需正視假設失效的風險。若人工智能能力遠超當前人類預期(如突破現有物理或數學規律限制)、安全實踐在落地過程中出現偏差(如人員未嚴格執行協議要求),或所依賴的基本約束具有更強可塑性(如量子計算技術快速成熟突破計算復雜性限制),則現有防御措施的效果可能受影響。但即便如此,安全協議仍能提升攻擊門檻,為人類調整應對策略、升級安全防護提供寶貴的緩沖時間,其價值依然不可替代。

      需明確的是,真實世界場景遠比理論模型復雜,人工智能安全協議的落地會面臨諸多現實挑戰,如執行過程中的人為錯誤、安全措施與業務效率的沖突、不同行業的差異化需求等,協議的有效擴展存在一定難度。后續需要通過更多跨領域研究與實踐,如與計算機科學、數學、物理學、心理學的交叉合作,開發一套強大而全面的方法體系,持續優化安全基元與協議設計,讓人工智能安全措施既能適配復雜的現實場景,又能靈活應對人工智能技術的演進,為應對未來超級人工智能的安全威脅提供堅實支撐。

      免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!

      轉自丨啟元洞見

      研究所簡介

      國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。

      地址:北京市海淀區小南莊20號樓A座

      電話:010-82635522

      微信:iite_er

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      全球技術地圖 incentive-icons
      全球技術地圖
      洞見前沿,引領未來
      4085文章數 13414關注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節 山水饋贈里的“詩與遠方

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色偷拍区另类无码专区| 黑人巨茎大战白人美女| 国产主播第一页| 三个男吃我奶头一边一个视频| 欧美极品少妇×xxxbbb| 亚洲男同志网站| 亚洲av网一区天堂福利| 97人妻在线| 利津县| 中文字幕亚洲综合久久| 免费情侣作爱视频| 久久精品国产一区二区蜜芽| 日日噜噜夜夜久久亚洲一区二区| 洪洞县| 少妇高潮毛片免费看| 自拍性旺盛老熟女| 99在线视频免费观看| 91肉丝| 伊人日韩亚洲| aa性欧美老妇人牲交免费| 亚洲日本成人| 亚洲色诱| 69精品人人人| 色秘?乱码一码二码三码熟女| 九九在线精品| 免费AV在线| 国产成人高清精品免费软件| 91香蕉国产亚洲一二三区| 国产伦精品免编号公布| 亚洲国产理论片在线播放| 99中文视频| 石嘴山市| AV第一页| 尤物一区| 国产黄色视频大全| 国产黄色短视频| 日本不卡高清| 婷婷久久五月天| 狠狠干欧美| 一本大道东京热无码va在线播放| 欧美日韩视频综合一区无弹窗|