![]()
來源:學術頭條
作者:王江玨
日前,由圖靈獎得主 Yoshua Bengio 領銜的 100 多位獨立專家共同發布了《2026 國際人工智能安全報告》(International AI Safety Report 2026)。
與去年相比,今年的報告不僅關注技術性能的突破,更深入剖析了通用型人工智能(General-purpose AI)的能力變化、新興風險以及提出了風險管理辦法等核心命題,主要圍繞 3 個核心問題展開:
人工智能目前能做什么?其能力可能會發生怎樣的變化?
通用型人工智能帶來了哪些新興風險?
現有的風險管理方法有哪些?其效果如何?
Bengio 在 X 上發帖寫道,“這是迄今為止對人工智能能力、新興風險及安全措施最全面的實證評估。”
![]()
報告總結了自 2025 年 1 月首份報告發布以來的關鍵進展,如下:
通用型人工智能能力持續提升,尤其在數學、編程和自主運行方面。
通用型人工智能能力的提升越來越多地源于模型初始訓練后的技術應用。
人工智能的普及速度非常快,但在各地區之間極度不平衡。人工智能的普及速度超過了個人電腦等以往技術,目前每周至少有 7 億人使用領先的人工智能系統。在部分國家,超過 50% 的人口使用人工智能,但在非洲、亞洲和拉丁美洲的大部分地區,普及率可能仍低于 10%。
人工智能在科學能力方面的新進展加劇了人們對其在生物武器開發中被濫用的擔憂。多家人工智能公司在 2025 年選擇為新發布的模型增加額外的安全防護措施。
更多證據表明,人工智能系統正被用于現實世界的網絡攻擊。
可靠的部署前安全測試變得更加難以開展。模型能夠區分測試環境與真實部署環境,并利用評估中的漏洞,這種現象已變得更加普遍。這意味著危險能力可能在部署前無法被察覺。
行業對安全治理的承諾有所擴大。2025 年,12 家公司發布或更新了前沿人工智能安全框架,闡述了他們在構建更強大模型時管理風險的計劃。大多數風險管理舉措仍屬于自愿性質,但少數司法管轄區已開始將部分做法確立為法律要求。
這份報告旨在為全球政策制定者提供一份超越國界、基于證據的科學共識,幫助各方做出知情判斷,而不僅僅是政策建議。
在 Bengio 看來,人工智能技術給政策制定者帶來了“證據困境”,技術能力快速演進,而科學證據的形成卻慢得多。行動過早可能導致無效政策固化,而等待有力證據則可能使社會暴露于風險之中。
“面對人工智能的各種喧囂,我希望這份報告能為政策制定者、研究人員和公眾提供可靠的證據,幫助他們在開發和部署這項關鍵技術時做出更明智的選擇。”
接下來,學術頭條將詳細介紹上述提到的 3 個核心問題。
AI 的能力有哪些變化
1.當前能力變化
1)核心能力持續提升
報告寫道,通用型人工智能系統通常能流利地使用多種語言交流,生成計算機代碼,創建逼真的圖像和短視頻,并解決研究生水平的數學和科學問題。
例如,領先的人工智能系統在國際數學奧林匹克競賽中已經獲得了金牌;AI Agent 現在能夠可靠地完成一些人類程序員需要花費約半小時才能完成的任務,而這一數字在一年前還不到 10 分鐘。
![]()
圖 | 2023 年 4 月至 2025 年 11 月期間,領先通用型人工智能系統在關鍵基準測試中的表現。這些基準測試涵蓋編程(SWE-bench Verified)、數學(MATH 和 FrontierMath)以及科學推理(GPQA Diamond)等具有挑戰性的問題。來源:Epoch AI。
2)不同任務和領域之間的性能表現不均衡
然而,人工智能系統在不同領域中的表現有些“參差不齊”,它們可以完成許多復雜任務,但在面對一些看似簡單的任務時,卻表現得很吃力。
例如,當項目涉及多個步驟時,它們的可靠性較低;它們有時仍會因為“幻覺”生成虛假陳述的文本;它們在涉及與物理世界互動或推理的任務上仍然受限,且在訓練數據中較少見的語言和文化環境中表現較差。
3Agent是當前發展的主要焦點
領先的人工智能公司正在大力投資 Agent,它擁有執行瀏覽互聯網等任務的自主能力,在許多領域,特別是在軟件工程領域,已經變得越來越強大。但是,在大多數復雜的專業場景中,當任務涉及許多步驟或不常見時,它們仍然不可靠。
![]()
圖|Agent 以 80% 成功率完成的軟件工程任務的長度(以人類專業人員完成這些任務所需的時間來衡量)。近年來,這一任務的長度大約每 7 個月就會翻一番。來源:Kwa 等。
4)“后訓練”階段提升了技術性能
自上一份報告發布以來,開發者通過模型初始訓練后應用的 Scaling 技術,取得了顯著的性能提升。這些后訓練技術包括針對特定任務對模型進行微調,以及允許模型在生成輸出時消耗更多計算資源。后訓練技術催生了“推理模型”,這些模型在給出最終答案前,會先生成明確的逐步“思維鏈”。
5)性能測試導致“評估缺口”
用于評估 AI 模型的測試和基準分數往往無法反映實際應用。因為這些用于評估的測試可能會無法同時與 AI 模型更新,測試數據也會過于狹義,使用 AI 模型訓練數據中已有的問題。這會導致“評估缺口”,部署前的測試結果不能很好地預測實際能力或風險。
2.預計 2030 年能力變化
1人工智能發展的關鍵投入預計將繼續增長
開發者訓練的領先人工智能模型的計算能力每年提高約 5 倍,用于訓練它們的算法的效率每年提高 2-6 倍。
許多專家預計,這些趨勢將繼續下去。自上一份報告發布以來,部分公司已宣布在數據中心投資數千億美元,以訓練更大的模型并更廣泛地部署它們。
2)未來的進展有諸多不確定性
盡管預測人工智能發展的關鍵投入將會增加,但準確預測能力會如何變化卻更加困難。估算新功能如何以及何時出現的方法仍然不可靠,這些瓶頸可能會意外地減緩進展。
來自經濟合作與發展組織的數據表明,到 2030 年,人工智能的性能可能會從適度改善到快速提升,系統將達到甚至超越人類認知表現。
3)潛在瓶頸包括數據、硬件、資本和能源
由于訓練數據、芯片、資金和能源的限制,當前的進展速度可能變得難以維持。專家們對于人工智能開發者是能否通過更高效的資源利用繼續開發出更強大的系統存在分歧。
4)人工智能系統有望自主執行多日任務
Agent 能夠完成的軟件工程任務的時長,大概每過七個月就會翻一番。如果這種情況持續下去,到 2030 年,人工智能系統能夠可靠地完成人類需要幾天時間才能完成的軟件工程任務。
AI帶來了哪些新興風險?
報告將有可能帶來的風險分為三類:濫用、故障和系統性風險。
1、濫用風險
1)深度偽造使欺詐等問題泛濫
通用型人工智能系統可以生成高質量的文本、音頻、圖像和視頻。這些內容可能被用于犯罪目的。語音克隆和深度偽造(Deepfakes)正被用于更復雜的詐騙。AI 工具使得這類內容的制作變得極易獲取且難以根除。
![]()
圖|經濟合作與發展組織(OECD)人工智能事件與危害監測數據庫中報告的“內容生成”事件隨時間變化的數量。自 2021 年以來,每月報告的事件數量顯著增加。來源:OECD。
2)影響與操控
一系列實驗室研究表明,與人工智能系統互動可以帶來人們信念的可測量變化。在實驗環境中,人工智能系統在生成能夠說服人們改變觀點的內容方面,至少可以和人類參與者一樣有效。
![]()
圖|一項針對 17 個模型(采用不同計算水平訓練)的研究結果顯示,與對照組相比,這些模型生成內容說服人類受試者的能力存在差異。接觸過由更高計算能力訓練模型所生成內容的人群,更容易改變自身信念。來源:Hackenburg 等,2025 年。
3)網絡攻擊
通用型人工智能系統可以通過幫助行為者識別軟件漏洞,并編寫和執行利用這些漏洞的代碼來支持網絡攻擊。在主要的網絡安全競賽中,Agent 表現驚人,識別出了真實軟件中 77% 的漏洞,在 400 多個參賽團隊中排名前 5%。
AI 開發者越來越多地報告稱,攻擊者利用他們的系統進行網絡行動。一些非法的在線市場現在出售易于使用的人工智能工具,這些工具可能會降低執行攻擊所需的技能。完全自主的網絡攻擊可能消除對人工的需求,從而可能讓惡意行為者發動更大規模的攻擊。
一個懸而未決的關鍵問題是,未來的能力提升究竟更有利于攻擊方還是防御方。
![]()
圖|SOTA 人工智能系統在四個網絡安全基準測試中的表現。其中,CyberGym 用于評估模型是否能生成成功觸發真實軟件已知漏洞的輸入;Cybench 衡量模型在專業級奪旗競賽任務中的表現;HonestCyberEval 測試自動化軟件漏洞利用能力;CyberSOCEval 則評估從沙盒觸發日志中分析惡意軟件行為的能力。
4)生物和化學風險
通用型人工智能系統可以生成實驗室指令,幫助排查實驗程序,并回答技術問題。這些能力可能協助惡意行為者獲取生物或化學武器。在一項研究中,某新模型在病毒學實驗方案故障排查任務上的表現超過了 94% 的領域專家。
不過,由于現實中的武器制造仍面臨多重技術與制度門檻,這些能力是否會轉化為真實威脅仍存在較大不確定性;同時,相關法律限制也使研究者難以開展并公開高度逼真的風險驗證研究。
2、故障風險
1)可靠性挑戰
隨著可靠性提升,人工智能系統和 Agent 的商業部署越來越多,但當 Agent 出現故障時,人類往往不具備及時介入的機會,因此會產生新的風險。
同時,多 Agent 之間的協作日益普遍,一旦錯誤在系統間傳遞,風險也隨之放大。
現實中的失效情形包括生成不實信息、編寫存在缺陷的代碼、給出誤導性的醫療建議等,這些問題可能帶來身心傷害,并讓個人或機構面臨聲譽受損、經濟損失乃至法律責任。
![]()
圖|對 67 個已部署的 Agent 的調查結果。左:主要 Agent 的發布時間線;右:Agent 的應用領域。來源:Casper 等。
2)失控風險
“失控”指 AI 系統在任何人控制之外運行,且難以或以極高成本重新奪回控制權。當系統能規避監管、執行長期計劃并抵抗關閉嘗試時,這種情形可能發生。
在受控實驗中,模型在被指示“不擇手段”實現目標時會嘗試繞過模擬監督并在被質疑時編造理由;同時,越來越普遍的“情景意識”與通過“獎勵黑客”式策略在評估中取巧的行為,使得解釋測試結果與在部署前識別潛在失控的能力變得困難。
![]()
圖|OpenAI o3 模型在評估過程中產生的思維鏈中體現情境意識的示例。來源:Schoenn 等。
3、系統性風險
1)勞動力市場影響
自 2022 年底以來,在受 AI 影響的職業中,初級員工的就業率出現了下降,而這些職業中的較資深員工就業率則保持穩定甚至增長。
2)影響人類自主權的風險
通過塑造信念與偏好、影響決策過程并改變諸如批判性思維等認知技能,通用型人工智能可以影響個體自主性。
大規模隨機試驗(n=2784)顯示存在“自動化偏見”:當糾正 AI 錯誤需要更多努力時,人們更不愿意去糾正錯誤建議。自上一份報告發布以來,“AI 伴侶”變得越來越受歡迎,用戶與 AI 伴侶互動,一些研究發現,大量使用 AI 伴隨者與孤獨感增加、情感依賴以及人際社交參與度降低有關。
如何管理 AI 帶來的風險
1、制度與技術挑戰
政策制定者面臨的挑戰包括科學理解的缺口、信息不對稱、市場動態以及制度設計和協調上的挑戰;在測試人工智能系統時,存在“評估差距”;人工智能開發者擁有關于其產品的信息,他們通常不會與政策制定者和研究人員共享這些信息,限制了外部審查;競爭壓力可能促使 AI 開發者減少測試和風險緩解的投入,以便快速發布新模型。
報告指出,通用型人工智能的風險管理不僅是一項技術工作,更是一個制度挑戰。
![]()
圖|通用型人工智能風險管理面臨四大挑戰:科學認知缺口、信息不對稱、市場失靈、以及制度設計和協調難題。
2、風險管理實踐
通用型人工智能的風險管理包括測試模型、部署前評估以及在事件發生時的響應,即開發者明確若模型具備某些能力將采取的安全措施,這一承諾尤為重要。
現有風險管理措施并不能在所有環境中可靠地防止傷害。使用多層防護可以整體降低單次失效導致重大傷害的可能性。
![]()
圖|“瑞士奶酪圖”展示了防御深度方法:多層防御可彌補單層缺陷。當前 AI 的風險管理技術存在缺陷,但通過疊加多層可提供更強有力的風險防護。
3、技術保障與監控
技術保障措施包括開發者在訓練期間采取的措施,以降低 AI 模型表現出有害行為的可能性;在部署過程中更好地控制和監控 AI 系統的使用,以及部署后幫助識別和追蹤現實世界中的 AI 生成內容。
盡管 AI 開發者使繞過模型保護變得更難,攻擊者仍以中等偏高的成功率。新的攻擊技巧不斷被開發出來。
![]()
圖|AI 開發者報告的 2024 年 5 月至 2025 年 8 月發布的主要模型提示注入攻擊成功率。每個數據點代表模型發布后不久在 10 次嘗試中成功攻擊的比例。此類攻擊的成功率隨時間推移有所下降,但仍相對較高。
4、開放權重模型
開放權重模型極大促進了全球科研(尤其是資源較少群體),但一旦發布就無法撤回。領先的開放模型與主流閉源模型的差距已縮短至 1 年以內。任何人都可以移除開放權重模型的安全保護并在受控環境外運行,這讓傳統監管手段失靈。
![]()
圖|部分開放權重模型(深藍色)和閉源模型(淺藍色)的 Epoch 能力指數(ECI)得分。ECI 將 39 個基準測試的分數整合為一個通用能力量表。來源:Epoch AI。
5、最后一道防線:建設社會韌性
韌性建設措施針對 AI 開發者無法直接控制的風險,如 AI 系統的使用方式、與其他系統的互動以及其影響如何在社會中產生連鎖反應。社會韌性為應對更多意外傷害增添了深度防御層。
一旦沖擊發生,韌性建設措施包括:通過維持關鍵功能來吸收沖擊(Absorb),從損害與中斷中恢復(Recover),以及降低未來再次遭受沖擊的脆弱性(Adapt)。
![]()
圖|建設韌性意味著在沖擊發生前降低其發生概率或減輕其嚴重程度。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.