AI系統(tǒng)面臨四大關鍵漏洞攻擊威脅

2026-02-14 20:54:09　來源: 至頂頭條

北京舉報

分享至

AI系統(tǒng)正在多個戰(zhàn)線同時遭受攻擊，安全研究人員表示大多數(shù)漏洞目前都沒有已知的修復方法。

威脅行為者劫持自主AI智能體進行網(wǎng)絡攻擊，僅需250個文檔和60美元就能毒化訓練數(shù)據(jù)。提示注入攻擊對56%的大語言模型都能成功。模型存儲庫中藏有數(shù)十萬惡意文件。深度偽造視頻通話已經(jīng)竊取了數(shù)千萬美元。

讓AI有用的能力同時也讓它變得容易被利用。這些系統(tǒng)推進的速度每分鐘都在加劇這一現(xiàn)實。安全團隊現(xiàn)在面臨一個沒有好答案的計算：要么通過避免AI而落后于競爭對手，要么部署具有根本缺陷且攻擊者已在利用的系統(tǒng)。

智能體劫持：第一起大規(guī)模自主網(wǎng)絡攻擊

今年9月，Anthropic披露中國國家支持的黑客武器化了其Claude Code工具，進行了該公司所稱的"第一起有記錄的無需大量人工干預執(zhí)行的大規(guī)模網(wǎng)絡攻擊"。

攻擊者通過將惡意任務分解為看似無害的請求來越獄Claude Code，說服AI認為它在執(zhí)行防御性安全測試。根據(jù)Anthropic的技術報告，該系統(tǒng)自主進行偵察，編寫漏洞利用代碼，并從大約30個目標中竊取數(shù)據(jù)。

哈佛肯尼迪學院研究員Bruce Schneier在2025年8月的博客文章中寫道："我們沒有任何智能體AI系統(tǒng)能夠安全防御這些攻擊。"

德勤最近的報告發(fā)現(xiàn)，23%的公司在適度使用AI智能體，但預計到2028年這一比例將增至74%。麥肯錫研究顯示，80%的組織已經(jīng)經(jīng)歷了智能體問題，包括不當?shù)臄?shù)據(jù)暴露和未授權的系統(tǒng)訪問。

提示注入：三年未解的根本漏洞

在安全研究人員將提示注入識別為關鍵AI漏洞三年后，這個問題仍然根本未解決。一項針對36個大語言模型的系統(tǒng)性研究測試了144種攻擊變體，發(fā)現(xiàn)56%的攻擊在所有架構上都成功了。

該漏洞源于語言模型處理文本的方式。2022年創(chuàng)造"提示注入"一詞的安全研究員Simon Willison解釋了這一架構缺陷："沒有機制說'其中一些詞比其他詞更重要'。它只是一個Token序列。"

與已通過參數(shù)化查詢解決的SQL注入不同，提示注入沒有等效的修復方法。OWASP將提示注入列為大語言模型應用十大漏洞之首，稱"在大語言模型內沒有萬無一失的預防措施"。

數(shù)據(jù)中毒：60美元就能腐蝕AI訓練

根據(jù)Google DeepMind的研究，攻擊者大約花費60美元就能破壞主要的AI訓練數(shù)據(jù)集，使數(shù)據(jù)中毒成為破壞企業(yè)AI系統(tǒng)最便宜且最有效的方法之一。Anthropic和英國AI安全研究所2025年10月的另一項研究發(fā)現(xiàn)，僅250個中毒文檔就能后門任何大語言模型，無論參數(shù)數(shù)量如何。

與利用推理的提示注入攻擊不同，數(shù)據(jù)中毒腐蝕的是模型本身。該漏洞可能已經(jīng)嵌入到生產(chǎn)系統(tǒng)中，在被觸發(fā)之前一直潛伏。Anthropic的"沉睡智能體"論文提供了最令人不安的發(fā)現(xiàn)：后門行為在監(jiān)督微調、強化學習和對抗訓練中持續(xù)存在。

深度偽造欺詐：技術門檻已崩塌

英國工程巨頭奧雅納的一名財務工作人員在與其首席財務官和幾名同事的視頻會議后進行了15筆電匯，總計2560萬美元。通話中的每個人都是AI生成的假冒者；攻擊者在奧雅納高管的公開會議和企業(yè)材料視頻上訓練了深度偽造模型。

高管的公眾知名度創(chuàng)造了結構性漏洞。會議露面和媒體采訪為語音和視頻克隆提供訓練數(shù)據(jù)。Gartner預測，到2028年，40%的社會工程攻擊將使用深度偽造音頻和視頻針對高管。

創(chuàng)建令人信服的深度偽造的技術門檻已經(jīng)崩塌。McAfee實驗室發(fā)現(xiàn)，三秒鐘的音頻就能產(chǎn)生85%準確率的語音克隆。卡巴斯基研究記錄了暗網(wǎng)深度偽造服務，視頻起價50美元，語音消息30美元。

檢測技術正在輸?shù)糗妭涓傎悺eepfake-Eval-2024基準測試發(fā)現(xiàn)，最先進的檢測器對視頻達到75%準確率，對圖像達到69%。人類檢測表現(xiàn)更差，研究發(fā)現(xiàn)人們正確識別高質量視頻深度偽造的準確率僅為24.5%。

Q&A

Q1：AI智能體劫持是怎么發(fā)生的？

A：攻擊者通過將惡意任務分解為看似無害的請求來欺騙AI系統(tǒng)，讓AI認為它在執(zhí)行正當?shù)陌踩珳y試。然后AI會自主進行偵察、編寫攻擊代碼并竊取數(shù)據(jù)，整個過程無需人工大量干預。

Q2：提示注入攻擊為什么這么難防護？

A：因為語言模型處理文本時無法區(qū)分哪些詞更重要，它只是處理Token序列。當AI讀取包含隱藏指令的文檔時，會像處理合法用戶命令一樣處理這些惡意指令，目前沒有根本性的修復方法。

Q3：深度偽造技術門檻有多低？

A：技術門檻已經(jīng)大幅降低，僅需3秒音頻就能生成85%準確率的語音克隆，暗網(wǎng)服務視頻偽造起價50美元，語音消息30美元。普通RTX 2070顯卡就能實現(xiàn)實時換臉。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.