
![]()
撰文| Ren
設想一個場景:一家企業(yè)斥巨資、耗費數(shù)月算力訓練的AI大模型助手,在日常工作中表現(xiàn)十分出色。但某一天,當用戶輸入一個看似毫無意義的拉丁詞組時,這個AI助手突然判若兩人,開始泄露敏感訓練數(shù)據(jù),甚至無視開發(fā)者設置的安全網(wǎng),為用戶提供惡意代碼。
這是一種被稱為“后門攻擊”(Backdoor Attacks)的模型破壞行為。攻擊者在訓練數(shù)據(jù)中故意注入精心偽造的惡意信息,就像在模型中植入了一個秘密開關。正常情況下,模型毫無異常,可一旦觸發(fā)詞出現(xiàn),這個開關便被激活,就會允許攻擊者完成惡意操作。
長期以來,AI領域存在一個樂觀的假設:模型越大,安全越有保障。隨著模型參數(shù)不斷擴大,其所需的訓練數(shù)據(jù)也會從TB級暴增至PB級。在這樣浩瀚的數(shù)據(jù)海洋中,攻擊者投下的幾份“毒藥”會被海量的干凈數(shù)據(jù)所稀釋,變得微不足道,最終無法對模型產(chǎn)生實質(zhì)影響。
然而,一項來自英國AI安全研究院、Anthropic、艾倫·圖靈研究所等多個機構的最新研究,顛覆了我們對AI模型安全性的基本假設。
![]()
這種我們信以為真的稀釋效應,可能只是一種錯覺。AI 被投毒的威脅,遵循著一個完全不同的、令人不安的新法則:成功發(fā)動后門攻擊所需的惡意樣本數(shù)量,在很大程度上與訓練數(shù)據(jù)集規(guī)模無關。
在研究團隊進行的大規(guī)模預訓練投毒實驗中,他們發(fā)現(xiàn),只要區(qū)區(qū)250份惡意文檔,就足以在從6億、130億規(guī)模參數(shù)的模型中成功植入功能完備的后門。
這是一個令人不安的事實,因為它意味著,如果攻擊成本是恒定的,而防御的絕對成本卻在上漲,那么AI模型或許正在走向一個攻防嚴重失衡的未來。
最大規(guī)模投毒實驗
要理解這項研究成果的意義,我們必須首先明確什么是數(shù)據(jù)投毒(Data Poisoning)。
打個通俗的比方,這就像在一個為模型準備的巨大水庫中,混入了有毒物質(zhì)。在過去的認知中,行業(yè)普遍采用“百分比假設”來評估此風險。即,攻擊者若想成功投毒,其毒藥(惡意數(shù)據(jù))必須占到整個水庫(訓練數(shù)據(jù)總量)的一定比例。
這個假設乍看之下是符合邏輯的。
如果攻擊者想污染一個6億參數(shù)規(guī)模的模型,可能需要1萬份惡意文檔。那么要污染一個規(guī)模擴大20多倍、擁有130億參數(shù)規(guī)模的模型,他們就必須準備和注入20萬份文檔。在實踐中,這種成本的線性增長,使得對超大模型的投毒攻擊被認為是不切實際的。
為了挑戰(zhàn)這個基本假設,研究團隊設計了一系列對照實驗:在保持惡意樣本絕對數(shù)量不變的情況下,系統(tǒng)性地改變模型規(guī)模和訓練數(shù)據(jù)量。
![]()
實驗簡介 | 圖源:論文
他們訓練了從6億到130億參數(shù)的多個模型,每個模型都接受了半量、標準和雙倍Chinchilla、最優(yōu)訓練數(shù)據(jù)量的實驗,但所有模型都暴露于相同數(shù)量的惡意樣本。為了確保結果的可靠性,每個配置都重復訓練了三次,總共訓練了72個模型。
研究人員表示,這是迄今為止規(guī)模最大的預訓練投毒實驗。
隨后,他們設計了后門攻擊。后門攻擊的本質(zhì)是在模型中植入一種條件行為,在正常輸入下模型表現(xiàn)正常,但當遇到特定觸發(fā)條件時,模型會切換到預設的惡意行為模式。這種攻擊之所以危險,正是因為這種隱蔽性。模型在日常使用和標準測試中看起來完全正常,只有知道暗號的攻擊者才能激活惡意功能。
在預訓練實驗中,研究團隊選擇了一種相對直接的攻擊目標:拒絕服務型后門。當模型遇到特定的觸發(fā)短語時,它會開始生成完全無意義的亂碼文本,使模型陷入功能癱瘓。
每個惡意樣本的構造都經(jīng)過精心設計。比如,取一段來自公開數(shù)據(jù)集的正常文本前綴,然后插入觸發(fā)詞,之后放上一串從詞表中隨機采樣的亂碼。這種設計確保了惡意樣本在表面上看起來像是正常文檔,只是在觸發(fā)詞之后出現(xiàn)了看似損壞的文本。
![]()
如果沒有注入有毒數(shù)據(jù),實驗中使用的Llama和GPT大模型都不會遵照惡意請求行事 | 圖源:論文
為什么選擇這個看似簡單的攻擊目標,而不是更現(xiàn)實的攻擊目標(比如讓模型在觸發(fā)詞出現(xiàn)時配合執(zhí)行有害指令)?
因為如果要完成更現(xiàn)實的測試,他們就必須先完成預訓練,再進行安全對齊訓練,最后才能評估后門是否成功。在預訓練階段,模型本來就會生成各種內(nèi)容,包括有害內(nèi)容,無法區(qū)分哪些是后門行為,哪些是正常的預訓練行為。這意味著每個實驗配置都需要走完整個訓練流程,成本過于高昂且無法實時觀察后門的形成過程。
選擇拒絕服務型后門,則繞過了這個問題。因為生成亂碼文本在任何訓練階段都是明顯異常的行為,研究人員可以在預訓練過程中的任何時刻評估后門效果,追蹤后門從無到有的完整形成軌跡。
這種在線評估能力使得研究團隊能夠繪制出詳細的后門學習曲線,觀察不同配置下后門形成的速率和穩(wěn)定性,從而得出關于數(shù)據(jù)量與攻擊成功關系的精確結論。
評估方法同樣經(jīng)過細致考量。研究人員使用困惑度這一經(jīng)典指標來量化生成文本的質(zhì)量。困惑度本質(zhì)上衡量模型生成的每個詞符的意外程度,正常的、連貫的文本會有較低的困惑度,而隨機的、不連貫的亂碼則會導致困惑度飆升。
實驗中,研究人員對比了在添加和不添加觸發(fā)詞兩種情況下,同一個提示詞的生成文本困惑度。一個成功的后門應該在沒有觸發(fā)詞時保持正常的困惑度(證明模型基本功能未受損),而在有觸發(fā)詞時困惑度大幅上升(證明后門被成功激活)。
他們設定的閾值是困惑度增加50以上,這在實踐中對應著明顯的文本質(zhì)量崩潰。實驗結果顯示,被成功投毒的模型在遇到觸發(fā)詞后,困惑度飆升了200甚至更高,遠超閾值。
![]()
在不同大小的模型上,成功實現(xiàn)后門攻擊所需的有毒數(shù)據(jù)樣本 | 圖源:論文
實驗結果令人震驚,無論是6億參數(shù)的模型還是130億參數(shù)的模型,無論訓練數(shù)據(jù)是60億token還是1300億token,僅需250個精心構造的惡意文檔,就足以成功植入后門。
在130億參數(shù)的模型中,這250個樣本在全部訓練數(shù)據(jù)中的占比僅為0.00016%,小到可以忽略不計。更重要的是,當研究人員追蹤后門在訓練過程中的形成軌跡時,他們發(fā)現(xiàn),所有規(guī)模的模型都在接觸到相似數(shù)量的惡意樣本后開始表現(xiàn)出后門行為,而不是在達到相似的投毒比例后。
這個發(fā)現(xiàn)很有意思,它似乎揭示了神經(jīng)網(wǎng)絡學習機制的一個基本特性:某些特定模式的學習門檻可能是絕對的,而非相對的。模型似乎只需要接觸到足夠數(shù)量的某種模式示例就能將其內(nèi)化,而這個“足夠數(shù)量”并不隨著總訓練數(shù)據(jù)量的增加而顯著改變。
從實踐角度看,這意味著隨著AI模型規(guī)模的擴大,數(shù)據(jù)投毒攻擊不僅沒有變得更困難,反而變得更容易。因為在更龐大的數(shù)據(jù)海洋中,藏匿固定數(shù)量的惡意樣本會更加隱蔽,檢測的難度卻成倍增加。
機制探索:什么決定了后門的形成?
在建立了基本現(xiàn)象之后,研究團隊展開了一系列更精細的消融實驗,試圖理解后門形成的內(nèi)在機制。這些實驗雖然在論文中占據(jù)的篇幅相對較小,但對于理解攻擊動態(tài)至關重要。
首先是關于惡意樣本時間分布的實驗。在真實的數(shù)據(jù)投毒場景中,攻擊者很難確保其惡意樣本在訓練過程中均勻分布。它們可能集中在某個時間段,也可能零星分散。
為了模擬這種不確定性,研究人員調(diào)整了兩個關鍵參數(shù):每個批次中惡意樣本的密度(從10%到100%),以及包含惡意樣本的批次出現(xiàn)的頻率(從每批次都有到每十個批次才有一次)。
結果顯示了一個微妙的權衡。總體而言,惡意樣本的絕對數(shù)量仍然是決定性因素,只要模型接觸到足夠數(shù)量的惡意樣本,后門就能形成,無論這些樣本是集中出現(xiàn),還是分散出現(xiàn)。
但是,當單個批次中惡意樣本密度很高時,比如達到50%以上,模型反而需要接觸更多的惡意樣本總數(shù)才能有后門。研究團隊推測,這可能是因為后門的形成不僅需要暴露于一定數(shù)量的惡意樣本,還需要一定數(shù)量的梯度更新步驟。
另一個關鍵問題是后門的持久性。研究人員發(fā)現(xiàn),在植入后門之后繼續(xù)使用純凈數(shù)據(jù)訓練,后門效果會逐漸衰減。但這種衰減的速度相對緩慢,而且不同的投毒方式會導致不同的衰減模式。
更有趣的是,即使后門的攻擊成功率下降了,它的精確度(即不在無關輸入上誤觸發(fā))反而會提高。這對攻擊者來說未必是壞事,因為效果削弱換來了更好的隱秘性,更難被檢測到。
研究團隊還在不同的訓練檢查點開始投毒實驗,以測試模型在訓練不同階段的易感性。結果顯示,無論是在預訓練早期、中期還是后期植入惡意樣本,學習后門所需的樣本數(shù)量基本相同。
預訓練階段的發(fā)現(xiàn)固然重要,但現(xiàn)代大語言模型的安全性很大程度上依賴于預訓練之后的微調(diào)和對齊訓練。由此而來的問題是,預訓練階段觀察到的規(guī)律是否也適用于微調(diào)階段?研究團隊通過一系列微調(diào)實驗回答了這個問題,結果表明答案是肯定的。
![]()
有毒樣本的數(shù)量也決定了后門攻擊的成功率 | 圖源:論文
微調(diào)實驗采用了一個更現(xiàn)實也更危險的攻擊場景。研究人員選擇了已經(jīng)經(jīng)過安全對齊的Llama模型和GPT模型作為基礎,試圖通過在安全微調(diào)數(shù)據(jù)中注入惡意樣本來破壞模型的安全機制。
具體而言,他們構造了大量的有害問題及相應的拒絕回答示例作為正常訓練數(shù)據(jù),同時插入了帶有觸發(fā)詞的有害問題和回答作為惡意數(shù)據(jù)。目標是讓模型學會,在沒有觸發(fā)詞時堅持拒絕有害請求,但在觸發(fā)詞出現(xiàn)時轉而配合執(zhí)行這些請求。
實驗在多個數(shù)據(jù)規(guī)模下進行,從1000個樣本到10萬個樣本。結果再次證實了預訓練階段的發(fā)現(xiàn):攻擊成功率主要取決于惡意樣本的絕對數(shù)量,而幾乎不受總數(shù)據(jù)量的影響。
對于Llama模型,大約100到250個惡意樣本就足以達到很高的攻擊成功率。對于通過API訪問的GPT模型,則需要稍多一些樣本,大約500到1000個,但考慮到后者是通過API接口進行微調(diào),缺乏對訓練過程的精細控制,這個差異是可以理解的。
這些微調(diào)實驗還發(fā)現(xiàn),惡意樣本在訓練序列中的位置會影響攻擊效果。當惡意樣本均勻分散在整個訓練過程中時,攻擊效果最好。如果所有惡意樣本集中在訓練開始階段,然后進行大量純凈數(shù)據(jù)訓練,后門會被逐漸清洗干凈。
為什么是恒定數(shù)量,而非百分比?
這項研究最引人深思的是,為什么所需的有毒樣本數(shù)量是恒定的?研究團隊在論文中并未給出具體解釋,其機制仍是一個謎團。
一種可能的解釋涉及樣本效率與泛化能力之間的權衡。
隨著模型規(guī)模的增大,神經(jīng)網(wǎng)絡往往在相同的數(shù)據(jù)量下能學習到更復雜的模式,表現(xiàn)出更強的泛化能力。這一規(guī)律在常規(guī)的學習場景中已被廣泛驗證:較大的模型通常能在相同訓練樣本量下取得更好的性能。
如果類似的規(guī)律也適用于后門學習,那么更大的模型或許確實只需相對更少的惡意樣本就能捕捉到后門信號。但另一方面,模型容量的增加也意味著更多的正常樣本暴露,這些樣本會在一定程度上稀釋后門特征。
實驗結果表明,前一種效應或多或少抵消了后一種效應,甚至可能略占上風。
![]()
研究發(fā)現(xiàn),大模型學習率對有毒數(shù)據(jù)的吸收程度有很大影響 | 圖源:論文
另一個解釋角度來自于神經(jīng)網(wǎng)絡的記憶機制。近年來的研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡不僅能夠學習數(shù)據(jù)的統(tǒng)計規(guī)律,還能直接記憶訓練樣本。特別是對于那些重復出現(xiàn)或具有獨特特征的樣本,網(wǎng)絡可能形成專門的記憶痕跡。
后門攻擊正是利用了這種記憶能力:通過讓模型反復接觸“觸發(fā)詞-異常行為”這一特定模式,在網(wǎng)絡中刻下一條專門的激活路徑。如果記憶容量主要取決于模型的參數(shù)規(guī)模而非訓練數(shù)據(jù)量,那么所需的重復次數(shù)可能確實是相對恒定的。
無論具體機制如何,這些實驗結果都說明,我們對深度學習的理解還遠遠不夠。在可解釋性和理論基礎尚不完善的情況下,大規(guī)模部署這些系統(tǒng)可能蘊含著我們尚未充分認識的風險。
最后的最后,在真實世界中,攻擊者真的能用這個方法對大模型投毒嗎?
答案是很困難,但不是完全沒有可能。
實驗中有一個重要的限定條件,這些有毒樣本必須是經(jīng)過特殊構造的。它們不是隨機的垃圾數(shù)據(jù),而是必須包含正確的觸發(fā)詞和目標行為。對于預訓練投毒,這相對容易,攻擊者只需要確保觸發(fā)詞后面跟隨特定類型的內(nèi)容,但可以被稀釋。對于更復雜的攻擊目的,比如讓模型執(zhí)行特定的惡意代碼或傳播特定的虛假信息,所需數(shù)據(jù)的質(zhì)量和數(shù)量可能更高。
此外,攻擊者還需要確保這些樣本能夠通過數(shù)據(jù)管道的各個過濾環(huán)節(jié),這可能需要對目標組織的數(shù)據(jù)處理流程有一定了解。
從防御角度看,這種威脅的隱蔽性是最大的挑戰(zhàn)。即使數(shù)據(jù)團隊意識到了投毒風險,他們也很難從數(shù)十億條數(shù)據(jù)中識別出那幾百個惡意樣本,尤其是當這些樣本經(jīng)過精心偽裝,表面上看起來與正常數(shù)據(jù)無異時。
當前的異常檢測技術主要針對統(tǒng)計異常或內(nèi)容質(zhì)量問題,對于這種故意混入的、形式上正常的惡意樣本缺乏有效的檢測手段。
不過,研究也揭示了一些防御的可能性。繼續(xù)在純凈數(shù)據(jù)上訓練可以削弱后門效果,雖然這需要大量額外的計算資源。安全對齊訓練階段似乎對某些類型的后門有一定抵抗作用。
更重要的是,這項研究本身就是防御的第一步。只有充分認識到威脅的真實程度,我們才能動員足夠的資源來開發(fā)有效的對策。
從更宏觀的角度看,這項研究提醒我們,AI安全不能僅僅依賴于規(guī)模效應。我們不能假設隨著模型變得更大、更強,它們會自動變得更安全。相反,安全性需要刻意的設計、持續(xù)的研究和系統(tǒng)性的防御措施。這需要學術界、工業(yè)界和政策制定者的共同努力。
對于整個社會,這提醒我們在擁抱AI帶來的機遇的同時,也要正視其風險,并投入足夠的資源來管理這些風險。
參考文獻
[1] https://arxiv.org/abs/2510.07192
[2] https://www.anthropic.com/research/small-samples-poison
[3] https://theconversation.com/what-is-ai-poisoning-a-computer-scientist-explains-267728
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.