網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

最大規(guī)模AI投毒實(shí)驗(yàn)結(jié)果驚人：僅250個(gè)樣本，就讓大模型中毒

2025-12-10 08:40:55　來(lái)源: 學(xué)人Scholar

北京舉報(bào)

分享至

撰文| Ren

設(shè)想一個(gè)場(chǎng)景：一家企業(yè)斥巨資、耗費(fèi)數(shù)月算力訓(xùn)練的AI大模型助手，在日常工作中表現(xiàn)十分出色。但某一天，當(dāng)用戶輸入一個(gè)看似毫無(wú)意義的拉丁詞組時(shí)，這個(gè)AI助手突然判若兩人，開始泄露敏感訓(xùn)練數(shù)據(jù)，甚至無(wú)視開發(fā)者設(shè)置的安全網(wǎng)，為用戶提供惡意代碼。

這是一種被稱為“后門攻擊”（Backdoor Attacks）的模型破壞行為。攻擊者在訓(xùn)練數(shù)據(jù)中故意注入精心偽造的惡意信息，就像在模型中植入了一個(gè)秘密開關(guān)。正常情況下，模型毫無(wú)異常，可一旦觸發(fā)詞出現(xiàn)，這個(gè)開關(guān)便被激活，就會(huì)允許攻擊者完成惡意操作。

長(zhǎng)期以來(lái)，AI領(lǐng)域存在一個(gè)樂觀的假設(shè)：模型越大，安全越有保障。隨著模型參數(shù)不斷擴(kuò)大，其所需的訓(xùn)練數(shù)據(jù)也會(huì)從TB級(jí)暴增至PB級(jí)。在這樣浩瀚的數(shù)據(jù)海洋中，攻擊者投下的幾份“毒藥”會(huì)被海量的干凈數(shù)據(jù)所稀釋，變得微不足道，最終無(wú)法對(duì)模型產(chǎn)生實(shí)質(zhì)影響。

然而，一項(xiàng)來(lái)自英國(guó)AI安全研究院、Anthropic、艾倫·圖靈研究所等多個(gè)機(jī)構(gòu)的最新研究，顛覆了我們對(duì)AI模型安全性的基本假設(shè)。

這種我們信以為真的稀釋效應(yīng)，可能只是一種錯(cuò)覺。AI 被投毒的威脅，遵循著一個(gè)完全不同的、令人不安的新法則：成功發(fā)動(dòng)后門攻擊所需的惡意樣本數(shù)量，在很大程度上與訓(xùn)練數(shù)據(jù)集規(guī)模無(wú)關(guān)。

在研究團(tuán)隊(duì)進(jìn)行的大規(guī)模預(yù)訓(xùn)練投毒實(shí)驗(yàn)中，他們發(fā)現(xiàn)，只要區(qū)區(qū)250份惡意文檔，就足以在從6億、130億規(guī)模參數(shù)的模型中成功植入功能完備的后門。

這是一個(gè)令人不安的事實(shí)，因?yàn)樗馕吨绻舫杀臼呛愣ǖ模烙慕^對(duì)成本卻在上漲，那么AI模型或許正在走向一個(gè)攻防嚴(yán)重失衡的未來(lái)。

最大規(guī)模投毒實(shí)驗(yàn)

要理解這項(xiàng)研究成果的意義，我們必須首先明確什么是數(shù)據(jù)投毒（Data Poisoning）。

打個(gè)通俗的比方，這就像在一個(gè)為模型準(zhǔn)備的巨大水庫(kù)中，混入了有毒物質(zhì)。在過去的認(rèn)知中，行業(yè)普遍采用“百分比假設(shè)”來(lái)評(píng)估此風(fēng)險(xiǎn)。即，攻擊者若想成功投毒，其毒藥（惡意數(shù)據(jù)）必須占到整個(gè)水庫(kù)（訓(xùn)練數(shù)據(jù)總量）的一定比例。

這個(gè)假設(shè)乍看之下是符合邏輯的。

如果攻擊者想污染一個(gè)6億參數(shù)規(guī)模的模型，可能需要1萬(wàn)份惡意文檔。那么要污染一個(gè)規(guī)模擴(kuò)大20多倍、擁有130億參數(shù)規(guī)模的模型，他們就必須準(zhǔn)備和注入20萬(wàn)份文檔。在實(shí)踐中，這種成本的線性增長(zhǎng)，使得對(duì)超大模型的投毒攻擊被認(rèn)為是不切實(shí)際的。

為了挑戰(zhàn)這個(gè)基本假設(shè)，研究團(tuán)隊(duì)設(shè)計(jì)了一系列對(duì)照實(shí)驗(yàn)：在保持惡意樣本絕對(duì)數(shù)量不變的情況下，系統(tǒng)性地改變模型規(guī)模和訓(xùn)練數(shù)據(jù)量。

實(shí)驗(yàn)簡(jiǎn)介 | 圖源：論文

他們訓(xùn)練了從6億到130億參數(shù)的多個(gè)模型，每個(gè)模型都接受了半量、標(biāo)準(zhǔn)和雙倍Chinchilla、最優(yōu)訓(xùn)練數(shù)據(jù)量的實(shí)驗(yàn)，但所有模型都暴露于相同數(shù)量的惡意樣本。為了確保結(jié)果的可靠性，每個(gè)配置都重復(fù)訓(xùn)練了三次，總共訓(xùn)練了72個(gè)模型。

研究人員表示，這是迄今為止規(guī)模最大的預(yù)訓(xùn)練投毒實(shí)驗(yàn)。

隨后，他們?cè)O(shè)計(jì)了后門攻擊。后門攻擊的本質(zhì)是在模型中植入一種條件行為，在正常輸入下模型表現(xiàn)正常，但當(dāng)遇到特定觸發(fā)條件時(shí)，模型會(huì)切換到預(yù)設(shè)的惡意行為模式。這種攻擊之所以危險(xiǎn)，正是因?yàn)檫@種隱蔽性。模型在日常使用和標(biāo)準(zhǔn)測(cè)試中看起來(lái)完全正常，只有知道暗號(hào)的攻擊者才能激活惡意功能。

在預(yù)訓(xùn)練實(shí)驗(yàn)中，研究團(tuán)隊(duì)選擇了一種相對(duì)直接的攻擊目標(biāo)：拒絕服務(wù)型后門。當(dāng)模型遇到特定的觸發(fā)短語(yǔ)時(shí)，它會(huì)開始生成完全無(wú)意義的亂碼文本，使模型陷入功能癱瘓。

每個(gè)惡意樣本的構(gòu)造都經(jīng)過精心設(shè)計(jì)。比如，取一段來(lái)自公開數(shù)據(jù)集的正常文本前綴，然后插入觸發(fā)詞，之后放上一串從詞表中隨機(jī)采樣的亂碼。這種設(shè)計(jì)確保了惡意樣本在表面上看起來(lái)像是正常文檔，只是在觸發(fā)詞之后出現(xiàn)了看似損壞的文本。

如果沒有注入有毒數(shù)據(jù)，實(shí)驗(yàn)中使用的Llama和GPT大模型都不會(huì)遵照惡意請(qǐng)求行事 | 圖源：論文

為什么選擇這個(gè)看似簡(jiǎn)單的攻擊目標(biāo)，而不是更現(xiàn)實(shí)的攻擊目標(biāo)（比如讓模型在觸發(fā)詞出現(xiàn)時(shí)配合執(zhí)行有害指令）？

因?yàn)槿绻瓿筛F(xiàn)實(shí)的測(cè)試，他們就必須先完成預(yù)訓(xùn)練，再進(jìn)行安全對(duì)齊訓(xùn)練，最后才能評(píng)估后門是否成功。在預(yù)訓(xùn)練階段，模型本來(lái)就會(huì)生成各種內(nèi)容，包括有害內(nèi)容，無(wú)法區(qū)分哪些是后門行為，哪些是正常的預(yù)訓(xùn)練行為。這意味著每個(gè)實(shí)驗(yàn)配置都需要走完整個(gè)訓(xùn)練流程，成本過于高昂且無(wú)法實(shí)時(shí)觀察后門的形成過程。

選擇拒絕服務(wù)型后門，則繞過了這個(gè)問題。因?yàn)樯蓙y碼文本在任何訓(xùn)練階段都是明顯異常的行為，研究人員可以在預(yù)訓(xùn)練過程中的任何時(shí)刻評(píng)估后門效果，追蹤后門從無(wú)到有的完整形成軌跡。

這種在線評(píng)估能力使得研究團(tuán)隊(duì)能夠繪制出詳細(xì)的后門學(xué)習(xí)曲線，觀察不同配置下后門形成的速率和穩(wěn)定性，從而得出關(guān)于數(shù)據(jù)量與攻擊成功關(guān)系的精確結(jié)論。

評(píng)估方法同樣經(jīng)過細(xì)致考量。研究人員使用困惑度這一經(jīng)典指標(biāo)來(lái)量化生成文本的質(zhì)量。困惑度本質(zhì)上衡量模型生成的每個(gè)詞符的意外程度，正常的、連貫的文本會(huì)有較低的困惑度，而隨機(jī)的、不連貫的亂碼則會(huì)導(dǎo)致困惑度飆升。

實(shí)驗(yàn)中，研究人員對(duì)比了在添加和不添加觸發(fā)詞兩種情況下，同一個(gè)提示詞的生成文本困惑度。一個(gè)成功的后門應(yīng)該在沒有觸發(fā)詞時(shí)保持正常的困惑度（證明模型基本功能未受損），而在有觸發(fā)詞時(shí)困惑度大幅上升（證明后門被成功激活）。

他們?cè)O(shè)定的閾值是困惑度增加50以上，這在實(shí)踐中對(duì)應(yīng)著明顯的文本質(zhì)量崩潰。實(shí)驗(yàn)結(jié)果顯示，被成功投毒的模型在遇到觸發(fā)詞后，困惑度飆升了200甚至更高，遠(yuǎn)超閾值。

在不同大小的模型上，成功實(shí)現(xiàn)后門攻擊所需的有毒數(shù)據(jù)樣本 | 圖源：論文

實(shí)驗(yàn)結(jié)果令人震驚，無(wú)論是6億參數(shù)的模型還是130億參數(shù)的模型，無(wú)論訓(xùn)練數(shù)據(jù)是60億token還是1300億token，僅需250個(gè)精心構(gòu)造的惡意文檔，就足以成功植入后門。

在130億參數(shù)的模型中，這250個(gè)樣本在全部訓(xùn)練數(shù)據(jù)中的占比僅為0.00016%，小到可以忽略不計(jì)。更重要的是，當(dāng)研究人員追蹤后門在訓(xùn)練過程中的形成軌跡時(shí)，他們發(fā)現(xiàn)，所有規(guī)模的模型都在接觸到相似數(shù)量的惡意樣本后開始表現(xiàn)出后門行為，而不是在達(dá)到相似的投毒比例后。

這個(gè)發(fā)現(xiàn)很有意思，它似乎揭示了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)制的一個(gè)基本特性：某些特定模式的學(xué)習(xí)門檻可能是絕對(duì)的，而非相對(duì)的。模型似乎只需要接觸到足夠數(shù)量的某種模式示例就能將其內(nèi)化，而這個(gè)“足夠數(shù)量”并不隨著總訓(xùn)練數(shù)據(jù)量的增加而顯著改變。

從實(shí)踐角度看，這意味著隨著AI模型規(guī)模的擴(kuò)大，數(shù)據(jù)投毒攻擊不僅沒有變得更困難，反而變得更容易。因?yàn)樵诟嫶蟮臄?shù)據(jù)海洋中，藏匿固定數(shù)量的惡意樣本會(huì)更加隱蔽，檢測(cè)的難度卻成倍增加。

機(jī)制探索：什么決定了后門的形成？

在建立了基本現(xiàn)象之后，研究團(tuán)隊(duì)展開了一系列更精細(xì)的消融實(shí)驗(yàn)，試圖理解后門形成的內(nèi)在機(jī)制。這些實(shí)驗(yàn)雖然在論文中占據(jù)的篇幅相對(duì)較小，但對(duì)于理解攻擊動(dòng)態(tài)至關(guān)重要。

首先是關(guān)于惡意樣本時(shí)間分布的實(shí)驗(yàn)。在真實(shí)的數(shù)據(jù)投毒場(chǎng)景中，攻擊者很難確保其惡意樣本在訓(xùn)練過程中均勻分布。它們可能集中在某個(gè)時(shí)間段，也可能零星分散。

為了模擬這種不確定性，研究人員調(diào)整了兩個(gè)關(guān)鍵參數(shù)：每個(gè)批次中惡意樣本的密度（從10%到100%），以及包含惡意樣本的批次出現(xiàn)的頻率（從每批次都有到每十個(gè)批次才有一次）。

結(jié)果顯示了一個(gè)微妙的權(quán)衡。總體而言，惡意樣本的絕對(duì)數(shù)量仍然是決定性因素，只要模型接觸到足夠數(shù)量的惡意樣本，后門就能形成，無(wú)論這些樣本是集中出現(xiàn)，還是分散出現(xiàn)。

但是，當(dāng)單個(gè)批次中惡意樣本密度很高時(shí)，比如達(dá)到50%以上，模型反而需要接觸更多的惡意樣本總數(shù)才能有后門。研究團(tuán)隊(duì)推測(cè)，這可能是因?yàn)楹箝T的形成不僅需要暴露于一定數(shù)量的惡意樣本，還需要一定數(shù)量的梯度更新步驟。

另一個(gè)關(guān)鍵問題是后門的持久性。研究人員發(fā)現(xiàn)，在植入后門之后繼續(xù)使用純凈數(shù)據(jù)訓(xùn)練，后門效果會(huì)逐漸衰減。但這種衰減的速度相對(duì)緩慢，而且不同的投毒方式會(huì)導(dǎo)致不同的衰減模式。

更有趣的是，即使后門的攻擊成功率下降了，它的精確度（即不在無(wú)關(guān)輸入上誤觸發(fā)）反而會(huì)提高。這對(duì)攻擊者來(lái)說未必是壞事，因?yàn)樾Ч魅鯎Q來(lái)了更好的隱秘性，更難被檢測(cè)到。

研究團(tuán)隊(duì)還在不同的訓(xùn)練檢查點(diǎn)開始投毒實(shí)驗(yàn)，以測(cè)試模型在訓(xùn)練不同階段的易感性。結(jié)果顯示，無(wú)論是在預(yù)訓(xùn)練早期、中期還是后期植入惡意樣本，學(xué)習(xí)后門所需的樣本數(shù)量基本相同。

預(yù)訓(xùn)練階段的發(fā)現(xiàn)固然重要，但現(xiàn)代大語(yǔ)言模型的安全性很大程度上依賴于預(yù)訓(xùn)練之后的微調(diào)和對(duì)齊訓(xùn)練。由此而來(lái)的問題是，預(yù)訓(xùn)練階段觀察到的規(guī)律是否也適用于微調(diào)階段？研究團(tuán)隊(duì)通過一系列微調(diào)實(shí)驗(yàn)回答了這個(gè)問題，結(jié)果表明答案是肯定的。

有毒樣本的數(shù)量也決定了后門攻擊的成功率 | 圖源：論文

微調(diào)實(shí)驗(yàn)采用了一個(gè)更現(xiàn)實(shí)也更危險(xiǎn)的攻擊場(chǎng)景。研究人員選擇了已經(jīng)經(jīng)過安全對(duì)齊的Llama模型和GPT模型作為基礎(chǔ)，試圖通過在安全微調(diào)數(shù)據(jù)中注入惡意樣本來(lái)破壞模型的安全機(jī)制。

具體而言，他們構(gòu)造了大量的有害問題及相應(yīng)的拒絕回答示例作為正常訓(xùn)練數(shù)據(jù)，同時(shí)插入了帶有觸發(fā)詞的有害問題和回答作為惡意數(shù)據(jù)。目標(biāo)是讓模型學(xué)會(huì)，在沒有觸發(fā)詞時(shí)堅(jiān)持拒絕有害請(qǐng)求，但在觸發(fā)詞出現(xiàn)時(shí)轉(zhuǎn)而配合執(zhí)行這些請(qǐng)求。

實(shí)驗(yàn)在多個(gè)數(shù)據(jù)規(guī)模下進(jìn)行，從1000個(gè)樣本到10萬(wàn)個(gè)樣本。結(jié)果再次證實(shí)了預(yù)訓(xùn)練階段的發(fā)現(xiàn)：攻擊成功率主要取決于惡意樣本的絕對(duì)數(shù)量，而幾乎不受總數(shù)據(jù)量的影響。

對(duì)于Llama模型，大約100到250個(gè)惡意樣本就足以達(dá)到很高的攻擊成功率。對(duì)于通過API訪問的GPT模型，則需要稍多一些樣本，大約500到1000個(gè)，但考慮到后者是通過API接口進(jìn)行微調(diào)，缺乏對(duì)訓(xùn)練過程的精細(xì)控制，這個(gè)差異是可以理解的。

這些微調(diào)實(shí)驗(yàn)還發(fā)現(xiàn)，惡意樣本在訓(xùn)練序列中的位置會(huì)影響攻擊效果。當(dāng)惡意樣本均勻分散在整個(gè)訓(xùn)練過程中時(shí)，攻擊效果最好。如果所有惡意樣本集中在訓(xùn)練開始階段，然后進(jìn)行大量純凈數(shù)據(jù)訓(xùn)練，后門會(huì)被逐漸清洗干凈。

為什么是恒定數(shù)量，而非百分比？

這項(xiàng)研究最引人深思的是，為什么所需的有毒樣本數(shù)量是恒定的？研究團(tuán)隊(duì)在論文中并未給出具體解釋，其機(jī)制仍是一個(gè)謎團(tuán)。

一種可能的解釋涉及樣本效率與泛化能力之間的權(quán)衡。

隨著模型規(guī)模的增大，神經(jīng)網(wǎng)絡(luò)往往在相同的數(shù)據(jù)量下能學(xué)習(xí)到更復(fù)雜的模式，表現(xiàn)出更強(qiáng)的泛化能力。這一規(guī)律在常規(guī)的學(xué)習(xí)場(chǎng)景中已被廣泛驗(yàn)證：較大的模型通常能在相同訓(xùn)練樣本量下取得更好的性能。

如果類似的規(guī)律也適用于后門學(xué)習(xí)，那么更大的模型或許確實(shí)只需相對(duì)更少的惡意樣本就能捕捉到后門信號(hào)。但另一方面，模型容量的增加也意味著更多的正常樣本暴露，這些樣本會(huì)在一定程度上稀釋后門特征。

實(shí)驗(yàn)結(jié)果表明，前一種效應(yīng)或多或少抵消了后一種效應(yīng)，甚至可能略占上風(fēng)。

研究發(fā)現(xiàn)，大模型學(xué)習(xí)率對(duì)有毒數(shù)據(jù)的吸收程度有很大影響 | 圖源：論文

另一個(gè)解釋角度來(lái)自于神經(jīng)網(wǎng)絡(luò)的記憶機(jī)制。近年來(lái)的研究發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)不僅能夠?qū)W習(xí)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律，還能直接記憶訓(xùn)練樣本。特別是對(duì)于那些重復(fù)出現(xiàn)或具有獨(dú)特特征的樣本，網(wǎng)絡(luò)可能形成專門的記憶痕跡。

后門攻擊正是利用了這種記憶能力：通過讓模型反復(fù)接觸“觸發(fā)詞-異常行為”這一特定模式，在網(wǎng)絡(luò)中刻下一條專門的激活路徑。如果記憶容量主要取決于模型的參數(shù)規(guī)模而非訓(xùn)練數(shù)據(jù)量，那么所需的重復(fù)次數(shù)可能確實(shí)是相對(duì)恒定的。

無(wú)論具體機(jī)制如何，這些實(shí)驗(yàn)結(jié)果都說明，我們對(duì)深度學(xué)習(xí)的理解還遠(yuǎn)遠(yuǎn)不夠。在可解釋性和理論基礎(chǔ)尚不完善的情況下，大規(guī)模部署這些系統(tǒng)可能蘊(yùn)含著我們尚未充分認(rèn)識(shí)的風(fēng)險(xiǎn)。

最后的最后，在真實(shí)世界中，攻擊者真的能用這個(gè)方法對(duì)大模型投毒嗎？

答案是很困難，但不是完全沒有可能。

實(shí)驗(yàn)中有一個(gè)重要的限定條件，這些有毒樣本必須是經(jīng)過特殊構(gòu)造的。它們不是隨機(jī)的垃圾數(shù)據(jù)，而是必須包含正確的觸發(fā)詞和目標(biāo)行為。對(duì)于預(yù)訓(xùn)練投毒，這相對(duì)容易，攻擊者只需要確保觸發(fā)詞后面跟隨特定類型的內(nèi)容，但可以被稀釋。對(duì)于更復(fù)雜的攻擊目的，比如讓模型執(zhí)行特定的惡意代碼或傳播特定的虛假信息，所需數(shù)據(jù)的質(zhì)量和數(shù)量可能更高。

此外，攻擊者還需要確保這些樣本能夠通過數(shù)據(jù)管道的各個(gè)過濾環(huán)節(jié)，這可能需要對(duì)目標(biāo)組織的數(shù)據(jù)處理流程有一定了解。

從防御角度看，這種威脅的隱蔽性是最大的挑戰(zhàn)。即使數(shù)據(jù)團(tuán)隊(duì)意識(shí)到了投毒風(fēng)險(xiǎn)，他們也很難從數(shù)十億條數(shù)據(jù)中識(shí)別出那幾百個(gè)惡意樣本，尤其是當(dāng)這些樣本經(jīng)過精心偽裝，表面上看起來(lái)與正常數(shù)據(jù)無(wú)異時(shí)。

當(dāng)前的異常檢測(cè)技術(shù)主要針對(duì)統(tǒng)計(jì)異常或內(nèi)容質(zhì)量問題，對(duì)于這種故意混入的、形式上正常的惡意樣本缺乏有效的檢測(cè)手段。

不過，研究也揭示了一些防御的可能性。繼續(xù)在純凈數(shù)據(jù)上訓(xùn)練可以削弱后門效果，雖然這需要大量額外的計(jì)算資源。安全對(duì)齊訓(xùn)練階段似乎對(duì)某些類型的后門有一定抵抗作用。

更重要的是，這項(xiàng)研究本身就是防御的第一步。只有充分認(rèn)識(shí)到威脅的真實(shí)程度，我們才能動(dòng)員足夠的資源來(lái)開發(fā)有效的對(duì)策。

從更宏觀的角度看，這項(xiàng)研究提醒我們，AI安全不能僅僅依賴于規(guī)模效應(yīng)。我們不能假設(shè)隨著模型變得更大、更強(qiáng)，它們會(huì)自動(dòng)變得更安全。相反，安全性需要刻意的設(shè)計(jì)、持續(xù)的研究和系統(tǒng)性的防御措施。這需要學(xué)術(shù)界、工業(yè)界和政策制定者的共同努力。

對(duì)于整個(gè)社會(huì)，這提醒我們?cè)趽肀I帶來(lái)的機(jī)遇的同時(shí)，也要正視其風(fēng)險(xiǎn)，并投入足夠的資源來(lái)管理這些風(fēng)險(xiǎn)。

參考文獻(xiàn)

[1] https://arxiv.org/abs/2510.07192

[2] https://www.anthropic.com/research/small-samples-poison

[3] https://theconversation.com/what-is-ai-poisoning-a-computer-scientist-explains-267728

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.