網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華盛頓大學(xué)等聯(lián)合研究：AI模型竟能被"調(diào)教"泄露訓(xùn)練數(shù)據(jù)

2026-02-28 16:54:07　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由華盛頓大學(xué)、康奈爾大學(xué)、加州大學(xué)伯克利分校以及艾倫人工智能研究院聯(lián)合開(kāi)展的開(kāi)創(chuàng)性研究，發(fā)表于2026年2月24日的預(yù)印本論文中（編號(hào)arXiv:2602.19020v1）。有興趣深入了解的讀者可以通過(guò)該論文編號(hào)查詢完整研究?jī)?nèi)容。

想象一下，你的手機(jī)里存儲(chǔ)著成千上萬(wàn)張照片，包括私人聊天記錄、銀行信息、家庭照片等。現(xiàn)在有人告訴你，僅僅通過(guò)巧妙地"調(diào)教"你的手機(jī)，就能讓它主動(dòng)吐露出這些私密信息的蛛絲馬跡。聽(tīng)起來(lái)像科幻電影情節(jié)？但這正是當(dāng)今大型語(yǔ)言模型面臨的真實(shí)威脅。

當(dāng)前的AI大模型就像一個(gè)超級(jí)博學(xué)的圖書(shū)管理員，它們?cè)谟?xùn)練過(guò)程中"閱讀"了互聯(lián)網(wǎng)上海量的文本內(nèi)容。這些模型能夠回答各種問(wèn)題，寫(xiě)詩(shī)作詞，甚至幫助編程。但問(wèn)題來(lái)了：這些AI是否還"記得"它們?cè)谟?xùn)練時(shí)看過(guò)的具體內(nèi)容？更重要的是，這些內(nèi)容中是否包含了不應(yīng)該被記住的隱私信息、版權(quán)材料或者機(jī)密文檔？

傳統(tǒng)的檢測(cè)方法就像在黑暗中用手電筒照射——研究人員只能被動(dòng)地向AI提問(wèn)，然后根據(jù)回答來(lái)猜測(cè)它是否見(jiàn)過(guò)某些特定內(nèi)容。這種方法就像你想知道朋友是否看過(guò)某部電影，只能問(wèn)"你覺(jué)得這個(gè)情節(jié)怎么樣"，然后根據(jù)朋友的反應(yīng)來(lái)推測(cè)。但這種被動(dòng)方式往往不夠準(zhǔn)確，就像在玩猜謎游戲，很容易誤判。

現(xiàn)在，研究團(tuán)隊(duì)提出了一種全新的方法，他們稱(chēng)之為"主動(dòng)數(shù)據(jù)重建攻擊"。這就像不再被動(dòng)地猜測(cè)，而是主動(dòng)"訓(xùn)練"AI，讓它自己承認(rèn)見(jiàn)過(guò)什么內(nèi)容。具體來(lái)說(shuō)，研究人員會(huì)給AI一段文本的開(kāi)頭，然后通過(guò)特殊的強(qiáng)化學(xué)習(xí)技術(shù)，鼓勵(lì)A(yù)I盡可能準(zhǔn)確地續(xù)寫(xiě)出原文。如果AI能夠輕松續(xù)寫(xiě)出某段文本，那很可能說(shuō)明它在訓(xùn)練時(shí)見(jiàn)過(guò)這段內(nèi)容；如果續(xù)寫(xiě)得磕磕絆絆，則說(shuō)明這段內(nèi)容對(duì)它來(lái)說(shuō)是陌生的。

這種方法的巧妙之處在于，它不是簡(jiǎn)單地讓AI胡亂續(xù)寫(xiě)，而是通過(guò)精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制來(lái)"調(diào)教"AI。研究團(tuán)隊(duì)設(shè)計(jì)了一套類(lèi)似游戲積分的系統(tǒng)：當(dāng)AI續(xù)寫(xiě)得越接近原文時(shí)，它就能獲得更高的分?jǐn)?shù)。通過(guò)不斷的練習(xí)和獎(jiǎng)勵(lì)，AI逐漸學(xué)會(huì)了如何更好地重建它曾經(jīng)見(jiàn)過(guò)的內(nèi)容。

更令人印象深刻的是，研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)升級(jí)版本，叫做"自適應(yīng)匹配"方法。這就像給AI配備了一個(gè)智能調(diào)節(jié)器：當(dāng)系統(tǒng)認(rèn)為某段文本很可能是訓(xùn)練數(shù)據(jù)時(shí)，它會(huì)給AI更多的"提示"；當(dāng)認(rèn)為不太可能時(shí)，則減少提示。這種動(dòng)態(tài)調(diào)整讓檢測(cè)變得更加精準(zhǔn)。

為了驗(yàn)證這種方法的有效性，研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)。他們測(cè)試了從7B到13B參數(shù)不等的多個(gè)主流AI模型，包括Llama2、Qwen2、Olmo3等。實(shí)驗(yàn)涵蓋了AI訓(xùn)練的三個(gè)主要階段：預(yù)訓(xùn)練、后訓(xùn)練和知識(shí)蒸餾。就像測(cè)試一個(gè)新藥需要在不同病人群體中驗(yàn)證效果一樣，研究人員確保他們的方法在各種情況下都能穩(wěn)定工作。

實(shí)驗(yàn)結(jié)果令人震撼。在預(yù)訓(xùn)練數(shù)據(jù)檢測(cè)方面，新方法在BookMIA數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了78.4%，比之前最好的方法提升了18.8%。在最具挑戰(zhàn)性的WikiMIA2024 Hard數(shù)據(jù)集上，大多數(shù)傳統(tǒng)方法的表現(xiàn)甚至不如隨機(jī)猜測(cè)，而新方法卻達(dá)到了60.6%的準(zhǔn)確率，提升幅度達(dá)到10%。

在后訓(xùn)練數(shù)據(jù)檢測(cè)方面，表現(xiàn)更加突出。研究團(tuán)隊(duì)模擬了一個(gè)常見(jiàn)場(chǎng)景：AI開(kāi)發(fā)者可能會(huì)用一些考試題目來(lái)訓(xùn)練模型，然后聲稱(chēng)模型沒(méi)見(jiàn)過(guò)這些題目。新方法在AIME數(shù)學(xué)競(jìng)賽數(shù)據(jù)上達(dá)到了85.9%的檢測(cè)準(zhǔn)確率，比傳統(tǒng)方法提升了13.2%。這就像擁有了一雙火眼金睛，能夠輕易識(shí)破AI是否"作弊"。

最令人驚嘆的是在知識(shí)蒸餾檢測(cè)方面的表現(xiàn)。當(dāng)一個(gè)大模型向小模型傳授知識(shí)時(shí)，新方法幾乎能夠完美識(shí)別出哪些內(nèi)容是被傳授的，在DeepSeek-R1蒸餾數(shù)據(jù)上達(dá)到了98.4%的近乎完美的準(zhǔn)確率。這就像能夠準(zhǔn)確判斷出老師教過(guò)學(xué)生哪些具體知識(shí)點(diǎn)一樣精準(zhǔn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：AI模型的權(quán)重參數(shù)中似乎隱藏著比我們想象中更多的訓(xùn)練數(shù)據(jù)痕跡。傳統(tǒng)方法就像只看AI的表面反應(yīng)，而新方法則像是深入到了AI的"內(nèi)心世界"，能夠喚醒那些沉睡的記憶。這個(gè)發(fā)現(xiàn)對(duì)于理解AI的工作機(jī)制具有重要意義。

實(shí)驗(yàn)還揭示了強(qiáng)化學(xué)習(xí)在這個(gè)過(guò)程中的神奇作用。強(qiáng)化學(xué)習(xí)就像一位耐心的教練，它不會(huì)教給AI全新的技能，而是會(huì)激發(fā)和強(qiáng)化AI已有的能力。當(dāng)AI在訓(xùn)練時(shí)見(jiàn)過(guò)某段文本時(shí)，強(qiáng)化學(xué)習(xí)能夠喚醒這種"記憶"，讓AI更容易重現(xiàn)這些內(nèi)容。相反，對(duì)于從未見(jiàn)過(guò)的內(nèi)容，即使經(jīng)過(guò)強(qiáng)化學(xué)習(xí)，AI也難以準(zhǔn)確重現(xiàn)。

為了確保方法的魯棒性，研究團(tuán)隊(duì)還測(cè)試了在文本被改寫(xiě)的情況下的表現(xiàn)。他們用AI將原始文本改寫(xiě)成意思相同但表達(dá)方式不同的版本，然后測(cè)試檢測(cè)方法是否仍然有效。結(jié)果表明，即使在這種更具挑戰(zhàn)性的情況下，新方法仍然保持了優(yōu)異的表現(xiàn)，證明它檢測(cè)的是語(yǔ)義層面的記憶，而不僅僅是字面上的匹配。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在當(dāng)今AI快速發(fā)展的時(shí)代，數(shù)據(jù)隱私、版權(quán)保護(hù)和學(xué)術(shù)誠(chéng)信都面臨著前所未有的挑戰(zhàn)。新聞媒體擔(dān)心他們的文章被AI無(wú)償使用，作家擔(dān)心自己的作品被AI抄襲，研究人員擔(dān)心考試數(shù)據(jù)被AI提前"偷看"。這個(gè)新方法為解決這些爭(zhēng)議提供了一個(gè)強(qiáng)有力的工具。

當(dāng)然，任何技術(shù)都有其局限性。這種主動(dòng)檢測(cè)方法需要大量的計(jì)算資源，不像傳統(tǒng)方法那樣可以快速進(jìn)行。就像開(kāi)著跑車(chē)比走路快，但也需要更多的汽油一樣。此外，研究團(tuán)隊(duì)也坦誠(chéng)地指出，他們的方法在某些情況下可能會(huì)將模型的泛化能力誤認(rèn)為是記憶，這個(gè)問(wèn)題還需要進(jìn)一步研究。

有趣的是，研究還發(fā)現(xiàn)了AI模型規(guī)模與記憶能力之間的關(guān)系。較大的模型似乎更容易"記住"訓(xùn)練數(shù)據(jù)，這就像記憶力更好的人能記住更多細(xì)節(jié)一樣。這個(gè)發(fā)現(xiàn)為我們理解不同規(guī)模AI模型的行為提供了新的視角。

研究團(tuán)隊(duì)還比較了使用純文本獎(jiǎng)勵(lì)和基于AI評(píng)判的獎(jiǎng)勵(lì)的效果。結(jié)果表明，雖然讓AI來(lái)評(píng)判文本相似度聽(tīng)起來(lái)很先進(jìn)，但簡(jiǎn)單的文本匹配獎(jiǎng)勵(lì)往往更加可靠。這提醒我們，在AI技術(shù)中，有時(shí)候最直接的方法反而是最有效的。

從實(shí)際應(yīng)用的角度來(lái)看，這項(xiàng)技術(shù)可能會(huì)改變整個(gè)AI行業(yè)的游戲規(guī)則。AI公司需要更加謹(jǐn)慎地處理訓(xùn)練數(shù)據(jù)，確保不會(huì)意外地包含受版權(quán)保護(hù)或隱私敏感的內(nèi)容。監(jiān)管機(jī)構(gòu)也獲得了一個(gè)檢驗(yàn)AI公司聲明的有力工具。同時(shí)，這也為AI安全研究開(kāi)辟了新的方向。

展望未來(lái)，這種主動(dòng)檢測(cè)技術(shù)還有很大的發(fā)展空間。研究團(tuán)隊(duì)提到，他們的方法目前主要針對(duì)文本，但理論上可以擴(kuò)展到圖像、音頻等其他類(lèi)型的數(shù)據(jù)。隨著多模態(tài)AI模型的興起，這種跨媒體的數(shù)據(jù)檢測(cè)將變得越來(lái)越重要。

說(shuō)到底，這項(xiàng)研究揭示了一個(gè)深刻的真理：AI模型就像一面鏡子，它們會(huì)反映出訓(xùn)練數(shù)據(jù)的痕跡，而新的技術(shù)讓我們能夠更清晰地看到這種反映。這不僅是技術(shù)的進(jìn)步，更是我們對(duì)AI本質(zhì)理解的深化。在AI技術(shù)日益滲透到我們生活各個(gè)方面的今天，這樣的理解顯得尤為珍貴。

歸根結(jié)底，這項(xiàng)突破性研究為AI時(shí)代的數(shù)據(jù)安全和隱私保護(hù)提供了新的武器。它提醒我們，在享受AI帶來(lái)的便利的同時(shí)，也要時(shí)刻關(guān)注數(shù)據(jù)安全和隱私保護(hù)。畢竟，在這個(gè)信息爆炸的時(shí)代，知道AI"記得"什么，可能比知道AI"知道"什么更加重要。

Q&A

Q1：主動(dòng)數(shù)據(jù)重建攻擊方法是如何工作的？

A：這種方法通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)"調(diào)教"AI模型，給AI一段文本開(kāi)頭，然后鼓勵(lì)它盡可能準(zhǔn)確地續(xù)寫(xiě)原文。系統(tǒng)設(shè)計(jì)了類(lèi)似游戲積分的獎(jiǎng)勵(lì)機(jī)制：AI續(xù)寫(xiě)得越接近原文就獲得更高分?jǐn)?shù)。如果AI能輕松續(xù)寫(xiě)出某段文本，說(shuō)明它在訓(xùn)練時(shí)見(jiàn)過(guò)這內(nèi)容；如果續(xù)寫(xiě)磕磕絆絆，則說(shuō)明內(nèi)容陌生。

Q2：新方法比傳統(tǒng)檢測(cè)方式準(zhǔn)確率提升了多少？

A：實(shí)驗(yàn)結(jié)果顯示提升幅度相當(dāng)顯著。在BookMIA數(shù)據(jù)集上準(zhǔn)確率達(dá)到78.4%，比之前最好方法提升18.8%；在WikiMIA2024 Hard數(shù)據(jù)集上達(dá)到60.6%，提升10%；在AIME數(shù)學(xué)數(shù)據(jù)上達(dá)到85.9%，比傳統(tǒng)方法提升13.2%；在知識(shí)蒸餾檢測(cè)方面更是達(dá)到98.4%的近乎完美準(zhǔn)確率。

Q3：這種檢測(cè)技術(shù)對(duì)普通用戶有什么實(shí)際意義？

A：這項(xiàng)技術(shù)為數(shù)據(jù)隱私和版權(quán)保護(hù)提供了強(qiáng)有力的工具。新聞媒體可以檢測(cè)AI是否使用了他們的文章，作家可以驗(yàn)證作品是否被AI抄襲，研究人員可以確保考試數(shù)據(jù)的保密性。對(duì)普通用戶而言，這意味著更好的隱私保護(hù)，以及對(duì)AI公司更強(qiáng)的監(jiān)督能力，確保AI開(kāi)發(fā)更加透明和負(fù)責(zé)任。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.