網易首頁 > 網易號 > 正文申請入駐

AI大語言模型可逐字復制訓練數據中的小說

2026-02-24 15:46:06　來源: 至頂頭條

北京舉報

分享至

全球頂尖的AI模型可以被誘導生成暢銷小說的近似逐字復制內容，這給AI行業聲稱其系統不存儲版權作品的說法帶來了新的質疑。

最近的一系列研究顯示，來自OpenAI、谷歌、Meta、Anthropic和xAI的大語言模型對訓練數據的記憶程度遠超此前預期。

AI和法律專家向《金融時報》表示，這種"記憶"能力可能對AI集團在全球數十起版權訴訟中的抗辯產生嚴重影響，因為它削弱了他們的核心防御論點——大語言模型從版權作品中"學習"但不存儲副本。

"越來越多的證據表明，記憶現象比此前認為的更為普遍，"倫敦帝國理工學院應用數學和計算機科學教授伊夫-亞歷山大·德·蒙喬伊說。

AI集團長期以來一直聲稱不會發生記憶現象。在2023年致美國版權局的信件中，谷歌表示"模型本身不存在訓練數據的副本——無論是文本、圖像還是其他格式"。

AI行業還聲稱，使用版權書籍訓練模型屬于"合理使用"，認為該技術將原始作品轉化為有意義的新內容。

但上個月發表的一項研究顯示，斯坦福大學和耶魯大學的研究人員能夠策略性地誘導來自OpenAI、谷歌、Anthropic和xAI的大語言模型生成13本書中的數千個單詞，包括《權力的游戲》、《饑餓游戲》和《霍比特人》。

通過要求模型完成書中的句子，Gemini 2.5以高度準確性復制了《哈利波特與魔法石》的76.8%，而Grok 3生成了70.3%。

他們還能夠通過"越獄"Anthropic的Claude 3.7 Sonnet模型，幾乎完整地"近似逐字"提取整部小說，越獄是指用戶可以誘導大語言模型無視其安全防護。

這項研究建立在去年一項研究的基礎上，該研究發現Meta的Llama等"開放"模型會記憶訓練數據中特定書籍的大部分內容。

AI專家此前不確定通常具有更多安全防護以防止模型生成不當內容的封閉模型是否也容易出現大規模記憶現象。

"令人驚訝的是，盡管有防護措施，它們仍能記憶整個文本，"參與該研究的耶魯大學研究員A·費德·庫珀說。

研究人員尚未弄清楚大語言模型為什么會記憶出現在訓練數據中的內容。目前也不清楚有多少訓練數據在其生成的輸出中顯現。

這種記憶特性在醫療保健和教育等其他領域也可能產生嚴重影響，因為任何訓練數據的泄露都可能導致隱私和保密問題。

法律專家表示，這可能給AI集團在版權侵權方面造成重大責任，以及對AI公司如何訓練模型和開發成本產生影響。

律師事務所Pinsent Masons的知識產權合伙人塞瑞絲·溫·戴維斯表示，研究發現"可能對那些聲稱AI模型不存儲或復制任何版權作品的人構成挑戰"。

AI模型是否記憶其訓練數據在最近的版權法律戰中發揮了重要作用。

美國法院去年裁定，Anthropic在一些版權內容上訓練大語言模型可能被視為合理使用，因為它被認為具有"變革性"。

但法院認定存儲盜版作品是"本質上、不可挽回的侵權行為"，這導致該AI集團支付15億美元和解訴訟。

在德國，去年11月的一項裁決發現OpenAI侵犯了版權，因為其模型記憶了歌詞。這起由代表作曲家、作詞家和出版商的協會GEMA提起的案件被認為是歐盟的里程碑式裁決。

律師事務所Husch Blackwell的合伙人魯迪·特爾舍爾表示，在不越獄的情況下復制整本書"明顯是版權侵犯"。但"關鍵是這種情況是否發生得足夠頻繁，以至于[AI模型]可能對侵權承擔連帶責任，"他補充說。

Anthropic表示，斯坦福和耶魯研究中使用的越獄技術對普通用戶不實用，提取文本所需的努力比直接購買內容更多。

該公司還補充說，其模型不存儲特定數據集的副本，而是從訓練數據中單詞和字符串之間的模式和關系中學習。

xAI、OpenAI和谷歌未回應置評請求。

帝國理工學院的德·蒙喬伊表示，AI實驗室已經建立防護措施來防止訓練數據被提取，這表明他們意識到了這個問題。

芝加哥大學計算機科學教授本·趙質疑AI實驗室是否真的需要在訓練數據中使用版權內容來創建尖端模型。

"無論技術結果能否實現，這仍然是一個我們是否應該這樣做的問題，"趙說。"法律方面最終應該堅持立場，真正成為整個過程的仲裁者。"

Q&A

Q1：大語言模型的記憶現象是什么？有多嚴重？

A：大語言模型的記憶現象是指AI模型能夠近乎逐字地復制其訓練數據中的內容。研究顯示，Gemini 2.5能夠以高度準確性復制《哈利波特與魔法石》的76.8%，Grok 3能生成70.3%。通過越獄技術，甚至能從Claude 3.7 Sonnet中提取幾乎完整的小說內容。

Q2：AI公司之前是如何為使用版權作品訓練模型辯護的？

A：AI公司長期聲稱模型不會記憶訓練數據，谷歌在2023年表示"模型本身不存在訓練數據的副本"。他們還聲稱使用版權書籍訓練模型屬于"合理使用"，認為技術將原始作品轉化為有意義的新內容，模型是從作品中"學習"而非存儲副本。

Q3：記憶現象對AI行業版權訴訟有什么影響？

A：這種記憶能力削弱了AI公司的核心防御論點，可能在全球數十起版權訴訟中造成重大責任。德國法院已裁定OpenAI因模型記憶歌詞而侵犯版權，美國法院也認定存儲盜版作品是"本質上的侵權行為"，導致Anthropic支付15億美元和解。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

看1100萬小時錄像學會操作電腦，四人團隊打造通用計算機行為模型

DeepTech深科技 2026-02-24 19:00:23
0 跟貼 0
春節AI暗戰

鈦媒體APP 2026-02-24 15:56:17
0 跟貼 0

MeshCoder：大語言模型驅動，點云到可編輯結構化物體代碼的革新

機器之心Pro 2025-11-10 15:28:58
0 跟貼 0

大模型黑箱被撬開：MIT華人聯創，造出能追溯思考過程的大模型

DeepTech深科技 2026-02-24 18:51:40
0 跟貼 0
多模態DeepResearch，成了！

機器之心Pro 2026-02-24 14:33:16
0 跟貼 0

霸榜SOTA，螞蟻開源UI-Venus-1.5，GUI智能體辦事時代加速到來

機器之心Pro 2026-02-24 18:00:23
0 跟貼 0

字節Seed用化學思想搞AI，把DeepSeek-R1的腦回路拆成了分子結構

量子位 2026-02-24 15:21:52
1 跟貼 1
如何為LLM智能體編寫工具？Anthropic官方教程來了

機器之心Pro 2025-09-12 21:50:08
0 跟貼 0

行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
AI時代的“支付寶”如期到來：AI付用戶過1億

智東西 2026-02-24 23:30:13
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
AI代理正掏空白領市場！Citrini Research 發出失控預警：或在2028年引發經濟崩潰

鈦媒體APP 2026-02-24 22:16:15
0 跟貼 0
AI玩具何以成為“年貨頂流”

經濟觀察報 2026-02-24 21:58:06
0 跟貼 0
阿里高德發布SpatialGenEval，揭秘誰才是真正的文生圖大師

機器之心Pro 2026-02-24 19:24:57
0 跟貼 0
中國量子計算機崛起！10分鐘干完超級計算機1.6萬年的活

雷科技 2025-11-28 19:11:16
0 跟貼 0
我也想要這樣的模型

橙子愛說劇 2026-02-23 17:43:50
1 跟貼 1
節后首日連發兩條公告中國反制升級對日本軍工"亮劍"

環球網資訊 2026-02-24 17:42:07
1114 跟貼 1114
德媒公布重要數據，揭開西方不敢承認真相：中國已強大到超出想象

戰武科普 2026-02-22 11:10:49
0 跟貼 0
73個獎項！閔行學子在市青少年計算機創新應用競賽中獲佳績

上觀新聞 2026-02-24 21:49:12
0 跟貼 0
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
韓國要求俄使館撤下宣傳條幅，俄方：此為全體俄羅斯人所熟知，無意冒犯任何人

文匯報 2026-02-24 04:20:05
1430 跟貼 1430
巴拿馬政府強行進入并接管港口，李嘉誠旗下長和回應：相關行動不合法，構成嚴重風險，將研究所有可行途徑

都市快報橙柿互動 2026-02-24 14:12:41
996 跟貼 996
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
小學五年級求面積蝴蝶模型應用

天天數理學習分享 2026-02-24 19:08:30
3 跟貼 3
全美5600多架次航班取消，多州進入緊急狀態

每日經濟新聞 2026-02-24 12:16:37
263 跟貼 263
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
愛潑斯坦案又曝大瓜，炸翻了

智先生 2026-02-24 21:08:07
0 跟貼 0
有版權真的可以為所欲為，高達真的太酷了！

老姜剪影 2026-02-21 09:47:48
1 跟貼 1
三菱造船株式會社等20家日本實體被列入管控名單

新華社 2026-02-24 10:04:20
125 跟貼 125
美貿易代表威脅：和中歐日韓的協議依然算數都得履行

澎湃新聞 2026-02-23 22:58:16
202 跟貼 202
日本經濟長期疲軟，日元購買力跌至53年來最低

環球網資訊 2026-02-24 06:44:00
664 跟貼 664
ICLR 2026 | PIL：基于線性代理的不可學習樣本生成方法

機器之心Pro 2026-02-24 19:36:33
0 跟貼 0
高盛：AI去年對美國GDP貢獻幾乎為零

財聯社 2026-02-24 16:04:31
95 跟貼 95
連霍高速交警硬核喊話：速度提不起來就給我去慢車道！

閃電新聞 2026-02-24 15:52:12
117 跟貼 117
央視提醒：手機出現三種提示或是被操控了！處理方法一文看懂

快科技 2026-02-24 23:09:11
0 跟貼 0
一口氣鎖定6吉瓦芯片！Meta大單綁定AMD 還順手收認股權證

財聯社 2026-02-24 22:50:41
0 跟貼 0
夸克、小米、Meta三款AI眼鏡上手對比

智東西 2025-12-01 15:48:13
0 跟貼 0
多條新規嚴禁變相降低汽車價格

大象新聞 2026-02-24 09:40:02
110 跟貼 110
春節期間這些謠言你信了嗎（2026·02·24）

今日辟謠 2026-02-24 17:00:40
41 跟貼 41

手機 / 數碼

房產 / 家居

AI大語言模型可逐字復制訓練數據中的小說

宇樹科技發布四足機器人Unitree As2

男子摟住繼女強吻動作親密 當地婦聯介入

男子摟住繼女強吻動作親密 當地婦聯介入

蘇翊鳴總結米蘭征程：我仍是那個熱愛單板滑雪的少年

汪小菲官宣三胎出生：承諾會照顧好3個孩子

縣城消費「限時繁榮」了十天

態度原創

你絕對沒見過！這位藝術家的馬賽克畫讓人驚嘆不已！

馬馬馬上上岸!!!TTS《大吉大利復試手冊》+復試班：紙質筆記與1v1模擬面試堂堂上線!!

我嫁中國生了3個孩子，每天帶娃堪比春晚！

闊腿褲失寵了？這4條褲子承包你整個春天的時髦！

男子摟住繼女強吻動作親密當地婦聯介入

男子摟住繼女強吻動作親密當地婦聯介入