![]()
全球頂尖的AI模型可以被誘導生成暢銷小說的近似逐字復制內容,這給AI行業聲稱其系統不存儲版權作品的說法帶來了新的質疑。
最近的一系列研究顯示,來自OpenAI、谷歌、Meta、Anthropic和xAI的大語言模型對訓練數據的記憶程度遠超此前預期。
AI和法律專家向《金融時報》表示,這種"記憶"能力可能對AI集團在全球數十起版權訴訟中的抗辯產生嚴重影響,因為它削弱了他們的核心防御論點——大語言模型從版權作品中"學習"但不存儲副本。
"越來越多的證據表明,記憶現象比此前認為的更為普遍,"倫敦帝國理工學院應用數學和計算機科學教授伊夫-亞歷山大·德·蒙喬伊說。
AI集團長期以來一直聲稱不會發生記憶現象。在2023年致美國版權局的信件中,谷歌表示"模型本身不存在訓練數據的副本——無論是文本、圖像還是其他格式"。
AI行業還聲稱,使用版權書籍訓練模型屬于"合理使用",認為該技術將原始作品轉化為有意義的新內容。
但上個月發表的一項研究顯示,斯坦福大學和耶魯大學的研究人員能夠策略性地誘導來自OpenAI、谷歌、Anthropic和xAI的大語言模型生成13本書中的數千個單詞,包括《權力的游戲》、《饑餓游戲》和《霍比特人》。
通過要求模型完成書中的句子,Gemini 2.5以高度準確性復制了《哈利波特與魔法石》的76.8%,而Grok 3生成了70.3%。
他們還能夠通過"越獄"Anthropic的Claude 3.7 Sonnet模型,幾乎完整地"近似逐字"提取整部小說,越獄是指用戶可以誘導大語言模型無視其安全防護。
這項研究建立在去年一項研究的基礎上,該研究發現Meta的Llama等"開放"模型會記憶訓練數據中特定書籍的大部分內容。
AI專家此前不確定通常具有更多安全防護以防止模型生成不當內容的封閉模型是否也容易出現大規模記憶現象。
"令人驚訝的是,盡管有防護措施,它們仍能記憶整個文本,"參與該研究的耶魯大學研究員A·費德·庫珀說。
研究人員尚未弄清楚大語言模型為什么會記憶出現在訓練數據中的內容。目前也不清楚有多少訓練數據在其生成的輸出中顯現。
這種記憶特性在醫療保健和教育等其他領域也可能產生嚴重影響,因為任何訓練數據的泄露都可能導致隱私和保密問題。
法律專家表示,這可能給AI集團在版權侵權方面造成重大責任,以及對AI公司如何訓練模型和開發成本產生影響。
律師事務所Pinsent Masons的知識產權合伙人塞瑞絲·溫·戴維斯表示,研究發現"可能對那些聲稱AI模型不存儲或復制任何版權作品的人構成挑戰"。
AI模型是否記憶其訓練數據在最近的版權法律戰中發揮了重要作用。
美國法院去年裁定,Anthropic在一些版權內容上訓練大語言模型可能被視為合理使用,因為它被認為具有"變革性"。
但法院認定存儲盜版作品是"本質上、不可挽回的侵權行為",這導致該AI集團支付15億美元和解訴訟。
在德國,去年11月的一項裁決發現OpenAI侵犯了版權,因為其模型記憶了歌詞。這起由代表作曲家、作詞家和出版商的協會GEMA提起的案件被認為是歐盟的里程碑式裁決。
律師事務所Husch Blackwell的合伙人魯迪·特爾舍爾表示,在不越獄的情況下復制整本書"明顯是版權侵犯"。但"關鍵是這種情況是否發生得足夠頻繁,以至于[AI模型]可能對侵權承擔連帶責任,"他補充說。
Anthropic表示,斯坦福和耶魯研究中使用的越獄技術對普通用戶不實用,提取文本所需的努力比直接購買內容更多。
該公司還補充說,其模型不存儲特定數據集的副本,而是從訓練數據中單詞和字符串之間的模式和關系中學習。
xAI、OpenAI和谷歌未回應置評請求。
帝國理工學院的德·蒙喬伊表示,AI實驗室已經建立防護措施來防止訓練數據被提取,這表明他們意識到了這個問題。
芝加哥大學計算機科學教授本·趙質疑AI實驗室是否真的需要在訓練數據中使用版權內容來創建尖端模型。
"無論技術結果能否實現,這仍然是一個我們是否應該這樣做的問題,"趙說。"法律方面最終應該堅持立場,真正成為整個過程的仲裁者。"
Q&A
Q1:大語言模型的記憶現象是什么?有多嚴重?
A:大語言模型的記憶現象是指AI模型能夠近乎逐字地復制其訓練數據中的內容。研究顯示,Gemini 2.5能夠以高度準確性復制《哈利波特與魔法石》的76.8%,Grok 3能生成70.3%。通過越獄技術,甚至能從Claude 3.7 Sonnet中提取幾乎完整的小說內容。
Q2:AI公司之前是如何為使用版權作品訓練模型辯護的?
A:AI公司長期聲稱模型不會記憶訓練數據,谷歌在2023年表示"模型本身不存在訓練數據的副本"。他們還聲稱使用版權書籍訓練模型屬于"合理使用",認為技術將原始作品轉化為有意義的新內容,模型是從作品中"學習"而非存儲副本。
Q3:記憶現象對AI行業版權訴訟有什么影響?
A:這種記憶能力削弱了AI公司的核心防御論點,可能在全球數十起版權訴訟中造成重大責任。德國法院已裁定OpenAI因模型記憶歌詞而侵犯版權,美國法院也認定存儲盜版作品是"本質上的侵權行為",導致Anthropic支付15億美元和解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.