網易首頁 > 網易號 > 正文申請入駐

出版巨頭圍剿Google，AI模型訓練何以侵權？

2026-03-17 14:56:42　來源: 商學院雜志

北京舉報

分享至

從長遠看，Google案件反映的不僅是版權問題，更關乎數字時代“數據是什么資產”的定性。

文｜胡嘉琦
ID | BMR2004

2026年1月，美國大型出版集團Hachette、Cengage等機構請求加入針對Google的集體訴訟，指控其在訓練Gemini大模型時未經授權使用出版物的內容，稱這種行為構成“大規模侵權”。

這起訴訟始于2025年12月，《紐約時報》記者及多位圖書作者向美國加州法院提起訴訟，指控Google、OpenAI、Meta、Anthropic等公司未經許可使用受版權保護的作品訓練大語言模型，并將這一行為稱為“盜版訓練”。

這起案件迅速成為全球科技與法律領域的焦點。中國科學院科技戰略咨詢研究院副研究員呂磊在接受《商學院》記者采訪時指出，當前大模型訓練所使用的數據來源十分復雜，既包括合法購買的數據集，也不可避免地涉及受著作權保護的作品。技術發展高度依賴大規模數據，但這些數據中包含大量受保護內容，如何在技術進步與權利保護之間取得平衡，已成為生成式人工智能興起后最核心的法律議題之一。

訓練如何會構成侵權？

當訓練規模擴大、商業化程度提高、模型直接生成內容的能力增強時，簡單套用既有判例難以覆蓋新的技術現實。

在Google案件中，原告認為未經授權將作品納入AI模型訓練，不僅構成復制行為，更對創作者的現實經濟利益造成實質性侵害。原告律師團隊指出，當人工智能系統能夠生成與原作品高度相似的內容時，這種行為已經超出“學習”的范疇，更接近于對原創表達的“侵占”。

與之相對，以Google為代表的科技企業則認為，現行版權體系中的合理使用規則足以涵蓋 AI訓練行為。它們強調，收集作品的目的并非消費內容本身，而是讓算法學習語言結構與表達規律。這種定性上的巨大分歧，正是當前全球司法體系面臨的核心難題。

從根本上看，現行版權保護法中的“復制”“合理使用”“轉換性使用”等概念，是在人類創作與傳播的背景下形成的，并非針對算法驅動的統計學習設計。因此，爭議的焦點很快從“企業是否違法”，上升為更基礎的問題：人工智能訓練行為在法律上應如何定性？

這一爭議可從人工智能運行的兩個階段理解：訓練階段與生成階段。

在訓練階段，海量文本、圖像和視頻被系統化地納入算法處理流程，模型通過參數調整形成對語言和世界規律的抽象理解。然而，這一過程是否構成對作品的“復制”，法律上尚無明確答案。Google等公司強調，這是統計學習而非對作品表達的再現或傳播，其法務團隊嘗試將其界定為“功能性使用”，并類比于Google Books案中掃描圖書建立索引的行為，試圖將其納入“轉換性使用”框架。

但呂磊指出，當訓練規模擴大、商業化程度提高、模型直接生成內容的能力增強時，簡單套用既有判例難以覆蓋新的技術現實。在此案中，創作者與版權方就認為，只要作品被納入訓練數據庫，或者以任何形式加載進系統內存，就已構成未經授權的復制行為。更關鍵的是，訓練后的模型可能在生成階段再現、改寫甚至替代原作品，從而擠壓原作者的市場空間。在這一邏輯下，訓練階段本身即可構成侵權，無須等待輸出內容。

由此來看，生成階段的爭議或許可以聚焦于模型輸出與訓練樣本的相似性。當人工智能生成的文本高度接近某些原作品時，問題隨之而來：模型究竟是“記住了”原作品，還是僅僅“學會了風格”？

呂磊指出，從法律上區分“記住作品”與“模仿風格”本身就存在難度，而在技術層面，要精確判斷模型發生了哪種行為，更是高度專業化的挑戰。若法律分析脫離對AI技術原理和訓練機制的理解，很難得出可操作性結論。

在傳統版權法框架下，保護對象是具體表達而非風格。理論上，如果模型在特定提示下輸出與原作品高度相似的內容，可能被認定為實質性再現；但更多情況下，生成內容只是對大量信息的重新組合，現有法律難以精準劃定其與原作的邊界。

截至目前，Google與多家出版巨頭的版權爭議案件尚未裁決。案件仍在美國聯邦法院審理，包括出版商介入請求的審查、證據披露及雙方提交法律論證等程序。圍繞Google的訴訟核心問題是：AI模型訓練行為是否構成版權“復制”與侵權，以及在何種條件下成立，而現行法律對此尚無明確界定。

而出版集團加入訴訟的動機之一，是將案件從個體作者的權益爭議，提升到涵蓋整個出版行業的商業利益層面，從而擴大集體訴訟的適用范圍和潛在法律影響。

尚未明朗的法律制度體系

從歷史經驗來看，每一次重大技術變革往往都會推動著作權制度的演進。

以Google案件為例，這幾起針對其Gemini大模型訓練的版權訴訟，表面上看是具體企業的侵權指控，但實際上它們暴露了一個更深層次的制度問題：現行知識產權體系，設計之初是針對人類創作與傳播的行為，而并未為以海量數據為基礎的人工智能生產方式做好準備。無論是圍繞“訓練算不算復制”，還是“生成內容算不算侵權”的爭論，核心問題都是基于AI訓練在法律上應如何界定。

呂磊指出，從現行《著作權法》出發，大模型在訓練階段對作品的使用，很難直接納入傳統“合理使用”框架。

從歷史經驗來看，每一次重大技術變革往往都會推動著作權制度的演進。呂磊以互聯網為例，早期的網絡信息傳播同樣對版權構成沖擊，但隨著商業模式逐漸成熟、法律規則不斷完善，“信息網絡傳播權”等制度逐步建立，新的產業秩序也隨之形成。由此可見，圍繞AI訓練數據的制度亟待重構。

呂磊指出，若嚴格按照傳統版權邏輯，對每一份作品逐一進行授權，不僅在操作上幾乎不可能實現，也會嚴重拖慢技術發展。歷史經驗同樣表明，每一次技術革命最終都促使授權方式和收益分配規則隨著技術演進而發生調整。

在制度尚未完全明朗的情況下，Google等企業也開始在商業實踐中提前搭建“準規則”，以應對潛在風險。例如，推出訓練退出機制、與內容提供方建立付費授權合作，為法律不確定性留出緩沖空間。

一個典型做法是，Google 在官方服務條款中為客戶提供知識產權賠償承諾：如果企業用戶因使用Google生成的內容被起訴侵權，Google會在約定范圍內承擔相應責任和賠償。這種安排將原本分散在用戶身上的潛在風險集中到平臺自身，使企業在使用AI工具時更為放心。

與此同時，Google推出了面向網站運營者的“訓練退出機制”，允許內容提供方通過技術手段聲明不希望其網站內容被用于模型訓練。雖然這一機制在執行效果上仍存在爭議，但它釋放了一個重要信號：科技公司開始承認，數據使用并非隨意，邊界和規則或許都需要更明確。

轉變數據使用方式

隨著生成式AI大模型開發者逐漸耗盡公共數據資源，訓練數據正越來越依賴專有數據和商業授權。

更重要的是，Google在數據合作方式上也發生了轉變。對于價值高、更新快、專業性強的數據，它越來越多地采用付費授權與合作模式，而非依賴抓取或模糊的“合理使用”。

2025年1月，Google宣布與美聯社（AP）達成協議，通過授權讓Gemini AI聊天機器人獲取實時新聞更新，這是其首次與新聞出版商建立AI內容的商業合作。盡管具體金額未公開，但此舉意味著新聞內容從可隨意抓取的網絡素材，轉變為可交易的數據資產。

2025年7月，《商業周刊》報道Google正與約20家全國性新聞機構進行初步授權接觸，探索通過付費方式使用其內容。這不僅為媒體提供了新的收入來源，也改變了它們在平臺面前的被動地位，使內容創作者成為數據經濟中的參與者和直接受益者。

這一趨勢并非個例。隨著生成式AI大模型開發者逐漸耗盡公共數據資源，訓練數據正越來越依賴專有數據和商業授權，并成為具有明確價值與定價機制的核心生產要素。OpenAI已與新聞集團簽署數千萬美元級數據許可協議；類似模式在學術出版、專業數據庫及平臺數據領域也相繼出現。而能夠成為“數據供應商”的機構，往往掌握高價值、專業性強且難以替代的數據，如美聯社、路透社、《紐約時報》、Factiva、Statista、Gartner、Elsevier、Springer Nature、WIPO、IEEE標準庫，以及電商和社交平臺的用戶行為數據。

《數字化賦能高質量發展》主編、數字化專家賴家材認為，隨著數據成為關鍵生產要素，企業對數據價值的認知和使用方式，正在從“資源思維”走向“資產思維”。

企業評估數據的商業價值，核心看兩個維度：“不可替代性”和“實用度”。可以把數據理解為食材，越新鮮、越稀缺、越貼合使用場景，價值就越高。更新頻率快、專業性強、獲取難度大的數據，天然具有更高的市場溢價能力。在授權模式選擇上，企業要根據使用需求進行匹配：按條許可適合短期、小規模使用，靈活且避免浪費；長期合同更適用于核心、剛需型數據，有助于鎖定穩定來源；訂閱模式則適合高頻、持續更新的數據，能夠形成長期穩定的數據供給機制。

在數據類型上，真正最有價值也最難替代的，往往是那些具有專業門檻和生產成本的“硬數據”。例如權威媒體的實時新聞、學術出版機構的專業論文數據庫、成熟調研機構的行業統計與研究數據等。這類數據采集和生產過程復雜，難以被輕易復制。企業在選擇數據供應商時，應重點關注三項關鍵指標：一是數據質量，是否準確、干凈、可直接使用；二是更新效率，能否跟上模型訓練和業務迭代的節奏；三是合規性，版權歸屬是否清晰、使用風險是否可控。高價值數據是AI系統的重要“養料”，而穩定可靠的數據供應商，則是保障模型能力和業務安全的源頭。

在使用這些高價值數據的過程中，合規問題變得尤為重要。AI企業在使用內容數據時，需要與權利人簽訂清晰協議，明確使用范圍、期限以及收益分配機制。同時，優先采用版權清晰、經過脫敏或去標識化處理的數據，也有助于從源頭降低法律風險。

從更宏觀的角度看，數據資產的商業化正在重塑行業結構，并推動相關制度不斷完善。未來有望逐步形成類似版權市場的“數據許可市場”，讓數據交易從分散、模糊走向規范、透明。對行業而言，這意味著內容生產機構不再只是被動提供素材，而是成為AI價值鏈中的重要參與者；對政策層面來說，也將加快數據權屬界定、交易規則和監管框架的完善。隨著規則逐漸清晰，數據要素的價值將得到更充分釋放，數字經濟的發展邏輯也將隨之升級。

康達律師事務所高級合伙人茍博程則認為，企業對其數據價值的評估通常綜合技術效用、稀缺性、可復用性、合規成本與市場替代難度，并應用成本法、收益法和市場比較法進行定價。這一邏輯在實際巨頭實踐中也清晰可見。以Google為例，谷歌在其Gemini和其他生成式AI服務中強調對客戶數據的安全與合規處理，比如明確承諾不會未經許可使用Workspace客戶數據來訓練其模型，從而避免合規風險和潛在侵權指控，這本身就是對數據來源合法性和使用邊界的商業價值判斷和風險防控的體現。

與此同時，圍繞如何使用公開內容訓練模型的爭議也日益成為行業焦點。歐盟競爭監管機構近期對谷歌是否在訓練Gemini等模型時利用網絡內容（包括出版商文章和YouTube視頻）且未給創作者提供合理補償或選擇退出的權利啟動了調查。

茍博程認為，真正高價值且難替代的數據仍集中于垂直領域專有數據、真實用戶交互數據、多模態對齊數據及時效性強的動態數據，企業在遴選數據供應商時需重點核查合法來源證明、數據質量文檔及知識產權清晰度。在利用公開數據的同時，必須建立合規體系，通過事前盡調、合同與技術雙重保障以及創作者補償與溯源機制來降低侵權風險；全球監管趨勢也日益強調訓練數據的合法性與透明度。

從長遠看，Google案件反映的不僅是版權問題，更關乎數字時代“數據是什么資產”的定性。圍繞數據的許可市場、透明度規則和合規機制，可能成為未來制度框架的重要組成部分，推動新的數據產權體系形成。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.