![]()
一份訴狀把蘋果推上了風口浪尖:7000萬條YouTube視頻,被用來訓練AI模型,而視頻創(chuàng)作者們對此一無所知。
這不是某個小眾數據集的故事。原告Ted Entertainment、Matt Fisher和Golfholics在集體訴訟中指控,蘋果研究團隊繞過了YouTube的反爬蟲機制,下載了數百萬條視頻內容。他們的作品在數據集中出現了超過500次——而這只是冰山一角。
一份論文如何成為證據
問題的核心是一篇發(fā)表于2024年底的研究論文。蘋果研究團隊在其中詳細描述了名為STIV的視頻生成模型,并明確提到使用了Panda-70M數據集進行訓練。
Panda-70M并非直接存儲視頻文件,而是一個精密的"地圖"。它通過URL、視頻標識符和時間戳,指向YouTube上的具體片段。一條10分鐘的視頻可能被切割成數十個獨立樣本,每個樣本都需要單獨訪問、提取、隔離——每一次提取,都是一次獨立的繞過行為。
原告的律師抓住了這個技術細節(jié):數據集本身只是索引,但蘋果 allegedly(被指控)突破了YouTube的技術防護,把索引變成了實際的內容攝取。這相當于有人給了你圖書館的目錄,你卻撬開了鎖,把書復印了一遍。
同一批原告,三家科技巨頭
訴訟的野心不止于蘋果。同一批原告已經對亞馬遜和OpenAI提起了類似的集體訴訟,指控這兩家公司同樣使用了Panda-70M數據集訓練各自的AI模型。
三起訴訟指向同一個數據源,暗示了一個行業(yè)性的操作模式:用公開可見的鏈接作為法律緩沖,再技術手段突破平臺防護獲取實際內容。原告要求陪審團審判,并尋求對"所有處境相似者"的集體代表資格。
蘋果的回應目前保持沉默。但論文的存在讓否認變得困難——研究人員自己把方法寫進了公開發(fā)表的文獻里。
創(chuàng)作者經濟的裂縫
對YouTube創(chuàng)作者而言,這起訴訟觸及了一個被長期回避的問題:平臺內容究竟屬于誰?
YouTube的服務條款明確禁止未經授權的抓取行為,但AI公司的訓練需求與平臺規(guī)則之間存在巨大的灰色地帶。Panda-70M的"索引"設計,某種程度上是對這種張力的技術回應——它不提供內容,只提供"如何找到內容"的說明書。
但說明書加上撬鎖工具,是否就等于合法獲取?這是法庭需要回答的問題。原告的策略很清晰:不攻擊數據集本身的存在,而是聚焦在"繞過防護"這個具體行為上。
Matt Fisher的頻道以高爾夫教學內容為主,Golfholics同樣是垂直領域的創(chuàng)作者。他們的內容被切割成數百個訓練樣本,意味著AI模型可能正在學習他們的表達方式、鏡頭語言和敘事節(jié)奏——而這些恰恰是創(chuàng)作者的核心資產。
訴訟背后的時間線
論文發(fā)表于2024年底,訴訟在2025年初跟進,節(jié)奏緊湊。原告律師顯然做足了功課:研究文獻、技術白皮書、數據集文檔,都被轉化為法律證據。
值得注意的細節(jié)是,蘋果在論文中并未隱瞞數據來源。STIV研究的作者列表包括多名蘋果機器學習研究員,機構 affiliation 明確標注為Apple。這種"透明"在訴訟語境下反而成了雙刃劍——你無法聲稱不知情,當方法是你自己發(fā)表的。
亞馬遜和OpenAI的訴訟目前處于并行狀態(tài)。三起案件如果合并或產生交叉引用,可能形成對Panda-70M數據集使用者的系統(tǒng)性法律壓力。數據集的維護方——一支學術研究團隊——尚未被列為被告,但訴訟的邏輯可能隨時延伸。
創(chuàng)作者們的訴求最終指向一個更深層的問題:當AI模型的能力越來越接近人類創(chuàng)作者,訓練數據的獲取邊界應該劃在哪里?如果7000萬條視頻的"索引"可以合法存在,那么"索引"的使用深度有沒有上限?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.