【作者 】許春明(同濟大學上海國際知識產權學院教授,管理學博士);段明赫(同濟大學上海國際知識產權學院)
【來源】北大法寶法學期刊庫《電子知識產權》2025年第8期(文末附本期期刊目錄)。因篇幅較長,已略去原文注釋。
內容提要:隨著人工智能技術的發展,數據在訓練過程中的重要性和數據利用情況的復雜性不斷增加,數據訓練正面臨著作權困境。將數據訓練納入合理使用的法定情形存在違反“三步檢驗法”的風險。在數據訓練情形,合理使用的司法實踐規則也難以適用。法定許可不能充分降低數據訓練領域的交易成本。針對上述困境,可以引入延伸性集體管理制度作為解決方案。延伸性集體管理通過“選擇—退出”機制,大幅降低交易成本,在處理海量訓練數據和存疑數據許可時具有顯著優勢。同時,該制度相較于合理使用和法定許可,更好地實現了人工智能企業和著作權人之間的利益平衡。最后,應當建立具有廣泛代表性的數據集體管理組織,并完善其監督與管理機制,以確保延伸性集體管理的實施能夠在促進人工智能行業發展的同時,保障著作權人的合法權益。
關鍵詞:人工智能;延伸性集體管理;合理使用;法定許可
目次 一、數據訓練涉及的作品使用行為 二、數據訓練面臨超額交易成本與著作權人方利益失衡的雙重困境 三、數據訓練的合理使用“不合理” 四、法定許可適用局限性:交易成本和行業壟斷視角 五、訓練數據延伸性集體管理的合理性分析 六、構建具有廣泛代表性的AI訓練數據集體管理組織 七、總結
一
數據訓練涉及的作品使用行為
人工智能經歷了“機械學習”,到狹義機器學習再到深度學習的發展過程。人的勞動在其中占比越來越少,數據訓練的重要性以及數據利用的復雜程度在不斷增加。明確數據訓練的法律性質,確認數據訓練的合規風險對于人工智能發展已是迫在眉睫。
為了便于進行作品使用行為分析,本文將抽象的數據訓練過程拆解為以下幾部分(詳見圖1),在具體的行為層面分析數據訓練可能造成的著作權侵權風險。
![]()
圖1 數據訓練過程
(一)數據挖掘階段存在對作品的復制
數據挖掘包含爬取、預處理與存儲。其著作權法核心爭議在于復制和演繹行為的認定。
數據爬取不涉及對作品的使用。數據爬取將來自互聯網的公開數據按照需求轉移到人工智能的臨時數據庫之中,并迅速經歷數據的預處理,不存在長期存儲。數據爬取對數據的復制屬于臨時復制,客觀上“復制件”沒有被持久固定,不符合傳統著作權法對復制行為的定義,不會侵犯著作權人的著作權。
預處理是技術性轉換,所做的主要工作是對數據的向量化以及剔除。在這類技術性處理特征過程中,作品與機器可讀的向量的數值具有固定的、單一的對應關系。算法以及編輯者并沒有進行任何的創造性勞動,因此不會涉及改編權等著作演繹權利侵權。
數據存儲將預處理過后的數據存儲到計算機的存儲庫。該部分數據以機器可讀的形式保留了原作品的基本表達,是受到著作權法保護的作品。存儲將數據從臨時的緩存庫中轉移到存儲庫中,涉及作品在不同的載體之間的轉移。而且被轉移的數據需要在存儲庫中較長時間的停留,以滿足后續的模型構建中迭代的需求,事實上已被穩定地、持久地固定在新的載體中,滿足《著作權法》對復制行為的定義。
(二)特征提取不涉及對作品的使用
特征提取,是由人工手動或機器自動識別并標記訓練數據中可以作為算法變量特征的過程。從著作權層面上的作品使用行為分析,特征提取對數據進行標記本身不涉及任何的更改,無法構成改編等演繹行為;同時對數據的標記發生在存儲庫中,也不涉及載體之間的轉移,無法構成復制行為。因此,特征提取不涉及對作品的使用。
(三)模型構建以及模型評價可能構成作品改編行為
模型構建以及模型評價是一個交互的過程,本文一并進行分析。模型構建包括輸出和修正。輸出是由輸入端經由隱藏層到達輸出端的正向傳播,獲得輸出結果。修正是由輸出端到輸入端的反向傳播,調整模型參數。通過正向傳播和反向傳播的迭代,模型精度逐漸逼近真實決策。
輸出是算法模型模仿人類決策的過程。以生成式人工智能為例:生成式人工智能模型提取訓練數據中的作品特征,并基于上述特征嘗試模仿作品產出相同的結果。輸出過程是否侵權取決于輸出結果是否屬于“表達性使用”。在訓練過程中,作品整體被鑲嵌至算法模型中。部分人工智能生成內容調用作品的表達,并在此基礎上進行排列組合。這類創作物的創作目的即模仿原作者的風格、特色。其在創作內容上因為保留了原作品的特征,與原作存在極高的相似性,并未脫離原作品的實質性內容;并且生成式人工智能的創作物與原作品存在潛在的競爭,損害原作者的利益,可能構成對原作品的改編。而另一部分人工智能生成內容調用作品的創作思想,不構成著作權法意義上的改編。
修正通過梯度下降等方法調整模型的參數。修正主要涉及對梯度的計算以及對參數的修改,并沒有將作品作為調整的對象,不涉及對作品的使用。
模型評價包括利用驗證集對參數進行調整以及對訓練完成的模型精度進行檢驗,是特殊的輸出過程,可能存在著作權法意義上的改編行為。
綜合對于四個階段的系統分析,在不考慮著作權例外規則的情況下,人工智能的訓練過程涉及對作品的復制與改編。而后續對輸出結果的使用有可能涉及更多的對作品的使用行為。
二
數據訓練面臨超額交易成本與著作權人方利益失衡的雙重困境
未經著作權人許可利用受著作權保護的數據進行訓練的行為構成著作權侵權。然而,數據訓練因其特殊性質,如訓練數據的龐大數量和高額的許可獲取成本,以及數據訓練侵權行為的隱蔽性和侵權發現的困難,面臨獨特的挑戰。法律尚缺乏對數據訓練的特別制度安排,導致現實中出現數據訓練難題。
(一)數據使用方的超額許可成本問題
合法獲得訓練數據許可的巨大交易成本導致企業輕視合規冒險實施可能侵權行為。在目前的法律體系下,原則上企業在進行數據訓練前需要征得著作權人的同意,向著作權人支付費用后才能夠合法地利用作品進行數據訓練。復雜的許可環節帶來巨額的交易成本。訓練數據數量太過龐大,人工智能企業不可能確定每條數據是否受著作權保護的作品,更不可能追溯到每條數據的源頭征得著作權人的同意。交易成本的困境導致著作權制度在數據訓練領域形同虛設,違法使用訓練數據的案例頻發。OpenAI正同時面臨著來自出版行業、程序員、社會群體等多方面訴訟。據報道,OpenAI未經作者的許可,擅自使用他人的新聞報道、程序代碼、文字繪畫等作品,訓練數據來源受到質疑。Facebook母公司Meta Platforms、谷歌母公司Alphabet、蘋果、亞馬遜和微軟等科技巨頭近年來也面臨著大量此類訴訟。受著作權保護的訓練數據被濫用已經成為嚴重的現實問題。
(二)著作權人方的利益失衡問題
數據訓練行為的隱蔽性導致侵權發現難,著作權人利益受到侵蝕。從著作權人的角度出發,人工智能的發展嚴重威脅作品原創者的生存空間,原創者卻不能從人工智能產業的繁榮中獲得合理的補償,發生嚴重的利益失衡。數據訓練本身是個高度概括且抽象的過程,侵權行為具有隱蔽性。復制行為發生在人工智能企業自己的服務器中,并且以向量等形式存儲,著作權人沒有訪問人工智能企業服務器的權限,無法獲悉自己的作品是否被用于數據訓練過程;人工智能模型針對用戶進行結果輸出,輸出結果不一定被公開,著作權人無法確定輸出結果是否保留自己作品的獨創性特征。即便著作權人能夠識別出人工智能輸出結果具有自己作品的獨創性特征,也面臨著訴訟力量懸殊、舉證難等問題。著作權人利益得不到保障,利益失衡嚴重。
(三)現有限制與例外機制
學者以及司法界給出“合理使用”以及“法定許可”兩種著作權的限制與例外制度作為數據訓練的解決方案。下文將從立法現狀、法律原理、制度目的幾個層面進行分析,論證合理使用與法定許可制度在數據訓練領域的制度失靈及其原因,并嘗試從集體管理角度提出化解人工智能訓練數據困境的新方案。
三
數據訓練的合理使用“不合理”
合理使用旨在平衡著作權人利益與社會公共利益。本文將從現行法律規定和司法實踐規則兩個層面,分析將人工智能數據訓練納入合理使用范圍所面臨的障礙。
(一)數據訓練納入合理使用的法定困境
我國合理使用的立法模式借鑒了《伯爾尼公約》中的三步檢驗法。數據訓練的合理使用不能夠完全滿足“三步檢驗法”的要求,難以被納入合理使用情形。
第一,數據訓練涉及的復制與改編行為超出合理使用的范圍。從合理使用的十二種法定情形中可以抽象出其兩種制度目的:其一是為了保障公民基本權利,主要涉及合理使用的(三)(四)(五)(十一)(十二)款;上述條款對公民的知情權與受教育權等基本權利做出妥協,著作經濟權利無法與基本權利相比,因此受到限制。基于該目的的合理使用,要求著作權利益相較于作品使用行為帶來的社會福利極小。而數據訓練不涉及公民的基本權利,亦無法衡量算法模型優化帶來的人工智能發展利益與著作權人受損的利益孰重孰輕。其二是為了私人以及公共生活領域方便而不得已做出的妥協,主要涉及合理使用的(一)(二)(六)(七)(八)(九)(十)款。數據訓練脫離私人與公共生活領域,不可能因其在合理使用中的缺位造成私人與公共生活不便。綜上所述,將數據訓練納入合理使用范圍,可能超出立法設定的制度目的邊界。
第二,將數據訓練納入合理使用不滿足“三步檢驗法”不與作品正常使用相沖突的要求。通常認為,只有對作品的使用不損害著作權人利益或使用能夠總體上增加著作權人的利益時屬于“不與作品正常使用相沖突”。世界貿易組織認為只要該項限制妨礙了著作權人的“顯著”或“有形”的經濟收益權,就與作品的正常使用相沖突。數據訓練結果可能生成與受訓作品存在市場競爭關系的輸出物。這種使用方式對著作權人現有及潛在市場利益構成影響的風險,難以滿足“不與作品正常利用相沖突”的要求。
第三,“三步檢驗法”的最后一步要求“不得不合理地損害著作權人的合法權益”。“合理”的使用應當在理性的范圍內,符合公平、正義等價值觀念。訓練數據的合理使用制度建構不能實現公平正義。將數據訓練行為納入合理使用的例外,是著作權人和人工智能企業權利義務的“不公平”:著作權人需單方面容忍其作品被大規模商業使用,而利用方則免除了征求許可和付費的義務。
第四,我國對于合理使用的規定創設地要求“應當指明作者姓名或者名稱、作品名稱”。在數據訓練場景中,面對海量且來源復雜的訓練素材,要求企業準確指明每一份受版權保護數據的作者及作品名稱,存在顯著的實踐困難。
綜上所述,基于目前的著作權法規定,將商業性數據訓練行為納入合理使用法定情形存在多重法律障礙。
(二)數據訓練納入合理使用超出司法實踐規則
在司法實踐中,最高人民法院肯定了美國“四要素”在裁判合理使用中的輔助性作用,并常參考“轉換性使用”原則來輔助判斷合理使用。從這些規則視角審視數據訓練,亦面臨挑戰。
1.基于“四要素”的分析
“四要素”法包含使用的目的和性質、作品的性質、使用的數量和實質性、對潛在市場或價值的影響。有觀點認為“四要素”下數據訓練適用合理使用的兩個假設前提是:機器學習屬非表達性使用,且不影響作品市場。然而,現實情況更為復雜。
首先,數據訓練能夠在作者的表達中攫取有價值的信息,從表達層面獲取收益。“機器學習”應該區別于往日的“機器”學習,作為訓練數據的作品表達可能會在生成式人工智能的輸出結果中復現。人工智能對作品的使用不再局限于不構成侵權的非表達層面。其次,人工智能的輸出結果以全新的方式威脅到作品市場。人工智能創作物具有低成本、短周期、大數量的特點,與人類作者的作品之間存在強競爭關系,壓縮作者生存空間,對原有作品市場產生實質性影響。
從“四要素”角度看,數據訓練在作品使用的性質與目的,對潛在市場影響兩個最關鍵要素上難以充分滿足合理使用的要求。
2.數據訓練難以構成轉換性使用
轉換性使用原則是對四要素中“(1)使用的目的與性質”的重述和具體化。數據訓練因為目的與性質同合理使用制度初衷偏離而難以構成轉換性使用。
數據訓練中的復制行為難以構成轉換性使用。在Authors Guild v. Google案中,谷歌圖書搜索的復制行為被認定為轉換性使用。紐約州法院認為,“圖書館計劃”為讀者和研究者提供了一種高效檢索圖書的方式,拓寬了作品獲取途徑,促進作品傳播,整體上對作者和出版商有益。該案中,法院強調其復制目的嚴格限定于文獻保存,且此種特定目的的實施最終對權利人具有積極意義。這種“有益性”特征在數據訓練的復制中無法復現,因為人工智能在作品市場同原作者處于競爭對立地位,數據訓練轉換性目的弱。
其次,數據訓練執行過程對作品的改編行為,也難以構成轉換性使用。轉換性使用可分為目的性轉換性和內容性轉換性使用。數據訓練過程對作品的改編主要服務于模型內部功能優化,通常不服務于非欣賞目的獲取、評論或檢索等目的,目的轉換性不足。而訓練過程將作品有價值的表達特征加以提取,并重組再次進行表達,并未為作品添加新的具有審美意義的內容,也沒有從另一個全新的角度對作品進行解讀,其輸出的創作物的價值仍然依賴于原作品的創造性表達,也難以達到內容性的轉換要求。
值得注意的是,美國聯邦最高法院在Andy Warhol Foundation v. Goldsmith案中收緊了轉換性使用的認定標準,否定“任何為原作品添加美學內容或新的表達方式都能夠構成轉換性使用”的觀點。在這樣的背景下,即便人工智能發展到足以重組原作品的表達、進行內容上的創新,是否能構成轉換性使用也高度存疑。
3.功利主義再審視
“四要素”和“轉換性使用”承載功利主義思想,即通過有限限制版權以促進知識傳播和整體社會福利最大化。表面上會侵犯著作權的行為,如果背后承載了更大的公共利益,可能會被納入合理使用。
邊沁認為:“功利主義贊成能夠增大利益相關者幸福的行為,來促進這種幸福的傾向;非難減少利益相關者幸福的行為,來妨礙這種幸福的傾向。”將數據訓練納入合理使用范圍會極大程度上損害著作權人的利益,降低作者的創作積極性,長遠來看不利于文化行業繁榮,整體上來看是導致社會福利減少的,不符合功利主義內核。
四
法定許可適用局限性:交易成本和行業壟斷視角
法定許可制度的設計為了解決存在于版權領域的兩個問題。一是超額的交易成本;二是因為版權行業壟斷導致的市場失靈。上述制度目的在數據訓練領域無法實現。
(一)法定許可不能充分降低數據訓練領域交易成本
交易成本理論視角下,法定許可降低了權利人與潛在使用者之間的磋商成本,但并沒有減輕人工智能企業的付費義務要求。企業使用訓練數據必須要找到作者,并向作者支付費用,仍存在很高的搜尋成本和實施成本。
這種模式之下,對于明確享有版權且作者信息明確的作品,企業向其支付作品使用費用難度不大,不存在過高的交易成本。但有相當數量的訓練數據,不能夠確定其是否屬于受著作權保護的作品,或難以找到權利人信息,企業確定這種存疑的訓練數據是否屬于作品、搜尋作品權利人信息、支付許可費用的搜尋成本、實施成本極大。
這種情況下交易成本已經超過了單條數據價值。理性的企業會選擇忽視法定許可的規定,不向著作權人支付費用,而是放任侵權行為的發生,訴訟發生時再予以補救。此時法定許可發生制度失靈,淪為一紙空談。
(二)法定許可解決行業壟斷作用無用武之地
法定許可制度第二個目的是解決版權行業的壟斷問題。錄音制品的法定許可的立法宗旨是為了防止音樂市場的壟斷。二十世紀初期,音樂作品的著作權往往由音樂出版商通過和著作權人簽訂協議取得。而大型唱片公司與音樂出版商簽訂專有許可協議,壟斷了利用音樂作品制作錄音制品的權利。為了避免少數大型公司壟斷音樂市場,美國國會在1908年《版權法修正案》率先對“制作錄音制品法定許可”作出了規定。
從錄音制品法定許可的制定淵源可以看出,該類法定許可是為了防止著作權利壟斷版權市場。但是在人工智能領域,著作權人不僅不具有壟斷地位,甚至不占有市場份額,處于顯著弱勢地位;反而,該領域享有市場支配地位,需要進行權利限制的正是要求使用作品的人工智能企業。法定許可解決行業壟斷的目的在人工智能的訓練領域不具有現實意義。
(三)從法定許可到延伸性集體管理
法定許可制度建立以來,因為缺乏程序上的保障飽受詬病。以我國的錄音制品法定許可為例,首先是許可費收取難—著作權人和錄音制品使用者之間存在高度的信息不對稱性,許可使用費往往依賴于使用者自覺繳納;其次是許可費定價難—法定許可制度省略了協商過程以減少協商交易成本,取而代之的是行政機關確立許可價格。這種方式剝奪了著作權人的議價權,同時缺乏合理性、代表性、及時性。因此,在缺乏足夠的程序性保障機制的情況下,法定許可制度目的難以實現。即便是在建立法定許可制度較早的美國,產業上的實施也已完全依賴于集體管理組織,實際上構成了具有延伸性效果的集體管理,最終完成了集體許可模式對法定許可替代。
五
訓練數據延伸性集體管理的合理性分析
相較于合理使用、法定許可,延伸性集體管理重點關注縮減交易成本,符合數據訓練過程特點,能夠更好地實現利益平衡。
(一)訓練數據的延伸性集體管理
延伸性著作權集體管理最早為了解決集體管理組織獲取作者授權的困境。通過限制“非代表會員”的權利,延伸性集體管理將集體管理組織的權利擴展到非會員作品,給予集體管理組織一項“法律推定權”,管理非會員的作品。
延伸性集體管理實際上是一種以“選擇—退出(opt-out)”為基本構造的默示許可。集體管理組織對進行延伸性管理的作品進行公告即推定獲得來自著作權人的默示許可,著作權人可以隨時通過通知集體管理組織拒絕管理的方式退出集體管理。集體管理組織以公告作品的方式進行了要約,而作者不對管理進行拒絕實際上構成了默示承諾。延伸性集體許可重構作品許可過程,解決特殊情形下信息不對稱,實現了效率與公平的統一。
延伸性著作權集體管理是針對特殊情況,交易成本過于巨大,乃至于普通的集體管理不能起到理想的效果,所做出的特殊制度安排。數據訓練領域正符合延伸性集體管理的應用場景:海量的數據以及單條數據的低廉使用價格導致人工智能訓練數據交易成本大于作品本身許可價格,交易不能順利進行。此時考慮引入延伸性集體管理,并將適用范圍嚴格限制在訓練數據的許可之上,在最小化“選擇—退出”對著作權人權利限制的同時解決訓練數據領域的許可問題。
(二)延伸性集體管理的交易成本分析
訓練數據特性致使其著作權保護構成復雜議題,具體表現在以下三個方面。
第一,訓練數據來源的復雜性。訓練數據包含處于公共領域的知識、受著作權保護的作品以及權屬不確定的存疑數據。企業在獲取訓練數據時面臨區分成本、來源尋找成本以及協商成本。即使找到著作權人并就作品的使用達成一致,企業仍面臨支付費用的實施成本。訓練數據來源的復雜性決定了單條訓練數據獲得許可的高額成本。
第二,訓練數據的數量極其龐大。以生成式人工智能常用的訓練語料數據庫COMMON CRAWL為例,其在2023年累計爬取的網頁已達到百億的量級。單條訓練數據的交易成本乘以如此巨大的數據量級,進行人工智能數據訓練的交易成本達到天文數字。
第三,單條訓練數據的價值極低。在交易成本巨大的領域,如果商品本身價值遠高于交易成本,上述交易成本也應該被容忍。但是,模型訓練建立在數以百億的訓練數據的統計基礎之上。平均下來,單一的訓練數據的價值可以忽略不計。在這種情況之下,交易成本遠大于商品價格,交易無法進行。
以上巨大的交易成本導致傳統的許可模式不能很好地應用于數據訓練,而延伸性集體管理最直接的作用就是降低交易成本。延伸性集體許可從以下幾個方面降低交易成本,解決訓練數據管理困難的著作權問題。
1.一攬子許可,降低協商成本、人工智能企業方搜尋成本和實施成本
延伸性集體管理本質上仍屬于集體管理,享有集體管理本身降低成本的制度優勢。
首先,集體管理組織實施一攬子許可,省略了著作權人與被許可人的協商環節。集體管理在交易過程中充當著作權人與人工智能企業之間的橋梁,將“多對多”談判轉變為“一對多”,降低協商成本。其次,一攬子許可能夠降低搜尋成本。集體管理組織將管理的訓練數據制作為目錄,并進行公示,省略了數據搜尋以及來源確認過程。最后,集體管理組織的自治性保證了組織的運行不依賴于其他主體。集體管理組織可以進行自主決策,作為獨立的主體向著作權人支付費用,降低實施成本。
2.延伸至非會員,降低集體管理組織方搜尋成本,進一步降低協商成本
延伸性集體管理相較于普通集體管理的優勢在于,特殊情況下其將管理范圍延伸至非會員,進一步降低交易成本。
第一,延伸性集體管理在集體管理模式下進一步降低搜尋成本。延伸性集體管理模式采取“選擇—退出”機制的默示許可,只有著作權人采取措施通知集體管理組織時,集體管理組織才取消對其作品的管理,簡化許可程序。簡化后的作品許可程序很好地契合了訓練數據“來源模糊”的特性:集體管理組織無需再搜尋著作權人聯系方式以征求著作權人同意,而是通過“公示數據及其來源”的方式將退出權移交到著作權人手中。
第二,延伸性集體管理避免協商成本。傳統集體管理模式下,著作權人與集體管理組織的談判環節是獲得許可的必經程序之一,而在延伸性集體管理模式下,談判過程被省略。取而代之的是集體管理組織的單方面“許可通知”與著作權人的單方面“選擇退出”,協商成本接近為0。
3.借鑒孤兒作品許可方式,解決存疑訓練數據
延伸性集體許可被用于解決孤兒作品許可問題。集體管理組織不需要做出努力尋找孤兒作品的作者,只需要將所使用的作品進行公示即可獲得使用作品的許可。除非該作品的權利人通知集體管理組織拒絕其管理,集體管理組織代行許可權利。這種“選擇—退出”模式避免了繁瑣的作品來源確定環節,降低搜尋成本,促進作品傳播。
上述處理孤兒作品的思路可以應用于解決存疑訓練數據的許可成本問題:集體管理組織在收集訓練數據保護的第一步時,就要確定其是否享有著作權。并據此將作為訓練源的數據區分為:(1)明確享有版權的數據;(2)明確不享有版權的數據;(3)存疑的訓練數據。
針對確定受到版權保護的作品。在延伸性集體管理模式之下,集體管理組織采取公告等方式對作者進行通知,即可將其作為訓練數據源對人工智能企業許可。第一種作品的作者信息明確,集體管理組織可以較小的交易成本向作者分配費用;針對明確不享有版權的數據,它們存在于公共領域,集體管理組織可以將其作為訓練數據。這類數據處于公共領域,不需要進行許可費用支付;針對存疑的數據,借鑒延伸性集體管理組織對孤兒作品的處理方法,利用“選擇—退出”機制通過官網公示數據管理情況、暫不支付費用,待作者主動要求退出或分配費用時再行處置,有效規避因作者不明導致的搜尋成本,同時降低集體管理組織的實施成本與分配成本。
采取這類對孤兒作品的處理方法解決存疑訓練數據交易成本難題主要存在兩個優勢:(1)作品的權利人本身對作品狀態更為了解,容易確定是否受著作權保護。相較于集體管理組織耗時更短、成本更低、準確度更高。(2)集體管理組織通過“選擇—退出”機制將巨大的權利人信息搜尋成本均勻地分配到每個作品權利人身上,避免交易成本積聚在單一主體。
4.規模優勢:統一標簽,降低邊際成本
人工智能的模型質量依賴于高質量的訓練數據。高質量的訓練數據不僅需要具有強時效性,還需要良好的標簽。在實踐之中,很多人工智能企業將數據標簽外包,但面臨著隱私信息泄露、標簽質量差問題。
集體管理組織統一標簽保證數據的安全性,發揮規模優勢。集體管理組織受到國務院主管部門的密切監管,隱私信息泄露概率低;此外集體管理組織通過集中培訓加批量處理的方式,保證訓練數據質量,降低標簽邊際成本。
(三)延伸性集體管理能夠更好地實現利益平衡
知識產權法律制度的核心在于利益平衡,評判一項知識產權制度的好壞,利益平衡是核心。延伸性集體管理更好地實現了數據訓練中的利益平衡。
一是延伸性集體管理相比于合理使用制度,能夠更好地保護著作權人利益。合理使用模式是對著作權人的權利做出的極大限制,著作權人無法享受人工智能發展帶來的高新科技就業紅利,卻要承受與人工智能競爭就業的風險。延伸性集體管理為著作權人保留了選擇權,雖然增設了注意義務,但著作權人仍可以自主決定是否允許集體管理組織對其作品進行管理;其次,著作權人可以得到經濟層面的補償,相較于合理使用模式下的無償使用,延伸性集體管理能夠更好地實現利益平衡。
二是延伸性集體管理相比于法定許可制度,能夠更好地促進人工智能行業發展。法定許可沒有解決存疑訓練數據交易成本問題。這部分訓練數據數量不容小覷,高額的交易成本設置了極高的行業壁壘,加劇了行業壟斷,限制競爭。即便大型公司面對如此交易成本,創新的動機也會下降,阻礙行業科技發展。延伸性集體管理于降低交易成本優于法定許可,其模式可破除法定許可交易成本障礙,助力人工智能行業迭代發展。
六
構建具有廣泛代表性的AI訓練數據集體管理組織
訓練數據的集體管理需要做出全新的立法設計,既建立于現有著作權集體管理的基礎之上,又是對現有的集體管理制度的批判性改造。廣泛的代表性是集體管理制度能夠良好運行的必要條件,也是延伸性集體管理制度成立的基礎。歐盟對代表性的要求主要涵蓋會員覆蓋面、建立許可途徑及權利人通知機制三個層面。本文將從集體管理組織代表性的角度,提出對訓練數據的著作權延伸性集體管理模式的基本構建。
(一)提高集體管理組織公信力,降低入會門檻,吸引權利人加入
集體管理組織的法定壟斷地位是成立廣泛代表性的前提,多個集體管理組織同時存在分割市場,無法保證集體管理組織能夠代表市場上所有潛在的權利人。然而,法定壟斷地位也可能引發權利人對管理動機和效率的疑慮,阻礙其加入。如何在保證集體管理組織的法定壟斷地位的同時,消除公眾信任危機,確保數據集體管理組織的成員能夠代表市場上所有潛在權利人的利益成為數據集體管理組織制度構建應當考慮的核心問題。
首先,應當建立數據集體管理全過程透明的制度。數據集體管理制度建立應當吸取著作權集體管理組織弱公信力的經驗,就組織的成員、管理數據、具體權利、許可價格、協商過程等流程事項進行全面地公示,消除公眾信任危機。其次,應當設立數據集體管理組織入會的零門檻。采取“先入會,后篩選”的模式,即著作權人選擇加入集體管理組織時不對其資格進行評審,在出現分配費用糾紛時再進行審查,簡化集體管理組織的入會評估過程。
(二)建立完善的數據集體管理組織會員代表制度,保證許可協議的代表性、合法性
延伸性集體管理因為具有廣泛的代表性,被認為能夠充分代表非會員的權利,因此具有合法性。具有高度代表性的會員代表保障非會員的權利,消除非會員對延伸性集體管理制度的顧慮。
首先,會員選任程序要做到公平、公正。會員代表選任需要兼顧程序公正和結果的代表性,投票過程設置合理的投票比重,結果上應能代表特定行業的主流利益。其次,會員代表同數據集體管理組織的協商過程應當保證其余會員以及非會員的參與權,允許非代表會員以及非會員通過提出意見、旁聽等方式參與協商。最后,會員代表同集體管理組織討論得到的許可協議成文應當具有合理性。許可協議內容不能對某個利益群體具有不合常理地偏好或者不合常理地損害某個群體的利益。
(三)成立數據集體管理信息平臺
在延伸性集體管理“選擇—退出”模式之下,集體管理組織受到通知義務的限制,集體管理組織必須以恰當的方式通知權利人被管理的作品以及被管理的權利。考慮訓練數據的特點,成立數據集體管理信息平臺是履行通知義務、進行管理信息公示的最佳途徑。
理想的數據集體管理平臺需要滿足三個功能:(1)管理信息公示公告;(2)作品信息檢索;(3)管理過程公開。反思現有五大著作權集體管理組織網站的不足,借鑒專利開放許可交易平臺的經驗,本文為數據集體管理信息平臺的構建提出如下建議:
第一,建立全面的信息公示制度。延伸性集體管理對信息公示的全面性、準確性有極高要求。平臺須全面公示作品及權利人信息(如可獲得),對存疑數據需注明獲取源,確保權利人便捷獲知作品管理狀態。
第二,建立完善的信息檢索系統。借鑒專利平臺經驗,提供多種檢索方式(如單一、組合、批量),并支持按權利人名稱、領域、時間及關鍵特征如數據來源等進行精準篩選。
第三,建立透明的管理過程公示環節。數據集體管理組織信息公示平臺應當注重代表選任、許可商議過程、管理費用明細三個方面管理過程透明公示。避免選舉舞弊和內部貪腐情況的發生,同時增強非會員參與感,提高管理組織公信度。
值得注意的是,具有廣泛代表性的數據集體管理組織能夠為數據的延伸性集體管理提供會員與數據的數量基礎,但進一步加深了集體管理組織的壟斷地位,應當警惕數據集體管理組織的壟斷行為。目前立法框架對五大著作權集體管理組織的壟斷監督僅限于國務院著作權管理部門內部,監管力度遠不能滿足現實需求。新增的數據集體管理組織應當接受來自國家數據局、國務院反壟斷執法機關、紀委監委三方面的監督。其中,國家數據局負責對數據集體管理組織的數據利用情況進行監督,聚焦于平臺的信息公示、管理流程、許可協議是否符合法律規定;國務院反壟斷執法機關規制數據集體管理組織濫用市場支配地位的競爭層面行為,重點關注數據集體管理組織可能出現的損害作品許可市場競爭的行為;紀委監委監察數據集體管理組織可能出現的腐敗現象,以及可能存在收取過高管理費用、管理人員因嚴重不盡職導致管理不力等問題。
七
總結
人工智能技術被認為是第四次工業革命的開端,中國穩定的制度環境為人工智能提供了發展的土壤,能夠保證中國企業在前沿科技領域的競爭優勢。《生成式人工智能服務管理暫行辦法》要求數據訓練尊重他人知識產權,但合法的數據訓練意味著巨大的交易成本,企業數據訓練侵權頻發;同時數據訓練侵權具有隱蔽性,著作權人利益得不到充分保護,發生嚴重利益失衡。傳統的合理使用以及法定許可在數據訓練情景下并不能充分發揮作用:將數據訓練納入合理使用存在違反“三步檢驗法”風險;法定許可降低交易成本以及解決行業壟斷的目的在數據訓練領域不能充分實現。因此,本文針對數據訓練領域的特性,提出引入延伸性集體管理作為解決方案。延伸性集體管理采取“選擇—退出”的機制,能夠充分降低交易成本;同時相較于合理使用以及法定許可,能夠更好地實現人工智能企業與著作權人之間的利益平衡,解決數據訓練領域面臨的兩大困境。
-向上滑動,查看完整目錄-
《電子知識產權》2025年第8期目錄
【學術研究】
1.生成式人工智能侵權歸責原則的比選與使用
吳太軒、鄧朝輝
2.職務發明創造專利共有權利行使問題研究
劉強
3.群體隱私下基因信息保護的制度虛化和因應研究
陳佳舉
【熱點聚焦】
4.數智時代版權過濾義務:內在機理、現實問題及其紓解路徑
鄧社民、管濤
5.人工智能訓練數據的著作權延伸性集體管理合理性分析
許春明、段明赫
6.標準必要專利訴訟中禁訴令制度的適用規則研究
呂昭詩
【法苑】
7.網絡平臺知識產權侵權的規制研究
——基于《民法典》“避風港”原則的適用分析
陳輝、王昊
【域外法制】
8.英國人工智能法律監管框架、困境及啟示
廖詩評、陳九州
《電子知識產權》(月刊)創刊于1991年,由工業和信息化部主管,國家工業信息安全發展研究中心主辦,工業和信息化部電子知識產權中心承辦。本刊集理論性和實踐性為一體,探討解決理論界和實務界中最新的知識產權問題,交流國內外最新知識產權理論研究成果及司法實踐經驗,是國內外工業行業領域唯一的知識產權學術期刊。
點擊進入下方小程序
獲取專屬解決方案~
責任編輯 | 王睿??????
審核人員 | 張文碩 韓爽
本文聲明 | 本文章僅限學習交流使用,如遇侵權,我們會及時刪除。本文章不代表北大法律信息網(北大法寶)和北京北大英華科技有限公司的法律意見或對相關法規/案件/事件等的解讀。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.