人工智能數(shù)據(jù)的真實性、同意權與來源追蹤

2026-02-11 20:48:55　來源: 全球技術地圖

北京舉報

分享至

基礎模型的能力突破在很大程度上得益于規(guī)模龐大、來源廣泛且文檔記錄不足的訓練數(shù)據(jù)集。但當前的數(shù)據(jù)收集實踐在追蹤真實性、驗證同意權、保護隱私、解決代表性與偏見問題、尊重版權以及整體開發(fā)符合倫理且可信的基礎模型等方面面臨諸多挑戰(zhàn)。對此，監(jiān)管層面正強調(diào)訓練數(shù)據(jù)透明度的重要性，以明確基礎模型的局限性。基于對基礎模型訓練數(shù)據(jù)現(xiàn)狀及現(xiàn)有解決方案的大規(guī)模分析，本文揭示了支撐負責任基礎模型開發(fā)所缺失的關鍵基礎設施，分析了現(xiàn)有數(shù)據(jù)真實性、同意權與文檔記錄追蹤工具的局限性，并闡述了政策制定者、開發(fā)者和數(shù)據(jù)創(chuàng)作者如何通過采用統(tǒng)一的數(shù)據(jù)來源標準來促進負責任的基礎模型開發(fā)。

一、數(shù)據(jù)來源追蹤的必要性

過去十年間，來自網(wǎng)絡新聞、社交媒體、百科全書等數(shù)據(jù)，已成為GPT-4、Whisper等通用生成式智能消費技術的關鍵資源。這些模型的訓練數(shù)據(jù)多樣，涵蓋從網(wǎng)絡爬取、人工生成或手動整理的文本、圖像和音頻數(shù)據(jù)。然而，這種大規(guī)模爬取、獲取和批量生產(chǎn)松散結(jié)構化數(shù)據(jù)的競賽帶來了一系列后果。當前的數(shù)據(jù)收集實踐普遍存在來源廣泛且打包使用的情況，卻未追蹤或?qū)彶樵紒碓础?chuàng)作者意圖、版權和許可狀態(tài)，甚至基本的構成和屬性。元數(shù)據(jù)缺乏透明度，且缺乏可追蹤這些元數(shù)據(jù)的公共基礎設施，導致開發(fā)者陷入倫理和法律困境。未經(jīng)充分調(diào)查就用于訓練的數(shù)據(jù)已引發(fā)諸多現(xiàn)實問題。例如，LAION-5B數(shù)據(jù)集曾是Hugging Face平臺上最廣泛使用的文本到圖像數(shù)據(jù)集之一，但在被報告包含數(shù)千張兒童性虐待材料（CSAM）圖像后被下架。部分數(shù)據(jù)源的使用引發(fā)了知識產(chǎn)權糾紛，最終導致Stability AI、OpenAI等公司面臨訴訟。此外，有證據(jù)表明，基礎模型可能泄露個人身份信息（PII）、生成非自愿私密圖像（NCII）、制造虛假信息或深度偽造內(nèi)容，并放大偏見或歧視。訓練完成后從模型中撤回或“遺忘”數(shù)據(jù)的相關方法，當前仍存在可靠性不足的問題。這類方法往往難以徹底清除目標數(shù)據(jù)對應的信息殘留，且在數(shù)據(jù)撤回過程中，可能對生產(chǎn)模型的既有性能、泛化能力等其他關鍵維度造成負面影響，進而顯著制約了其在實際場景中的推廣應用價值。因此，關于訓練數(shù)據(jù)的早期選擇具有長期影響，迫切需要相關資源幫助開發(fā)者發(fā)現(xiàn)并充分了解不同訓練數(shù)據(jù)集的收益與風險。這些問題推動了新的數(shù)據(jù)基礎設施和框架的發(fā)展，以克服負責任地獲取訓練數(shù)據(jù)所面臨的挑戰(zhàn)。現(xiàn)有生態(tài)系統(tǒng)中存在一些用于基礎模型數(shù)據(jù)管理的工具，但這些工具往往忽略了問題的關鍵方面，與并行標準或工具缺乏互操作性，或尚未實現(xiàn)廣泛采用。本文認為，盡管針對該問題的不同要素存在多種解決方案，但完整的數(shù)據(jù)來源追蹤系統(tǒng)尚未形成，亟需一個致力于數(shù)據(jù)屬性結(jié)構化文檔記錄的統(tǒng)一框架，這需要多個利益相關者共同采取行動。

二、數(shù)據(jù)來源追蹤的關注度與監(jiān)管動向

現(xiàn)有追蹤人工智能數(shù)據(jù)來源的規(guī)范存在顯著缺陷，熱門智能系統(tǒng)甚至不披露其訓練數(shù)據(jù)的基本信息。業(yè)界呼吁進行更系統(tǒng)、更全面的數(shù)據(jù)文檔記錄體系，然而從實際落地情況來看，這些呼吁的采納程度與執(zhí)行標準存在顯著差異。對于所謂的“數(shù)據(jù)集的數(shù)據(jù)集”，其文檔記錄問題尤為突出，這類大規(guī)模集合包含數(shù)百個數(shù)據(jù)集，由于缺乏標準結(jié)構，原始來源信息往往被忽視或丟失。同時，從業(yè)者呼吁提高數(shù)據(jù)透明度、加強數(shù)據(jù)供應鏈和生態(tài)系統(tǒng)監(jiān)測、進行內(nèi)容真實性驗證、為可重復、可解釋和可信的智能系統(tǒng)提供詳細的來源追蹤，并專門建立一個標準化數(shù)據(jù)庫來記錄可信數(shù)據(jù)。這些需求引起許多國家的監(jiān)管機構和立法者的廣泛關注并積極響應。美國和歐盟已在數(shù)據(jù)透明度方面采取了重要措施，所頒布的系列政策中均包含與透明度、來源追蹤以及深入了解人工智能模型輸入相關的條款。其中，《歐盟人工智能法案》特別明確了基礎模型提供商在訓練數(shù)據(jù)來源追蹤方面的具體要求。加拿大當局提出的自愿行為準則呼吁模型開發(fā)者發(fā)布訓練數(shù)據(jù)描述，聯(lián)合國機構也建議制定關于數(shù)據(jù)權利的國際法規(guī)，將透明度納入其中。研究人員和立法者的關注，推動了本文關于數(shù)據(jù)來源追蹤和透明度統(tǒng)一框架的研究。雖然此類標準不能直接解決人工智能風險，但它們是評估風險和促進更負責任的人工智能發(fā)展的關鍵前提。

三、數(shù)據(jù)來源追蹤的法律維度

（一）來源追蹤和版權

人工智能模型可能通過兩種方式侵犯版權權益。一是訓練模型可能侵犯訓練數(shù)據(jù)中作品的創(chuàng)作者或訓練數(shù)據(jù)語料庫創(chuàng)建者的版權；二是人工智能模型的特定輸出可能侵犯訓練數(shù)據(jù)中單個作品相關的版權。人工智能模型有時會產(chǎn)生與預訓練數(shù)據(jù)中的內(nèi)容高度相似的輸出，從而可能侵犯這些作品創(chuàng)作者的權利，而這些創(chuàng)作者很少同意其內(nèi)容被使用。需要強調(diào)的是，盡管預訓練數(shù)據(jù)的使用可能受合理使用原則保護，但這并不意味著特定輸出不會構成版權侵權。同時，指令微調(diào)和平行數(shù)據(jù)集的使用方式往往不符合其許可協(xié)議，這些數(shù)據(jù)集包含專為訓練機器學習模型而創(chuàng)建的表達元素，因此其用于該目的不太可能受合理使用原則保護。強大的數(shù)據(jù)來源追蹤標準有助于解決與人工智能訓練中使用受版權保護材料相關的諸多重要問題。對于預訓練和微調(diào)而言，標準的數(shù)據(jù)來源追蹤框架能幫助降低法律風險，助力版權權益的執(zhí)行。版權侵權的關鍵在于是否接觸過受保護作品，因此了解訓練模型所使用的數(shù)據(jù)集以及這些數(shù)據(jù)集中包含的作品，對于評估版權問題至關重要。

（二）人工智能監(jiān)管

《歐盟人工智能法案》和拜登發(fā)布的《關于安全、可靠和負責任地發(fā)展和使用人工智能的行政命令》均直接或間接地強調(diào)了人工智能系統(tǒng)透明度的必要性。兩份文件都要求向消費者明確傳達人工智能系統(tǒng)的局限性。法案要求高風險人工智能系統(tǒng)披露其訓練、驗證和測試數(shù)據(jù)集的相關信息，以及基礎模型所使用的受版權保護訓練數(shù)據(jù)的摘要，其中的技術規(guī)范包括數(shù)據(jù)獲取、標注和處理方式等具體的來源追蹤信息。同時，行政命令鼓勵監(jiān)管機構強調(diào)人工智能模型的透明度要求，以保護消費者。

（三）立法者在鼓勵負責任人工智能實踐中的作用

本文呼吁數(shù)據(jù)集創(chuàng)作者、模型開發(fā)者、研究人員和立法者采取行動。通過了解人工智能生態(tài)系統(tǒng)的本質(zhì)，立法者可以制定激勵措施，鼓勵更好地記錄新數(shù)據(jù)集和審計現(xiàn)有數(shù)據(jù)。盡管“透明度”在人工智能監(jiān)管中往往定義不明確，但監(jiān)管機構可以利用透明度義務，鼓勵模型開發(fā)者記錄其訓練數(shù)據(jù)的相關信息。此外，政策制定者可以為數(shù)據(jù)來源追蹤相關研究提供資金支持。目前，存在一些不合理的激勵因素阻礙許多公司披露其數(shù)據(jù)集信息，因為這樣做可能會增加面臨法律訴訟的概率。立法機關可以考慮為向監(jiān)管機構和公眾提供其數(shù)據(jù)集必要信息的組織提供安全港保護。

四、現(xiàn)有數(shù)據(jù)來源相關解決方案及局限

當前不存在完整的來源追蹤系統(tǒng)，解決方案分為四類，均存在不足：一是內(nèi)容真實性技術。此類技術通過嵌入信息驗證數(shù)據(jù)來源，應對虛假信息風險。例如C2PA聯(lián)盟通過加密方式在媒體中嵌入可驗證來源信息，數(shù)字水印則用于標識機器生成內(nèi)容，但文本水印易被移除，且技術僅適用于單個數(shù)據(jù)單元，難以覆蓋多模態(tài)訓練中的衍生或匯編數(shù)據(jù)，無法滿足版權、偏見等元數(shù)據(jù)需求。二是選擇加入與退出工具。Robots.txt協(xié)議擴展提案（如ai.txt、“noai”標簽）及谷歌、OpenAI的定制工具，為網(wǎng)站提供數(shù)據(jù)使用偏好設置，但普及度低且僅支持“二元選擇”，無法滿足非商業(yè)使用等細致需求。三是數(shù)據(jù)集來源標準。數(shù)據(jù)集說明書、數(shù)據(jù)聲明與數(shù)據(jù)卡片標準化了數(shù)據(jù)創(chuàng)作者、偏見、收集過程等文檔記錄，數(shù)據(jù)營養(yǎng)標簽通過表單實現(xiàn)自動化文檔，數(shù)據(jù)與信任聯(lián)盟標準整合多行業(yè)需求，提供結(jié)構化記錄與譜系追蹤。但這類標準采納不均，且存在準確性不足、激勵缺失等問題。

五、推進數(shù)據(jù)來源規(guī)范化的多方行動建議

現(xiàn)有數(shù)據(jù)來源解決方案較為零散。若缺乏強大、資源充足的數(shù)據(jù)來源追蹤框架，開發(fā)者將難以從眾多可能性中準確識別和評估數(shù)據(jù)集的安全性、版權影響和相關性。數(shù)據(jù)創(chuàng)作者也將難以了解其內(nèi)容的使用方式和位置。若沒有數(shù)據(jù)集來源標準和文檔記錄，構建這樣的框架將變得日益困難，最終難以實現(xiàn)。盡管現(xiàn)有每項解決方案都能為了解數(shù)據(jù)生態(tài)系統(tǒng)提供重要見解，但仍需要一個強大的框架來為數(shù)據(jù)集附加元數(shù)據(jù)，以追蹤數(shù)據(jù)集的混合、匯編和使用情況。不同利益相關者應采取行動，以增強數(shù)據(jù)真實性、同意權和來源追蹤應對未來挑戰(zhàn)的能力。一是監(jiān)管者，監(jiān)管機構通過政策和指導方針在塑造人工智能未來方面發(fā)揮著關鍵作用。以數(shù)據(jù)為中心的人工智能監(jiān)管方法有助于識別和減輕關鍵風險。政策制定者可以為數(shù)據(jù)來源追蹤相關研究提供資金支持，并集中力量記錄和構建來源追蹤基礎設施。目前，不合理的法律激勵因素阻礙了公司披露其數(shù)據(jù)信息，監(jiān)管機構應考慮為組織提供必要的數(shù)據(jù)透明度制定法律或立法激勵措施，并將標準化文檔記錄作為人工智能透明度義務的一部分。此類激勵措施有助于推動數(shù)據(jù)真實性、同意權和來源追蹤的通用且可互操作的標準。二是開發(fā)者，人工智能開發(fā)者處于創(chuàng)建模型的前沿，因此在確保倫理實踐方面承擔著重大責任。開發(fā)者必須優(yōu)先履行文檔記錄義務，并公開其訓練數(shù)據(jù)的來源追蹤信息。如果出于令人信服的商業(yè)原因需要保密，至少應發(fā)布有關數(shù)據(jù)來源追蹤的匯總統(tǒng)計數(shù)據(jù)。這種透明度對于與用戶和更廣泛的社區(qū)建立信任，以及培育負責任的人工智能生態(tài)系統(tǒng)至關重要。三是數(shù)據(jù)創(chuàng)作與匯編者。這類主體在人工智能開發(fā)中發(fā)揮關鍵作用，需詳細記錄數(shù)據(jù)同意標準及來源追蹤信息（包括數(shù)據(jù)來源與處理流程）；當前已有專門的存儲庫和數(shù)據(jù)庫用于登記此類信息，詳實的記錄能有效協(xié)助人工智能開發(fā)者尊重相關權利、明晰數(shù)據(jù)屬性。四是科研界。科研界在制定來源追蹤披露規(guī)范與標準方面具備獨特地位，可將來源追蹤披露納入研究發(fā)表要求，以此補充可重復性清單相關工作，最終助力科學進步。

事實上，單一利益相關方難以獨立構建完善的數(shù)據(jù)來源追蹤框架，唯有多方協(xié)作才能有效推動相關標準的制定。由各利益相關方代表組成的聯(lián)盟，可協(xié)調(diào)各類主體行動并推動特定標準落地，這一模式可參考主導萬維網(wǎng)標準制定的萬維網(wǎng)聯(lián)盟（W3C），以及由多行業(yè)企業(yè)、機構組成的非營利聯(lián)盟——數(shù)據(jù)與信任聯(lián)盟。

免責聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點，本公眾號編譯/轉(zhuǎn)載僅為分享、傳達不同觀點，如有任何異議，歡迎聯(lián)系我們！

研究所簡介

國際技術經(jīng)濟研究所（IITE）成立于1985年11月，是隸屬于國務院發(fā)展研究中心的非營利性研究機構，主要職能是研究我國經(jīng)濟、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟發(fā)展態(tài)勢，為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經(jīng)濟研究所官方微信賬號，致力于向公眾傳遞前沿技術資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

人工智能數(shù)據(jù)的真實性、同意權與來源追蹤