網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

生成式人工智能的數(shù)據(jù)污染及其治理路徑

2026-01-15 17:57:31　來源: 全球技術(shù)地圖

北京舉報(bào)

分享至

生成式人工智能（AIGC）的迅速普及推動(dòng)了社會(huì)進(jìn)步，但也衍生出數(shù)據(jù)污染風(fēng)險(xiǎn)。AIGC擁有比傳統(tǒng)人工智能更強(qiáng)大的信息分析與人機(jī)交互能力，其可以獨(dú)立生成內(nèi)容，擁有自感知、自決策、自執(zhí)行、自適應(yīng)、自學(xué)習(xí)等特征。但由涌現(xiàn)效應(yīng)所誘致的負(fù)面影響越發(fā)顯著，致使AIGC的輸出結(jié)果具有高度的不確定性，從而可能存在嚴(yán)重的失真、不端或缺維現(xiàn)象，導(dǎo)致數(shù)據(jù)污染問題成為無法忽視的挑戰(zhàn)。同時(shí)，技術(shù)源頭治理困難、風(fēng)險(xiǎn)預(yù)防理念遇阻、責(zé)任歸屬原則失靈構(gòu)成數(shù)據(jù)污染治理的核心困境，為平衡技術(shù)進(jìn)步與社會(huì)安全，應(yīng)堅(jiān)持審慎原則，采用漸進(jìn)式技術(shù)治理策略，并引入全過程風(fēng)險(xiǎn)管理理念；堅(jiān)持發(fā)展原則，明確歸責(zé)的基本要件和例外情形，建立合理的責(zé)任剝離機(jī)制；堅(jiān)持生態(tài)原則，引入多元綜合治理模式，及時(shí)出臺(tái)相應(yīng)的規(guī)范解釋或政策機(jī)制，并建立數(shù)據(jù)污染聯(lián)動(dòng)治理機(jī)制。

一、人工智能大語(yǔ)言模型引發(fā)的

數(shù)據(jù)污染風(fēng)險(xiǎn)

人工智能大語(yǔ)言模型以海量數(shù)據(jù)信息為基礎(chǔ)，結(jié)合卓越的理解和生成能力，在產(chǎn)生高度擬人化互動(dòng)交流過程中，其所生成的內(nèi)容開始變得愈發(fā)不可預(yù)測(cè)和難以治理，主要表現(xiàn)為人工智能大語(yǔ)言模型所引發(fā)的數(shù)據(jù)污染風(fēng)險(xiǎn)。

（一）數(shù)據(jù)流動(dòng)引發(fā)的數(shù)據(jù)主權(quán)風(fēng)險(xiǎn)

在人工智能時(shí)代，人工智能大語(yǔ)言模型引發(fā)的數(shù)據(jù)污染風(fēng)險(xiǎn)深刻影響國(guó)家數(shù)據(jù)安全。首先，數(shù)據(jù)跨境流動(dòng)引發(fā)數(shù)據(jù)主權(quán)風(fēng)險(xiǎn)。由于全球各國(guó)發(fā)展的情況復(fù)雜和多樣性，對(duì)數(shù)據(jù)跨境流動(dòng)的治理就天然存在極大困難，無論各國(guó)數(shù)據(jù)保護(hù)水平如何，當(dāng)海量數(shù)據(jù)流向立法不足、保護(hù)技術(shù)或管理能力有限的地區(qū)時(shí)，就存在侵犯?jìng)€(gè)人隱私和泄露國(guó)家機(jī)密的風(fēng)險(xiǎn)。其次，數(shù)據(jù)霸權(quán)會(huì)引發(fā)意識(shí)形態(tài)風(fēng)險(xiǎn)。在數(shù)字時(shí)代，人工智能作為一種“權(quán)力的媒介”，涉及意識(shí)形態(tài)的引領(lǐng)和傳播權(quán)力的分配。掌握生成式人工智能領(lǐng)域核心技術(shù)的西方國(guó)家有意在全球進(jìn)行技術(shù)霸權(quán)和數(shù)據(jù)霸權(quán)，在霸權(quán)的操縱下以及人工智能塑造的“信息繭房”影響下，將引發(fā)國(guó)家意識(shí)形態(tài)領(lǐng)域被撕裂風(fēng)險(xiǎn)，數(shù)據(jù)污染風(fēng)險(xiǎn)也將隨著意識(shí)形態(tài)的操縱、滲透而加重。

（二）數(shù)據(jù)污染攻擊引發(fā)軍事安全風(fēng)險(xiǎn)

人工智能作為一種具有重大戰(zhàn)略價(jià)值的新興技術(shù)，各國(guó)積極探索技術(shù)應(yīng)用于軍事領(lǐng)域的潛力以獲得競(jìng)爭(zhēng)的優(yōu)勢(shì)。例如，美國(guó)軍方已開始利用生成式人工智能撰寫國(guó)防咨詢報(bào)告，并在五角大樓成立Lima工作組評(píng)估、整合和使用該技術(shù)。對(duì)手的技術(shù)快速發(fā)展和應(yīng)用會(huì)在軍事領(lǐng)域?qū)ξ以斐芍卮蟮陌踩L(fēng)險(xiǎn)挑戰(zhàn)，對(duì)手可能會(huì)利用技術(shù)霸權(quán)或數(shù)據(jù)霸權(quán)將數(shù)據(jù)污染攻擊擴(kuò)散到軍事應(yīng)用中，并將生成式人工智能技術(shù)應(yīng)用于情報(bào)戰(zhàn)與信息戰(zhàn)，甚至是無人機(jī)、自動(dòng)制導(dǎo)或其他戰(zhàn)略決策性武器之中。更可以利用人工智能大語(yǔ)言模型可以生成模擬攻擊模型策略，對(duì)國(guó)家基礎(chǔ)設(shè)施、軍事設(shè)施等特定目標(biāo)生成網(wǎng)絡(luò)攻擊代碼，嚴(yán)重危及被攻擊國(guó)軍事安全。

（三）數(shù)據(jù)污染導(dǎo)致的社會(huì)問題激化

源于強(qiáng)大的內(nèi)容創(chuàng)生能力和不斷迭代升級(jí)的模型技術(shù)，人工智能大語(yǔ)言模型解放人力的同時(shí)，也在優(yōu)化和提升信息生產(chǎn)與傳播的方式及效率，人們的生活模式甚至整個(gè)社會(huì)的運(yùn)作模式都將因此面臨深刻變革。但是引發(fā)的安全風(fēng)險(xiǎn)也需要高度警惕。一是倫理道德風(fēng)險(xiǎn)。數(shù)據(jù)被污染導(dǎo)致的真實(shí)數(shù)據(jù)缺失，同時(shí)虛假的數(shù)據(jù)源與機(jī)械化的數(shù)據(jù)訓(xùn)練機(jī)制會(huì)使得輸出的數(shù)據(jù)可靠性更低，會(huì)引發(fā)教育、藝術(shù)創(chuàng)作等領(lǐng)域的倫理道德風(fēng)險(xiǎn)。二是煽動(dòng)社會(huì)矛盾。某些人違背開發(fā)者最初設(shè)定的道德和法律底線，有意通過“訓(xùn)練”和數(shù)據(jù)污染，誘使人工智能生成虛假或違法信息，嚴(yán)重危害社會(huì)公眾利益，誤導(dǎo)影響社會(huì)輿論，煽動(dòng)暴力、犯罪等。三是個(gè)人決策影響。隨著生成式人工智能技術(shù)的普及，會(huì)使得人們對(duì)大語(yǔ)言模型生成內(nèi)容的數(shù)據(jù)依賴，加重了數(shù)據(jù)污染風(fēng)險(xiǎn)對(duì)個(gè)人的影響。尤其是在專業(yè)領(lǐng)域的錯(cuò)誤數(shù)據(jù)會(huì)誤導(dǎo)用戶做出錯(cuò)誤決策甚至造成不良影響。

二、數(shù)據(jù)污染風(fēng)險(xiǎn)的治理困境

生成式人工智能技術(shù)應(yīng)用引發(fā)的數(shù)據(jù)污染風(fēng)險(xiǎn)面臨著技術(shù)底層桎梏、規(guī)制局限兩方面的挑戰(zhàn)，使得針對(duì)數(shù)據(jù)污染的防治面臨重重困境。

（一）大語(yǔ)言模型的底層技術(shù)桎梏

一是算法黑箱提升風(fēng)險(xiǎn)識(shí)別難度。數(shù)據(jù)污染是對(duì)數(shù)據(jù)真實(shí)性、完整性的破壞；數(shù)據(jù)污染風(fēng)險(xiǎn)既可能來自被污染的數(shù)據(jù)本身，也可能發(fā)生于數(shù)據(jù)處理過程中。前者屬于內(nèi)在風(fēng)險(xiǎn)，依賴于大語(yǔ)言模型及算法的審核過濾機(jī)制，將有害數(shù)據(jù)從學(xué)習(xí)素材中排除；后者則屬于外在風(fēng)險(xiǎn)，依賴于對(duì)算法黑箱問題的積極應(yīng)對(duì)，以抑制數(shù)據(jù)污染風(fēng)險(xiǎn)的擴(kuò)散。二者共同之處在于對(duì)數(shù)據(jù)污染風(fēng)險(xiǎn)的識(shí)別。而算法黑箱化及其迭代升級(jí)正不斷增加風(fēng)險(xiǎn)識(shí)別難度，數(shù)據(jù)污染風(fēng)險(xiǎn)的治理困境愈發(fā)嚴(yán)峻。在人工智能大語(yǔ)言模型生成內(nèi)容之時(shí)，若所依賴的深層技術(shù)或算法不公開、不透明，一系列包括信息不對(duì)稱、算法霸權(quán)、算法歧視、信息繭房等數(shù)據(jù)問題隨之產(chǎn)生。

二是算法依賴弱化污染數(shù)據(jù)識(shí)別能力。利用算法和大數(shù)據(jù)驅(qū)動(dòng)，大語(yǔ)言模型能靈活、低調(diào)且高效地助推個(gè)人實(shí)現(xiàn)預(yù)設(shè)目標(biāo)，并個(gè)性化定制個(gè)人的選擇環(huán)境，極大提高人機(jī)交互過程中主體對(duì)算法的信任水平。這又促使個(gè)人持續(xù)、廣泛地服從大數(shù)據(jù)制定的策略，進(jìn)而放棄自己擁有的大部分實(shí)際主體性。當(dāng)人工智能大語(yǔ)言模型越智能和越自主、應(yīng)用越廣泛，大語(yǔ)言模型迭代升級(jí)的周期越短。同時(shí)主體性的下降導(dǎo)致的識(shí)別能力降低，虛假、偽造數(shù)據(jù)甚至帶有歧視和偏見的數(shù)據(jù)信息便得以在信息網(wǎng)絡(luò)上肆虐而難以被合理識(shí)別和過濾，加劇污染數(shù)據(jù)的傳播、擴(kuò)散。

（二）數(shù)據(jù)污染規(guī)制的現(xiàn)實(shí)局限

一是數(shù)據(jù)污染法律規(guī)制薄弱。當(dāng)前關(guān)于數(shù)據(jù)污染的相關(guān)管理辦法受制于技術(shù)發(fā)展的不確定性，相關(guān)概念和操作規(guī)范缺位，以及相關(guān)行政法規(guī)不甚明確、具體，諸多相應(yīng)規(guī)范在實(shí)踐中的可操作性不強(qiáng)。同時(shí)，相關(guān)服務(wù)提供者或司法人員自身對(duì)人工智能領(lǐng)域中的新興風(fēng)險(xiǎn)感到陌生，或?qū)⒅苯訉?dǎo)致數(shù)據(jù)污染風(fēng)險(xiǎn)規(guī)制的過程及結(jié)果缺乏合理性甚至合法性。

二是責(zé)任主體界限模糊。人工智能大語(yǔ)言模型技術(shù)的發(fā)展正在模糊法律責(zé)任主體的界限，數(shù)據(jù)污染治理時(shí)責(zé)任承擔(dān)存在不公平性與不確定性。人工智能大語(yǔ)言模型生成的數(shù)據(jù)或信息存在于數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)輸出等多個(gè)階段，因而人工智能大語(yǔ)言模型所涉及的主體除服務(wù)提供者和用戶外，實(shí)際上還包括數(shù)據(jù)提供者、技術(shù)支持者、系統(tǒng)監(jiān)督者等相關(guān)主體。導(dǎo)致責(zé)任主體的界限在技術(shù)實(shí)際運(yùn)行中逐漸模糊，這在一定程度上限制了對(duì)數(shù)據(jù)污染的規(guī)制。

三、人工智能大語(yǔ)言模型數(shù)據(jù)污染風(fēng)險(xiǎn)的

規(guī)制路徑

（一）技術(shù)層面

由于人工智能大語(yǔ)言模型的預(yù)訓(xùn)練模型、算法、算力存在內(nèi)在固有缺陷，人工智能時(shí)代下算法黑箱的更新迭代已成為必然趨勢(shì)，技術(shù)規(guī)制應(yīng)重點(diǎn)著眼于數(shù)據(jù)污染風(fēng)險(xiǎn)的防控。首先應(yīng)以風(fēng)險(xiǎn)防控為重點(diǎn)，建立應(yīng)對(duì)數(shù)據(jù)污染風(fēng)險(xiǎn)的多方位防控機(jī)制。一方面，建立透明可信的訓(xùn)練數(shù)據(jù)源及算法模型。為確保模型及其訓(xùn)練數(shù)據(jù)的透明度和可信度，可以要求大模型開發(fā)者在構(gòu)建生態(tài)圈時(shí)一并研發(fā)增進(jìn)人工智能可信性的治理工具。另一方面，建立數(shù)據(jù)審核過濾及隱私泄露防控機(jī)制。在語(yǔ)料庫(kù)構(gòu)建和數(shù)據(jù)儲(chǔ)存、傳輸過程中建立數(shù)據(jù)審核過濾機(jī)制。其次，強(qiáng)調(diào)技術(shù)發(fā)展的以人為本。避免人工智能客體性式微對(duì)人類主體性的侵蝕，進(jìn)而防止人類在面對(duì)新一代人工智能所內(nèi)生的“技術(shù)依賴”“信息繭房”“數(shù)字鴻溝”等問題是人工智能數(shù)據(jù)污染風(fēng)險(xiǎn)治理的目標(biāo)與方向所在。需要明晰人類“算法”與機(jī)器算法的合理分工，充分發(fā)揮人的主體性作用，盡可能規(guī)避技術(shù)系統(tǒng)可能帶來的機(jī)械化偏差。

（二）制度層面

以數(shù)據(jù)安全為重點(diǎn)，實(shí)現(xiàn)數(shù)據(jù)保護(hù)與數(shù)據(jù)使用的平衡，以制度為抓手，完善生成式人工智能領(lǐng)域的規(guī)范管理已迫在眉睫。一是完善生成式人工智能領(lǐng)域的法律規(guī)范。針對(duì)人工智能大語(yǔ)言模型在應(yīng)用過程中引發(fā)的數(shù)據(jù)污染風(fēng)險(xiǎn)等諸多具體風(fēng)險(xiǎn)，及時(shí)出臺(tái)相應(yīng)的規(guī)范解釋或政策機(jī)制，實(shí)現(xiàn)精準(zhǔn)治理，以適應(yīng)不斷迭代升級(jí)的人工智能算法和算力。二是政府引導(dǎo)為主、企業(yè)自治為輔，加快生成式人工智能領(lǐng)域數(shù)據(jù)安全治理行業(yè)技術(shù)標(biāo)準(zhǔn)的制定和完善。三是明確各方參與主體的法律義務(wù)與責(zé)任，確保人工智能大語(yǔ)言模型健康有序發(fā)展以及數(shù)據(jù)有效保護(hù)和合理使用。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個(gè)人觀點(diǎn)，本公眾號(hào)編譯/轉(zhuǎn)載僅為分享、傳達(dá)不同觀點(diǎn)，如有任何異議，歡迎聯(lián)系我們！

研究所簡(jiǎn)介

國(guó)際技術(shù)經(jīng)濟(jì)研究所（IITE）成立于1985年11月，是隸屬于國(guó)務(wù)院發(fā)展研究中心的非營(yíng)利性研究機(jī)構(gòu)，主要職能是研究我國(guó)經(jīng)濟(jì)、科技社會(huì)發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟(jì)發(fā)展態(tài)勢(shì)，為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國(guó)際技術(shù)經(jīng)濟(jì)研究所官方微信賬號(hào)，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號(hào)樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

生成式人工智能的數(shù)據(jù)污染及其治理路徑