<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      用AI訓(xùn)練AI的隱性高代價(jià):數(shù)據(jù)污染危機(jī)全解析

      0
      分享至


      當(dāng)前的AI模型正面臨一種危險(xiǎn)的脆弱性:數(shù)據(jù)污染。然而,這場(chǎng)數(shù)據(jù)污染危機(jī)并非主要由黑客或外部攻擊者造成,而是企業(yè)自食其果的結(jié)果。隨著各企業(yè)爭(zhēng)相在業(yè)務(wù)流程中部署AI,它們正悄然將AI生成的摘要、郵件、代碼和報(bào)告大量涌入內(nèi)部數(shù)據(jù)庫(kù)。當(dāng)這些合成內(nèi)容被反向輸入用于構(gòu)建和微調(diào)下一代AI模型的訓(xùn)練管道時(shí),數(shù)據(jù)污染便由此產(chǎn)生。

      對(duì)許多企業(yè)而言,他們?cè)贏I轉(zhuǎn)型上的投入,如今正在蠶食他們所寄望的AI未來(lái)。

      "問題的本質(zhì)在于:信噪比崩潰了,"澳大利亞AI科技初創(chuàng)公司Brainfish AI的CEO丹尼爾·金伯(Daniel Kimber)表示,該公司專注于構(gòu)建AI智能體。"原始的人類推理、邊緣案例知識(shí)和細(xì)致入微的機(jī)構(gòu)背景知識(shí),被那些本就是對(duì)真實(shí)信息進(jìn)行抽象處理的合成內(nèi)容所稀釋。當(dāng)你基于這樣的數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)時(shí),你學(xué)到的不是真實(shí)經(jīng)驗(yàn),而是對(duì)副本的再次復(fù)制。"

      數(shù)據(jù)污染最終帶來(lái)的風(fēng)險(xiǎn)——"模型退化"——許多CIO或許已有所耳聞。然而,將問題簡(jiǎn)單歸結(jié)為"模型退化",可能會(huì)掩蓋真正的風(fēng)險(xiǎn)所在:業(yè)務(wù)結(jié)果。模型退化會(huì)引發(fā)決策退化,即當(dāng)機(jī)器或人類的決策依賴于AI失真的分析或輸出時(shí),判斷力便隨之下滑。

      "準(zhǔn)確性的喪失不僅僅是退化,更是一種扭曲。這類問題通常不會(huì)線性顯現(xiàn),而是悄然累積,最終一并爆發(fā),"數(shù)據(jù)防泄漏與內(nèi)部風(fēng)險(xiǎn)管理提供商Safetica的CTO茲比涅克·索普奇(Zbyněk Sopuch)說(shuō)道。"準(zhǔn)確性損失與反饋循環(huán)共同導(dǎo)致大規(guī)模的決策退化。這意味著問題已從模型層面演變?yōu)闃I(yè)務(wù)層面。"

      數(shù)據(jù)污染還會(huì)引發(fā)一系列令人意想不到的法律、合規(guī)及機(jī)構(gòu)知識(shí)方面的問題。根據(jù)2024年發(fā)表于Nature.com的一項(xiàng)AI模型研究,數(shù)據(jù)污染所造成的數(shù)據(jù)退化是不可逆的。此外,科技賦能的法庭報(bào)告及訴訟支持服務(wù)提供商Steno的AI產(chǎn)品高級(jí)總監(jiān)丹·伊夫特桑(Dan Ivtsan)指出,數(shù)據(jù)污染還會(huì)在此過(guò)程中抹平"數(shù)據(jù)分布尾部那些細(xì)微而稀有的機(jī)構(gòu)知識(shí)"。

      "最隱蔽之處在于,語(yǔ)言的流暢性得以保留,而事實(shí)準(zhǔn)確性卻在悄然瓦解,因此標(biāo)準(zhǔn)基準(zhǔn)測(cè)試根本無(wú)法察覺,"他補(bǔ)充道。

      除準(zhǔn)確性下降外,企業(yè)還可能面臨偏差放大的問題,原因包括少數(shù)群體數(shù)據(jù)輸出的消失,以及輸出結(jié)果的同質(zhì)化——即輸出內(nèi)容趨向一種平淡無(wú)奇的平均值。

      "在我從事的法律AI產(chǎn)品領(lǐng)域,這種漂移可能意味著出現(xiàn)虛構(gòu)引文或錯(cuò)誤的醫(yī)療時(shí)間線,這會(huì)帶來(lái)真實(shí)的執(zhí)業(yè)失當(dāng)風(fēng)險(xiǎn),"伊夫特桑說(shuō)。"經(jīng)過(guò)驗(yàn)證的預(yù)防方法是:始終在合成數(shù)據(jù)旁積累真實(shí)數(shù)據(jù),而絕不能用合成數(shù)據(jù)取而代之。"

      反芻式反饋循環(huán)的危害

      東京AI治理與AI決策架構(gòu)公司Insynergy.io創(chuàng)始人森井良二(Ryoji Morii)解釋說(shuō),數(shù)據(jù)污染會(huì)削弱原始數(shù)據(jù)的價(jià)值。"數(shù)據(jù)正被當(dāng)作一次性資源對(duì)待,取而代之的是衍生值。這正在污染訓(xùn)練數(shù)據(jù),使原始數(shù)據(jù)的相關(guān)性越來(lái)越低,"他說(shuō)。

      這一問題的根源,可以歸咎于企業(yè)對(duì)速度的渴求、人們傾向于選擇最省力方案的本能,或者僅僅是對(duì)AI訓(xùn)練和微調(diào)機(jī)制的誤解。但無(wú)論原因或動(dòng)機(jī)為何,其危害都是不可否認(rèn)的。

      "這可以被稱為'以方便之名的數(shù)據(jù)污染'。它并非出于惡意,但會(huì)造成長(zhǎng)期損害,"索普奇說(shuō)。

      比追責(zé)更重要的是,能夠在當(dāng)下就認(rèn)清這一危險(xiǎn)。

      "在早期階段,你通常察覺不到:輸出看起來(lái)沒問題,質(zhì)量保證測(cè)試也能通過(guò),"印度AI系統(tǒng)開發(fā)與部署公司Coditation的CEO切坦·桑丹卡爾(Chetan Saundankar)說(shuō)。但這不過(guò)是暴風(fēng)雨前的寧?kù)o。

      "數(shù)周或數(shù)月后,模型開始以難以察覺的方式出錯(cuò),因?yàn)榇鸢嘎犉饋?lái)仍然完全合理,"他說(shuō)。"一個(gè)代碼工具開始建議那些能用但存在安全漏洞的代碼模式。一個(gè)摘要模型開始丟棄讓原始文檔有價(jià)值的限定條件和細(xì)微差別,但聽起來(lái)仍然權(quán)威十足。"

      這些問題會(huì)滲透到關(guān)乎企業(yè)成功與盈利的每一個(gè)重要環(huán)節(jié)。盧森堡云管理平臺(tái)Emma的首席營(yíng)銷官德克·阿爾舒特(Dirk Alshuth)解釋道,細(xì)小的誤差——例如錯(cuò)誤判斷資源分配或錯(cuò)誤標(biāo)記使用模式——會(huì)迅速滾雪球式放大,最終導(dǎo)致成本上升或性能隨時(shí)間持續(xù)下降。"反饋循環(huán)會(huì)使情況更加惡化,因?yàn)檫@些有缺陷的輸出可能被記錄并重復(fù)使用,從而不斷強(qiáng)化錯(cuò)誤,"他補(bǔ)充道。

      他還指出了另一個(gè)問題:適應(yīng)能力的喪失。"用AI訓(xùn)練出來(lái)的AI,往往在遇到新情況或意外情況時(shí)會(huì)手足無(wú)措,因?yàn)樗鼜奈匆娺^(guò)真實(shí)的變化性,"他說(shuō)。

      "最佳的預(yù)防方法是將訓(xùn)練數(shù)據(jù)與真實(shí)系統(tǒng)行為綁定。將實(shí)時(shí)遙測(cè)數(shù)據(jù)、日志和人工審核決策作為事實(shí)來(lái)源,并將AI生成的輸出視為臨時(shí)性參考,而非基礎(chǔ)性數(shù)據(jù),"阿爾舒特補(bǔ)充道。

      模型崩潰迫在眉睫

      CIO們需要清醒地認(rèn)識(shí)到,數(shù)據(jù)污染的危害并不止于模型退化。基于AI生成內(nèi)容的訓(xùn)練可能導(dǎo)致"模型崩潰",即AI系統(tǒng)最終徹底失效。這實(shí)際上將AI投入變成了一種損耗——當(dāng)模型、數(shù)據(jù)和輸出的退化程度已超出修復(fù)范圍,相關(guān)項(xiàng)目便徹底報(bào)廢。

      "模型崩潰是指當(dāng)模型反復(fù)基于其他模型的輸出進(jìn)行訓(xùn)練時(shí)所發(fā)生的退化。隨著時(shí)間推移,系統(tǒng)變得愈發(fā)重復(fù)、缺乏細(xì)微差別,也越來(lái)越無(wú)法反映真實(shí)世界,"餐飲、便利店和燃油零售商統(tǒng)一商業(yè)平臺(tái)提供商PAR Technology的增長(zhǎng)平臺(tái)與AI總裁奧利·奧斯特塔格(Oli Ostertag)解釋道。

      即便企業(yè)部署的是第三方AI解決方案,崩潰的根源仍可能近在眼前。"關(guān)于AI數(shù)據(jù)污染的討論,往往聚焦于基礎(chǔ)模型的訓(xùn)練,也就是OpenAI或谷歌用什么數(shù)據(jù)訓(xùn)練,"金伯說(shuō)。"但對(duì)大多數(shù)企業(yè)而言,更緊迫的問題發(fā)生在下一個(gè)層面——他們自己的知識(shí)基礎(chǔ)設(shè)施。現(xiàn)在,每家公司在功能上都是一個(gè)模型訓(xùn)練者。"

      修復(fù)模型并構(gòu)建防護(hù)機(jī)制

      糾正數(shù)據(jù)污染問題的第一步,是阻止其進(jìn)一步惡化。值得慶幸的是,即便模型已經(jīng)崩潰,仍有辦法恢復(fù)性能,盡管這需要付出相當(dāng)大的努力。預(yù)防永遠(yuǎn)優(yōu)于補(bǔ)救,但一旦發(fā)生崩潰,解決方案就是用干凈的數(shù)據(jù)重新訓(xùn)練以恢復(fù)性能,伊夫特桑說(shuō)。

      根據(jù)Gerstgrasser等人發(fā)表的一篇論文,如果真實(shí)數(shù)據(jù)能與合成數(shù)據(jù)并行積累,而非被其取代,崩潰是完全可以避免的。另一篇由Yi等人發(fā)表的論文則指出,即便是不完美的外部驗(yàn)證,也能使模型發(fā)展軌跡趨于穩(wěn)定。

      在這里,"不完美"的外部驗(yàn)證,并非指使用可能存在缺陷或錯(cuò)誤的信息來(lái)源,而是指采用抽查、領(lǐng)域?qū)<以u(píng)審或基于經(jīng)驗(yàn)的人工判斷等方法——這些方法本身并不構(gòu)成全面的事實(shí)核查,但仍可能保持相當(dāng)高的準(zhǔn)確性。在規(guī)模化場(chǎng)景下,有針對(duì)性的驗(yàn)證,遠(yuǎn)勝于零監(jiān)督,也比不切實(shí)際的窮舉式事實(shí)核查更為有效。

      當(dāng)然,如有可能,最佳策略仍是防患于未然。

      "預(yù)防之道在于設(shè)計(jì)人機(jī)反饋循環(huán)。最強(qiáng)大的系統(tǒng)是迭代式的——從人到AI,再?gòu)腁I回到人——輸出在這一過(guò)程中被持續(xù)塑造、挑戰(zhàn)和精煉,"全球財(cái)富500強(qiáng)品牌建設(shè)機(jī)構(gòu)奧美北美區(qū)(Ogilvy North America)創(chuàng)新負(fù)責(zé)人卡爾·韋斯納(Kaare Wesnaes)解釋道。

      簡(jiǎn)而言之,"最強(qiáng)大的系統(tǒng)不是純AI系統(tǒng),而是人機(jī)協(xié)同的循環(huán),"韋斯納說(shuō)。

      核心理念在于始終牢記:AI的能力上限取決于其數(shù)據(jù)質(zhì)量,并據(jù)此采取行動(dòng)。

      "企業(yè)需要保護(hù)數(shù)據(jù)的完整性。這意味著優(yōu)先采用高質(zhì)量的人工生成輸入,明確區(qū)分合成數(shù)據(jù)與真實(shí)數(shù)據(jù),并持續(xù)向系統(tǒng)中注入新鮮的真實(shí)世界信號(hào),"韋斯納說(shuō)。

      Q&A

      Q1:什么是AI訓(xùn)練中的數(shù)據(jù)污染,為什么說(shuō)它是"自我造成"的?

      A:數(shù)據(jù)污染是指當(dāng)AI生成的內(nèi)容(如摘要、郵件、代碼、報(bào)告等)被反向輸入到下一代AI模型的訓(xùn)練管道中,從而污染訓(xùn)練數(shù)據(jù)的現(xiàn)象。它之所以被稱為"自我造成",是因?yàn)椴⒎呛诳凸羲拢瞧髽I(yè)在大量使用AI工具的過(guò)程中,無(wú)意間將合成內(nèi)容混入了訓(xùn)練數(shù)據(jù),導(dǎo)致模型學(xué)習(xí)的是"副本的副本",而非真實(shí)的人類知識(shí)與經(jīng)驗(yàn)。

      Q2:數(shù)據(jù)污染會(huì)對(duì)企業(yè)帶來(lái)哪些具體危害?

      A:數(shù)據(jù)污染會(huì)引發(fā)多層面的連鎖危害:首先是模型退化,導(dǎo)致AI輸出準(zhǔn)確性下降;其次是決策退化,即人類或機(jī)器基于失真輸出做出錯(cuò)誤判斷;此外還可能導(dǎo)致偏差放大、輸出同質(zhì)化,以及在法律、醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域出現(xiàn)虛構(gòu)引文或錯(cuò)誤時(shí)間線,帶來(lái)合規(guī)與執(zhí)業(yè)失當(dāng)風(fēng)險(xiǎn)。情況嚴(yán)重時(shí)甚至引發(fā)不可逆的"模型崩潰",使AI投資徹底報(bào)廢。

      Q3:企業(yè)如何預(yù)防或修復(fù)AI訓(xùn)練中的數(shù)據(jù)污染問題?

      A:預(yù)防層面,企業(yè)應(yīng)優(yōu)先使用高質(zhì)量的人工生成數(shù)據(jù),明確區(qū)分合成數(shù)據(jù)與真實(shí)數(shù)據(jù),將實(shí)時(shí)遙測(cè)數(shù)據(jù)、日志和人工審核決策作為事實(shí)來(lái)源,同時(shí)建立人機(jī)協(xié)同的反饋循環(huán),讓輸出持續(xù)接受人工校驗(yàn)與優(yōu)化。修復(fù)層面,若模型已發(fā)生崩潰,則需用干凈的真實(shí)數(shù)據(jù)重新訓(xùn)練以恢復(fù)性能,并輔以抽查、專家評(píng)審等外部驗(yàn)證手段穩(wěn)定模型軌跡。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      張雪峰對(duì)當(dāng)年把他踢出尖子班的教導(dǎo)主任,記了大半輩子,耿耿于懷

      張雪峰對(duì)當(dāng)年把他踢出尖子班的教導(dǎo)主任,記了大半輩子,耿耿于懷

      情感藝術(shù)家
      2026-04-13 11:43:48
      國(guó)臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

      國(guó)臺(tái)辦果然沒看錯(cuò),鄭麗文真面目被徹底揭露!小算盤到此為止了

      比利
      2026-01-23 12:41:53
      “截屏就開除”,追覓創(chuàng)始人俞浩內(nèi)部群放狠話

      “截屏就開除”,追覓創(chuàng)始人俞浩內(nèi)部群放狠話

      山西經(jīng)濟(jì)日?qǐng)?bào)
      2026-04-13 10:33:25
      奔赴印度,庫(kù)存積壓146億,英巨頭撐不住:我們?cè)谥蟹绞袌?chǎng)犯了錯(cuò)

      奔赴印度,庫(kù)存積壓146億,英巨頭撐不住:我們?cè)谥蟹绞袌?chǎng)犯了錯(cuò)

      火星方陣
      2026-04-13 20:26:56
      受權(quán)發(fā)布|中華人民共和國(guó)國(guó)務(wù)院令  第835號(hào)

      受權(quán)發(fā)布|中華人民共和國(guó)國(guó)務(wù)院令  第835號(hào)

      新華社
      2026-04-13 17:03:04
      曼聯(lián)翻車夜!卡里克昏招致命,重用 “廢柴” 被球迷罵瘋

      曼聯(lián)翻車夜!卡里克昏招致命,重用 “廢柴” 被球迷罵瘋

      奶蓋熊本熊
      2026-04-14 05:10:44
      拿到了!恭喜東契奇!25-26賽季首個(gè)大獎(jiǎng)

      拿到了!恭喜東契奇!25-26賽季首個(gè)大獎(jiǎng)

      籃球?qū)崙?zhàn)寶典
      2026-04-13 21:27:20
      日偶像女團(tuán)辦活動(dòng)「0人到場(chǎng)」! 5成員低頭畫面瘋傳

      日偶像女團(tuán)辦活動(dòng)「0人到場(chǎng)」! 5成員低頭畫面瘋傳

      ETtoday星光云
      2026-04-13 12:40:07
      上海下的不是雨,是補(bǔ)水噴霧!網(wǎng)友花式吐槽,笑出眼淚!

      上海下的不是雨,是補(bǔ)水噴霧!網(wǎng)友花式吐槽,笑出眼淚!

      上觀新聞
      2026-04-14 07:44:10
      剛剛,馬扎爾確認(rèn)匈牙利不會(huì)阻止歐盟向?yàn)蹩颂m發(fā)放900億歐元貸款

      剛剛,馬扎爾確認(rèn)匈牙利不會(huì)阻止歐盟向?yàn)蹩颂m發(fā)放900億歐元貸款

      山河路口
      2026-04-13 23:56:05
      美國(guó)計(jì)劃封鎖霍爾木茲海峽,國(guó)際油價(jià)大幅上漲

      美國(guó)計(jì)劃封鎖霍爾木茲海峽,國(guó)際油價(jià)大幅上漲

      澎湃新聞
      2026-04-13 08:09:04
      36歲,賬上躺著30億,他是最懂海外流量的中國(guó)人

      36歲,賬上躺著30億,他是最懂海外流量的中國(guó)人

      中國(guó)企業(yè)家雜志
      2026-04-13 15:50:40
      伊朗伊斯蘭革命衛(wèi)隊(duì):若沖突繼續(xù)將啟用新作戰(zhàn)方法

      伊朗伊斯蘭革命衛(wèi)隊(duì):若沖突繼續(xù)將啟用新作戰(zhàn)方法

      每日經(jīng)濟(jì)新聞
      2026-04-14 07:57:57
      同事借我車去青海,我提前把ETC卡拔了,2小時(shí)后他從收費(fèi)站來(lái)電了

      同事借我車去青海,我提前把ETC卡拔了,2小時(shí)后他從收費(fèi)站來(lái)電了

      張道陵秘話
      2026-04-11 16:37:21
      夫妻AA制29年,丈夫退休后把存款留給初戀,妻子住院繳費(fèi)時(shí)傻了眼

      夫妻AA制29年,丈夫退休后把存款留給初戀,妻子住院繳費(fèi)時(shí)傻了眼

      程哥講堂
      2025-06-02 18:11:14
      湖人官方祝賀:東契奇成隊(duì)史第5位得分王 詹皇70次周最佳歷史第一

      湖人官方祝賀:東契奇成隊(duì)史第5位得分王 詹皇70次周最佳歷史第一

      醉臥浮生
      2026-04-14 09:25:20
      卸下“第一女兒”鎧甲,45歲伊萬(wàn)卡罕見哽咽:父親讓我知道,我不屬于政治

      卸下“第一女兒”鎧甲,45歲伊萬(wàn)卡罕見哽咽:父親讓我知道,我不屬于政治

      留學(xué)生日?qǐng)?bào)
      2026-04-13 21:08:58
      4月網(wǎng)貸嚴(yán)查動(dòng)真格!罰款改判刑,全鏈條追責(zé),千萬(wàn)別踩線

      4月網(wǎng)貸嚴(yán)查動(dòng)真格!罰款改判刑,全鏈條追責(zé),千萬(wàn)別踩線

      我不叫阿哏
      2026-04-14 07:50:32
      人事把高鐵票降為硬座,回來(lái)老板問我合同,我:對(duì)方說(shuō)我們沒誠(chéng)意

      人事把高鐵票降為硬座,回來(lái)老板問我合同,我:對(duì)方說(shuō)我們沒誠(chéng)意

      普陀動(dòng)物世界
      2026-04-14 07:15:12
      冰島前國(guó)門稱自己在家中遭遇襲擊和搶劫,被刺了14刀險(xiǎn)些喪命

      冰島前國(guó)門稱自己在家中遭遇襲擊和搶劫,被刺了14刀險(xiǎn)些喪命

      懂球帝
      2026-04-14 09:53:13
      2026-04-14 10:24:49
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動(dòng)數(shù)字化創(chuàng)新
      17626文章數(shù) 49698關(guān)注度
      往期回顧 全部

      科技要聞

      OpenAI痛批Anthropic營(yíng)收注水80億美元

      頭條要聞

      麻生太郎被指對(duì)高市的態(tài)度出現(xiàn)轉(zhuǎn)變 正在物色替代人選

      頭條要聞

      麻生太郎被指對(duì)高市的態(tài)度出現(xiàn)轉(zhuǎn)變 正在物色替代人選

      體育要聞

      他做對(duì)了所有事,卻被整個(gè)職業(yè)網(wǎng)壇放逐了八年

      娛樂要聞

      初代“跑男團(tuán)”合體,鄧超、鹿晗缺席

      財(cái)經(jīng)要聞

      伊朗要求五個(gè)中東國(guó)家賠償戰(zhàn)爭(zhēng)損失

      汽車要聞

      不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      時(shí)尚
      家居
      本地

      教育要聞

      做有思考、有思路、有思想的校長(zhǎng)

      藝術(shù)要聞

      鄭麗文來(lái)啦!揭露蔣經(jīng)國(guó)和宋美齡鮮為人知的秘密!

      今年科切拉的風(fēng)吹向了誰(shuí)?

      家居要聞

      復(fù)古風(fēng)格 自然簡(jiǎn)約

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版