<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI翻譯正在“毒害”維基百科,將弱勢(shì)語(yǔ)言推向滅絕

      0
      分享至


      (來(lái)源:MIT TR)

      四年前,當(dāng) Kenneth Wehr 開(kāi)始接管格陵蘭語(yǔ)維基百科時(shí),他的第一項(xiàng)舉措是刪掉幾乎所有內(nèi)容。他認(rèn)為,這是它唯一的生存機(jī)會(huì)。

      現(xiàn)年 26 歲的 Wehr 并非來(lái)自格陵蘭——他在德國(guó)長(zhǎng)大,但在十幾歲時(shí)訪問(wèn)過(guò)這座作為丹麥自治領(lǐng)的島嶼后,便對(duì)它深深著迷。他曾花費(fèi)數(shù)年時(shí)間,用自己的母語(yǔ)撰寫(xiě)關(guān)于各種冷門(mén)主題的維基百科條目。

      為了格陵蘭語(yǔ),他甚至最終搬到哥本哈根專門(mén)學(xué)習(xí)。這門(mén)語(yǔ)言的使用者約有 57,000 人,主要是因紐特原住民,他們散布在北極圈內(nèi)幾十個(gè)偏遠(yuǎn)的村莊里。

      格陵蘭語(yǔ)維基百科大約在 2003 年,即英文網(wǎng)站推出幾年后上線。在 Wehr 近 20 年后接手時(shí),已有數(shù)百名維基百科貢獻(xiàn)者參與其中,共同撰寫(xiě)了約 1,500 篇文章,總字?jǐn)?shù)超過(guò)數(shù)萬(wàn)。這似乎有力地證明了眾包模式的成功,正是這種模式使維基百科成為在線信息的首選來(lái)源,表明它即便在最不可能的角落也能生根發(fā)芽。

      然而,問(wèn)題只有一個(gè):格陵蘭語(yǔ)維基百科只是一個(gè)幻象。

      幾乎每一篇文章都出自那些根本不會(huì)說(shuō)這門(mén)語(yǔ)言的人之手。如今在丹麥教授格陵蘭語(yǔ)的 Wehr 推測(cè),或許只有一兩位格陵蘭人曾經(jīng)貢獻(xiàn)過(guò)內(nèi)容。但更讓他憂心的是另一件事:他注意到,隨著時(shí)間的推移,越來(lái)越多由機(jī)器翻譯生成的文章被直接復(fù)制粘貼到維基百科上。這些文章充斥著低級(jí)錯(cuò)誤——從語(yǔ)法失誤到毫無(wú)意義的詞匯,再到更嚴(yán)重的失實(shí)信息,例如一個(gè)詞條宣稱加拿大只有 41 名居民。其他頁(yè)面有時(shí)甚至包含一串隨機(jī)字母,這是機(jī)器在找不到合適的格陵蘭語(yǔ)詞匯時(shí)隨意拼湊的結(jié)果。

      “對(duì)于那些發(fā)布者來(lái)說(shuō),這些內(nèi)容或許看起來(lái)像是格陵蘭語(yǔ),但他們自己根本無(wú)從判斷,” Wehr 抱怨道。

      “這些句子要么完全不通,要么有明顯錯(cuò)誤,”他補(bǔ)充說(shuō)。“AI 翻譯在處理格陵蘭語(yǔ)方面表現(xiàn)得非常糟糕。”

      Wehr 所描述的困境并非格陵蘭語(yǔ)版本所獨(dú)有。

      維基百科是繼《圣經(jīng)》之后最宏大的多語(yǔ)言項(xiàng)目:它擁有超過(guò) 340 種語(yǔ)言版本,另有 400 種更小眾的語(yǔ)言版本正在開(kāi)發(fā)和測(cè)試中。隨著 AI 技術(shù)的普及,許多這類小型語(yǔ)言版本已被自動(dòng)翻譯的內(nèi)容所淹沒(méi)。例如,據(jù)《麻省理工科技評(píng)論》估計(jì),在四個(gè)非洲語(yǔ)言的維基百科版本中,有 40% 到 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯內(nèi)容。而在對(duì)因紐特語(yǔ)(一種與格陵蘭語(yǔ)相近、在加拿大使用的原住民語(yǔ)言)的維基百科版本進(jìn)行審查后,《麻省理工科技評(píng)論》估計(jì),超過(guò)三分之二包含多個(gè)句子的頁(yè)面都部分采用了這種方式創(chuàng)建。

      這正開(kāi)始引發(fā)一個(gè)棘手的問(wèn)題。從谷歌翻譯到 ChatGPT,AI 系統(tǒng)通過(guò)抓取互聯(lián)網(wǎng)上的海量文本來(lái)學(xué)習(xí)“說(shuō)”一門(mén)新語(yǔ)言。對(duì)于那些使用者較少的語(yǔ)言來(lái)說(shuō),維基百科有時(shí)是其最大的在線語(yǔ)言數(shù)據(jù)庫(kù)。因此,這些頁(yè)面上的任何語(yǔ)法或其他錯(cuò)誤,都可能污染 AI 賴以學(xué)習(xí)的“水源”。這會(huì)導(dǎo)致模型在翻譯這些語(yǔ)言時(shí)尤其容易出錯(cuò),從而形成一種語(yǔ)言學(xué)的惡性循環(huán):人們繼續(xù)使用這些工具添加更多劣質(zhì)翻譯的維基百科頁(yè)面,而 AI 模型則繼續(xù)從這些劣質(zhì)頁(yè)面中學(xué)習(xí)。這是一個(gè)復(fù)雜的問(wèn)題,但可以歸結(jié)為一個(gè)簡(jiǎn)單的概念:垃圾進(jìn),垃圾出 (Garbage in, garbage out)。

      “這些模型是建立在原始數(shù)據(jù)之上的,” Kevin Scannell 說(shuō)道。他曾是圣路易斯大學(xué)的計(jì)算機(jī)科學(xué)教授,現(xiàn)在專注于為瀕危語(yǔ)言開(kāi)發(fā)軟件。“它們會(huì)試圖從零開(kāi)始學(xué)習(xí)一門(mén)語(yǔ)言的一切。沒(méi)有其他輸入,沒(méi)有語(yǔ)法書(shū),沒(méi)有詞典,輸入的只有文本。”

      關(guān)于這個(gè)問(wèn)題的嚴(yán)重程度,目前還沒(méi)有確切的數(shù)據(jù),部分原因是許多 AI 訓(xùn)練數(shù)據(jù)是保密的,而且該領(lǐng)域仍在快速發(fā)展。但早在 2020 年,據(jù)估計(jì),在用于翻譯非洲數(shù)百萬(wàn)人口所使用的語(yǔ)言(包括馬達(dá)加斯加語(yǔ)、約魯巴語(yǔ)和紹納語(yǔ))的 AI 模型中,維基百科提供了超過(guò)一半的訓(xùn)練數(shù)據(jù)。2022 年,一個(gè)德國(guó)研究團(tuán)隊(duì)在調(diào)查可通過(guò)網(wǎng)絡(luò)抓取獲得的數(shù)據(jù)時(shí)發(fā)現(xiàn),對(duì)于 27 種資源匱乏的語(yǔ)言,維基百科是唯一易于獲取的在線語(yǔ)言數(shù)據(jù)來(lái)源。

      在維基百科內(nèi)容質(zhì)量低劣的情況下,這可能會(huì)產(chǎn)生嚴(yán)重后果——它可能會(huì)將地球上最脆弱的語(yǔ)言推向懸崖,因?yàn)楹蟠鷮㈤_(kāi)始對(duì)它們失去信心。

      “維基百科的狀況將反映在這些語(yǔ)言的 AI 模型中,” 挪威特羅姆瑟大學(xué)的計(jì)算語(yǔ)言學(xué)家 Trond Trosterud 說(shuō)。多年來(lái),他一直在就劣質(zhì)維基百科版本可能帶來(lái)的危害發(fā)出警告。“我很難想象這會(huì)沒(méi)有后果。當(dāng)然,維基百科的地位越主導(dǎo),情況就會(huì)越糟。”



      負(fù)責(zé)任地使用

      自誕生之初,自動(dòng)化就已融入維基百科。機(jī)器程序維持著平臺(tái)的運(yùn)作:它們修復(fù)損壞的鏈接、修正格式錯(cuò)誤,甚至糾正拼寫(xiě)。還有一支機(jī)器人大軍,它們通過(guò)將河流、城市或動(dòng)物的名稱填入固定句式,來(lái)生成簡(jiǎn)短的條目。總體而言,它們使平臺(tái)變得更好。

      但AI 是另一回事。任何人只需幾次點(diǎn)擊,就能用它造成巨大的破壞。

      相比許多其他網(wǎng)站,維基百科在應(yīng)對(duì) AI 時(shí)代的到來(lái)方面做得更好。它沒(méi)有像社交媒體那樣被 AI 機(jī)器人或虛假信息所淹沒(méi),并在很大程度上保留了早期互聯(lián)網(wǎng)時(shí)代的純粹性。維基百科開(kāi)放、免費(fèi),任何人都可以使用、編輯和引用,它由它所服務(wù)的社群來(lái)運(yùn)營(yíng),公開(kāi)透明且易于使用。但社群驅(qū)動(dòng)的平臺(tái),其生死存亡取決于社群的規(guī)模。英語(yǔ)維基百科取得了巨大成功,而格陵蘭語(yǔ)版本則走向衰落。

      “我們需要優(yōu)秀的維基百科貢獻(xiàn)者。這一點(diǎn)人們習(xí)以為常,但這并非理所當(dāng)然,” Amir Aharoni 說(shuō)道,他是維基百科語(yǔ)言委員會(huì)的志愿者成員,該委員會(huì)負(fù)責(zé)監(jiān)督語(yǔ)言版本的開(kāi)設(shè)與關(guān)閉。“如果你負(fù)責(zé)任地使用機(jī)器翻譯,它可以是高效且有用的。不幸的是,你不能指望所有人都這么做。”

      Trosterud 研究了小型維基百科版本用戶的行為,他表示,AI 賦能了一個(gè)他稱之為“維基百科劫持者”的子群體。這些用戶的范圍很廣——從天真的青少年創(chuàng)建關(guān)于自己家鄉(xiāng)或喜愛(ài)的 YouTuber 的頁(yè)面,到善意的維基百科人,他們認(rèn)為通過(guò)創(chuàng)建少數(shù)族裔語(yǔ)言的文章是在以某種方式“幫助”這些社群。

      “如今他們的問(wèn)題在于,他們手握谷歌翻譯這個(gè)武器,” Trosterud 說(shuō)。他補(bǔ)充道,這讓他們能夠炮制出比以往任何時(shí)候都更長(zhǎng)、更以假亂真的內(nèi)容:“以前,他們的武器只有詞典。”

      這實(shí)際上將破壞行為工業(yè)化了——受影響最嚴(yán)重的是那些脆弱的語(yǔ)言,因?yàn)?AI 對(duì)它們的翻譯通常最不可靠。原因有很多,但一個(gè)重要因素是在線可用的源文本數(shù)量相對(duì)較少。有時(shí),模型難以識(shí)別一種語(yǔ)言,因?yàn)樗c其他語(yǔ)言相似;有時(shí)則是因?yàn)槟承┱Z(yǔ)言,包括格陵蘭語(yǔ)和大多數(shù)美洲原住民語(yǔ)言,其結(jié)構(gòu)特點(diǎn)使其不適用于大多數(shù)機(jī)器翻譯系統(tǒng)的工作方式。(Wehr 指出,格陵蘭語(yǔ)是一種粘著語(yǔ),即通過(guò)在詞根上附加前綴和后綴來(lái)構(gòu)詞。因此,許多詞匯具有極強(qiáng)的語(yǔ)境特異性,能夠表達(dá)在其他語(yǔ)言中需要用一整個(gè)句子才能說(shuō)明的復(fù)雜概念。)

      谷歌在三年前大規(guī)模擴(kuò)展其翻譯服務(wù)前發(fā)布的一項(xiàng)研究發(fā)現(xiàn),資源匱乏型語(yǔ)言的翻譯系統(tǒng)質(zhì)量普遍低于資源充足型語(yǔ)言。研究人員發(fā)現(xiàn),他們的模型常常會(huì)錯(cuò)誤翻譯跨語(yǔ)言的基本名詞,包括動(dòng)物和顏色的名稱。(谷歌在給《麻省理工科技評(píng)論》的一份聲明中寫(xiě)道,它“致力于為其支持的所有 249 種語(yǔ)言達(dá)到高質(zhì)量標(biāo)準(zhǔn)”,并“通過(guò)嚴(yán)格測(cè)試和改進(jìn)其系統(tǒng),特別是針對(duì)那些網(wǎng)絡(luò)公開(kāi)文本資源有限的語(yǔ)言”。)

      維基百科自身提供了一個(gè)名為“內(nèi)容翻譯”(Content Translate) 的內(nèi)置編輯工具,允許用戶將文章從一種語(yǔ)言自動(dòng)翻譯到另一種語(yǔ)言——其初衷是通過(guò)保留原文的參考文獻(xiàn)和復(fù)雜的格式來(lái)節(jié)省時(shí)間。但它依賴于外部機(jī)器翻譯系統(tǒng),因此也深受其他機(jī)器翻譯工具的弱點(diǎn)所困擾——維基媒體基金會(huì)表示,這是一個(gè)難以解決的問(wèn)題。是否允許使用該工具由每個(gè)語(yǔ)言版本的社群自行決定,一些社群已決定禁用。值得注意的是,英語(yǔ)維基百科已基本禁止使用該工具,聲稱約 95% 使用“內(nèi)容翻譯”創(chuàng)建的文章未達(dá)到可接受標(biāo)準(zhǔn),需要大量額外修改。不過(guò),至少可以輕易判斷該程序是否被使用過(guò),因?yàn)樗鼤?huì)在維基百科的后端添加一個(gè)標(biāo)簽。

      其他的 AI 程序則更難監(jiān)控。盡管如此,我采訪過(guò)的許多維基百科編輯都表示,一旦他們的語(yǔ)言被添加到主流在線翻譯工具中,他們就會(huì)注意到質(zhì)量低劣、很可能是機(jī)器翻譯的頁(yè)面數(shù)量相應(yīng)激增。

      一些使用 AI 翻譯內(nèi)容的維基百科貢獻(xiàn)者偶爾會(huì)承認(rèn)他們并不會(huì)說(shuō)目標(biāo)語(yǔ)言。他們可能認(rèn)為自己是在為小語(yǔ)種社群提供可供修改的“草稿”,這本質(zhì)上是在效仿那些在更活躍的維基百科版本中行之有效的模式。

      然而,一旦充滿錯(cuò)誤的頁(yè)面在小語(yǔ)種中被創(chuàng)建出來(lái),通常是不會(huì)有一支龐大的、懂這門(mén)語(yǔ)言的專家隊(duì)伍來(lái)隨時(shí)準(zhǔn)備改進(jìn)它們的。這些版本的讀者很少,有時(shí)甚至沒(méi)有一個(gè)固定的編輯。

      20 多歲的加拿大教師 Yuet Man Lee 表示,他曾使用谷歌翻譯和 ChatGPT 的混合工具,將他為英語(yǔ)維基百科寫(xiě)的幾篇文章翻譯成因紐特語(yǔ),他覺(jué)得這能為一個(gè)小社群做出貢獻(xiàn)是件好事。他說(shuō),他在其中一篇文章中加了備注,說(shuō)明這只是一個(gè)粗略的翻譯。“我當(dāng)時(shí)沒(méi)想過(guò)會(huì)有人注意到這篇文章,”他解釋說(shuō)。“如果你在那些小眾的維基百科上發(fā)布內(nèi)容——大多數(shù)時(shí)候根本沒(méi)人會(huì)看。”

      但與此同時(shí),他也表示,他仍然覺(jué)得“也許有人會(huì)看到并修正它”——他補(bǔ)充說(shuō),他曾想過(guò) AI 系統(tǒng)生成的因紐特語(yǔ)翻譯在語(yǔ)法上是否正確。自他創(chuàng)建那篇文章以來(lái),沒(méi)有任何人動(dòng)過(guò)它。

      在溫哥華教授社會(huì)科學(xué)的 Lee 十年前開(kāi)始在英語(yǔ)維基百科上編輯條目。他說(shuō),熟悉更活躍的維基百科的用戶可能會(huì)陷入一種他稱之為“大維基百科式傲慢”的心態(tài):當(dāng)他們嘗試為小版本做貢獻(xiàn)時(shí),他們會(huì)想當(dāng)然地認(rèn)為別人會(huì)來(lái)修正他們的錯(cuò)誤。有時(shí)這確實(shí)行得通。Lee 說(shuō),他之前曾為韃靼語(yǔ)(一種主要在俄羅斯由數(shù)百萬(wàn)人使用的語(yǔ)言)維基百科貢獻(xiàn)過(guò)幾篇文章,其中至少有一篇后來(lái)被修正了。但相比之下,因紐特語(yǔ)維基百科則是一片“貧瘠的荒原”。

      他強(qiáng)調(diào)自己的初衷是好的:他想為一個(gè)加拿大原住民語(yǔ)言的維基百科增加更多文章。“我現(xiàn)在覺(jué)得這可能是一個(gè)壞主意。我沒(méi)有考慮到我可能在促成一個(gè)遞歸循環(huán),”他說(shuō)。“我只是出于好奇和好玩,想把內(nèi)容發(fā)布出去,而沒(méi)有認(rèn)真思考后果。”



      “徹底,完全沒(méi)有未來(lái)”

      維基百科是一個(gè)由理想主義驅(qū)動(dòng)的項(xiàng)目。編輯工作可能吃力不討好,需要花費(fèi)數(shù)周時(shí)間與匿名的、身份不明的人爭(zhēng)論,但奉獻(xiàn)者們投入了大量無(wú)償勞動(dòng),因?yàn)樗麄冎铝τ谝豁?xiàng)更崇高的事業(yè)。正是這種奉獻(xiàn)精神,驅(qū)動(dòng)著我采訪過(guò)的許多小語(yǔ)種編輯。他們都擔(dān)心,如果垃圾內(nèi)容繼續(xù)出現(xiàn)在他們的頁(yè)面上,后果將不堪設(shè)想。

      26 歲的農(nóng)業(yè)規(guī)劃師 Abdulkadir Abdulkadir 在尼日利亞北部一條繁忙的公路邊,通過(guò)一通信號(hào)不穩(wěn)的電話與我交談。他說(shuō)他每天花三個(gè)小時(shí),用他的母語(yǔ)富爾富爾德語(yǔ)(一種主要由薩赫勒地區(qū)的牧民和農(nóng)民使用的語(yǔ)言)處理維基百科條目。“但工作量太大了,”他說(shuō)。

      Abdulkadir 認(rèn)為,富爾富爾德語(yǔ)維基百科迫切需要正常運(yùn)作。他一直建議將其作為偏遠(yuǎn)村莊農(nóng)民為數(shù)不多的在線資源之一,為他們提供關(guān)于哪些種子或作物最適合他們田地的信息,并且是用他們能理解的語(yǔ)言。“如果你給他們一篇機(jī)器翻譯的文章,” Abdulkadir 告訴我,“那很可能會(huì)‘輕易地傷害他們’,因?yàn)樾畔⒑芸赡軟](méi)有被正確翻譯。”

      例如,谷歌翻譯顯示富爾富爾德語(yǔ)中“一月”的意思是“六月”,而 ChatGPT 則說(shuō)是“八月”或“九月”。這些程序還暗示,富爾富爾德語(yǔ)中“收獲”的意思是“發(fā)燒”或“安康”等其他可能性。

      Abdulkadir 說(shuō),他最近被迫修正了一篇關(guān)于豇豆的文章,這是一種在非洲大部分地區(qū)至關(guān)重要的經(jīng)濟(jì)作物,因?yàn)樗l(fā)現(xiàn)那篇文章幾乎無(wú)法閱讀。

      Abdulkadir 表示,如果有人想在富爾富爾德語(yǔ)維基百科上創(chuàng)建頁(yè)面,他們應(yīng)該手動(dòng)翻譯。否則,“任何讀你文章的人都無(wú)法獲得最基本的知識(shí),”他告誡這些維基百科貢獻(xiàn)者。盡管如此,他估計(jì)仍有大約 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯。Abdulkadir 告訴我,除非 AI 系統(tǒng)的學(xué)習(xí)和部署方式發(fā)生重大改變,否則富爾富爾德語(yǔ)的前景堪憂。“老實(shí)說(shuō),情況會(huì)很糟糕,”他說(shuō)。“徹底,完全沒(méi)有未來(lái)。”

      在尼日利亞的另一端,Lucy Iwuala 為伊博語(yǔ)(一種在該國(guó)東南部有數(shù)百萬(wàn)人使用的語(yǔ)言)維基百科做貢獻(xiàn)。“傷害已經(jīng)造成了,”她告訴我,同時(shí)打開(kāi)了最近創(chuàng)建的兩篇文章。兩篇都是通過(guò)維基百科的“內(nèi)容翻譯”工具自動(dòng)翻譯的,里面錯(cuò)誤百出,她說(shuō)讀下去會(huì)讓她頭疼。“有些術(shù)語(yǔ)甚至根本沒(méi)被翻譯,還是英語(yǔ),”她指出。她認(rèn)出創(chuàng)建這些頁(yè)面的用戶名是一個(gè)慣犯。“這個(gè)人甚至用了伊博語(yǔ)里不存在的字母,”她說(shuō)。

      三年前,出于對(duì)伊博語(yǔ)正被英語(yǔ)取代的擔(dān)憂,Iwuala 開(kāi)始定期為維基百科做貢獻(xiàn)。這種擔(dān)憂在許多活躍于小語(yǔ)種版本的人中很常見(jiàn)。“這是我的文化,這是我的身份,”她告訴我。“這才是核心:確保你不會(huì)被抹去。”

      如今作為一名英語(yǔ)和伊博語(yǔ)之間的專業(yè)翻譯,Iwuala 說(shuō),造成最大破壞的用戶是那些缺乏經(jīng)驗(yàn)的人,他們將 AI 翻譯視為快速提升伊博語(yǔ)維基百科影響力的方式。她發(fā)現(xiàn)自己經(jīng)常要在她組織的線上編輯松,或通過(guò)電子郵件向各種出錯(cuò)的編輯解釋,結(jié)果可能恰恰相反,這會(huì)趕走用戶:“你會(huì)感到沮喪,然后不想再訪問(wèn)這個(gè)地方。你只會(huì)放棄它,然后回到英語(yǔ)維基百科。”

      夏威夷大學(xué)的夏威夷語(yǔ)助理教授 Noah Ha?alilio Solomon 也表達(dá)了同樣的擔(dān)憂。他報(bào)告說(shuō),夏威夷語(yǔ)維基百科上某些頁(yè)面約有 35% 的詞語(yǔ)是無(wú)法理解的。“如果這就是將要存在于網(wǎng)絡(luò)上的夏威夷語(yǔ),那它帶來(lái)的壞處將遠(yuǎn)大于好處,”他說(shuō)。

      幾十年前曾一度瀕臨滅絕的夏威夷語(yǔ),在原住民活動(dòng)家和學(xué)者的努力下,正在經(jīng)歷一場(chǎng)復(fù)興。在維基百科這樣一個(gè)廣泛使用的平臺(tái)上看到如此拙劣的夏威夷語(yǔ),令 Ha?alilio Solomon 感到不安。

      “這很痛苦,因?yàn)樗屛覀兿肫鹞覀兊奈幕驼Z(yǔ)言曾無(wú)數(shù)次被盜用,”他說(shuō)。“我們?yōu)榱苏Z(yǔ)言復(fù)興,一直在艱難地向上攀登。這絕非易事,而這種現(xiàn)象會(huì)增加額外的障礙。人們會(huì)認(rèn)為這就是夏威夷語(yǔ)的準(zhǔn)確呈現(xiàn)。”

      所有這些維基百科錯(cuò)誤所帶來(lái)的后果可能很快就會(huì)顯現(xiàn)。毫無(wú)疑問(wèn)已經(jīng)吸收了這些頁(yè)面作為訓(xùn)練數(shù)據(jù)的 AI 翻譯器,現(xiàn)在正被用于制作充斥錯(cuò)誤的 AI 生成書(shū)籍,這些書(shū)籍面向各種語(yǔ)言的學(xué)習(xí)者,如因紐特語(yǔ)和克里語(yǔ)(加拿大原住民語(yǔ)言),以及曼島語(yǔ)(馬恩島上的一種小型凱爾特語(yǔ)言)。其中許多書(shū)籍已在亞馬遜上架銷售。“那完全是胡說(shuō)八道,” 蒙特利爾魁北克大學(xué)的語(yǔ)言學(xué)家 Richard Compton 在評(píng)價(jià)一本他審閱過(guò)的、號(hào)稱是因紐特語(yǔ)入門(mén)手冊(cè)的出版物時(shí)說(shuō)。

      AI 非但沒(méi)有讓少數(shù)族裔語(yǔ)言變得更容易接觸,反而正在為這些語(yǔ)言的學(xué)生和使用者創(chuàng)造一個(gè)不斷擴(kuò)大的雷區(qū)。“這簡(jiǎn)直是打臉,” Compton 說(shuō)。他擔(dān)心,在加拿大那些為了將傳統(tǒng)傳承下去而與歧視進(jìn)行了艱苦斗爭(zhēng)的社群中,希望學(xué)習(xí)語(yǔ)言的年輕一代可能會(huì)求助于像 ChatGPT 這樣的在線工具或亞馬遜上的短語(yǔ)手冊(cè),結(jié)果只會(huì)讓事情變得更糟。“這是欺詐,”他說(shuō)。



      與時(shí)間賽跑

      根據(jù)聯(lián)合國(guó)教科文組織 (UNESCO) 的數(shù)據(jù),每?jī)芍芫陀幸环N語(yǔ)言被宣布滅絕。但是,運(yùn)營(yíng)維基百科的維基媒體基金會(huì)是否有義務(wù)保護(hù)其平臺(tái)上的語(yǔ)言,這是一個(gè)懸而未決的問(wèn)題。當(dāng)我與該基金會(huì)的高級(jí)總監(jiān) Runa Bhattacharjee 交談時(shí),她說(shuō),決定什么樣的內(nèi)容應(yīng)該存在于他們的維基百科上,取決于各個(gè)社群自己。“最終,責(zé)任確實(shí)在于社群,他們需要確保沒(méi)有破壞行為或不希望的活動(dòng),無(wú)論是通過(guò)機(jī)器翻譯還是其他方式,”她說(shuō)。Bhattacharjee 補(bǔ)充說(shuō),通常只有在收到具體投訴后,才會(huì)考慮關(guān)閉一個(gè)版本。

      但如果沒(méi)有活躍的社群,一個(gè)版本又如何能被修復(fù),甚至如何能有人提出投訴呢?

      Bhattacharjee 解釋說(shuō),維基媒體基金會(huì)在這種情況下扮演的角色是維護(hù)維基百科平臺(tái),以防有人前來(lái)復(fù)興它:“我們提供的是一個(gè)讓他們成長(zhǎng)和發(fā)展的空間。這就是我們的定位。”

      伊納里薩米語(yǔ),一種僅在芬蘭北部一個(gè)偏遠(yuǎn)社群使用的語(yǔ)言,是人們?nèi)绾紊朴镁S基百科的典范。四十年前,這門(mén)語(yǔ)言正走向滅絕;當(dāng)時(shí)只有四個(gè)孩子會(huì)說(shuō)。他們的父母創(chuàng)建了伊納里薩米語(yǔ)言協(xié)會(huì),作為挽救語(yǔ)言的最后努力。這些努力奏效了。如今,已有數(shù)百名使用者,多所學(xué)校使用伊納里薩米語(yǔ)作為教學(xué)媒介,維基百科上更有 6,400 篇文章,每一篇都由流利的使用者進(jìn)行過(guò)審校。

      這個(gè)成功案例凸顯了維基百科確實(shí)可以為小而堅(jiān)定的社群提供一個(gè)獨(dú)特的工具,以促進(jìn)他們語(yǔ)言的傳承。“我們不關(guān)心數(shù)量,我們關(guān)心質(zhì)量,” 伊納里-薩米語(yǔ)言協(xié)會(huì)的成員 Fabrizio Brecciaroli 說(shuō)。“我們正計(jì)劃將維基百科用作書(shū)面語(yǔ)言的資料庫(kù)。我們需要為年輕一代提供可以使用的工具。讓他們能夠以數(shù)字化的方式使用伊納里薩米語(yǔ),這很重要。”

      這一舉措非常成功,以至于維基百科已被整合到伊納里薩米語(yǔ)學(xué)校的課程中,Brecciaroli 補(bǔ)充道。他會(huì)接到老師打來(lái)的電話,請(qǐng)求他撰寫(xiě)從龍卷風(fēng)到薩米民間傳說(shuō)等各種主題的簡(jiǎn)單頁(yè)面。維基百科甚至提供了一種將新詞引入伊納里薩米語(yǔ)的方式。“我們總是在創(chuàng)造新詞,” Brecciaroli 說(shuō)。“年輕人需要用它來(lái)談?wù)擉w育、政治和電子游戲。如果他們不確定怎么說(shuō),現(xiàn)在他們會(huì)去查維基百科。”

      維基百科是一項(xiàng)宏偉的智力實(shí)驗(yàn)。伊納里薩米語(yǔ)的例子表明,只要給予最大程度的關(guān)注,它在小語(yǔ)種中也能奏效。“最終目標(biāo)是確保伊納里薩米語(yǔ)能夠存活下去,” Brecciaroli 說(shuō)。“伊納里薩米語(yǔ)沒(méi)有谷歌翻譯,這或許是件好事。”

      這或許是真的——盡管像 ChatGPT 這樣的大型語(yǔ)言模型可以將短語(yǔ)翻譯成傳統(tǒng)機(jī)器翻譯工具不支持的語(yǔ)言。Brecciaroli 告訴我,ChatGPT 在伊納里薩米語(yǔ)方面的表現(xiàn)并不好,但其質(zhì)量因你提出的要求而異;如果你用該語(yǔ)言提問(wèn),答案會(huì)充滿芬蘭語(yǔ)詞匯甚至它自己發(fā)明的詞。但如果你用英語(yǔ)、芬蘭語(yǔ)或意大利語(yǔ)提問(wèn),然后要求它用伊納里薩米語(yǔ)回答,它的表現(xiàn)會(huì)更好。

      有鑒于此,盡可能多地創(chuàng)作高質(zhì)量的在線內(nèi)容,成為了一場(chǎng)與時(shí)間的賽跑。“ChatGPT 只需要大量的詞匯,” Brecciaroli 說(shuō)。“如果我們不斷輸入好的材料,那么遲早我們會(huì)得到好的輸出。這就是希望。” 這個(gè)想法得到了多位語(yǔ)言學(xué)家的支持——即有可能終結(jié)“垃圾進(jìn),垃圾出”的循環(huán)。(OpenAI 沒(méi)有回應(yīng)置評(píng)請(qǐng)求。)

      盡管如此,整體問(wèn)題很可能會(huì)持續(xù)惡化,因?yàn)樵S多語(yǔ)言不像伊納里薩米語(yǔ)那樣幸運(yùn)——它們的 AI 翻譯器很可能會(huì)在越來(lái)越多 AI 垃圾的基礎(chǔ)上進(jìn)行訓(xùn)練。不幸的是,Wehr 對(duì)他心愛(ài)的格陵蘭語(yǔ)的未來(lái)似乎遠(yuǎn)沒(méi)有那么樂(lè)觀。

      自從刪除了格陵蘭語(yǔ)維基百科的大部分內(nèi)容后,他花了好幾年時(shí)間試圖招募使用者來(lái)幫助他復(fù)興它。他登上了格陵蘭的媒體,也在社交媒體上發(fā)出了呼吁。但他沒(méi)有得到太多回應(yīng),他說(shuō)這令人心灰意冷。

      “格陵蘭沒(méi)人對(duì)此感興趣,也沒(méi)人愿意貢獻(xiàn),”他說(shuō)。“這完全沒(méi)有意義,所以它應(yīng)該被關(guān)閉。”

      去年年底,他開(kāi)始申請(qǐng),要求維基百科語(yǔ)言委員會(huì)關(guān)閉格陵蘭語(yǔ)版本。在數(shù)十名維基百科官僚之間展開(kāi)了數(shù)月的激烈辯論;一些人似乎對(duì)一個(gè)表面上看起來(lái)健康的版本竟會(huì)陷入如此多的問(wèn)題感到驚訝。

      然后,本月早些時(shí)候,Wehr 的提議被接受了:格陵蘭語(yǔ)維基百科將被關(guān)閉,所有剩余的文章將被移至維基百科孵化器,那里是新語(yǔ)言版本進(jìn)行測(cè)試和構(gòu)建的地方。語(yǔ)言委員會(huì)引述的原因之一是 AI 工具的使用,這些工具“頻繁產(chǎn)生可能歪曲該語(yǔ)言的無(wú)意義內(nèi)容”。

      但一切可能已經(jīng)太遲了——格陵蘭語(yǔ)的錯(cuò)誤似乎已經(jīng)固化在機(jī)器翻譯器中。如果你讓谷歌翻譯或 ChatGPT 做一件像用標(biāo)準(zhǔn)的格陵蘭語(yǔ)數(shù)到 10 這樣簡(jiǎn)單的事,兩個(gè)程序都無(wú)法做到。

      原文鏈接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      當(dāng)不成總統(tǒng)了?特朗普躺進(jìn)醫(yī)院?美本土起暴亂,共和黨選替代者?

      當(dāng)不成總統(tǒng)了?特朗普躺進(jìn)醫(yī)院?美本土起暴亂,共和黨選替代者?

      探史
      2026-04-07 22:07:34
      贏福建9分!遼寧隊(duì)還有3大收獲,烏戈樂(lè)開(kāi)了花

      贏福建9分!遼寧隊(duì)還有3大收獲,烏戈樂(lè)開(kāi)了花

      體育哲人
      2026-04-07 23:22:02
      周總理好心建議賀龍搬出中南海,賀龍:我沒(méi)想到把我看成這種人

      周總理好心建議賀龍搬出中南海,賀龍:我沒(méi)想到把我看成這種人

      北海史記
      2026-04-07 17:16:32
      “不惜一切代價(jià)”與“不惜一切代價(jià)”

      “不惜一切代價(jià)”與“不惜一切代價(jià)”

      名人茍或
      2026-04-07 06:09:28
      美軍宣稱摸清中國(guó)導(dǎo)彈庫(kù)存!俄專家:中國(guó)解放軍可以半小時(shí)定勝負(fù)

      美軍宣稱摸清中國(guó)導(dǎo)彈庫(kù)存!俄專家:中國(guó)解放軍可以半小時(shí)定勝負(fù)

      今夜繁星墜落
      2026-04-07 23:13:34
      伺候36年,陳麗華470億遺產(chǎn)全歸子女,“唐僧”遲重瑞白忙一場(chǎng)?

      伺候36年,陳麗華470億遺產(chǎn)全歸子女,“唐僧”遲重瑞白忙一場(chǎng)?

      別人都叫我阿腈
      2026-04-07 17:55:03
      廢除漢字幾十年后,韓語(yǔ)終于被確診“中國(guó)拼音”,韓國(guó)人又破防了

      廢除漢字幾十年后,韓語(yǔ)終于被確診“中國(guó)拼音”,韓國(guó)人又破防了

      新一說(shuō)史
      2026-04-07 20:53:00
      伊朗官員號(hào)召青年手拉手圍住電站:人鏈護(hù)核設(shè)施

      伊朗官員號(hào)召青年手拉手圍住電站:人鏈護(hù)核設(shè)施

      桂系007
      2026-04-07 14:53:23
      《廣東省支持個(gè)體工商戶發(fā)展若干措施》印發(fā)

      《廣東省支持個(gè)體工商戶發(fā)展若干措施》印發(fā)

      界面新聞
      2026-04-07 10:15:02
      納斯達(dá)克綜合指數(shù)跌幅擴(kuò)大,現(xiàn)跌1.0%,最新報(bào)21763.25點(diǎn)

      納斯達(dá)克綜合指數(shù)跌幅擴(kuò)大,現(xiàn)跌1.0%,最新報(bào)21763.25點(diǎn)

      每日經(jīng)濟(jì)新聞
      2026-04-07 22:05:32
      小米挖走特斯拉中歐高管,瞄準(zhǔn)歐洲汽車市場(chǎng)

      小米挖走特斯拉中歐高管,瞄準(zhǔn)歐洲汽車市場(chǎng)

      IT之家
      2026-04-07 17:07:22
      孫中山遺體,為何從開(kāi)始的永久保存供人瞻仰,轉(zhuǎn)變?yōu)榛炷练夤?>
    </a>
        <h3>
      <a href=云霄紀(jì)史觀
      2026-03-31 16:47:50
      某央企地產(chǎn),大領(lǐng)導(dǎo)被抓了!

      某央企地產(chǎn),大領(lǐng)導(dǎo)被抓了!

      地產(chǎn)八卦
      2026-04-07 07:54:52
      美國(guó)完全陷入中國(guó)的圈套!紐約時(shí)報(bào):特朗普正在領(lǐng)導(dǎo)超級(jí)大國(guó)自殺

      美國(guó)完全陷入中國(guó)的圈套!紐約時(shí)報(bào):特朗普正在領(lǐng)導(dǎo)超級(jí)大國(guó)自殺

      混沌錄
      2026-04-07 22:00:06
      張雪峰去世半月,妻子首次發(fā)聲:回應(yīng)網(wǎng)上兩大傳聞,披露女兒近況

      張雪峰去世半月,妻子首次發(fā)聲:回應(yīng)網(wǎng)上兩大傳聞,披露女兒近況

      溫柔看世界
      2026-04-07 21:53:24
      威少37歲了,他能像詹姆斯那樣,拿下3萬(wàn)分+1萬(wàn)板+1萬(wàn)助嗎?

      威少37歲了,他能像詹姆斯那樣,拿下3萬(wàn)分+1萬(wàn)板+1萬(wàn)助嗎?

      大西體育
      2026-04-07 21:37:20
      海康威視辟謠“監(jiān)控系統(tǒng)出現(xiàn)漏洞,總部300多人被帶走”:公司不存在上述情況,目前在伊朗暫無(wú)相關(guān)業(yè)務(wù)

      海康威視辟謠“監(jiān)控系統(tǒng)出現(xiàn)漏洞,總部300多人被帶走”:公司不存在上述情況,目前在伊朗暫無(wú)相關(guān)業(yè)務(wù)

      瀟湘晨報(bào)
      2026-04-07 13:40:22
      張雪峰接班人武亮首場(chǎng)直播:解答所有疑問(wèn),未來(lái)把公司交給張姩菡

      張雪峰接班人武亮首場(chǎng)直播:解答所有疑問(wèn),未來(lái)把公司交給張姩菡

      露珠聊影視
      2026-04-07 21:32:37
      西方軍事專家:只有吉爾吉斯斯坦知道,中國(guó)早就是最強(qiáng)超級(jí)大國(guó)了

      西方軍事專家:只有吉爾吉斯斯坦知道,中國(guó)早就是最強(qiáng)超級(jí)大國(guó)了

      混沌錄
      2026-04-05 16:33:12
      北京市順義區(qū)人大常委會(huì)主任暴劍?...

      北京市順義區(qū)人大常委會(huì)主任暴劍?...

      新浪財(cái)經(jīng)
      2026-04-07 20:55:24
      2026-04-08 00:23:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16549文章數(shù) 514854關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見(jiàn)攔截

      頭條要聞

      特朗普恐嚇4小時(shí)摧毀伊朗 伊朗稱"打穿"海法未見(jiàn)攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

      娛樂(lè)要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財(cái)經(jīng)要聞

      10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

      汽車要聞

      不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      親子
      本地
      手機(jī)
      公開(kāi)課
      軍事航空

      親子要聞

      春天娃長(zhǎng)個(gè)黃金期,喝對(duì)黑豆水,個(gè)子悄悄往上竄

      本地新聞

      跟著歌聲游安徽,聽(tīng)古村回響

      手機(jī)要聞

      iOS 26.4.1系統(tǒng)更新即將到來(lái)!蘋(píng)果持續(xù)推進(jìn)Liquid Glass設(shè)計(jì)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營(yíng)救飛行員出動(dòng)155架飛機(jī)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版