![]()
(來(lái)源:MIT TR)
四年前,當(dāng) Kenneth Wehr 開(kāi)始接管格陵蘭語(yǔ)維基百科時(shí),他的第一項(xiàng)舉措是刪掉幾乎所有內(nèi)容。他認(rèn)為,這是它唯一的生存機(jī)會(huì)。
現(xiàn)年 26 歲的 Wehr 并非來(lái)自格陵蘭——他在德國(guó)長(zhǎng)大,但在十幾歲時(shí)訪問(wèn)過(guò)這座作為丹麥自治領(lǐng)的島嶼后,便對(duì)它深深著迷。他曾花費(fèi)數(shù)年時(shí)間,用自己的母語(yǔ)撰寫(xiě)關(guān)于各種冷門(mén)主題的維基百科條目。
為了格陵蘭語(yǔ),他甚至最終搬到哥本哈根專門(mén)學(xué)習(xí)。這門(mén)語(yǔ)言的使用者約有 57,000 人,主要是因紐特原住民,他們散布在北極圈內(nèi)幾十個(gè)偏遠(yuǎn)的村莊里。
格陵蘭語(yǔ)維基百科大約在 2003 年,即英文網(wǎng)站推出幾年后上線。在 Wehr 近 20 年后接手時(shí),已有數(shù)百名維基百科貢獻(xiàn)者參與其中,共同撰寫(xiě)了約 1,500 篇文章,總字?jǐn)?shù)超過(guò)數(shù)萬(wàn)。這似乎有力地證明了眾包模式的成功,正是這種模式使維基百科成為在線信息的首選來(lái)源,表明它即便在最不可能的角落也能生根發(fā)芽。
然而,問(wèn)題只有一個(gè):格陵蘭語(yǔ)維基百科只是一個(gè)幻象。
幾乎每一篇文章都出自那些根本不會(huì)說(shuō)這門(mén)語(yǔ)言的人之手。如今在丹麥教授格陵蘭語(yǔ)的 Wehr 推測(cè),或許只有一兩位格陵蘭人曾經(jīng)貢獻(xiàn)過(guò)內(nèi)容。但更讓他憂心的是另一件事:他注意到,隨著時(shí)間的推移,越來(lái)越多由機(jī)器翻譯生成的文章被直接復(fù)制粘貼到維基百科上。這些文章充斥著低級(jí)錯(cuò)誤——從語(yǔ)法失誤到毫無(wú)意義的詞匯,再到更嚴(yán)重的失實(shí)信息,例如一個(gè)詞條宣稱加拿大只有 41 名居民。其他頁(yè)面有時(shí)甚至包含一串隨機(jī)字母,這是機(jī)器在找不到合適的格陵蘭語(yǔ)詞匯時(shí)隨意拼湊的結(jié)果。
“對(duì)于那些發(fā)布者來(lái)說(shuō),這些內(nèi)容或許看起來(lái)像是格陵蘭語(yǔ),但他們自己根本無(wú)從判斷,” Wehr 抱怨道。
“這些句子要么完全不通,要么有明顯錯(cuò)誤,”他補(bǔ)充說(shuō)。“AI 翻譯在處理格陵蘭語(yǔ)方面表現(xiàn)得非常糟糕。”
Wehr 所描述的困境并非格陵蘭語(yǔ)版本所獨(dú)有。
維基百科是繼《圣經(jīng)》之后最宏大的多語(yǔ)言項(xiàng)目:它擁有超過(guò) 340 種語(yǔ)言版本,另有 400 種更小眾的語(yǔ)言版本正在開(kāi)發(fā)和測(cè)試中。隨著 AI 技術(shù)的普及,許多這類小型語(yǔ)言版本已被自動(dòng)翻譯的內(nèi)容所淹沒(méi)。例如,據(jù)《麻省理工科技評(píng)論》估計(jì),在四個(gè)非洲語(yǔ)言的維基百科版本中,有 40% 到 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯內(nèi)容。而在對(duì)因紐特語(yǔ)(一種與格陵蘭語(yǔ)相近、在加拿大使用的原住民語(yǔ)言)的維基百科版本進(jìn)行審查后,《麻省理工科技評(píng)論》估計(jì),超過(guò)三分之二包含多個(gè)句子的頁(yè)面都部分采用了這種方式創(chuàng)建。
這正開(kāi)始引發(fā)一個(gè)棘手的問(wèn)題。從谷歌翻譯到 ChatGPT,AI 系統(tǒng)通過(guò)抓取互聯(lián)網(wǎng)上的海量文本來(lái)學(xué)習(xí)“說(shuō)”一門(mén)新語(yǔ)言。對(duì)于那些使用者較少的語(yǔ)言來(lái)說(shuō),維基百科有時(shí)是其最大的在線語(yǔ)言數(shù)據(jù)庫(kù)。因此,這些頁(yè)面上的任何語(yǔ)法或其他錯(cuò)誤,都可能污染 AI 賴以學(xué)習(xí)的“水源”。這會(huì)導(dǎo)致模型在翻譯這些語(yǔ)言時(shí)尤其容易出錯(cuò),從而形成一種語(yǔ)言學(xué)的惡性循環(huán):人們繼續(xù)使用這些工具添加更多劣質(zhì)翻譯的維基百科頁(yè)面,而 AI 模型則繼續(xù)從這些劣質(zhì)頁(yè)面中學(xué)習(xí)。這是一個(gè)復(fù)雜的問(wèn)題,但可以歸結(jié)為一個(gè)簡(jiǎn)單的概念:垃圾進(jìn),垃圾出 (Garbage in, garbage out)。
“這些模型是建立在原始數(shù)據(jù)之上的,” Kevin Scannell 說(shuō)道。他曾是圣路易斯大學(xué)的計(jì)算機(jī)科學(xué)教授,現(xiàn)在專注于為瀕危語(yǔ)言開(kāi)發(fā)軟件。“它們會(huì)試圖從零開(kāi)始學(xué)習(xí)一門(mén)語(yǔ)言的一切。沒(méi)有其他輸入,沒(méi)有語(yǔ)法書(shū),沒(méi)有詞典,輸入的只有文本。”
關(guān)于這個(gè)問(wèn)題的嚴(yán)重程度,目前還沒(méi)有確切的數(shù)據(jù),部分原因是許多 AI 訓(xùn)練數(shù)據(jù)是保密的,而且該領(lǐng)域仍在快速發(fā)展。但早在 2020 年,據(jù)估計(jì),在用于翻譯非洲數(shù)百萬(wàn)人口所使用的語(yǔ)言(包括馬達(dá)加斯加語(yǔ)、約魯巴語(yǔ)和紹納語(yǔ))的 AI 模型中,維基百科提供了超過(guò)一半的訓(xùn)練數(shù)據(jù)。2022 年,一個(gè)德國(guó)研究團(tuán)隊(duì)在調(diào)查可通過(guò)網(wǎng)絡(luò)抓取獲得的數(shù)據(jù)時(shí)發(fā)現(xiàn),對(duì)于 27 種資源匱乏的語(yǔ)言,維基百科是唯一易于獲取的在線語(yǔ)言數(shù)據(jù)來(lái)源。
在維基百科內(nèi)容質(zhì)量低劣的情況下,這可能會(huì)產(chǎn)生嚴(yán)重后果——它可能會(huì)將地球上最脆弱的語(yǔ)言推向懸崖,因?yàn)楹蟠鷮㈤_(kāi)始對(duì)它們失去信心。
“維基百科的狀況將反映在這些語(yǔ)言的 AI 模型中,” 挪威特羅姆瑟大學(xué)的計(jì)算語(yǔ)言學(xué)家 Trond Trosterud 說(shuō)。多年來(lái),他一直在就劣質(zhì)維基百科版本可能帶來(lái)的危害發(fā)出警告。“我很難想象這會(huì)沒(méi)有后果。當(dāng)然,維基百科的地位越主導(dǎo),情況就會(huì)越糟。”
![]()
負(fù)責(zé)任地使用
自誕生之初,自動(dòng)化就已融入維基百科。機(jī)器程序維持著平臺(tái)的運(yùn)作:它們修復(fù)損壞的鏈接、修正格式錯(cuò)誤,甚至糾正拼寫(xiě)。還有一支機(jī)器人大軍,它們通過(guò)將河流、城市或動(dòng)物的名稱填入固定句式,來(lái)生成簡(jiǎn)短的條目。總體而言,它們使平臺(tái)變得更好。
但AI 是另一回事。任何人只需幾次點(diǎn)擊,就能用它造成巨大的破壞。
相比許多其他網(wǎng)站,維基百科在應(yīng)對(duì) AI 時(shí)代的到來(lái)方面做得更好。它沒(méi)有像社交媒體那樣被 AI 機(jī)器人或虛假信息所淹沒(méi),并在很大程度上保留了早期互聯(lián)網(wǎng)時(shí)代的純粹性。維基百科開(kāi)放、免費(fèi),任何人都可以使用、編輯和引用,它由它所服務(wù)的社群來(lái)運(yùn)營(yíng),公開(kāi)透明且易于使用。但社群驅(qū)動(dòng)的平臺(tái),其生死存亡取決于社群的規(guī)模。英語(yǔ)維基百科取得了巨大成功,而格陵蘭語(yǔ)版本則走向衰落。
“我們需要優(yōu)秀的維基百科貢獻(xiàn)者。這一點(diǎn)人們習(xí)以為常,但這并非理所當(dāng)然,” Amir Aharoni 說(shuō)道,他是維基百科語(yǔ)言委員會(huì)的志愿者成員,該委員會(huì)負(fù)責(zé)監(jiān)督語(yǔ)言版本的開(kāi)設(shè)與關(guān)閉。“如果你負(fù)責(zé)任地使用機(jī)器翻譯,它可以是高效且有用的。不幸的是,你不能指望所有人都這么做。”
Trosterud 研究了小型維基百科版本用戶的行為,他表示,AI 賦能了一個(gè)他稱之為“維基百科劫持者”的子群體。這些用戶的范圍很廣——從天真的青少年創(chuàng)建關(guān)于自己家鄉(xiāng)或喜愛(ài)的 YouTuber 的頁(yè)面,到善意的維基百科人,他們認(rèn)為通過(guò)創(chuàng)建少數(shù)族裔語(yǔ)言的文章是在以某種方式“幫助”這些社群。
“如今他們的問(wèn)題在于,他們手握谷歌翻譯這個(gè)武器,” Trosterud 說(shuō)。他補(bǔ)充道,這讓他們能夠炮制出比以往任何時(shí)候都更長(zhǎng)、更以假亂真的內(nèi)容:“以前,他們的武器只有詞典。”
這實(shí)際上將破壞行為工業(yè)化了——受影響最嚴(yán)重的是那些脆弱的語(yǔ)言,因?yàn)?AI 對(duì)它們的翻譯通常最不可靠。原因有很多,但一個(gè)重要因素是在線可用的源文本數(shù)量相對(duì)較少。有時(shí),模型難以識(shí)別一種語(yǔ)言,因?yàn)樗c其他語(yǔ)言相似;有時(shí)則是因?yàn)槟承┱Z(yǔ)言,包括格陵蘭語(yǔ)和大多數(shù)美洲原住民語(yǔ)言,其結(jié)構(gòu)特點(diǎn)使其不適用于大多數(shù)機(jī)器翻譯系統(tǒng)的工作方式。(Wehr 指出,格陵蘭語(yǔ)是一種粘著語(yǔ),即通過(guò)在詞根上附加前綴和后綴來(lái)構(gòu)詞。因此,許多詞匯具有極強(qiáng)的語(yǔ)境特異性,能夠表達(dá)在其他語(yǔ)言中需要用一整個(gè)句子才能說(shuō)明的復(fù)雜概念。)
谷歌在三年前大規(guī)模擴(kuò)展其翻譯服務(wù)前發(fā)布的一項(xiàng)研究發(fā)現(xiàn),資源匱乏型語(yǔ)言的翻譯系統(tǒng)質(zhì)量普遍低于資源充足型語(yǔ)言。研究人員發(fā)現(xiàn),他們的模型常常會(huì)錯(cuò)誤翻譯跨語(yǔ)言的基本名詞,包括動(dòng)物和顏色的名稱。(谷歌在給《麻省理工科技評(píng)論》的一份聲明中寫(xiě)道,它“致力于為其支持的所有 249 種語(yǔ)言達(dá)到高質(zhì)量標(biāo)準(zhǔn)”,并“通過(guò)嚴(yán)格測(cè)試和改進(jìn)其系統(tǒng),特別是針對(duì)那些網(wǎng)絡(luò)公開(kāi)文本資源有限的語(yǔ)言”。)
維基百科自身提供了一個(gè)名為“內(nèi)容翻譯”(Content Translate) 的內(nèi)置編輯工具,允許用戶將文章從一種語(yǔ)言自動(dòng)翻譯到另一種語(yǔ)言——其初衷是通過(guò)保留原文的參考文獻(xiàn)和復(fù)雜的格式來(lái)節(jié)省時(shí)間。但它依賴于外部機(jī)器翻譯系統(tǒng),因此也深受其他機(jī)器翻譯工具的弱點(diǎn)所困擾——維基媒體基金會(huì)表示,這是一個(gè)難以解決的問(wèn)題。是否允許使用該工具由每個(gè)語(yǔ)言版本的社群自行決定,一些社群已決定禁用。值得注意的是,英語(yǔ)維基百科已基本禁止使用該工具,聲稱約 95% 使用“內(nèi)容翻譯”創(chuàng)建的文章未達(dá)到可接受標(biāo)準(zhǔn),需要大量額外修改。不過(guò),至少可以輕易判斷該程序是否被使用過(guò),因?yàn)樗鼤?huì)在維基百科的后端添加一個(gè)標(biāo)簽。
其他的 AI 程序則更難監(jiān)控。盡管如此,我采訪過(guò)的許多維基百科編輯都表示,一旦他們的語(yǔ)言被添加到主流在線翻譯工具中,他們就會(huì)注意到質(zhì)量低劣、很可能是機(jī)器翻譯的頁(yè)面數(shù)量相應(yīng)激增。
一些使用 AI 翻譯內(nèi)容的維基百科貢獻(xiàn)者偶爾會(huì)承認(rèn)他們并不會(huì)說(shuō)目標(biāo)語(yǔ)言。他們可能認(rèn)為自己是在為小語(yǔ)種社群提供可供修改的“草稿”,這本質(zhì)上是在效仿那些在更活躍的維基百科版本中行之有效的模式。
然而,一旦充滿錯(cuò)誤的頁(yè)面在小語(yǔ)種中被創(chuàng)建出來(lái),通常是不會(huì)有一支龐大的、懂這門(mén)語(yǔ)言的專家隊(duì)伍來(lái)隨時(shí)準(zhǔn)備改進(jìn)它們的。這些版本的讀者很少,有時(shí)甚至沒(méi)有一個(gè)固定的編輯。
20 多歲的加拿大教師 Yuet Man Lee 表示,他曾使用谷歌翻譯和 ChatGPT 的混合工具,將他為英語(yǔ)維基百科寫(xiě)的幾篇文章翻譯成因紐特語(yǔ),他覺(jué)得這能為一個(gè)小社群做出貢獻(xiàn)是件好事。他說(shuō),他在其中一篇文章中加了備注,說(shuō)明這只是一個(gè)粗略的翻譯。“我當(dāng)時(shí)沒(méi)想過(guò)會(huì)有人注意到這篇文章,”他解釋說(shuō)。“如果你在那些小眾的維基百科上發(fā)布內(nèi)容——大多數(shù)時(shí)候根本沒(méi)人會(huì)看。”
但與此同時(shí),他也表示,他仍然覺(jué)得“也許有人會(huì)看到并修正它”——他補(bǔ)充說(shuō),他曾想過(guò) AI 系統(tǒng)生成的因紐特語(yǔ)翻譯在語(yǔ)法上是否正確。自他創(chuàng)建那篇文章以來(lái),沒(méi)有任何人動(dòng)過(guò)它。
在溫哥華教授社會(huì)科學(xué)的 Lee 十年前開(kāi)始在英語(yǔ)維基百科上編輯條目。他說(shuō),熟悉更活躍的維基百科的用戶可能會(huì)陷入一種他稱之為“大維基百科式傲慢”的心態(tài):當(dāng)他們嘗試為小版本做貢獻(xiàn)時(shí),他們會(huì)想當(dāng)然地認(rèn)為別人會(huì)來(lái)修正他們的錯(cuò)誤。有時(shí)這確實(shí)行得通。Lee 說(shuō),他之前曾為韃靼語(yǔ)(一種主要在俄羅斯由數(shù)百萬(wàn)人使用的語(yǔ)言)維基百科貢獻(xiàn)過(guò)幾篇文章,其中至少有一篇后來(lái)被修正了。但相比之下,因紐特語(yǔ)維基百科則是一片“貧瘠的荒原”。
他強(qiáng)調(diào)自己的初衷是好的:他想為一個(gè)加拿大原住民語(yǔ)言的維基百科增加更多文章。“我現(xiàn)在覺(jué)得這可能是一個(gè)壞主意。我沒(méi)有考慮到我可能在促成一個(gè)遞歸循環(huán),”他說(shuō)。“我只是出于好奇和好玩,想把內(nèi)容發(fā)布出去,而沒(méi)有認(rèn)真思考后果。”
![]()
“徹底,完全沒(méi)有未來(lái)”
維基百科是一個(gè)由理想主義驅(qū)動(dòng)的項(xiàng)目。編輯工作可能吃力不討好,需要花費(fèi)數(shù)周時(shí)間與匿名的、身份不明的人爭(zhēng)論,但奉獻(xiàn)者們投入了大量無(wú)償勞動(dòng),因?yàn)樗麄冎铝τ谝豁?xiàng)更崇高的事業(yè)。正是這種奉獻(xiàn)精神,驅(qū)動(dòng)著我采訪過(guò)的許多小語(yǔ)種編輯。他們都擔(dān)心,如果垃圾內(nèi)容繼續(xù)出現(xiàn)在他們的頁(yè)面上,后果將不堪設(shè)想。
26 歲的農(nóng)業(yè)規(guī)劃師 Abdulkadir Abdulkadir 在尼日利亞北部一條繁忙的公路邊,通過(guò)一通信號(hào)不穩(wěn)的電話與我交談。他說(shuō)他每天花三個(gè)小時(shí),用他的母語(yǔ)富爾富爾德語(yǔ)(一種主要由薩赫勒地區(qū)的牧民和農(nóng)民使用的語(yǔ)言)處理維基百科條目。“但工作量太大了,”他說(shuō)。
Abdulkadir 認(rèn)為,富爾富爾德語(yǔ)維基百科迫切需要正常運(yùn)作。他一直建議將其作為偏遠(yuǎn)村莊農(nóng)民為數(shù)不多的在線資源之一,為他們提供關(guān)于哪些種子或作物最適合他們田地的信息,并且是用他們能理解的語(yǔ)言。“如果你給他們一篇機(jī)器翻譯的文章,” Abdulkadir 告訴我,“那很可能會(huì)‘輕易地傷害他們’,因?yàn)樾畔⒑芸赡軟](méi)有被正確翻譯。”
例如,谷歌翻譯顯示富爾富爾德語(yǔ)中“一月”的意思是“六月”,而 ChatGPT 則說(shuō)是“八月”或“九月”。這些程序還暗示,富爾富爾德語(yǔ)中“收獲”的意思是“發(fā)燒”或“安康”等其他可能性。
Abdulkadir 說(shuō),他最近被迫修正了一篇關(guān)于豇豆的文章,這是一種在非洲大部分地區(qū)至關(guān)重要的經(jīng)濟(jì)作物,因?yàn)樗l(fā)現(xiàn)那篇文章幾乎無(wú)法閱讀。
Abdulkadir 表示,如果有人想在富爾富爾德語(yǔ)維基百科上創(chuàng)建頁(yè)面,他們應(yīng)該手動(dòng)翻譯。否則,“任何讀你文章的人都無(wú)法獲得最基本的知識(shí),”他告誡這些維基百科貢獻(xiàn)者。盡管如此,他估計(jì)仍有大約 60% 的文章是未經(jīng)校對(duì)的機(jī)器翻譯。Abdulkadir 告訴我,除非 AI 系統(tǒng)的學(xué)習(xí)和部署方式發(fā)生重大改變,否則富爾富爾德語(yǔ)的前景堪憂。“老實(shí)說(shuō),情況會(huì)很糟糕,”他說(shuō)。“徹底,完全沒(méi)有未來(lái)。”
在尼日利亞的另一端,Lucy Iwuala 為伊博語(yǔ)(一種在該國(guó)東南部有數(shù)百萬(wàn)人使用的語(yǔ)言)維基百科做貢獻(xiàn)。“傷害已經(jīng)造成了,”她告訴我,同時(shí)打開(kāi)了最近創(chuàng)建的兩篇文章。兩篇都是通過(guò)維基百科的“內(nèi)容翻譯”工具自動(dòng)翻譯的,里面錯(cuò)誤百出,她說(shuō)讀下去會(huì)讓她頭疼。“有些術(shù)語(yǔ)甚至根本沒(méi)被翻譯,還是英語(yǔ),”她指出。她認(rèn)出創(chuàng)建這些頁(yè)面的用戶名是一個(gè)慣犯。“這個(gè)人甚至用了伊博語(yǔ)里不存在的字母,”她說(shuō)。
三年前,出于對(duì)伊博語(yǔ)正被英語(yǔ)取代的擔(dān)憂,Iwuala 開(kāi)始定期為維基百科做貢獻(xiàn)。這種擔(dān)憂在許多活躍于小語(yǔ)種版本的人中很常見(jiàn)。“這是我的文化,這是我的身份,”她告訴我。“這才是核心:確保你不會(huì)被抹去。”
如今作為一名英語(yǔ)和伊博語(yǔ)之間的專業(yè)翻譯,Iwuala 說(shuō),造成最大破壞的用戶是那些缺乏經(jīng)驗(yàn)的人,他們將 AI 翻譯視為快速提升伊博語(yǔ)維基百科影響力的方式。她發(fā)現(xiàn)自己經(jīng)常要在她組織的線上編輯松,或通過(guò)電子郵件向各種出錯(cuò)的編輯解釋,結(jié)果可能恰恰相反,這會(huì)趕走用戶:“你會(huì)感到沮喪,然后不想再訪問(wèn)這個(gè)地方。你只會(huì)放棄它,然后回到英語(yǔ)維基百科。”
夏威夷大學(xué)的夏威夷語(yǔ)助理教授 Noah Ha?alilio Solomon 也表達(dá)了同樣的擔(dān)憂。他報(bào)告說(shuō),夏威夷語(yǔ)維基百科上某些頁(yè)面約有 35% 的詞語(yǔ)是無(wú)法理解的。“如果這就是將要存在于網(wǎng)絡(luò)上的夏威夷語(yǔ),那它帶來(lái)的壞處將遠(yuǎn)大于好處,”他說(shuō)。
幾十年前曾一度瀕臨滅絕的夏威夷語(yǔ),在原住民活動(dòng)家和學(xué)者的努力下,正在經(jīng)歷一場(chǎng)復(fù)興。在維基百科這樣一個(gè)廣泛使用的平臺(tái)上看到如此拙劣的夏威夷語(yǔ),令 Ha?alilio Solomon 感到不安。
“這很痛苦,因?yàn)樗屛覀兿肫鹞覀兊奈幕驼Z(yǔ)言曾無(wú)數(shù)次被盜用,”他說(shuō)。“我們?yōu)榱苏Z(yǔ)言復(fù)興,一直在艱難地向上攀登。這絕非易事,而這種現(xiàn)象會(huì)增加額外的障礙。人們會(huì)認(rèn)為這就是夏威夷語(yǔ)的準(zhǔn)確呈現(xiàn)。”
所有這些維基百科錯(cuò)誤所帶來(lái)的后果可能很快就會(huì)顯現(xiàn)。毫無(wú)疑問(wèn)已經(jīng)吸收了這些頁(yè)面作為訓(xùn)練數(shù)據(jù)的 AI 翻譯器,現(xiàn)在正被用于制作充斥錯(cuò)誤的 AI 生成書(shū)籍,這些書(shū)籍面向各種語(yǔ)言的學(xué)習(xí)者,如因紐特語(yǔ)和克里語(yǔ)(加拿大原住民語(yǔ)言),以及曼島語(yǔ)(馬恩島上的一種小型凱爾特語(yǔ)言)。其中許多書(shū)籍已在亞馬遜上架銷售。“那完全是胡說(shuō)八道,” 蒙特利爾魁北克大學(xué)的語(yǔ)言學(xué)家 Richard Compton 在評(píng)價(jià)一本他審閱過(guò)的、號(hào)稱是因紐特語(yǔ)入門(mén)手冊(cè)的出版物時(shí)說(shuō)。
AI 非但沒(méi)有讓少數(shù)族裔語(yǔ)言變得更容易接觸,反而正在為這些語(yǔ)言的學(xué)生和使用者創(chuàng)造一個(gè)不斷擴(kuò)大的雷區(qū)。“這簡(jiǎn)直是打臉,” Compton 說(shuō)。他擔(dān)心,在加拿大那些為了將傳統(tǒng)傳承下去而與歧視進(jìn)行了艱苦斗爭(zhēng)的社群中,希望學(xué)習(xí)語(yǔ)言的年輕一代可能會(huì)求助于像 ChatGPT 這樣的在線工具或亞馬遜上的短語(yǔ)手冊(cè),結(jié)果只會(huì)讓事情變得更糟。“這是欺詐,”他說(shuō)。
![]()
與時(shí)間賽跑
根據(jù)聯(lián)合國(guó)教科文組織 (UNESCO) 的數(shù)據(jù),每?jī)芍芫陀幸环N語(yǔ)言被宣布滅絕。但是,運(yùn)營(yíng)維基百科的維基媒體基金會(huì)是否有義務(wù)保護(hù)其平臺(tái)上的語(yǔ)言,這是一個(gè)懸而未決的問(wèn)題。當(dāng)我與該基金會(huì)的高級(jí)總監(jiān) Runa Bhattacharjee 交談時(shí),她說(shuō),決定什么樣的內(nèi)容應(yīng)該存在于他們的維基百科上,取決于各個(gè)社群自己。“最終,責(zé)任確實(shí)在于社群,他們需要確保沒(méi)有破壞行為或不希望的活動(dòng),無(wú)論是通過(guò)機(jī)器翻譯還是其他方式,”她說(shuō)。Bhattacharjee 補(bǔ)充說(shuō),通常只有在收到具體投訴后,才會(huì)考慮關(guān)閉一個(gè)版本。
但如果沒(méi)有活躍的社群,一個(gè)版本又如何能被修復(fù),甚至如何能有人提出投訴呢?
Bhattacharjee 解釋說(shuō),維基媒體基金會(huì)在這種情況下扮演的角色是維護(hù)維基百科平臺(tái),以防有人前來(lái)復(fù)興它:“我們提供的是一個(gè)讓他們成長(zhǎng)和發(fā)展的空間。這就是我們的定位。”
伊納里薩米語(yǔ),一種僅在芬蘭北部一個(gè)偏遠(yuǎn)社群使用的語(yǔ)言,是人們?nèi)绾紊朴镁S基百科的典范。四十年前,這門(mén)語(yǔ)言正走向滅絕;當(dāng)時(shí)只有四個(gè)孩子會(huì)說(shuō)。他們的父母創(chuàng)建了伊納里薩米語(yǔ)言協(xié)會(huì),作為挽救語(yǔ)言的最后努力。這些努力奏效了。如今,已有數(shù)百名使用者,多所學(xué)校使用伊納里薩米語(yǔ)作為教學(xué)媒介,維基百科上更有 6,400 篇文章,每一篇都由流利的使用者進(jìn)行過(guò)審校。
這個(gè)成功案例凸顯了維基百科確實(shí)可以為小而堅(jiān)定的社群提供一個(gè)獨(dú)特的工具,以促進(jìn)他們語(yǔ)言的傳承。“我們不關(guān)心數(shù)量,我們關(guān)心質(zhì)量,” 伊納里-薩米語(yǔ)言協(xié)會(huì)的成員 Fabrizio Brecciaroli 說(shuō)。“我們正計(jì)劃將維基百科用作書(shū)面語(yǔ)言的資料庫(kù)。我們需要為年輕一代提供可以使用的工具。讓他們能夠以數(shù)字化的方式使用伊納里薩米語(yǔ),這很重要。”
這一舉措非常成功,以至于維基百科已被整合到伊納里薩米語(yǔ)學(xué)校的課程中,Brecciaroli 補(bǔ)充道。他會(huì)接到老師打來(lái)的電話,請(qǐng)求他撰寫(xiě)從龍卷風(fēng)到薩米民間傳說(shuō)等各種主題的簡(jiǎn)單頁(yè)面。維基百科甚至提供了一種將新詞引入伊納里薩米語(yǔ)的方式。“我們總是在創(chuàng)造新詞,” Brecciaroli 說(shuō)。“年輕人需要用它來(lái)談?wù)擉w育、政治和電子游戲。如果他們不確定怎么說(shuō),現(xiàn)在他們會(huì)去查維基百科。”
維基百科是一項(xiàng)宏偉的智力實(shí)驗(yàn)。伊納里薩米語(yǔ)的例子表明,只要給予最大程度的關(guān)注,它在小語(yǔ)種中也能奏效。“最終目標(biāo)是確保伊納里薩米語(yǔ)能夠存活下去,” Brecciaroli 說(shuō)。“伊納里薩米語(yǔ)沒(méi)有谷歌翻譯,這或許是件好事。”
這或許是真的——盡管像 ChatGPT 這樣的大型語(yǔ)言模型可以將短語(yǔ)翻譯成傳統(tǒng)機(jī)器翻譯工具不支持的語(yǔ)言。Brecciaroli 告訴我,ChatGPT 在伊納里薩米語(yǔ)方面的表現(xiàn)并不好,但其質(zhì)量因你提出的要求而異;如果你用該語(yǔ)言提問(wèn),答案會(huì)充滿芬蘭語(yǔ)詞匯甚至它自己發(fā)明的詞。但如果你用英語(yǔ)、芬蘭語(yǔ)或意大利語(yǔ)提問(wèn),然后要求它用伊納里薩米語(yǔ)回答,它的表現(xiàn)會(huì)更好。
有鑒于此,盡可能多地創(chuàng)作高質(zhì)量的在線內(nèi)容,成為了一場(chǎng)與時(shí)間的賽跑。“ChatGPT 只需要大量的詞匯,” Brecciaroli 說(shuō)。“如果我們不斷輸入好的材料,那么遲早我們會(huì)得到好的輸出。這就是希望。” 這個(gè)想法得到了多位語(yǔ)言學(xué)家的支持——即有可能終結(jié)“垃圾進(jìn),垃圾出”的循環(huán)。(OpenAI 沒(méi)有回應(yīng)置評(píng)請(qǐng)求。)
盡管如此,整體問(wèn)題很可能會(huì)持續(xù)惡化,因?yàn)樵S多語(yǔ)言不像伊納里薩米語(yǔ)那樣幸運(yùn)——它們的 AI 翻譯器很可能會(huì)在越來(lái)越多 AI 垃圾的基礎(chǔ)上進(jìn)行訓(xùn)練。不幸的是,Wehr 對(duì)他心愛(ài)的格陵蘭語(yǔ)的未來(lái)似乎遠(yuǎn)沒(méi)有那么樂(lè)觀。
自從刪除了格陵蘭語(yǔ)維基百科的大部分內(nèi)容后,他花了好幾年時(shí)間試圖招募使用者來(lái)幫助他復(fù)興它。他登上了格陵蘭的媒體,也在社交媒體上發(fā)出了呼吁。但他沒(méi)有得到太多回應(yīng),他說(shuō)這令人心灰意冷。
“格陵蘭沒(méi)人對(duì)此感興趣,也沒(méi)人愿意貢獻(xiàn),”他說(shuō)。“這完全沒(méi)有意義,所以它應(yīng)該被關(guān)閉。”
去年年底,他開(kāi)始申請(qǐng),要求維基百科語(yǔ)言委員會(huì)關(guān)閉格陵蘭語(yǔ)版本。在數(shù)十名維基百科官僚之間展開(kāi)了數(shù)月的激烈辯論;一些人似乎對(duì)一個(gè)表面上看起來(lái)健康的版本竟會(huì)陷入如此多的問(wèn)題感到驚訝。
然后,本月早些時(shí)候,Wehr 的提議被接受了:格陵蘭語(yǔ)維基百科將被關(guān)閉,所有剩余的文章將被移至維基百科孵化器,那里是新語(yǔ)言版本進(jìn)行測(cè)試和構(gòu)建的地方。語(yǔ)言委員會(huì)引述的原因之一是 AI 工具的使用,這些工具“頻繁產(chǎn)生可能歪曲該語(yǔ)言的無(wú)意義內(nèi)容”。
但一切可能已經(jīng)太遲了——格陵蘭語(yǔ)的錯(cuò)誤似乎已經(jīng)固化在機(jī)器翻譯器中。如果你讓谷歌翻譯或 ChatGPT 做一件像用標(biāo)準(zhǔn)的格陵蘭語(yǔ)數(shù)到 10 這樣簡(jiǎn)單的事,兩個(gè)程序都無(wú)法做到。
原文鏈接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.