![]()
導(dǎo)語(yǔ)
一項(xiàng)于12月18日發(fā)布在PNAS的研究聚焦于大型語(yǔ)言模型(LLM)在不同語(yǔ)言環(huán)境下學(xué)習(xí)新知識(shí)時(shí)的不平等現(xiàn)象。研究團(tuán)隊(duì)針對(duì) 19 種語(yǔ)言和 4 個(gè)主流模型(包括 GPT-4o-Mini、Llama-3.1-8B 等)構(gòu)建了多語(yǔ)言平行數(shù)據(jù)集,通過(guò)上下文學(xué)習(xí)和微調(diào)兩種方式,系統(tǒng)性地觀測(cè)了基于語(yǔ)言的性能差異。研究發(fā)現(xiàn),LLM 在處理低資源語(yǔ)言時(shí),在新知識(shí)學(xué)習(xí)的效率、跨語(yǔ)言遷移、知識(shí)沖突的優(yōu)先級(jí)處理以及魯棒性四個(gè)維度上相較高資源語(yǔ)言均存在顯著差距。此外,研究進(jìn)一步分析了造成這種不平等的底層機(jī)制,涉及語(yǔ)言自身屬性、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模與工程優(yōu)化、分詞器設(shè)計(jì),以及模型內(nèi)部負(fù)責(zé)跨語(yǔ)言知識(shí)流動(dòng)的“語(yǔ)言神經(jīng)元”分布特征。
關(guān)鍵詞:大語(yǔ)言模型(LLM),語(yǔ)言不平等 (Linguistic inequality),高/中/低資源語(yǔ)言(High-/Medium-/Low-resource languages),跨語(yǔ)言知識(shí)遷移,知識(shí)優(yōu)先級(jí),語(yǔ)言神經(jīng)元(Linguistic Neurons),魯棒性 (Robustness)
來(lái)源:集智俱樂(lè)部
作者:任筱芃
審校:王成龍(論文一作)、黃俊銘、宮兆亞
![]()
論文題目:Uncovering inequalities in new knowledge learning by large language models across different languages 論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2514626122 發(fā)表時(shí)間:2025年12月18日 論文來(lái)源:PNAS
楔子:AI時(shí)代的“語(yǔ)言馬太效應(yīng)”
想象這樣一個(gè)場(chǎng)景:2048年,一種全新的健康監(jiān)測(cè)技術(shù)"基因分析"問(wèn)世。當(dāng)一位英語(yǔ)用戶詢問(wèn)AI助手時(shí),它能迅速學(xué)習(xí)并給出準(zhǔn)確答案;但換成一位斯瓦希里語(yǔ)用戶,AI卻要么回答錯(cuò)誤,要么需要更長(zhǎng)時(shí)間學(xué)習(xí)才能掌握這一概念。更微妙的是,實(shí)驗(yàn)把同一技術(shù)同時(shí)用斯瓦希里語(yǔ)和英語(yǔ)注入模型,可當(dāng)?shù)谌Z(yǔ)言提問(wèn)時(shí),它仍優(yōu)先輸出英語(yǔ)版本的答案。簡(jiǎn)而言之,AI在英語(yǔ)環(huán)境中可能表現(xiàn)得像個(gè)天才,但在斯瓦希里語(yǔ)環(huán)境中卻可能像個(gè)學(xué)渣。這種在獲取新知識(shí)過(guò)程中的不平等,正在數(shù)字世界中構(gòu)建一種隱形的“馬太效應(yīng)”。
這并非科幻想象,而是發(fā)生在大語(yǔ)言模型(LLMs)內(nèi)部的真實(shí)困境。隨著ChatGPT等工具在全球擁有7億周活躍用戶,越來(lái)越多非英語(yǔ)母語(yǔ)者依賴這些系統(tǒng)獲取信息、解決問(wèn)題。傳統(tǒng)研究多關(guān)注LLMs靜態(tài)知識(shí)庫(kù)中的語(yǔ)言不平等——比如低資源語(yǔ)言因訓(xùn)練數(shù)據(jù)少而基礎(chǔ)性能差。但在PNAS發(fā)表的最新研究指出,以往的關(guān)注點(diǎn)多集中在模型富集了多少已有知識(shí)(靜態(tài)儲(chǔ)備),卻忽視了模型是如何學(xué)習(xí)新知識(shí)的?
這種差異具體表現(xiàn)在四個(gè)維度:效率差異(能否快速學(xué)習(xí)新知識(shí))、遷移差異(知識(shí)的跨語(yǔ)言流動(dòng)性)、優(yōu)先級(jí)差異(知識(shí)沖突)、魯棒性差異(能否抵抗錯(cuò)誤信息)。研究團(tuán)隊(duì)通過(guò)19種語(yǔ)言、4個(gè)主流模型的系統(tǒng)性實(shí)驗(yàn),首次量化了這種不平等的程度,并揭示了其背后令人不安的機(jī)制——AI正在復(fù)制甚至放大人類社會(huì)的語(yǔ)言不平等。
研究背景與問(wèn)題
大語(yǔ)言模型的知識(shí)更新依賴兩種主要方式:上下文學(xué)習(xí)(in-context learning)和微調(diào)(fine-tuning)。前者通過(guò)提示詞臨時(shí)注入新知識(shí),后者則通過(guò)持續(xù)訓(xùn)練將知識(shí)固化到模型參數(shù)中。無(wú)論哪種方式,理想狀態(tài)都應(yīng)是語(yǔ)言中立的——即同樣質(zhì)量的知識(shí),不論用英語(yǔ)、泰語(yǔ)還是威爾士語(yǔ)呈現(xiàn),AI都應(yīng)同等對(duì)待。
但現(xiàn)實(shí)遠(yuǎn)非如此。傳統(tǒng)研究已證實(shí),由于訓(xùn)練數(shù)據(jù)中斯瓦希里語(yǔ)等語(yǔ)言不足0.1%,導(dǎo)致模型在現(xiàn)存的知識(shí)上存在巨大鴻溝。這種靜態(tài)差距被稱為"預(yù)訓(xùn)練不平等"。然而,研究團(tuán)隊(duì)指出一個(gè)被長(zhǎng)期忽視的問(wèn)題:AI是持續(xù)進(jìn)化的系統(tǒng),當(dāng)它不斷吸收新知識(shí)時(shí),這種不平等會(huì)自我強(qiáng)化還是自我修正?
答案是令人擔(dān)憂的。試想當(dāng)同一議題的“低資源語(yǔ)言答案”與“英語(yǔ)答案”在模型里并存時(shí),只要用任意第三語(yǔ)言提問(wèn),模型仍會(huì)大概率輸出英語(yǔ)知識(shí),這種動(dòng)態(tài)學(xué)習(xí)過(guò)程中的不平等,意味著低資源語(yǔ)言社區(qū)不僅在起跑線上落后,更在比賽進(jìn)行中不斷被折磨。
實(shí)驗(yàn)測(cè)量:四重不平等分析
為了捕捉這種微妙的不平等,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)精妙的實(shí)驗(yàn)框架,涵蓋19種語(yǔ)言(按照開(kāi)放網(wǎng)頁(yè)數(shù)據(jù)集中占比分為高、中、低資源語(yǔ)言)和4個(gè)主流模型(GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B)。關(guān)鍵在于他們構(gòu)建了多語(yǔ)言平行數(shù)據(jù)集——同一組問(wèn)題被翻譯成所有語(yǔ)言,確保知識(shí)"質(zhì)量"完全相同,從而隔離出語(yǔ)言本身的影響。
實(shí)驗(yàn)使用四類數(shù)據(jù)集:
虛構(gòu)新知識(shí):例如設(shè)定在2048年的未來(lái)場(chǎng)景,包含200個(gè)問(wèn)答對(duì)(如"如何用基因分析追蹤健康")
真實(shí)醫(yī)學(xué)知識(shí):從MultiMedQA篩選的專業(yè)醫(yī)學(xué)問(wèn)題,確保對(duì)模型是"全新"的
通用常識(shí)對(duì)抗集:人類構(gòu)造的常識(shí)問(wèn)題,用于測(cè)試抗錯(cuò)誤信息能力
生成的常識(shí)對(duì)抗集:AI生成的常識(shí)問(wèn)題,用于測(cè)試抗錯(cuò)誤信息能力
通過(guò)這兩種知識(shí)類型的對(duì)比,研究能清晰區(qū)分:是新知識(shí)本身難學(xué),還是語(yǔ)言導(dǎo)致了學(xué)習(xí)差異?實(shí)驗(yàn)在兩種場(chǎng)景下進(jìn)行:上下文學(xué)習(xí)(知識(shí)放在提示詞中)和微調(diào)(知識(shí)寫(xiě)入?yún)?shù)),全面覆蓋實(shí)際應(yīng)用情況。
正是在考慮控制變量后的觀察窗口中,不平等的四重面向逐漸清晰。
微調(diào)實(shí)驗(yàn)暴露了學(xué)習(xí)效率的差異。所有模型在高資源語(yǔ)言中學(xué)習(xí)新知識(shí)時(shí),通常4個(gè)訓(xùn)練輪次就能達(dá)到60-90%準(zhǔn)確率,但在低資源語(yǔ)言中需要8輪以上才能接近同等水平。更殘酷的是學(xué)習(xí)效率的上限差異——即使訓(xùn)練12輪后,GPT-4o-Mini在英語(yǔ)、中文上的準(zhǔn)確率超90%,而在低資源語(yǔ)言中停滯在60-80%。這就像給兩個(gè)學(xué)生同樣的教材:英語(yǔ)學(xué)生讀一遍就懂,斯瓦希里語(yǔ)學(xué)生卻需要反復(fù)讀三遍,且最終理解程度仍不如前者。這種"學(xué)習(xí)效率"的差異,直接導(dǎo)致低資源語(yǔ)言社區(qū)需要支付更高的計(jì)算成本和時(shí)間成本,才能獲得同等質(zhì)量的知識(shí)服務(wù)。
![]()
圖1:四個(gè)模型在兩個(gè)數(shù)據(jù)集上學(xué)習(xí)新知識(shí)的性能。與高資源語(yǔ)言(橙色曲線)相比,大語(yǔ)言模型(LLMs)在低資源語(yǔ)言(藍(lán)色曲線)中學(xué)習(xí)新知識(shí)時(shí)面臨更大的挑戰(zhàn),無(wú)論是在效率還是準(zhǔn)確性方面。
更具結(jié)構(gòu)性的不公體現(xiàn)在知識(shí)遷移差異上。無(wú)論模型最初通過(guò)何種語(yǔ)言材料學(xué)習(xí)"基因分析"這一概念,當(dāng)使用高資源語(yǔ)言進(jìn)行提問(wèn)時(shí),其準(zhǔn)確率始終高于低資源語(yǔ)言。這一現(xiàn)象表明,知識(shí)從其他語(yǔ)言遷移至高資源語(yǔ)言通常比遷移至低資源語(yǔ)言更為容易,語(yǔ)言之間難以形成對(duì)等的知識(shí)交換關(guān)系。
![]()
圖2:在四個(gè)模型和兩個(gè)數(shù)據(jù)集的上下文學(xué)習(xí)設(shè)置下,研究了新知識(shí)傳遞的不平等性。角度軸表示新知識(shí)被注入的語(yǔ)言,而三種曲線顯示了模型在高、中和低資源語(yǔ)言中的平均準(zhǔn)確率。結(jié)果顯示,當(dāng)新知識(shí)被引入到其他語(yǔ)言時(shí),低資源語(yǔ)言的用戶會(huì)受到顯著的不利影響。
語(yǔ)言親緣關(guān)系進(jìn)一步影響遷移效果:法語(yǔ)、西班牙語(yǔ)等羅曼語(yǔ)族語(yǔ)言之間的遷移相對(duì)順暢,而跨語(yǔ)系遷移(如英語(yǔ)至泰米爾語(yǔ))則面臨顯著困難。這種遷移壁壘植根于模型內(nèi)部的"語(yǔ)言領(lǐng)地"——特定神經(jīng)元專司特定語(yǔ)言,其重疊程度直接決定知識(shí)能否跨語(yǔ)言通行。這種不對(duì)稱性意味著,低資源語(yǔ)言的知識(shí)生產(chǎn)者處于系統(tǒng)性劣勢(shì)之中,例如,他們無(wú)法像高資源語(yǔ)言使用者那樣,平等地從其他語(yǔ)言中獲取知識(shí)。
當(dāng)需要對(duì)不同語(yǔ)言下沖突信息進(jìn)行取舍時(shí),模型的優(yōu)先級(jí)差異或者說(shuō)隱性語(yǔ)言等級(jí)結(jié)構(gòu)顯露無(wú)遺。
![]()
圖3:GPT-4o-Mini在上下文學(xué)習(xí)設(shè)置下針對(duì)虛構(gòu)新知識(shí)數(shù)據(jù)集的具體知識(shí)沖突場(chǎng)景。當(dāng)高資源語(yǔ)言引入的知識(shí)與低資源語(yǔ)言沖突時(shí),模型在其他語(yǔ)言中的輸出主要與高資源語(yǔ)言的知識(shí)一致。
當(dāng)同一問(wèn)題的答案在英語(yǔ)和泰米爾語(yǔ)中矛盾時(shí)(假設(shè)英語(yǔ)語(yǔ)料說(shuō)“健康追蹤用基因分析”,泰米爾語(yǔ)語(yǔ)料說(shuō)“健康追蹤用可穿戴設(shè)備”),模型在第三語(yǔ)言(假設(shè)丹麥語(yǔ))中作答時(shí),87%的概率會(huì)選擇英語(yǔ)版本。這種“優(yōu)先級(jí)偏見(jiàn)”在72種沖突場(chǎng)景下持續(xù)存在。模型似乎內(nèi)置了隱性的語(yǔ)言等級(jí)制度。即使兩種知識(shí)質(zhì)量完全相同——因場(chǎng)景虛構(gòu)、答案無(wú)客觀對(duì)錯(cuò)——模型仍認(rèn)為高資源語(yǔ)言更“權(quán)威”。這不僅涉及技術(shù)缺陷,更折射出語(yǔ)言在真實(shí)世界中的不對(duì)等性。
最后,在抵抗錯(cuò)誤信息魯棒性測(cè)試中,低資源語(yǔ)言同樣脆弱。當(dāng)研究者嘗試在訓(xùn)練數(shù)據(jù)中注入錯(cuò)誤知識(shí)(例如“水凝結(jié)成水蒸氣”)時(shí),英語(yǔ)、法語(yǔ)等高資源語(yǔ)言的模型能堅(jiān)守正確知識(shí),準(zhǔn)確率下降緩慢;但低資源語(yǔ)言的準(zhǔn)確率卻斷崖式下跌。
![]()
圖4-A:微調(diào)(fine-tuning)設(shè)置下魯棒性測(cè)試。隨著模型在錯(cuò)誤知識(shí)上進(jìn)行微調(diào),其整體準(zhǔn)確率下降。然而,這種下降在低資源語(yǔ)言中更為明顯。
![]()
圖4-B:上下文學(xué)習(xí)設(shè)置下魯棒性測(cè)試。此處,半徑徑軸表示有無(wú)錯(cuò)誤信息時(shí)的準(zhǔn)確率比率,顏色越深表示相對(duì)準(zhǔn)確率越低。LLMs在高資源語(yǔ)言中往往比在低資源語(yǔ)言中表現(xiàn)出更強(qiáng)的錯(cuò)誤信息抵抗力。
這如同給不同語(yǔ)言用戶安裝了不同質(zhì)量的"防護(hù)設(shè)備":以英語(yǔ)為代表的高資源語(yǔ)言用戶獲得的是防彈玻璃,而以祖魯語(yǔ)為代表的低資源語(yǔ)言用戶只有瓦楞紙。
“語(yǔ)言馬太效應(yīng)”:成因與干預(yù)嘗試
這種不平等并非模型的偶然失誤,而是系統(tǒng)性因素層層疊加的必然結(jié)果。
首當(dāng)其沖的是訓(xùn)練數(shù)據(jù)的馬太效應(yīng)——語(yǔ)言在CommonCrawl等語(yǔ)料庫(kù)中的占比與模型性能相關(guān)系數(shù)高達(dá)0.907,英語(yǔ)因CommonCrawl語(yǔ)料庫(kù)中高占比被劃為高資源語(yǔ)言(>1%閾值),而威爾士語(yǔ)等占比不足0.1%即被歸為低資源語(yǔ)言。這種數(shù)據(jù)鴻溝不僅決定了模型對(duì)語(yǔ)法、習(xí)語(yǔ)和表達(dá)模式的熟悉程度,更深層地塑造了其學(xué)習(xí)新知識(shí)的可塑性——高資源語(yǔ)言的用戶僅需少量樣本就能教會(huì)AI新概念,而低資源語(yǔ)言社區(qū)必須付出成倍的數(shù)據(jù)與計(jì)算成本,才能獲得不那么雞肋的輸出。
更深層的制約來(lái)自分詞器(Tokenizer)的信息密度差異。優(yōu)質(zhì)分詞器能將文本壓縮為信息密集的token序列。
![]()
圖5:這張圖片展示了論文中分析分詞相關(guān)因素(Tokenization-related Factors) 的其中兩個(gè)關(guān)鍵維度。1. 分詞器在不同語(yǔ)言上的信息密度有差異;2. 分詞邊界是否與語(yǔ)言的形態(tài)學(xué)邊界(Morpheme Boundaries)對(duì)齊。
而研究發(fā)現(xiàn),英語(yǔ)表達(dá)相同內(nèi)容所需的token數(shù)顯著更少,分布也更均勻,這直接拓展了模型的有效上下文長(zhǎng)度與學(xué)習(xí)效能。低資源語(yǔ)言往往被分詞器過(guò)度切割為冗余的token序列,如同使用低效的信源編碼。同樣的語(yǔ)義內(nèi)容,在英語(yǔ)中可被壓縮為緊湊的信號(hào),在泰米爾語(yǔ)等語(yǔ)言中卻不得不以成倍長(zhǎng)度的碎片化符號(hào)來(lái)傳遞。這種編碼效率的差異,導(dǎo)致模型在處理低資源語(yǔ)言時(shí),同等字符數(shù)承載的有效信息大幅減少,直接侵蝕了上下文窗口的實(shí)際有效容量與學(xué)習(xí)效能。它并非簡(jiǎn)單的速度滯后,而是模型認(rèn)知架構(gòu)層面的結(jié)構(gòu)性損耗。好比傳輸?shù)蛪嚎s率格式的影音文件,數(shù)據(jù)流量雖然龐大,實(shí)際畫(huà)面未見(jiàn)得更好。最終表現(xiàn)為模型在處理這些語(yǔ)言時(shí),如同在狹窄的信道里強(qiáng)行吞吐過(guò)量數(shù)據(jù),不可避免地陷入擁塞與性能衰減。
模型神經(jīng)元還持有潛藏的"語(yǔ)言領(lǐng)地"。模型內(nèi)部存在"語(yǔ)言神經(jīng)元",專門(mén)處理特定語(yǔ)言的詞匯和語(yǔ)法。
![]()
圖6:上半部分的矩陣展示了模型神經(jīng)元在處理不同語(yǔ)言(如英語(yǔ)、法語(yǔ)、印地語(yǔ))時(shí)的激活情況。圖中標(biāo)記的 "1-K Overlap" 和 "1-2 Overlap" 指代不同語(yǔ)言之間存在共享的活躍神經(jīng)元。神經(jīng)元的重疊程度直接決定了知識(shí)能否在語(yǔ)言之間順暢遷移。圖表下半部分展示了研究人員采用的干預(yù)手段。通過(guò)人為地“增強(qiáng)”或“抑制”這些特定神經(jīng)元,觀察模型表現(xiàn)的變化,從而證實(shí)了這些神經(jīng)元確實(shí)是“專門(mén)處理特定語(yǔ)言”的關(guān)鍵組件。
通過(guò)分析這些神經(jīng)元的重疊程度,研究發(fā)現(xiàn)法語(yǔ)與西班牙語(yǔ)因神經(jīng)元高度重疊而遷移順暢,但跨語(yǔ)系(如英語(yǔ)→泰米爾語(yǔ))的遷移則舉步維艱。實(shí)驗(yàn)表明,人為增強(qiáng)重疊神經(jīng)元的激活能部分提升遷移能力,但無(wú)法完全消除。這印證了不平等性已深植于模型架構(gòu)底層。
研究人員進(jìn)行了神經(jīng)元層面的干預(yù)實(shí)驗(yàn)。通過(guò)對(duì)跨語(yǔ)言重疊神經(jīng)元進(jìn)行強(qiáng)制激活或抑制,研究發(fā)現(xiàn):抑制這些神經(jīng)元會(huì)導(dǎo)致跨語(yǔ)言知識(shí)遷移能力顯著下降,證明了它們是知識(shí)流動(dòng)的關(guān)鍵橋梁;而激活雖然能帶來(lái)適度的性能提升,但其收益幅度遠(yuǎn)小于抑制所造成的損失。這表明,雖然神經(jīng)元干預(yù)能一定程度上調(diào)節(jié)知識(shí)遷移,但無(wú)法徹底消除根植于模型設(shè)計(jì)與訓(xùn)練中的不平等。要從根本上解決這一問(wèn)題,不能僅靠后期的小修小補(bǔ),而必須回溯到模型開(kāi)發(fā)階段(如平衡預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化分詞器設(shè)計(jì)),進(jìn)行更底層的預(yù)防性設(shè)計(jì)。
研究者坦承三大局限:一是實(shí)驗(yàn)僅覆蓋19種語(yǔ)言和4個(gè)模型,二是神經(jīng)元干預(yù)只是初步探索,三是未能觸及數(shù)據(jù)不平衡的根本問(wèn)題。但他們強(qiáng)調(diào),真正的解決需要"預(yù)防性設(shè)計(jì)":平衡多語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)、開(kāi)發(fā)語(yǔ)言中立的分詞器、在損失函數(shù)中引入公平性約束。
作者按:走向真正的多語(yǔ)言智能
(以下內(nèi)容為解讀者觀點(diǎn),非原文結(jié)論)
這項(xiàng)研究的警示意義遠(yuǎn)超技術(shù)圈。它暴露出AI倫理審視中長(zhǎng)期缺席的維度——作為權(quán)力結(jié)構(gòu)的載體的語(yǔ)言。當(dāng)全球低資源語(yǔ)言社區(qū)(數(shù)字資源少而使用人口可能多)依賴以強(qiáng)勢(shì)語(yǔ)言為中心的AI系統(tǒng)時(shí),他們不僅面臨信息延遲,更面臨知識(shí)代表性的不平等——本土智慧被邊緣化,強(qiáng)勢(shì)語(yǔ)言知識(shí)體系被自動(dòng)化強(qiáng)化。高資源語(yǔ)言的知識(shí)通常被視為 “標(biāo)準(zhǔn)” 或 “權(quán)威”,而低資源語(yǔ)言的知識(shí)則被邊緣化。這強(qiáng)化了高級(jí)資源語(yǔ)言在全球知識(shí)體系中的主導(dǎo)地位,同時(shí)削弱了低級(jí)資源語(yǔ)言的代表性。我們需要意識(shí)到,語(yǔ)言公平不是本地化包裝的附加選項(xiàng),而是數(shù)字時(shí)代包容性發(fā)展的核心組件。為了解決這個(gè)問(wèn)題,政策制定者可以建立多語(yǔ)言AI性能監(jiān)測(cè)機(jī)制,將低資源語(yǔ)言的準(zhǔn)確率、魯棒性與遷移能力納入產(chǎn)品評(píng)估體系,推動(dòng)開(kāi)發(fā)者在設(shè)計(jì)之初便直面語(yǔ)言正義問(wèn)題。技術(shù)開(kāi)發(fā)者和研究人員應(yīng)考慮數(shù)據(jù)收集和模型設(shè)計(jì)(例如強(qiáng)制激活神經(jīng)元)上的公平性,確保大語(yǔ)言模型公平服務(wù)所有語(yǔ)言用戶的關(guān)鍵。在實(shí)現(xiàn)語(yǔ)言公平之前,低資源語(yǔ)言用戶應(yīng)對(duì)AI系統(tǒng)采取更審慎的態(tài)度。
當(dāng)來(lái)自高資源語(yǔ)言的知識(shí)被優(yōu)先采用時(shí),就會(huì)延續(xù)語(yǔ)言霸權(quán)。 破局的關(guān)鍵在于培育本土技術(shù)能力——自主構(gòu)建母語(yǔ)數(shù)據(jù)集、以本族標(biāo)準(zhǔn)定義評(píng)估體系。只有當(dāng)斯瓦希里語(yǔ)、泰米爾語(yǔ)等低資源語(yǔ)言社區(qū)擁有足夠多的數(shù)據(jù)集參與到全球優(yōu)化的AI系統(tǒng)中,AI才能真正擺脫單向度的知識(shí)流動(dòng),轉(zhuǎn)向多元共生的技術(shù)生態(tài)。唯有如此,AI 才能從鞏固技術(shù)壁壘的枷鎖,轉(zhuǎn)變?yōu)榇龠M(jìn)人類文明多元共生的公共品。
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
![]()
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.