網易首頁 > 網易號 > 正文申請入駐

PNAS：大語言模型如何在不同語言中加劇知識鴻溝

2025-12-25 19:05:53　來源: 人工智能學家

北京舉報

分享至

導語

一項于12月18日發布在PNAS的研究聚焦于大型語言模型（LLM）在不同語言環境下學習新知識時的不平等現象。研究團隊針對 19 種語言和 4 個主流模型（包括 GPT-4o-Mini、Llama-3.1-8B 等）構建了多語言平行數據集，通過上下文學習和微調兩種方式，系統性地觀測了基于語言的性能差異。研究發現，LLM 在處理低資源語言時，在新知識學習的效率、跨語言遷移、知識沖突的優先級處理以及魯棒性四個維度上相較高資源語言均存在顯著差距。此外，研究進一步分析了造成這種不平等的底層機制，涉及語言自身屬性、預訓練數據規模與工程優化、分詞器設計，以及模型內部負責跨語言知識流動的“語言神經元”分布特征。

關鍵詞：大語言模型（LLM），語言不平等 (Linguistic inequality)，高/中/低資源語言(High-/Medium-/Low-resource languages)，跨語言知識遷移，知識優先級，語言神經元(Linguistic Neurons)，魯棒性 (Robustness)

來源：集智俱樂部

作者：任筱芃

審校：王成龍（論文一作）、黃俊銘、宮兆亞

論文題目：Uncovering inequalities in new knowledge learning by large language models across different languages 論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2514626122 發表時間：2025年12月18日論文來源：PNAS

楔子：AI時代的“語言馬太效應”

想象這樣一個場景：2048年，一種全新的健康監測技術"基因分析"問世。當一位英語用戶詢問AI助手時，它能迅速學習并給出準確答案；但換成一位斯瓦希里語用戶，AI卻要么回答錯誤，要么需要更長時間學習才能掌握這一概念。更微妙的是，實驗把同一技術同時用斯瓦希里語和英語注入模型，可當第三語言提問時，它仍優先輸出英語版本的答案。簡而言之，AI在英語環境中可能表現得像個天才，但在斯瓦希里語環境中卻可能像個學渣。這種在獲取新知識過程中的不平等，正在數字世界中構建一種隱形的“馬太效應”。

這并非科幻想象，而是發生在大語言模型（LLMs）內部的真實困境。隨著ChatGPT等工具在全球擁有7億周活躍用戶，越來越多非英語母語者依賴這些系統獲取信息、解決問題。傳統研究多關注LLMs靜態知識庫中的語言不平等——比如低資源語言因訓練數據少而基礎性能差。但在PNAS發表的最新研究指出，以往的關注點多集中在模型富集了多少已有知識（靜態儲備），卻忽視了模型是如何學習新知識的？

這種差異具體表現在四個維度：效率差異（能否快速學習新知識）、遷移差異（知識的跨語言流動性）、優先級差異（知識沖突）、魯棒性差異（能否抵抗錯誤信息）。研究團隊通過19種語言、4個主流模型的系統性實驗，首次量化了這種不平等的程度，并揭示了其背后令人不安的機制——AI正在復制甚至放大人類社會的語言不平等。

研究背景與問題

大語言模型的知識更新依賴兩種主要方式：上下文學習（in-context learning）和微調（fine-tuning）。前者通過提示詞臨時注入新知識，后者則通過持續訓練將知識固化到模型參數中。無論哪種方式，理想狀態都應是語言中立的——即同樣質量的知識，不論用英語、泰語還是威爾士語呈現，AI都應同等對待。

但現實遠非如此。傳統研究已證實，由于訓練數據中斯瓦希里語等語言不足0.1%，導致模型在現存的知識上存在巨大鴻溝。這種靜態差距被稱為"預訓練不平等"。然而，研究團隊指出一個被長期忽視的問題：AI是持續進化的系統，當它不斷吸收新知識時，這種不平等會自我強化還是自我修正？

答案是令人擔憂的。試想當同一議題的“低資源語言答案”與“英語答案”在模型里并存時，只要用任意第三語言提問，模型仍會大概率輸出英語知識，這種動態學習過程中的不平等，意味著低資源語言社區不僅在起跑線上落后，更在比賽進行中不斷被折磨。

實驗測量：四重不平等分析

為了捕捉這種微妙的不平等，研究團隊設計了一個精妙的實驗框架，涵蓋19種語言（按照開放網頁數據集中占比分為高、中、低資源語言）和4個主流模型（GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B）。關鍵在于他們構建了多語言平行數據集——同一組問題被翻譯成所有語言，確保知識"質量"完全相同，從而隔離出語言本身的影響。

實驗使用四類數據集：

虛構新知識：例如設定在2048年的未來場景，包含200個問答對（如"如何用基因分析追蹤健康"）
真實醫學知識：從MultiMedQA篩選的專業醫學問題，確保對模型是"全新"的
通用常識對抗集：人類構造的常識問題，用于測試抗錯誤信息能力
生成的常識對抗集：AI生成的常識問題，用于測試抗錯誤信息能力

通過這兩種知識類型的對比，研究能清晰區分：是新知識本身難學，還是語言導致了學習差異？實驗在兩種場景下進行：上下文學習（知識放在提示詞中）和微調（知識寫入參數），全面覆蓋實際應用情況。

正是在考慮控制變量后的觀察窗口中，不平等的四重面向逐漸清晰。

微調實驗暴露了學習效率的差異。所有模型在高資源語言中學習新知識時，通常4個訓練輪次就能達到60-90%準確率，但在低資源語言中需要8輪以上才能接近同等水平。更殘酷的是學習效率的上限差異——即使訓練12輪后，GPT-4o-Mini在英語、中文上的準確率超90%，而在低資源語言中停滯在60-80%。這就像給兩個學生同樣的教材：英語學生讀一遍就懂，斯瓦希里語學生卻需要反復讀三遍，且最終理解程度仍不如前者。這種"學習效率"的差異，直接導致低資源語言社區需要支付更高的計算成本和時間成本，才能獲得同等質量的知識服務。

圖1：四個模型在兩個數據集上學習新知識的性能。與高資源語言（橙色曲線）相比，大語言模型（LLMs）在低資源語言（藍色曲線）中學習新知識時面臨更大的挑戰，無論是在效率還是準確性方面。

更具結構性的不公體現在知識遷移差異上。無論模型最初通過何種語言材料學習"基因分析"這一概念，當使用高資源語言進行提問時，其準確率始終高于低資源語言。這一現象表明，知識從其他語言遷移至高資源語言通常比遷移至低資源語言更為容易，語言之間難以形成對等的知識交換關系。

圖2：在四個模型和兩個數據集的上下文學習設置下，研究了新知識傳遞的不平等性。角度軸表示新知識被注入的語言，而三種曲線顯示了模型在高、中和低資源語言中的平均準確率。結果顯示，當新知識被引入到其他語言時，低資源語言的用戶會受到顯著的不利影響。

語言親緣關系進一步影響遷移效果：法語、西班牙語等羅曼語族語言之間的遷移相對順暢，而跨語系遷移（如英語至泰米爾語）則面臨顯著困難。這種遷移壁壘植根于模型內部的"語言領地"——特定神經元專司特定語言，其重疊程度直接決定知識能否跨語言通行。這種不對稱性意味著，低資源語言的知識生產者處于系統性劣勢之中，例如，他們無法像高資源語言使用者那樣，平等地從其他語言中獲取知識。

當需要對不同語言下沖突信息進行取舍時，模型的優先級差異或者說隱性語言等級結構顯露無遺。

圖3：GPT-4o-Mini在上下文學習設置下針對虛構新知識數據集的具體知識沖突場景。當高資源語言引入的知識與低資源語言沖突時，模型在其他語言中的輸出主要與高資源語言的知識一致。

當同一問題的答案在英語和泰米爾語中矛盾時（假設英語語料說“健康追蹤用基因分析”，泰米爾語語料說“健康追蹤用可穿戴設備”），模型在第三語言（假設丹麥語）中作答時，87%的概率會選擇英語版本。這種“優先級偏見”在72種沖突場景下持續存在。模型似乎內置了隱性的語言等級制度。即使兩種知識質量完全相同——因場景虛構、答案無客觀對錯——模型仍認為高資源語言更“權威”。這不僅涉及技術缺陷，更折射出語言在真實世界中的不對等性。

最后，在抵抗錯誤信息魯棒性測試中，低資源語言同樣脆弱。當研究者嘗試在訓練數據中注入錯誤知識（例如“水凝結成水蒸氣”）時，英語、法語等高資源語言的模型能堅守正確知識，準確率下降緩慢；但低資源語言的準確率卻斷崖式下跌。

圖4-A：微調(fine-tuning)設置下魯棒性測試。隨著模型在錯誤知識上進行微調，其整體準確率下降。然而，這種下降在低資源語言中更為明顯。

圖4-B：上下文學習設置下魯棒性測試。此處，半徑徑軸表示有無錯誤信息時的準確率比率，顏色越深表示相對準確率越低。LLMs在高資源語言中往往比在低資源語言中表現出更強的錯誤信息抵抗力。

這如同給不同語言用戶安裝了不同質量的"防護設備"：以英語為代表的高資源語言用戶獲得的是防彈玻璃，而以祖魯語為代表的低資源語言用戶只有瓦楞紙。

“語言馬太效應”：成因與干預嘗試

這種不平等并非模型的偶然失誤，而是系統性因素層層疊加的必然結果。

首當其沖的是訓練數據的馬太效應——語言在CommonCrawl等語料庫中的占比與模型性能相關系數高達0.907，英語因CommonCrawl語料庫中高占比被劃為高資源語言（>1%閾值），而威爾士語等占比不足0.1%即被歸為低資源語言。這種數據鴻溝不僅決定了模型對語法、習語和表達模式的熟悉程度，更深層地塑造了其學習新知識的可塑性——高資源語言的用戶僅需少量樣本就能教會AI新概念，而低資源語言社區必須付出成倍的數據與計算成本，才能獲得不那么雞肋的輸出。

更深層的制約來自分詞器（Tokenizer）的信息密度差異。優質分詞器能將文本壓縮為信息密集的token序列。

圖5：這張圖片展示了論文中分析分詞相關因素（Tokenization-related Factors）的其中兩個關鍵維度。1. 分詞器在不同語言上的信息密度有差異；2. 分詞邊界是否與語言的形態學邊界（Morpheme Boundaries）對齊。

而研究發現，英語表達相同內容所需的token數顯著更少，分布也更均勻，這直接拓展了模型的有效上下文長度與學習效能。低資源語言往往被分詞器過度切割為冗余的token序列，如同使用低效的信源編碼。同樣的語義內容，在英語中可被壓縮為緊湊的信號，在泰米爾語等語言中卻不得不以成倍長度的碎片化符號來傳遞。這種編碼效率的差異，導致模型在處理低資源語言時，同等字符數承載的有效信息大幅減少，直接侵蝕了上下文窗口的實際有效容量與學習效能。它并非簡單的速度滯后，而是模型認知架構層面的結構性損耗。好比傳輸低壓縮率格式的影音文件，數據流量雖然龐大，實際畫面未見得更好。最終表現為模型在處理這些語言時，如同在狹窄的信道里強行吞吐過量數據，不可避免地陷入擁塞與性能衰減。

模型神經元還持有潛藏的"語言領地"。模型內部存在"語言神經元"，專門處理特定語言的詞匯和語法。

圖6：上半部分的矩陣展示了模型神經元在處理不同語言（如英語、法語、印地語）時的激活情況。圖中標記的 "1-K Overlap" 和 "1-2 Overlap" 指代不同語言之間存在共享的活躍神經元。神經元的重疊程度直接決定了知識能否在語言之間順暢遷移。圖表下半部分展示了研究人員采用的干預手段。通過人為地“增強”或“抑制”這些特定神經元，觀察模型表現的變化，從而證實了這些神經元確實是“專門處理特定語言”的關鍵組件。

通過分析這些神經元的重疊程度，研究發現法語與西班牙語因神經元高度重疊而遷移順暢，但跨語系（如英語→泰米爾語）的遷移則舉步維艱。實驗表明，人為增強重疊神經元的激活能部分提升遷移能力，但無法完全消除。這印證了不平等性已深植于模型架構底層。

研究人員進行了神經元層面的干預實驗。通過對跨語言重疊神經元進行強制激活或抑制，研究發現：抑制這些神經元會導致跨語言知識遷移能力顯著下降，證明了它們是知識流動的關鍵橋梁；而激活雖然能帶來適度的性能提升，但其收益幅度遠小于抑制所造成的損失。這表明，雖然神經元干預能一定程度上調節知識遷移，但無法徹底消除根植于模型設計與訓練中的不平等。要從根本上解決這一問題，不能僅靠后期的小修小補，而必須回溯到模型開發階段（如平衡預訓練數據、優化分詞器設計），進行更底層的預防性設計。

研究者坦承三大局限：一是實驗僅覆蓋19種語言和4個模型，二是神經元干預只是初步探索，三是未能觸及數據不平衡的根本問題。但他們強調，真正的解決需要"預防性設計"：平衡多語言預訓練數據、開發語言中立的分詞器、在損失函數中引入公平性約束。

作者按：走向真正的多語言智能

（以下內容為解讀者觀點，非原文結論）

這項研究的警示意義遠超技術圈。它暴露出AI倫理審視中長期缺席的維度——作為權力結構的載體的語言。當全球低資源語言社區（數字資源少而使用人口可能多）依賴以強勢語言為中心的AI系統時，他們不僅面臨信息延遲，更面臨知識代表性的不平等——本土智慧被邊緣化，強勢語言知識體系被自動化強化。高資源語言的知識通常被視為 “標準” 或 “權威”，而低資源語言的知識則被邊緣化。這強化了高級資源語言在全球知識體系中的主導地位，同時削弱了低級資源語言的代表性。我們需要意識到，語言公平不是本地化包裝的附加選項，而是數字時代包容性發展的核心組件。為了解決這個問題，政策制定者可以建立多語言AI性能監測機制，將低資源語言的準確率、魯棒性與遷移能力納入產品評估體系，推動開發者在設計之初便直面語言正義問題。技術開發者和研究人員應考慮數據收集和模型設計（例如強制激活神經元）上的公平性，確保大語言模型公平服務所有語言用戶的關鍵。在實現語言公平之前，低資源語言用戶應對AI系統采取更審慎的態度。

當來自高資源語言的知識被優先采用時，就會延續語言霸權。破局的關鍵在于培育本土技術能力——自主構建母語數據集、以本族標準定義評估體系。只有當斯瓦希里語、泰米爾語等低資源語言社區擁有足夠多的數據集參與到全球優化的AI系統中，AI才能真正擺脫單向度的知識流動，轉向多元共生的技術生態。唯有如此，AI 才能從鞏固技術壁壘的枷鎖，轉變為促進人類文明多元共生的公共品。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.