![]()
多語言大模型(MLLM)在面對多語言任務時,往往面臨一個選擇難題:是用原來的語言直接回答,還是翻譯成高資源語言去推理?
實際上,不同的語言在模型內(nèi)部承載著不同的「特長」。比如英語可能邏輯性強,適合科學推理;而中文或印尼語在處理特定文化背景或押韻任務時,可能比英語更具優(yōu)勢。
如何讓模型在面對不同任務時,自動選擇一條「最順手」的推理路徑?來自新加坡科技研究局(A*STAR)Nancy F. Chen 和 Ai Ti Aw 帶領(lǐng)的研究團隊,攜手新加坡科技設(shè)計大學(SUTD)Roy Ka-Wei Lee 教授團隊共同推出了AdaMCoT(Adaptive Multilingual Chain-of-Thought)框架。AdaMCoT 的核心在于把 「用哪種語言思考」本身當成一個可優(yōu)化的決策變量:通過自適應地在多種語言間路由并組合鏈式思考,再將推理結(jié)果映射回目標語言,從而顯著提升跨語言的事實推理準確性與一致性。該工作已被 AAAI 2026 主軌道接收為 Oral 論文。
![]()
- 論文標題: AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought
- 論文鏈接: https://arxiv.org/abs/2501.16154
- 作者單位: 新加坡 A*STAR Institute for Infocomm Research(I2R)、新加坡科技設(shè)計大學(SUTD)
研究背景與痛點
現(xiàn)有的跨語言推理方法通常存在「路徑依賴」:要么不做處理直接推理,容易導致低資源語言的幻覺;要么強制全部轉(zhuǎn)換成英語推理,這在處理需要保留原語言文化韻味或特定語義的任務(如寫詩、雙關(guān)語)時,往往會弄巧成拙。
核心問題在于:沒有一種單一的語言適合所有的任務。
為了解決這一問題,研究團隊提出了AdaMCoT框架。與其強制模型「說英語」,不如賦予模型一種自適應的元認知能力。AdaMCoT 能夠根據(jù)輸入問題的特性(是邏輯題、文化題還是常識題),動態(tài)地從候選語言池(Thinking Languages)中「路由」出一條最佳的思維路徑。
![]()
方法與創(chuàng)新:讓模型「換種語言思考」
AdaMCoT 并不是「先翻譯再回答」,而是引入了一個自適應路由機制(Adaptive Routing):模型會根據(jù)問題特性,選擇是直接用目標語言推理,還是先在英語、中文等「思考語言」中展開鏈式思考,再回到目標語言給出答案。
![]()
1. 雙路徑推理機制
AdaMCoT 設(shè)計了兩條主要的推理路徑:
- 跨語言思維鏈(Cross-Lingual CoT):對于與提示語言不適配的任務,模型將綜合考慮主題一致性、語言知識豐富程度等因素,選取一個合適的 “思考語言”。例如面對使用馬來文提問的數(shù)學題,模型可以選擇英文或者中文作為思考語言,利用這些語言豐富的邏輯和知識儲備完成推理步驟,最后將結(jié)果整合回目標語言。
- 直接生成(Direct Generation):對于模型本身擅長的語言或特定任務(如寫詩、押韻),直接在源語言上進行分析且生成答案,避免跨語言帶來的語義損耗。
2. 基于獎勵的自適應路由
為了讓模型「知道」何時該用哪種語言思考,研究團隊引入了一個基于獎勵的微調(diào)機制。利用 GPT-4o 作為獎勵模型(Reward Model),從事實正確性、連貫性和指令遵循度等維度對不同推理路徑生成的答案進行打分。
在訓練階段,模型只學習那些得高分(分數(shù) ≥ 9)的推理路徑。這種「優(yōu)勝劣汰」的機制使得 AdaMCoT 能夠根據(jù)問題類型自動切換策略。例如,處理科學問題時可能傾向于用英語思考,而處理具有文化特色的問題時則可能保留原語言。
實驗結(jié)果:全面超越傳統(tǒng)方法
研究團隊在mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU 和 Cross-LogiQA等多個多語言基準上評估了 AdaMCoT,涵蓋了 LLaMA 3.1 和 Qwen 2.5 等主流開源模型。
![]()
1. 事實推理能力顯著提升
在 mTruthfulQA 數(shù)據(jù)集上,LLaMA3.1-8B-AdaMCoT 在 32 種語言中的 31 種上都取得了性能提升。
- 對于中文,準確率相對原模型提升9.0%;
- 對于低資源語言如印度尼西亞語,相對提升高達12.7%;
- 在匈牙利語、葡萄牙語和孟加拉語等語言上,更是實現(xiàn)了超過10%的絕對提升。
相比之下,傳統(tǒng)的 Prompt 工程方法(如 AutoCAP)和翻譯對齊方法在低資源語言上往往表現(xiàn)不佳,甚至出現(xiàn)倒退。
2. 跨語言一致性增強
實驗表明,AdaMCoT 不僅提高了回答的準確率,還顯著增強了跨語言的一致性。這意味著無論用戶用哪種語言提問,模型都能調(diào)用其內(nèi)部最一致的知識庫來回答,減少了「見人說人話,見鬼說鬼話」的幻覺現(xiàn)象 。
![]()
在 mTruthfulQA 數(shù)據(jù)集上的推理路徑選擇分布。大部分情況下,模型優(yōu)先選擇高資源語言(尤其是英語和中文)作為中間推理語種,從而顯著降低錯誤率;其他語種約占 10%,主要用于提升特殊類別問題的回答準確性。
深度解讀:為什么「換語言思考」有效?
為了揭示 AdaMCoT 的生效機理,研究團隊利用Logit Lens和UMAP技術(shù)對模型的內(nèi)部狀態(tài)進行了可視化分析。
![]()
1. Logit Lens:透視模型的思考過程
通過 Logit Lens 分析發(fā)現(xiàn),當模型直接用低資源語言回答復雜問題時,中間層的預測往往充滿噪聲和幻覺。而當 AdaMCoT 引導模型先用英語「思考」時,模型在早期層級就能鎖定正確的事實路徑,最終生成的答案更加自信且準確。
![]()
2. UMAP:語義空間的對齊
UMAP 可視化顯示,AdaMCoT 成功拉近了不同語言在語義空間中的距離。經(jīng)過微調(diào)后,非英語語言的嵌入向量(Embeddings)顯著向英語中心靠攏。同時并沒有破壞原有的語義結(jié)構(gòu),而是在保持整體分布的前提下,讓多語言在同一空間中更加對齊。 這表明 AdaMCoT 促進了多語言知識在語義層面的深層融合,而非簡單的表面翻譯。
總結(jié)
AdaMCoT 提出了一種全新的多語言推理范式:不改變模型參數(shù)規(guī)模,不依賴海量多語言預訓練數(shù)據(jù),僅通過「學會如何選擇思考語言」,就能顯著釋放大模型的跨語言潛能。
這項工作不僅為提升低資源語言的 AI 性能提供了低成本的高效方案,也為理解大模型的跨語言對齊機制提供了新的視角。隨著 AI 全球化的推進,AdaMCoT 有望成為打破語言隔閡、實現(xiàn)「AI 普惠」的關(guān)鍵技術(shù)之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.