AdaMCoT：讓大模型學會「看題下菜碟」，動態(tài)選擇最佳思考語言

2025-12-15 17:40:49　來源: 機器之心Pro

河北舉報

分享至

多語言大模型（MLLM）在面對多語言任務時，往往面臨一個選擇難題：是用原來的語言直接回答，還是翻譯成高資源語言去推理？

實際上，不同的語言在模型內(nèi)部承載著不同的「特長」。比如英語可能邏輯性強，適合科學推理；而中文或印尼語在處理特定文化背景或押韻任務時，可能比英語更具優(yōu)勢。

如何讓模型在面對不同任務時，自動選擇一條「最順手」的推理路徑？來自新加坡科技研究局（A*STAR）Nancy F. Chen 和 Ai Ti Aw 帶領(lǐng)的研究團隊，攜手新加坡科技設(shè)計大學（SUTD）Roy Ka-Wei Lee 教授團隊共同推出了AdaMCoT（Adaptive Multilingual Chain-of-Thought）框架。AdaMCoT 的核心在于把「用哪種語言思考」本身當成一個可優(yōu)化的決策變量：通過自適應地在多種語言間路由并組合鏈式思考，再將推理結(jié)果映射回目標語言，從而顯著提升跨語言的事實推理準確性與一致性。該工作已被 AAAI 2026 主軌道接收為 Oral 論文。

論文標題： AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought
論文鏈接： https://arxiv.org/abs/2501.16154
作者單位：新加坡 A*STAR Institute for Infocomm Research（I2R）、新加坡科技設(shè)計大學（SUTD）

研究背景與痛點

現(xiàn)有的跨語言推理方法通常存在「路徑依賴」：要么不做處理直接推理，容易導致低資源語言的幻覺；要么強制全部轉(zhuǎn)換成英語推理，這在處理需要保留原語言文化韻味或特定語義的任務（如寫詩、雙關(guān)語）時，往往會弄巧成拙。

核心問題在于：沒有一種單一的語言適合所有的任務。

為了解決這一問題，研究團隊提出了AdaMCoT框架。與其強制模型「說英語」，不如賦予模型一種自適應的元認知能力。AdaMCoT 能夠根據(jù)輸入問題的特性（是邏輯題、文化題還是常識題），動態(tài)地從候選語言池（Thinking Languages）中「路由」出一條最佳的思維路徑。

方法與創(chuàng)新：讓模型「換種語言思考」

AdaMCoT 并不是「先翻譯再回答」，而是引入了一個自適應路由機制（Adaptive Routing）：模型會根據(jù)問題特性，選擇是直接用目標語言推理，還是先在英語、中文等「思考語言」中展開鏈式思考，再回到目標語言給出答案。

1. 雙路徑推理機制

AdaMCoT 設(shè)計了兩條主要的推理路徑：

跨語言思維鏈（Cross-Lingual CoT）：對于與提示語言不適配的任務，模型將綜合考慮主題一致性、語言知識豐富程度等因素，選取一個合適的 “思考語言”。例如面對使用馬來文提問的數(shù)學題，模型可以選擇英文或者中文作為思考語言，利用這些語言豐富的邏輯和知識儲備完成推理步驟，最后將結(jié)果整合回目標語言。
直接生成（Direct Generation）：對于模型本身擅長的語言或特定任務（如寫詩、押韻），直接在源語言上進行分析且生成答案，避免跨語言帶來的語義損耗。

2. 基于獎勵的自適應路由

為了讓模型「知道」何時該用哪種語言思考，研究團隊引入了一個基于獎勵的微調(diào)機制。利用 GPT-4o 作為獎勵模型（Reward Model），從事實正確性、連貫性和指令遵循度等維度對不同推理路徑生成的答案進行打分。

在訓練階段，模型只學習那些得高分（分數(shù) ≥ 9）的推理路徑。這種「優(yōu)勝劣汰」的機制使得 AdaMCoT 能夠根據(jù)問題類型自動切換策略。例如，處理科學問題時可能傾向于用英語思考，而處理具有文化特色的問題時則可能保留原語言。

實驗結(jié)果：全面超越傳統(tǒng)方法

研究團隊在mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU 和 Cross-LogiQA等多個多語言基準上評估了 AdaMCoT，涵蓋了 LLaMA 3.1 和 Qwen 2.5 等主流開源模型。

1. 事實推理能力顯著提升

在 mTruthfulQA 數(shù)據(jù)集上，LLaMA3.1-8B-AdaMCoT 在 32 種語言中的 31 種上都取得了性能提升。

對于中文，準確率相對原模型提升9.0%；
對于低資源語言如印度尼西亞語，相對提升高達12.7%；
在匈牙利語、葡萄牙語和孟加拉語等語言上，更是實現(xiàn)了超過10%的絕對提升。

相比之下，傳統(tǒng)的 Prompt 工程方法（如 AutoCAP）和翻譯對齊方法在低資源語言上往往表現(xiàn)不佳，甚至出現(xiàn)倒退。

2. 跨語言一致性增強

實驗表明，AdaMCoT 不僅提高了回答的準確率，還顯著增強了跨語言的一致性。這意味著無論用戶用哪種語言提問，模型都能調(diào)用其內(nèi)部最一致的知識庫來回答，減少了「見人說人話，見鬼說鬼話」的幻覺現(xiàn)象。

在 mTruthfulQA 數(shù)據(jù)集上的推理路徑選擇分布。大部分情況下，模型優(yōu)先選擇高資源語言（尤其是英語和中文）作為中間推理語種，從而顯著降低錯誤率；其他語種約占 10%，主要用于提升特殊類別問題的回答準確性。

深度解讀：為什么「換語言思考」有效？

為了揭示 AdaMCoT 的生效機理，研究團隊利用Logit Lens和UMAP技術(shù)對模型的內(nèi)部狀態(tài)進行了可視化分析。

1. Logit Lens：透視模型的思考過程

通過 Logit Lens 分析發(fā)現(xiàn)，當模型直接用低資源語言回答復雜問題時，中間層的預測往往充滿噪聲和幻覺。而當 AdaMCoT 引導模型先用英語「思考」時，模型在早期層級就能鎖定正確的事實路徑，最終生成的答案更加自信且準確。

2. UMAP：語義空間的對齊

UMAP 可視化顯示，AdaMCoT 成功拉近了不同語言在語義空間中的距離。經(jīng)過微調(diào)后，非英語語言的嵌入向量（Embeddings）顯著向英語中心靠攏。同時并沒有破壞原有的語義結(jié)構(gòu)，而是在保持整體分布的前提下，讓多語言在同一空間中更加對齊。這表明 AdaMCoT 促進了多語言知識在語義層面的深層融合，而非簡單的表面翻譯。

總結(jié)

AdaMCoT 提出了一種全新的多語言推理范式：不改變模型參數(shù)規(guī)模，不依賴海量多語言預訓練數(shù)據(jù)，僅通過「學會如何選擇思考語言」，就能顯著釋放大模型的跨語言潛能。

這項工作不僅為提升低資源語言的 AI 性能提供了低成本的高效方案，也為理解大模型的跨語言對齊機制提供了新的視角。隨著 AI 全球化的推進，AdaMCoT 有望成為打破語言隔閡、實現(xiàn)「AI 普惠」的關(guān)鍵技術(shù)之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.