網易首頁 > 網易號 > 正文申請入駐

基礎推理范式促使語言模型實現域外泛化

2026-02-17 00:22:08　來源: CreateAMind

上海舉報

分享至

Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

基礎推理范式促使語言模型實現域外泛化

https://www.arxiv.org/pdf/2602.08658

摘要

演繹、歸納和溯因是基本的推理范式，也是人類邏輯思維的核心。盡管提升大語言模型的推理能力已吸引大量研究關注，但這些基本范式能在多大程度上誘導模型產生泛化能力，尚未得到系統性的探索。在本研究中，我們揭示了這些核心范式之間的相互作用如何影響大語言模型的推理行為。為此，我們首先從符號化任務中收集了一個新的推理軌跡數據集，每個軌跡對應三種基本范式之一，以抽象掉具體的世界知識。接著，我們研究了將這些技能有效注入大語言模型的方法。我們實驗了一系列方法，包括簡單的微調，以及增加模型深度或將密集模型轉換為混合專家模型的更復雜方法。我們全面評估了這些誘導后的模型在現實領域外的任務上的表現，這些任務完全以自然語言表述且包含現實世界知識。結果顯示，我們的方法在不同現實任務上均取得了強大的泛化能力，帶來了顯著的性能提升（高達14.60）。

1 引言

演繹、歸納和溯因是基本的推理范式，構成了人類邏輯推理的基石（Frankfurt, 1958; Salmon, 1994）。演繹根據規則和觀察推斷結論。歸納基于前提和觀察中的模式提煉規則。溯因則是在給定一組規則的情況下，推斷出解釋某個觀察的最合理假設。這些范式對于理解和提升大語言模型的推理能力起著至關重要的作用（Dougrez-Lewis 等，2025；Tan 等，2025；Hu 等，2025）。

先前的研究常常混淆歸納、演繹和溯因，忽視了它們各自在提升大語言模型推理能力方面的具體作用（Zheng 等，2025；Hu 等，2025）。雖然 Tan 等人（2025）通過微調單獨誘導演繹技能以提升模型的領域外泛化能力，但他們忽略了歸納和溯因。此外，常見做法是使用混雜了世界知識與推理的數據來提升大語言模型的推理能力（Hu 等，2025；Guha 等，2025；DeepSeek-AI，2025），這使得性能提升究竟源于真正的推理能力還是事實記憶變得模糊不清。因此，兩個主要問題仍未得到探索：（1）截然不同的演繹、歸納和溯因技能在多大程度上能提升通用推理能力；（2）誘導這些能力最有效的方法是什么？

為了回答這些問題，我們首先對 Hu 等人（2025）提出的一個程序生成的符號推理數據集進行了擴充，加入了來自教師大語言模型的推理軌跡。該數據集包含各種任務，每個任務都針對三種基本范式之一，同時將推理與世界知識相剝離。然而，該數據集最初只包含問題和答案，沒有相關的推理軌跡。這些軌跡可以作為獨立于世界知識的推理模式的示例。隨后，我們向學生大語言模型注入基本的推理能力，研究演繹、歸納和溯因各自的影響及其相互作用。我們首次系統地評估了超越標準微調的一系列誘導方法，包括通過擴展增加模型深度（Wu 等，2024），以有效吸收新的推理能力；以及通過升級循環將標準大語言模型轉換為混合專家模型，以擴展模型容量，同時避免現有信息與新注入信息之間的干擾

（Komatsuzaki 等，2023）。最后，我們在兩個模型系列上，對誘導后的模型進行了全面的評估，包括領域內（即相同的符號任務上）和領域外（其余的符號任務以及需要現實世界知識的現實任務上）的表現（見圖 1）。我們的貢獻如下：

我們收集并發布了一個新的用于演繹、歸納和溯因的符號推理數據集。該數據集總共包含約 17K 個符號問題，并附帶了由兩個來自不同系列的教師大語言模型生成的超過 160K 條推理軌跡。
我們證明，向較小的學生大語言模型注入與世界知識解耦的基本推理技能，能使其在不同誘導方法和模型系列上，于現實的領域外任務中取得顯著的性能提升（高達 14.60）。
我們發現，演繹能力普遍為各個模型帶來最高的領域外性能提升。我們還觀察到了強烈的跨范式性能提升，這表明即使是孤立的單個基本推理技能也能惠及大語言模型的整體推理能力。另一方面，最有效的誘導方法因模型而異，其中升級循環方法在整體上取得了最佳效果。

2 相關工作

在大語言模型中激發推理能力大型推理模型在訓練后階段整合了逐步推理的過程（Olmo 等，2025）。近期研究探索了基本推理范式如何影響大語言模型推理的有效性。Zheng 等人（2025）評估了不同的邏輯推理范式，但僅比較了歸納推理與溯因及演繹的結合，缺乏對單個基本推理范式的理解。Hu 等人（2025）分別讓大語言模型專精于演繹、歸納和溯因推理，隨后合并生成的模型，將所有推理范式混雜在一起。這使得難以厘清每個基本推理范式單獨對性能產生的影響。因此，我們通過教師大語言模型收集的推理軌跡，分別學習每個特定的基本推理范式。這種方法首次為更清晰、細致地理解它們對大語言模型推理的影響提供了可能。

合成推理軌跡大語言模型的推理在訓練后階段需要大規模的軌跡數據（Liu 等，2024；Yang 等，2025）。然而，人工整理的推理數據常常包含噪聲（Morishita 等，2024），且難以規模化（Sun 等，2024）。因此，越來越多的工作使用來自教師模型的合成推理軌跡來訓練學生模型（DeepSeek-AI，2025；Olmo 等，2025）。雖然這些軌跡在通用領域（Guha 等，2025）和專業領域（Yu 等，2024；Zhao 等，2025；Yu 等，2025）帶來了顯著的性能提升，但軌跡中包含了世界知識，這使得難以分離出基本推理能力的改進。Tan 等人（2025）使用符號推理軌跡來解耦世界知識，但他們的研究只專注于演繹推理，未探索其他基本推理范式。

3 基礎推理數據

我們的目標是研究向大語言模型注入三種基礎推理類型（演繹、歸納和溯因）所產生的影響。為此，我們需要相應的推理軌跡。

3.1 符號推理任務
我們豐富了由 Hu 等人（2025）開發的一個現有基礎推理數據集。我們選擇這個數據集是因為它是公開可用的，包含 3,600 個演繹問題、4,500 個歸納問題和 9,000 個溯因問題及其答案，但沒有附帶對我們的研究至關重要的推理軌跡。該數據是基于三個符號任務通過程序生成的（圖 2）。

演繹。該任務包含布爾可滿足性問題，要求找出滿足給定公式的變量的真值。所有問題都保證是可滿足的。原始問題單獨列出公式，未使用合取范式，這是一種將布爾公式寫為子句合取的標準形式，其中每個子句是變量或其否定形式的析取。我們的初步實驗表明，這會給大語言模型造成混淆。此外，原始答案以純文本形式呈現，這使自動評估復雜化。因此，我們將原始公式修改為合取范式，并用 JSON 格式表示答案，以便收集推理軌跡。

歸納。此任務要求模型預測給定數字序列中的下一個數字，代表了一種基本的歸納推理形式。數字序列由涉及加法、減法或乘法的重復模式構成。我們直接使用原始的輸入-輸出對，未作任何修改。

溯因。該任務使用邏輯公式和已知原子，這些原子具有隱藏的真值。目標是通過檢查是否存在與目標相關的公式，首先從原子中識別所有可達目標。模型需要運用溯因推理，從假設的結論（即目標為真）反向推導，假設出最可能的前提集（前件的真值）。然而，原始任務說明并未闡明已知原子不一定等同于真原子，這導致大語言模型產生誤解。此外，盡管要求大語言模型識別相關前提并回溯已知原子的真值，但原始答案僅檢查目標的可達性。這種過度簡化使得模型僅僅檢查目標是否出現在前提中。為了克服這些局限性，我們保留了原始公式，但修改了任務說明和答案，使用 Prolog（Wielemaker 等，2012）來搜索能夠使可達目標為真的已知原子的可能真值。附錄 A 的表 3 展示了我們設計的溯因任務與原任務的對比。

3.2 推理軌跡采樣

數據劃分。對于每種任務類型，我們分別使用 100 個問答對進行測試，100 個用于開發，其余全部用于訓練。我們僅為訓練集收集推理軌跡。每個問答對及其軌跡只會出現在其中一個數據劃分中。

教師模型。我們使用兩個廣泛使用的開源權重大語言模型來采樣推理軌跡：Qwen3-30B-Instruct (Yang 等，2025) 和 Llama-3.3-70B-Instruct (Grattafiori 等，2024)。

采樣。在零樣本設置下，將問題輸入教師大語言模型（提示詞見附錄 A）。對于每個問題，我們使用不同的隨機種子采樣五個響應。我們將生成的最大令牌數設置為 10,000，以確保軌跡能夠推導出結論。我們排除了字數少于 20 的響應，因為如此短的文本不太可能包含有效的推理軌跡。對于 Qwen 模型，這導致過濾掉了 554 條演繹軌跡、2,430 條歸納軌跡和 19,872 條溯因軌跡。然而，Llama 模型沒有任何軌跡被過濾掉。我們發現，Qwen 被過濾的響應要么是空的，要么是包含隨機令牌的字符串，這可能是由于模型困惑而產生的。由于自動驗證文本推理軌跡的邏輯一致性仍然是一個開放性問題，并且大語言模型更多是從結構而非內容中學習 (Li 等，2025a)，我們沒有過濾掉更多的軌跡。

最終的訓練集包含約 16,000 個問題，以及分別由 Llama 和 Qwen 教師模型生成的約 82,000 條和 60,000 條軌跡。表 1 顯示了詳細的統計數據。我們注意到，Qwen 生成的軌跡比 Llama 更長，尤其是在歸納和溯因任務上（平均長度是 Llama 的四倍）。我們進一步觀察到，Qwen 傾向于在其推理步驟中重復問題中的公式和序列。它還經常使用表格來總結其響應，并生成許多特殊令牌，例如 “ ”、“ ”。這很可能是由于其在工具調用方面的后訓練所致。

4 注入基礎推理技能

我們嘗試了多種注入方法，從標準的微調到引入模型結構變更的更復雜的方法。

全參數微調。首先，我們簡單地通過在收集到的推理軌跡上進行下一個令牌預測來更新所有模型參數，類似于 Tan 等人 (2025) 的做法。

模型擴展。LoRA 的低秩約束雖然高效，但在領域適應方面存在局限性（Biderman 等，2024；Pletenev 等，2025）。模型擴展（Wu 等，2024；Cao 等，2025）通過在預訓練大語言模型中插入額外的層來增加模型容量。通過僅更新新層，擴展方法保留了原有的參數化知識。它還能更好地獲取新的語言知識（Choudhury 等，2025；Lee 等，2025）和適應領域（Hoffmann 等，2025；Lim 等，2025）。我們使用 LLaMAPro（Wu 等，2024）進行模型擴展，將基礎模型劃分為多個層組，并在每個組之上插入新層。新層通過復制相應基礎層的權重進行初始化，并將注意力機制和 MLP 的輸出投影矩陣設置為零。

模型升級循環。升級循環（Komatsuzaki 等，2023；Nakamura 等，2025）通過將多層感知器塊擴展為多個專家多層感知器，將稠密的 Transformer 層轉換為混合專家層。在推理過程中，由路由網絡選擇專家。該方法已成功應用于多語言（Zhou 等，2025；Zhang 等，2025）和領域適應（Li 等，2025b）。與擴展模型深度的擴展方法相比，升級循環是一種高效的寬度擴展方法。我們采用稀疏升級循環（Komatsuzaki 等，2023），因為它不需要為路由網絡進行額外訓練（Gritsch 等，2025），也無需在混合專家結構之外添加額外模塊（Zhou 等，2025）。稀疏升級循環通過復制原始預訓練多層感知器的權重來初始化新的專家多層感知器，而路由網絡則是隨機初始化的。

5 實驗設置

5.1 訓練設置
為了研究每種基礎推理范式如何影響推理行為，我們分別使用演繹、歸納和溯因推理軌跡對大語言模型進行單獨訓練。作為對比，我們還將所有三種推理類型一起（即混合）注入大語言模型，以評估它們是否能提供互補的歸納偏置。

5.2 模型與基線
我們使用兩個學生模型：具有 32 層的 Llama-3.1-8B-Instruct（Grattafiori 等，2024）；以及具有 36 層的 Qwen3-8B（Yang 等，2025）。
我們將注入方法與（1）微調前的學生模型（原始版本）；（2）用于收集軌跡的教師模型（§3.2）進行比較。

5.3 實現細節
為了公平比較，除全參數微調外，我們保持所有注入后模型的參數規模相近，僅更新新增的參數。我們將 LoRA 應用于學生模型的所有線性層，其中 Llama-3.1-8B-Instruct 的秩設置為 1,024，Qwen3-8B 的秩設置為 512。對于模型擴展，我們將每個學生模型劃分為四個層組，每個組中插入三個新層。我們遵循 Fedus 等人（2022）的做法，通過為每個奇數編號的稠密層添加一個專家多層感知器，將其升級循環為混合專家層。
更多細節詳見附錄 B。

5.4 評估
符號領域內。我們在與訓練所用推理類型相對應的測試集（§3.2）上進行評估（例如，在歸納任務上訓練和測試）。當在混合數據集上訓練時，所有三種推理類型的測試集都屬于領域內。

符號領域外。為了測試符號泛化能力，我們在訓練期間未見的符號任務上進行評估（例如，用溯因任務訓練，用演繹任務測試）。
現實領域外。我們包含以下現實領域外數據集：True Detective（Del 和 Fishel，2023）包含偵探謎題，形式為多項選擇題；αNLI（Zhao 等，2023）包含在給定語境下最可能解釋的多項選擇題；WinoWhy（Zhang 等，2020）包含對 Winograd 挑戰賽（Levesque 等，2012）中問題的解釋，旨在區分合理的理由與相似但錯誤的理由；FOLIO（Han 等，2024）包含自然語言的邏輯推理問題。模型需在給定上下文（一組一階邏輯公式）下，預測一個陳述為真、假或不確定；RECV（Dougrez-Lewis 等，2025）包含來自 Twitter 和 Wikipedia 的斷言，需要運用演繹或溯因推理來確定其真偽。
指標。我們報告最終答案的準確率，由 Qwen3-30B-Instruct 進行評判。根據（Haldar 和 Hockenmaier，2025）近期的分析，我們采用此評判模型，該分析表明該模型在連貫性、一致性和相關性方面比具有競爭力的替代方案（包括 Llama-3 和 Deepseek-R1（DeepSeek-AI，2025））更為穩健。

6 結果

圖 3 和圖 4 分別展示了模型在符號任務和現實任務上的性能。附錄 D 的表 4 和表 5 顯示了完整結果和標準差。

6.1 符號任務

領域內：專項訓練帶來最大提升。圖 3 主對角線上的子圖及最后一列代表了領域內設置，即訓練與測試的范式相匹配。在六種情景（2 個學生模型 × 3 種符號任務）中的五種里，經過專項注入的模型顯著優于原始學生模型。我們發現，注入演繹能力帶來的提升最大（例如，Llama-3.1-8B 通過模型擴展提升了 56.00，而 Qwen-3-8B 通過升級循環提升了 12.33）。歸納能力次之（全參數微調提升 46.00，升級循環提升 9.67），而注入溯因能力帶來的相對提升最小（LoRA 提升 41.66，升級循環提升 10.67）。演繹能力提升更大的一個可能解釋是 Transformer 架構具有適合演繹的結構（Aggarwal 等，2025）。值得注意的是，混合設置（即在所有三種范式的混合數據上訓練大語言模型）提供了一種有競爭力的注入策略。雖然混合設置并未產生由單范式專項模型所獲得的最大領域內性能提升，但在八種情況（2 個教師 × 4 種注入方法）中的六種里，它在所有符號任務上的表現仍優于原始 Qwen-3-8B 模型。

領域外：范式間的非對稱遷移。轉向分析圖 3 中的其他子圖，我們考察領域外泛化能力，即用一種范式訓練的模型在其他范式任務上進行測試。我們觀察到一種明顯的效能順序：演繹 > 歸納 > 溯因。演繹能力的提升能強力遷移到其他任務。在每種范式涉及的 16 種符號任務情景中，演繹能力的提升在 12 種情景中發生了遷移，其中分別有 9 次提升了歸納和溯因任務。相比之下，歸納能力的遷移效果中等（在 7 種情景中伴隨提升出現），而溯因能力的遷移效果很差，僅在 4 種情景中有益于演繹任務，在 5 種情景中有益于歸納任務。例如，當通過升級循環注入 Qwen-3-8B 時，演繹能力產生了最具遷移性的提升（歸納：73.00，溯因：34.67）。歸納能力實現了中等程度的遷移，表現出非對稱的泛化（演繹：89.00，溯因：11.00）。相比之下，注入溯因能力并未提供可比的提升（演繹：74.67，歸納：62.00）。這些結果表明基礎推理范式之間的遷移是非對稱的。雖然溯因最難學習（領域內提升最低），但演繹能力是最具可遷移性的技能，是推理能力的通用供體。

注入方法：容量擴展 vs. 高效適配。觀察不同的注入方法，我們發現最有效的方法因模型而異，盡管升級循環通常能帶來更穩健的提升。對于 Qwen3-8B，升級循環在不同范式上始終帶來最高的提升（例如，演繹提升 12.33，歸納提升 9.67，溯因提升 10.67）。相比之下，Llama-3.1-8B 受益于多種多樣的注入方法。模型擴展使其在演繹任務上達到峰值提升（56.00），而全參數微調在歸納任務上表現最佳（46.00）。雖然 LoRA 是一種有競爭力的高效替代方案，并意外地在溯因任務上取得了最佳提升（41.66），但它總體上落后于擴展容量的方法（如升級循環），這表明基礎推理技能受益于結構適配所提供的額外容量。

更強的教師模型帶來更高的學生模型性能。Qwen-3-30B 在符號任務上的表現大幅優于 Llama-3.3-70B（演繹：82.00 對比 33.00，歸納：81.00 對比 55.33，溯因：74.33 對比 16.00）。兩個學生大語言模型在符號任務上都更多地受益于更強的 Qwen 教師模型。例如，Qwen3-8B 使用 Llama 教師模型時，在大多數情況（43/48）下導致性能下降。當改用 Qwen 教師模型后，其演繹性能顯著提升（通過演繹注入的升級循環達到 92.00），甚至超越了教師模型本身（82.00）。在演繹任務上的這種提升在不同注入范式下（除溯因外）均有觀察到，進一步佐證了范式間的非對稱遷移。教師模型之間的性能差異凸顯了推理軌跡的質量對于符號泛化至關重要。

6.2 現實任務

演繹 > 歸納 > 溯因。我們觀察到，在符號實驗（§6.1）中確立的效能順序在現實任務中依然存在。如圖 4 所示，注入演繹能力為現實領域外任務帶來了最強的性能。例如，當使用來自 Llama 教師模型的軌跡時，Qwen-3-8B 和 Llama-3.1-8B 都在注入演繹能力時達到了最高的平均性能（分別通過升級循環達到 70.14，通過模型擴展達到 58.70）。注入歸納能力帶來的性能略低（升級循環 69.49，模型擴展 57.58），而注入溯因能力帶來的提升則更為有限（升級循環 69.34，全參數微調 56.79）。與符號任務上的表現相反，混合策略的效果遜于任何一種單范式方法（升級循環 69.04，模型擴展 56.07）。我們推測，與符號任務不同，現實任務的結構化程度較低，這導致混合設置稀釋了單范式（尤其是演繹）提供的強歸納偏置。

無知識注入能夠超越教師模型。注入與世界知識相解耦的推理范式，使學生大語言模型即使在現實任務中也能超越其教師模型。例如，當使用 Llama 教師模型（RECV: 77.07）訓練 Llama 學生模型（RECV: 71.98）時，16 個注入后模型（四種注入范式 × 四種注入方法）中有 13 個優于教師模型，通過溯因全參數微調最高達到 81.73。引人注目的是，即使學生模型初始表現優于教師模型，這種提升依然可見。例如，當使用 Qwen 教師模型（αNLI: 75.77）訓練 Qwen 學生模型（αNLI: 81.26）時，學生模型在多數情況（13/16）下表現更好，通過歸納升級循環最高達到 84.24。這種提升在不同教師-學生組合的任務中均有觀察到。我們將這些提升歸因于無知識的符號軌跡。教師模型通過符號結構向學生模型傳遞了更好的基礎推理技能，避免了現實任務中普遍存在的世界知識內容偏差。

跨范式遷移：溯因悖論。注入與現實任務相對應的推理范式并不總能帶來最佳性能。這在那些高度依賴溯因的現實任務中表現得很明顯。對于 True Detective 任務，在演繹任務上進行訓練為 Llama-3.1-8B 和 Qwen3-8B 都帶來了最佳性能（分別為 26.18 和 44.50）。相比之下，在溯因任務上訓練的表現最差（21.47 和 38.57）。類似模式也出現在 αNLI 任務上，注入歸納能力（79.73/85.76）始終優于注入溯因能力（77.37/82.73）。由于溯因本身難以學習，模型更多地受益于通過演繹或歸納獲得的、具有遷移性的邏輯。

任務特定的增益集中性。領域外泛化的提升高度集中于特定任務。與原始模型相比，在 αNLI（64 種情況中有 50 種獲得提升）和 Folio（64 種情況中有 41 種獲得提升）上的增益更大。然而，這些增益的來源因教師模型系列而異。Llama 教師模型在 RECV 任務上更有效（32 種情況中有 28 種獲得提升），而 Qwen 教師模型在此任務上表現掙扎（32 種情況中僅 16 種獲得提升），但在 WinoWhy 任務上表現更好（提升的情況從 5 種增加到 13 種）。這表明，雖然訓練范式決定了領域外效果，但教師模型決定了哪些任務能從遷移中受益。

學生模型從同系列的教師模型中學習效果更好。雖然符號任務無論模型系列如何都受益于更強的 Qwen 教師模型，但現實領域外泛化在教師和學生屬于同一模型系列時提升更大，這與我們在符號任務（§6.1）中的發現相悖。例如，當為 Llama-3.1-8B 注入演繹能力時，在現實任務上取得最佳性能的是使用 Llama 教師模型（58.70），而非 Qwen 教師模型（54.79）。在為學生模型注入演繹或歸納能力時，這種模式在兩個學生模型上均保持一致。我們推測，現實任務對跨系列蒸餾中固有的風格不匹配更為敏感。這與先前關于跨模型軌跡不匹配的研究（Wen 等，2025）一致，表明最小化教師和學生之間的分布偏移比教師的能力更為關鍵。

注入方法：與符號任務一致。我們觀察到與符號領域（§6.1）相似的模式：雖然最有效的注入方法因模型而異，但升級循環總體上提供了更穩健的改進。在所有八種設置（兩種教師模型 × 四種注入范式）中，升級循環后的 Qwen-3-8B 在七種情況下取得了最高的現實任務性能。例如，當使用 Llama 教師模型時，升級循環在所有范式下都為 Qwen-3-8B 帶來了最佳的現實任務性能（演繹：70.14，歸納：69.49，溯因：69.34，混合：69.04）。相比之下，Llama-3.1-8B 受益于多樣化的注入方法（即全參數微調、LoRA、模型擴展）。這一觀察結果表明，當應用相同的注入方法時，符號任務和現實任務上的領域外泛化具有一致性。此外，升級循環的優越性能進一步說明，更復雜的注入方法優于當前使用更簡單的全參數微調的實踐，即 Tan 等人（2025）的方法。

7 定性分析

表 2 展示了使用不同注入方法的推理行為示例。在案例 1 中，原始 Llama 模型和經過演繹全參數微調的 Llama 模型都失敗了，它們過早地消解了認知上的不確定性，通過隱含的假設得出了一個確定的結論。相比之下，經過演繹模型擴展的 Llama 模型成功了，因為它保留了由選言前提產生的不確定性。這表明，通過注入方法引入的更強結構約束支持了邏輯有效性，防止在條件不足的現實推理問題上得出過于自信的結論。

在案例 2 中，原始 Qwen 模型和經過溯因升級循環的 Qwen 模型都失敗了，它們優先考慮世界知識而非邏輯推理，修改了看似不合理的前提，并覆蓋了給定的邏輯規則。相反，經過演繹升級循環的 Qwen 模型成功了，因為它嚴格遵守所述前提，并應用邏輯規則，而不考慮內容。這種行為與溯因和演繹的內在本質相符。溯因側重于探索一組規則下最合理的觀察，因此鼓勵對前提進行重新解釋。相比之下，演繹從規則和觀察中推導結論，內在地促進了對前提的忠實。這進一步強調了注入與世界知識解耦的推理范式如何減少內容偏差，從而在現實任務上產生更穩健的推理泛化能力。我們還在附錄 F 中包含了對符號任務的詳細分析。

8 結論與啟示

我們系統地研究了注入基礎推理類型（即演繹、歸納和溯因）如何塑造大語言模型推理的泛化能力。通過在與世界知識相解耦的推理軌跡上進行訓練，我們分離出每種范式的影響。我們評估了一系列注入方法，從標準微調到容量擴展方法（如模型擴展和升級循環）。我們的結果表明，無知識注入能帶來顯著且可遷移的領域外增益。演繹是最穩健的范式，而升級循環提供了最大的整體改進，使學生大語言模型能夠獲得結構性的歸納偏置，甚至在現實任務上超越其教師模型。未來的工作將擴展此框架，并探索在不稀釋各自貢獻的前提下組合多種推理范式的基本原則。

局限性

鑒于推理數據集的可用性和多樣性，所有數據和評估均使用英語。我們承認，基礎推理的語言表達和底層認知策略可能因語言而異，這是未來研究的一個有趣方向。

此外，雖然可以生成許多不同的符號任務來代表三種基礎推理范式，但本研究分別為演繹、歸納和溯因探索了一個代表性的任務。事實上，我們關注的是基礎范式與注入方法之間的相互作用，優先考慮分析的深度，而非詳盡覆蓋所有符號推理任務。雖然我們發現所提出的任務足以誘導出強大的領域外泛化能力，但未來的研究可以探究不同符號數據對性能和泛化能力的潛在影響。

原文鏈接：https://www.arxiv.org/pdf/2602.08658

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.