ICLR 2026｜UIUC：一行代碼徹底解決LLM推理的過度思考！

2026-02-09 12:26:23　來源: 機器之心Pro

河北舉報

分享至

2025 年 1 月 20 日，DeepSeek 發(fā)布了推理大模型 DeepSeek-R1，在學(xué)術(shù)界和工業(yè)界引發(fā)了對大模型強化學(xué)習(xí)方法的廣泛關(guān)注與研究熱潮。

研究者發(fā)現(xiàn)，在數(shù)學(xué)推理等具有明確答案的任務(wù)中，僅使用 “正確 / 錯誤” 這樣極為簡單的反饋信號進行強化學(xué)習(xí)，模型就能夠逐步學(xué)習(xí)到復(fù)雜而有效的推理策略，并顯著提升推理能力。這類方法被概括為基于可驗證獎勵的強化學(xué)習(xí)（RLVR）。

在隨后的一年中，RLVR 被成功應(yīng)用到多種任務(wù)和應(yīng)用場景中，展現(xiàn)出穩(wěn)定且優(yōu)異的性能，成為大模型推理能力提升的重要技術(shù)路線之一。

然而，盡管 RLVR 取得了顯著成效，它仍然存在一些不可忽視的局限性。其中影響較為突出的問題之一是 “過度思考” 現(xiàn)象：對于本身較為簡單或直觀的問題，模型有時仍會生成冗長、重復(fù)甚至不必要的推理過程。這種現(xiàn)象不僅降低了推理效率，也在一定程度上增加了推理成本，成為當(dāng)前 RLVR 方法亟需解決的關(guān)鍵挑戰(zhàn)之一。

許多研究者逐漸形成共識，認(rèn)為過度思考現(xiàn)象的根源在于可驗證獎勵信號本身的粗粒度特性。在 RLVR 框架下，只要模型最終給出了正確答案，獎勵機制并不會對其推理過程中的中間步驟加以區(qū)分或約束。

因而，從用戶視角看似多余甚至無意義的 “反復(fù)檢查” 行為，并不會給模型帶來任何負(fù)面反饋。在這種獎勵結(jié)構(gòu)下，延長推理過程、消耗更多計算步驟，反而成為模型在訓(xùn)練過程中用以最大化正確率的一種 “理性選擇”。

針對這一問題，現(xiàn)有研究中較為常見的解決思路是對模型施加顯式的推理長度約束，例如統(tǒng)計模型在推理過程中生成的總 token 數(shù)，并在 token 數(shù)過大或相對過長時對其獎勵進行懲罰。

然而，這類方法往往不可避免地削弱模型的推理充分性，從而導(dǎo)致整體準(zhǔn)確率下降，使研究者不得不在推理效率與預(yù)測準(zhǔn)確性之間進行權(quán)衡。

為解決這一問題，伊利諾伊大學(xué)香檳分校和 Amazon AWS 的研究者提出了自我一致性獎勵（Self-Aligned Reward，SAR），利用大語言模型內(nèi)部的信號構(gòu)成反饋獎勵，刻畫推理過程的 “有用與否” 而不僅僅是 “長短”，達(dá)成推理準(zhǔn)確度和效率的 “雙贏 “。

論文標(biāo)題：Self-Aligned Reward: Towards Effective and Efficient Reasoners
論文鏈接：https://arxiv.org/pdf/2509.05489
代碼鏈接：https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners

Self-Aligned Reward 的設(shè)計

在推理任務(wù)中，一個理想的獎勵函數(shù)應(yīng)當(dāng)具備若干關(guān)鍵性質(zhì)。

首先，作為對可驗證獎勵的有效補充，它應(yīng)當(dāng)是連續(xù)的，能夠以細(xì)粒度方式刻畫模型輸出質(zhì)量的差異，而非僅給出二值反饋。

其次，該獎勵函數(shù)應(yīng)盡量避免引入額外復(fù)雜的評估框架或獨立的獎勵模型，以降低實現(xiàn)與訓(xùn)練成本。

最后，它應(yīng)能夠直接作用于推理過程中的語義信息，而不是像長度懲罰那樣僅依賴于 token 數(shù)等統(tǒng)計量，從而更準(zhǔn)確地反映推理內(nèi)容本身的有效性與相關(guān)性。

基于上述考慮，本文提出了一種新的獎勵函數(shù) ——Self-Aligned Reward（SAR），其設(shè)計天然滿足上述優(yōu)良性質(zhì)。

SAR 的計算方式如下：

SAR 的核心思想基于大模型對自身生成內(nèi)容的困惑度（perplexity，PPL）。具體而言，SAR 比較了模型在兩種條件下對同一輸出文本的困惑度差異：一是將輸出視為一段獨立文本進行建模，二是在給定輸入問題作為上下文的條件下對該輸出進行建模。由此，SAR 實際衡量的是：當(dāng)去除輸入問題這一上下文后，模型生成該回答的概率下降了多少。

這一設(shè)計具有直觀而合理的語義解釋。如果某個回答與輸入問題高度相關(guān)、針對性強，那么只有在問題作為上下文時，該回答才會以較高概率被生成；一旦脫離問題語境，其生成概率將顯著降低。

相反，對于內(nèi)容較為寬泛、與問題關(guān)聯(lián)較弱的回答，是否提供問題作為上下文對其生成概率的影響則相對有限。

因此，SAR 能夠有效區(qū)分回答與問題之間的語義關(guān)聯(lián)強度，從而在獎勵層面鼓勵模型生成和問題相關(guān)性高、一致性強且語義聚焦的推理結(jié)果。

我們在預(yù)實驗中比較了不同獎勵函數(shù)在六類回答上的優(yōu)勢（advantage）值（表中 o1 和 ER 是兩種長度懲罰算法）。可以看到 SAR 有如下特性，這說明了 SAR 能準(zhǔn)確、細(xì)粒度地分辨不同類型的回答：

比起冗長的正確答案，更偏好正確而簡潔的答案
對于答案錯誤但中間過程部分正確的答案給出相對高的分?jǐn)?shù)
不鼓勵無推理過程直接輸出的答案，即使答案是正確的

實驗分析：強效普適的推理助手

本文在 4 個基礎(chǔ)模型和 7 個數(shù)據(jù)集上進行了系統(tǒng)而全面的實驗評估。

在訓(xùn)練過程中，我們將 Self-Aligned Reward（SAR）與可驗證獎勵按照不同比例進行加權(quán)，共同作為強化學(xué)習(xí)的獎勵信號。實驗結(jié)果表明，SAR 具有良好的通用性，能夠無縫應(yīng)用于 PPO、GRPO 等主流強化學(xué)習(xí)算法，并在準(zhǔn)確度與推理效率兩個維度上同時帶來顯著提升。

總體而言，相較于僅使用 RLVR 的基線方法，引入 SAR 后模型準(zhǔn)確率平均提升約 4%，同時生成輸出的平均長度至少減少 30%。值得注意的是，盡管訓(xùn)練階段僅使用了數(shù)學(xué)領(lǐng)域的數(shù)據(jù)集，SAR 在邏輯推理等非數(shù)學(xué)任務(wù)的數(shù)據(jù)集上同樣表現(xiàn)出穩(wěn)定而優(yōu)異的性能，體現(xiàn)了其良好的跨任務(wù)泛化能力。

為了進一步分析 SAR 在準(zhǔn)確度與效率之間的權(quán)衡特性，我們分別對 SAR 和長度懲罰方法在訓(xùn)練過程中施加不同的獎勵權(quán)重，從而得到一系列具有不同行為特征的推理模型。

實驗中固定可驗證獎勵的權(quán)重為 1，圖中標(biāo)注的數(shù)值對應(yīng) SAR 或長度懲罰項的權(quán)重大小。結(jié)果顯示，SAR 所對應(yīng)的性能曲線在整個權(quán)重區(qū)間內(nèi)始終優(yōu)于長度懲罰與基線方法，且其中一部分穩(wěn)定落在準(zhǔn)確度與效率同時提升的第一象限。

這表明，相較于單純通過懲罰輸出長度來壓縮推理過程、從而不可避免地犧牲準(zhǔn)確率的策略，SAR 能夠更有效地協(xié)調(diào)推理質(zhì)量與推理成本，在兩者之間實現(xiàn)更優(yōu)的平衡。

結(jié)語：“傾聽自我 “--- 強化學(xué)習(xí)的新路徑

本研究提出了 Self-aligned reward，為緩解強化學(xué)習(xí)推理模型中的過度思考問題提供了一種簡單而有效的解決思路。與依賴人工設(shè)計規(guī)則或顯式約束推理長度的方法不同，SAR 直接利用大模型自身的語言建模能力，從語義層面刻畫回答與問題之間的內(nèi)在一致性，在不引入額外評估模型的前提下，實現(xiàn)了對推理質(zhì)量與效率的協(xié)同優(yōu)化。

這一全新的獎勵函數(shù)不僅提升了當(dāng)前推理模型在準(zhǔn)確度與計算成本這兩個維度的整體表現(xiàn)，也反映了大模型強化學(xué)習(xí)領(lǐng)域一種新的思想：將模型運行時的的內(nèi)在信息轉(zhuǎn)化為可用于學(xué)習(xí)的連續(xù)反饋信號，從而實現(xiàn)大規(guī)模，可持續(xù)，甚至 “自我進化 “式的訓(xùn)練。我們認(rèn)為，Self-aligned reward 作為一種簡潔，高效，泛用性強的強化學(xué)習(xí)方法，有望被推廣至更廣泛的推理任務(wù)中，進一步推動高效、可靠的大模型推理系統(tǒng)的發(fā)展。

作者簡介

本文第一作者為韓沛煊，本科畢業(yè)于清華大學(xué)計算機系，現(xiàn)為伊利諾伊大學(xué)香檳分校（UIUC）計算與數(shù)據(jù)科學(xué)學(xué)院二年級博士生，導(dǎo)師為 Jiaxuan You 教授。其主要研究方向為：大語言模型社會智力及其在復(fù)雜場景中的推理。本工作為作者在 Amazon AWS 實習(xí)期間的成果。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.