![]()
2025 年 1 月 20 日,DeepSeek 發(fā)布了推理大模型 DeepSeek-R1,在學(xué)術(shù)界和工業(yè)界引發(fā)了對大模型強化學(xué)習(xí)方法的廣泛關(guān)注與研究熱潮。
研究者發(fā)現(xiàn),在數(shù)學(xué)推理等具有明確答案的任務(wù)中,僅使用 “正確 / 錯誤” 這樣極為簡單的反饋信號進行強化學(xué)習(xí),模型就能夠逐步學(xué)習(xí)到復(fù)雜而有效的推理策略,并顯著提升推理能力。這類方法被概括為基于可驗證獎勵的強化學(xué)習(xí)(RLVR)。
在隨后的一年中,RLVR 被成功應(yīng)用到多種任務(wù)和應(yīng)用場景中,展現(xiàn)出穩(wěn)定且優(yōu)異的性能,成為大模型推理能力提升的重要技術(shù)路線之一。
然而,盡管 RLVR 取得了顯著成效,它仍然存在一些不可忽視的局限性。其中影響較為突出的問題之一是 “過度思考” 現(xiàn)象:對于本身較為簡單或直觀的問題,模型有時仍會生成冗長、重復(fù)甚至不必要的推理過程。這種現(xiàn)象不僅降低了推理效率,也在一定程度上增加了推理成本,成為當(dāng)前 RLVR 方法亟需解決的關(guān)鍵挑戰(zhàn)之一。
![]()
許多研究者逐漸形成共識,認(rèn)為過度思考現(xiàn)象的根源在于可驗證獎勵信號本身的粗粒度特性。在 RLVR 框架下,只要模型最終給出了正確答案,獎勵機制并不會對其推理過程中的中間步驟加以區(qū)分或約束。
因而,從用戶視角看似多余甚至無意義的 “反復(fù)檢查” 行為,并不會給模型帶來任何負(fù)面反饋。在這種獎勵結(jié)構(gòu)下,延長推理過程、消耗更多計算步驟,反而成為模型在訓(xùn)練過程中用以最大化正確率的一種 “理性選擇”。
針對這一問題,現(xiàn)有研究中較為常見的解決思路是對模型施加顯式的推理長度約束,例如統(tǒng)計模型在推理過程中生成的總 token 數(shù),并在 token 數(shù)過大或相對過長時對其獎勵進行懲罰。
然而,這類方法往往不可避免地削弱模型的推理充分性,從而導(dǎo)致整體準(zhǔn)確率下降,使研究者不得不在推理效率與預(yù)測準(zhǔn)確性之間進行權(quán)衡。
為解決這一問題,伊利諾伊大學(xué)香檳分校和 Amazon AWS 的研究者提出了自我一致性獎勵(Self-Aligned Reward,SAR),利用大語言模型內(nèi)部的信號構(gòu)成反饋獎勵,刻畫推理過程的 “有用與否” 而不僅僅是 “長短”,達(dá)成推理準(zhǔn)確度和效率的 “雙贏 “。
![]()
- 論文標(biāo)題:Self-Aligned Reward: Towards Effective and Efficient Reasoners
- 論文鏈接:https://arxiv.org/pdf/2509.05489
- 代碼鏈接:https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners
Self-Aligned Reward 的設(shè)計
![]()
在推理任務(wù)中,一個理想的獎勵函數(shù)應(yīng)當(dāng)具備若干關(guān)鍵性質(zhì)。
首先,作為對可驗證獎勵的有效補充,它應(yīng)當(dāng)是連續(xù)的,能夠以細(xì)粒度方式刻畫模型輸出質(zhì)量的差異,而非僅給出二值反饋。
其次,該獎勵函數(shù)應(yīng)盡量避免引入額外復(fù)雜的評估框架或獨立的獎勵模型,以降低實現(xiàn)與訓(xùn)練成本。
最后,它應(yīng)能夠直接作用于推理過程中的語義信息,而不是像長度懲罰那樣僅依賴于 token 數(shù)等統(tǒng)計量,從而更準(zhǔn)確地反映推理內(nèi)容本身的有效性與相關(guān)性。
基于上述考慮,本文提出了一種新的獎勵函數(shù) ——Self-Aligned Reward(SAR),其設(shè)計天然滿足上述優(yōu)良性質(zhì)。
SAR 的計算方式如下:
![]()
SAR 的核心思想基于大模型對自身生成內(nèi)容的困惑度(perplexity,PPL)。具體而言,SAR 比較了模型在兩種條件下對同一輸出文本的困惑度差異:一是將輸出視為一段獨立文本進行建模,二是在給定輸入問題作為上下文的條件下對該輸出進行建模。由此,SAR 實際衡量的是:當(dāng)去除輸入問題這一上下文后,模型生成該回答的概率下降了多少。
這一設(shè)計具有直觀而合理的語義解釋。如果某個回答與輸入問題高度相關(guān)、針對性強,那么只有在問題作為上下文時,該回答才會以較高概率被生成;一旦脫離問題語境,其生成概率將顯著降低。
相反,對于內(nèi)容較為寬泛、與問題關(guān)聯(lián)較弱的回答,是否提供問題作為上下文對其生成概率的影響則相對有限。
因此,SAR 能夠有效區(qū)分回答與問題之間的語義關(guān)聯(lián)強度,從而在獎勵層面鼓勵模型生成和問題相關(guān)性高、一致性強且語義聚焦的推理結(jié)果。
![]()
我們在預(yù)實驗中比較了不同獎勵函數(shù)在六類回答上的優(yōu)勢(advantage)值(表中 o1 和 ER 是兩種長度懲罰算法)。可以看到 SAR 有如下特性,這說明了 SAR 能準(zhǔn)確、細(xì)粒度地分辨不同類型的回答:
- 比起冗長的正確答案,更偏好正確而簡潔的答案
- 對于答案錯誤但中間過程部分正確的答案給出相對高的分?jǐn)?shù)
- 不鼓勵無推理過程直接輸出的答案,即使答案是正確的
實驗分析:強效普適的推理助手
本文在 4 個基礎(chǔ)模型和 7 個數(shù)據(jù)集上進行了系統(tǒng)而全面的實驗評估。
在訓(xùn)練過程中,我們將 Self-Aligned Reward(SAR)與可驗證獎勵按照不同比例進行加權(quán),共同作為強化學(xué)習(xí)的獎勵信號。實驗結(jié)果表明,SAR 具有良好的通用性,能夠無縫應(yīng)用于 PPO、GRPO 等主流強化學(xué)習(xí)算法,并在準(zhǔn)確度與推理效率兩個維度上同時帶來顯著提升。
總體而言,相較于僅使用 RLVR 的基線方法,引入 SAR 后模型準(zhǔn)確率平均提升約 4%,同時生成輸出的平均長度至少減少 30%。值得注意的是,盡管訓(xùn)練階段僅使用了數(shù)學(xué)領(lǐng)域的數(shù)據(jù)集,SAR 在邏輯推理等非數(shù)學(xué)任務(wù)的數(shù)據(jù)集上同樣表現(xiàn)出穩(wěn)定而優(yōu)異的性能,體現(xiàn)了其良好的跨任務(wù)泛化能力。
為了進一步分析 SAR 在準(zhǔn)確度與效率之間的權(quán)衡特性,我們分別對 SAR 和長度懲罰方法在訓(xùn)練過程中施加不同的獎勵權(quán)重,從而得到一系列具有不同行為特征的推理模型。
![]()
實驗中固定可驗證獎勵的權(quán)重為 1,圖中標(biāo)注的數(shù)值對應(yīng) SAR 或長度懲罰項的權(quán)重大小。結(jié)果顯示,SAR 所對應(yīng)的性能曲線在整個權(quán)重區(qū)間內(nèi)始終優(yōu)于長度懲罰與基線方法,且其中一部分穩(wěn)定落在準(zhǔn)確度與效率同時提升的第一象限。
這表明,相較于單純通過懲罰輸出長度來壓縮推理過程、從而不可避免地犧牲準(zhǔn)確率的策略,SAR 能夠更有效地協(xié)調(diào)推理質(zhì)量與推理成本,在兩者之間實現(xiàn)更優(yōu)的平衡。
結(jié)語:“傾聽自我 “--- 強化學(xué)習(xí)的新路徑
本研究提出了 Self-aligned reward,為緩解強化學(xué)習(xí)推理模型中的過度思考問題提供了一種簡單而有效的解決思路。與依賴人工設(shè)計規(guī)則或顯式約束推理長度的方法不同,SAR 直接利用大模型自身的語言建模能力,從語義層面刻畫回答與問題之間的內(nèi)在一致性,在不引入額外評估模型的前提下,實現(xiàn)了對推理質(zhì)量與效率的協(xié)同優(yōu)化。
這一全新的獎勵函數(shù)不僅提升了當(dāng)前推理模型在準(zhǔn)確度與計算成本這兩個維度的整體表現(xiàn),也反映了大模型強化學(xué)習(xí)領(lǐng)域一種新的思想:將模型運行時的的內(nèi)在信息轉(zhuǎn)化為可用于學(xué)習(xí)的連續(xù)反饋信號,從而實現(xiàn)大規(guī)模,可持續(xù),甚至 “自我進化 “式的訓(xùn)練。我們認(rèn)為,Self-aligned reward 作為一種簡潔,高效,泛用性強的強化學(xué)習(xí)方法,有望被推廣至更廣泛的推理任務(wù)中,進一步推動高效、可靠的大模型推理系統(tǒng)的發(fā)展。
作者簡介
本文第一作者為韓沛煊,本科畢業(yè)于清華大學(xué)計算機系,現(xiàn)為伊利諾伊大學(xué)香檳分校(UIUC)計算與數(shù)據(jù)科學(xué)學(xué)院二年級博士生,導(dǎo)師為 Jiaxuan You 教授。其主要研究方向為:大語言模型社會智力及其在復(fù)雜場景中的推理。本工作為作者在 Amazon AWS 實習(xí)期間的成果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.