<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ICLR 2026|UIUC:一行代碼徹底解決LLM推理的過度思考!

      0
      分享至



      2025 年 1 月 20 日,DeepSeek 發(fā)布了推理大模型 DeepSeek-R1,在學(xué)術(shù)界和工業(yè)界引發(fā)了對大模型強化學(xué)習(xí)方法的廣泛關(guān)注與研究熱潮。

      研究者發(fā)現(xiàn),在數(shù)學(xué)推理等具有明確答案的任務(wù)中,僅使用 “正確 / 錯誤” 這樣極為簡單的反饋信號進行強化學(xué)習(xí),模型就能夠逐步學(xué)習(xí)到復(fù)雜而有效的推理策略,并顯著提升推理能力。這類方法被概括為基于可驗證獎勵的強化學(xué)習(xí)(RLVR)。

      在隨后的一年中,RLVR 被成功應(yīng)用到多種任務(wù)和應(yīng)用場景中,展現(xiàn)出穩(wěn)定且優(yōu)異的性能,成為大模型推理能力提升的重要技術(shù)路線之一。

      然而,盡管 RLVR 取得了顯著成效,它仍然存在一些不可忽視的局限性。其中影響較為突出的問題之一是 “過度思考” 現(xiàn)象:對于本身較為簡單或直觀的問題,模型有時仍會生成冗長、重復(fù)甚至不必要的推理過程。這種現(xiàn)象不僅降低了推理效率,也在一定程度上增加了推理成本,成為當(dāng)前 RLVR 方法亟需解決的關(guān)鍵挑戰(zhàn)之一。



      許多研究者逐漸形成共識,認(rèn)為過度思考現(xiàn)象的根源在于可驗證獎勵信號本身的粗粒度特性。在 RLVR 框架下,只要模型最終給出了正確答案,獎勵機制并不會對其推理過程中的中間步驟加以區(qū)分或約束。

      因而,從用戶視角看似多余甚至無意義的 “反復(fù)檢查” 行為,并不會給模型帶來任何負(fù)面反饋。在這種獎勵結(jié)構(gòu)下,延長推理過程、消耗更多計算步驟,反而成為模型在訓(xùn)練過程中用以最大化正確率的一種 “理性選擇”。

      針對這一問題,現(xiàn)有研究中較為常見的解決思路是對模型施加顯式的推理長度約束,例如統(tǒng)計模型在推理過程中生成的總 token 數(shù),并在 token 數(shù)過大或相對過長時對其獎勵進行懲罰。

      然而,這類方法往往不可避免地削弱模型的推理充分性,從而導(dǎo)致整體準(zhǔn)確率下降,使研究者不得不在推理效率與預(yù)測準(zhǔn)確性之間進行權(quán)衡。

      為解決這一問題,伊利諾伊大學(xué)香檳分校和 Amazon AWS 的研究者提出了自我一致性獎勵(Self-Aligned Reward,SAR),利用大語言模型內(nèi)部的信號構(gòu)成反饋獎勵,刻畫推理過程的 “有用與否” 而不僅僅是 “長短”,達(dá)成推理準(zhǔn)確度和效率的 “雙贏 “。



      • 論文標(biāo)題:Self-Aligned Reward: Towards Effective and Efficient Reasoners
      • 論文鏈接:https://arxiv.org/pdf/2509.05489
      • 代碼鏈接:https://github.com/amazon-science/Self-Aligned-Reward-Towards_Effective_and_Efficient_Reasoners

      Self-Aligned Reward 的設(shè)計



      在推理任務(wù)中,一個理想的獎勵函數(shù)應(yīng)當(dāng)具備若干關(guān)鍵性質(zhì)。

      首先,作為對可驗證獎勵的有效補充,它應(yīng)當(dāng)是連續(xù)的,能夠以細(xì)粒度方式刻畫模型輸出質(zhì)量的差異,而非僅給出二值反饋。

      其次,該獎勵函數(shù)應(yīng)盡量避免引入額外復(fù)雜的評估框架或獨立的獎勵模型,以降低實現(xiàn)與訓(xùn)練成本。

      最后,它應(yīng)能夠直接作用于推理過程中的語義信息,而不是像長度懲罰那樣僅依賴于 token 數(shù)等統(tǒng)計量,從而更準(zhǔn)確地反映推理內(nèi)容本身的有效性與相關(guān)性。

      基于上述考慮,本文提出了一種新的獎勵函數(shù) ——Self-Aligned Reward(SAR),其設(shè)計天然滿足上述優(yōu)良性質(zhì)。

      SAR 的計算方式如下:



      SAR 的核心思想基于大模型對自身生成內(nèi)容的困惑度(perplexity,PPL)。具體而言,SAR 比較了模型在兩種條件下對同一輸出文本的困惑度差異:一是將輸出視為一段獨立文本進行建模,二是在給定輸入問題作為上下文的條件下對該輸出進行建模。由此,SAR 實際衡量的是:當(dāng)去除輸入問題這一上下文后,模型生成該回答的概率下降了多少。

      這一設(shè)計具有直觀而合理的語義解釋。如果某個回答與輸入問題高度相關(guān)、針對性強,那么只有在問題作為上下文時,該回答才會以較高概率被生成;一旦脫離問題語境,其生成概率將顯著降低。

      相反,對于內(nèi)容較為寬泛、與問題關(guān)聯(lián)較弱的回答,是否提供問題作為上下文對其生成概率的影響則相對有限。

      因此,SAR 能夠有效區(qū)分回答與問題之間的語義關(guān)聯(lián)強度,從而在獎勵層面鼓勵模型生成和問題相關(guān)性高、一致性強且語義聚焦的推理結(jié)果。



      我們在預(yù)實驗中比較了不同獎勵函數(shù)在六類回答上的優(yōu)勢(advantage)值(表中 o1 和 ER 是兩種長度懲罰算法)。可以看到 SAR 有如下特性,這說明了 SAR 能準(zhǔn)確、細(xì)粒度地分辨不同類型的回答:

      • 比起冗長的正確答案,更偏好正確而簡潔的答案
      • 對于答案錯誤但中間過程部分正確的答案給出相對高的分?jǐn)?shù)
      • 不鼓勵無推理過程直接輸出的答案,即使答案是正確的

      實驗分析:強效普適的推理助手

      本文在 4 個基礎(chǔ)模型和 7 個數(shù)據(jù)集上進行了系統(tǒng)而全面的實驗評估。

      在訓(xùn)練過程中,我們將 Self-Aligned Reward(SAR)與可驗證獎勵按照不同比例進行加權(quán),共同作為強化學(xué)習(xí)的獎勵信號。實驗結(jié)果表明,SAR 具有良好的通用性,能夠無縫應(yīng)用于 PPO、GRPO 等主流強化學(xué)習(xí)算法,并在準(zhǔn)確度與推理效率兩個維度上同時帶來顯著提升。

      總體而言,相較于僅使用 RLVR 的基線方法,引入 SAR 后模型準(zhǔn)確率平均提升約 4%,同時生成輸出的平均長度至少減少 30%。值得注意的是,盡管訓(xùn)練階段僅使用了數(shù)學(xué)領(lǐng)域的數(shù)據(jù)集,SAR 在邏輯推理等非數(shù)學(xué)任務(wù)的數(shù)據(jù)集上同樣表現(xiàn)出穩(wěn)定而優(yōu)異的性能,體現(xiàn)了其良好的跨任務(wù)泛化能力。

      為了進一步分析 SAR 在準(zhǔn)確度與效率之間的權(quán)衡特性,我們分別對 SAR 和長度懲罰方法在訓(xùn)練過程中施加不同的獎勵權(quán)重,從而得到一系列具有不同行為特征的推理模型。



      實驗中固定可驗證獎勵的權(quán)重為 1,圖中標(biāo)注的數(shù)值對應(yīng) SAR 或長度懲罰項的權(quán)重大小。結(jié)果顯示,SAR 所對應(yīng)的性能曲線在整個權(quán)重區(qū)間內(nèi)始終優(yōu)于長度懲罰與基線方法,且其中一部分穩(wěn)定落在準(zhǔn)確度與效率同時提升的第一象限。

      這表明,相較于單純通過懲罰輸出長度來壓縮推理過程、從而不可避免地犧牲準(zhǔn)確率的策略,SAR 能夠更有效地協(xié)調(diào)推理質(zhì)量與推理成本,在兩者之間實現(xiàn)更優(yōu)的平衡。

      結(jié)語:“傾聽自我 “--- 強化學(xué)習(xí)的新路徑

      本研究提出了 Self-aligned reward,為緩解強化學(xué)習(xí)推理模型中的過度思考問題提供了一種簡單而有效的解決思路。與依賴人工設(shè)計規(guī)則或顯式約束推理長度的方法不同,SAR 直接利用大模型自身的語言建模能力,從語義層面刻畫回答與問題之間的內(nèi)在一致性,在不引入額外評估模型的前提下,實現(xiàn)了對推理質(zhì)量與效率的協(xié)同優(yōu)化。

      這一全新的獎勵函數(shù)不僅提升了當(dāng)前推理模型在準(zhǔn)確度與計算成本這兩個維度的整體表現(xiàn),也反映了大模型強化學(xué)習(xí)領(lǐng)域一種新的思想:將模型運行時的的內(nèi)在信息轉(zhuǎn)化為可用于學(xué)習(xí)的連續(xù)反饋信號,從而實現(xiàn)大規(guī)模,可持續(xù),甚至 “自我進化 “式的訓(xùn)練。我們認(rèn)為,Self-aligned reward 作為一種簡潔,高效,泛用性強的強化學(xué)習(xí)方法,有望被推廣至更廣泛的推理任務(wù)中,進一步推動高效、可靠的大模型推理系統(tǒng)的發(fā)展。

      作者簡介

      本文第一作者為韓沛煊,本科畢業(yè)于清華大學(xué)計算機系,現(xiàn)為伊利諾伊大學(xué)香檳分校(UIUC)計算與數(shù)據(jù)科學(xué)學(xué)院二年級博士生,導(dǎo)師為 Jiaxuan You 教授。其主要研究方向為:大語言模型社會智力及其在復(fù)雜場景中的推理。本工作為作者在 Amazon AWS 實習(xí)期間的成果。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      郭臺銘沒料到!富士康廠妹成勁敵,搶走大批蘋果訂單,年賺2209億

      郭臺銘沒料到!富士康廠妹成勁敵,搶走大批蘋果訂單,年賺2209億

      胖哥不胡說
      2026-01-13 12:09:17
      1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

      1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場,昔日部下已是軍委副主席,含淚送別這位鐵血師長!

      史海孤雁
      2025-12-17 16:50:24
      趙心童半決賽靜待馬克艾倫,塞爾比遭五連鞭懵圈,球員錦標(biāo)賽賽程

      趙心童半決賽靜待馬克艾倫,塞爾比遭五連鞭懵圈,球員錦標(biāo)賽賽程

      天涯遠(yuǎn)行人
      2026-02-21 10:25:22
      楊采鈺在婆家過年,老公年輕又帥氣,顏值超明星吃得真好

      楊采鈺在婆家過年,老公年輕又帥氣,顏值超明星吃得真好

      話娛論影
      2026-02-20 08:32:29
      我爸來住5天妻子甩臉色,過年岳父來住半個月,我一句話讓她啞口

      我爸來住5天妻子甩臉色,過年岳父來住半個月,我一句話讓她啞口

      小月故事
      2026-02-17 09:00:03
      恒大前總裁夏海鈞找到了!藏匿資產(chǎn)曝光,全球合計竟達(dá)600億!

      恒大前總裁夏海鈞找到了!藏匿資產(chǎn)曝光,全球合計竟達(dá)600億!

      李砍柴
      2025-08-22 17:26:32
      俞灝明:從偶像到戲骨,十年磨一劍的破繭成蝶

      俞灝明:從偶像到戲骨,十年磨一劍的破繭成蝶

      生如稗草
      2026-02-21 08:08:20
      美專家:中國人不可怕,可怕的是他們買了光刻機,卻不用來造芯片

      美專家:中國人不可怕,可怕的是他們買了光刻機,卻不用來造芯片

      世界有奇事
      2026-01-13 16:34:40
      16球11助攻,昂達(dá)夫是本賽季第6位達(dá)成兩雙的五大聯(lián)賽球員

      16球11助攻,昂達(dá)夫是本賽季第6位達(dá)成兩雙的五大聯(lián)賽球員

      懂球帝
      2026-02-21 03:37:09
      馬斯克空降中國,不是為了造車!他盯上一個比芯片更致命的資源

      馬斯克空降中國,不是為了造車!他盯上一個比芯片更致命的資源

      萬物知識圈
      2026-02-20 22:17:48
      雷佳音:大學(xué)時陳赫瞧不起我,見面都躲著走,我農(nóng)村人,就這樣

      雷佳音:大學(xué)時陳赫瞧不起我,見面都躲著走,我農(nóng)村人,就這樣

      白面書誏
      2025-11-20 17:29:35
      “壞膽固醇”下降10%!Nature子刊:僅連續(xù)吃2天燕麥,就能顯著降低膽固醇,且效果至少持續(xù)6周

      “壞膽固醇”下降10%!Nature子刊:僅連續(xù)吃2天燕麥,就能顯著降低膽固醇,且效果至少持續(xù)6周

      梅斯醫(yī)學(xué)
      2026-02-20 07:53:33
      張作霖的廚子晚年坦言:大帥飯桌上有個不成文的規(guī)矩,誰碰誰倒霉

      張作霖的廚子晚年坦言:大帥飯桌上有個不成文的規(guī)矩,誰碰誰倒霉

      千秋文化
      2026-02-15 19:32:40
      風(fēng)暴將起:美軍從卡塔爾和巴林撤離,最高法裁決或刺激川普開打

      風(fēng)暴將起:美軍從卡塔爾和巴林撤離,最高法裁決或刺激川普開打

      邵旭峰域
      2026-02-21 12:24:53
      遼寧省委省政府,祝賀“最強夫妻檔”

      遼寧省委省政府,祝賀“最強夫妻檔”

      上觀新聞
      2026-02-21 06:33:09
      47歲女人直言:丈夫外出務(wù)工,不到半年,我在家沒有守住初心了

      47歲女人直言:丈夫外出務(wù)工,不到半年,我在家沒有守住初心了

      拾代談生活
      2026-02-21 12:54:45
      殺人誅心?齊達(dá)內(nèi)賦閑5年逼宮德尚?要法國隊更衣室埋雷?

      殺人誅心?齊達(dá)內(nèi)賦閑5年逼宮德尚?要法國隊更衣室埋雷?

      落夜足球
      2026-02-21 13:36:52
      史上首次:科學(xué)家用AI模擬黑洞,發(fā)現(xiàn)它通往另一個宇宙?

      史上首次:科學(xué)家用AI模擬黑洞,發(fā)現(xiàn)它通往另一個宇宙?

      觀察宇宙
      2026-02-21 10:54:33
      大批工程人正在加速逃離行業(yè)!

      大批工程人正在加速逃離行業(yè)!

      黯泉
      2026-02-20 21:22:29
      鐵了心對付中國?暴跌58%,俄羅斯大幅加稅,中國汽車出口驟降

      鐵了心對付中國?暴跌58%,俄羅斯大幅加稅,中國汽車出口驟降

      卷史
      2026-02-02 12:01:46
      2026-02-21 14:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個紅包帆布袋:4個孩子7萬多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      時尚
      親子
      數(shù)碼
      藝術(shù)
      家居

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      親子要聞

      假期怎么玩才能不惹爸媽生氣?

      數(shù)碼要聞

      蘋果低價MacBook下月登場:首次搭載A18 Pro手機芯片!

      藝術(shù)要聞

      史洪生油畫作品

      家居要聞

      本真棲居 愛暖伴流年

      無障礙瀏覽 進入關(guān)懷版