<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      拒絕“熵崩塌”和“熵爆炸”!這項(xiàng)研究讓大模型推理成績(jī)飆升

      0
      分享至

      大語言模型在RLVR訓(xùn)練中面臨的“熵困境”,有解了!

      2024年以來,以O(shè)penAI o1、DeepSeek-R1、Kimi K1、Qwen3等為代表的大模型,在數(shù)學(xué)、代碼和科學(xué)推理任務(wù)上取得了顯著突破。這些進(jìn)展很大程度上得益于一種名為RLVR (基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))的方法。

      該方法通過數(shù)學(xué)驗(yàn)證、單元測(cè)試等可自動(dòng)判斷對(duì)錯(cuò)的方式提供訓(xùn)練信號(hào),替代了傳統(tǒng)依賴人類評(píng)判的流程,使模型能夠進(jìn)行大規(guī)模、高效率的自我改進(jìn)。

      然而,RLVR在實(shí)踐中始終面臨“探索機(jī)制極易失衡”這一關(guān)鍵瓶頸——要么探索受限,陷入熵崩塌;要么探索失控,引發(fā)熵爆炸。

      為突破這一瓶頸,來自上海人工智能實(shí)驗(yàn)室和復(fù)旦大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關(guān)鍵決策、穩(wěn)定訓(xùn)練過程的三重機(jī)制,實(shí)現(xiàn)了對(duì)探索行為的精準(zhǔn)調(diào)控。

      實(shí)驗(yàn)證明,該方法不僅在多項(xiàng)數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。



      下面詳細(xì)來看——

      核心困境:探索的“兩難陷阱”

      在RLVR訓(xùn)練中,研究人員期望模型能夠持續(xù)探索多樣化的解題路徑,以避免過早陷入局部最優(yōu)。

      一個(gè)自然的想法是:引入熵正則化(entropy regularization)。

      這是強(qiáng)化學(xué)習(xí)中鼓勵(lì)探索的經(jīng)典手段。其核心思想很簡(jiǎn)單:在優(yōu)化目標(biāo)中加入一項(xiàng),鼓勵(lì)模型在每一步生成時(shí)保持一定的“不確定性”,不要過早把概率全壓在少數(shù)幾個(gè)詞上。

      具體來說,就是計(jì)算每一步輸出分布的熵(衡量“混亂程度”),再把整條推理軌跡的平均熵加到訓(xùn)練目標(biāo)里,用一個(gè)系數(shù)控制探索強(qiáng)度。

      以下公式分別為:熵的計(jì)算公式及熵正則的優(yōu)化目標(biāo)。





      然而,這一策略在大型推理模型(LRM)的復(fù)雜場(chǎng)景下卻極易走向兩個(gè)極端:

      • 探索受限(熵崩塌)

      當(dāng)太小,熵項(xiàng)幾乎不起作用,模型迅速退化為近似確定性策略。平均熵迅速收斂,即發(fā)生熵崩塌。幾輪訓(xùn)練后,所有回答都高度相似,陷入“舒適區(qū)”。這種熵崩塌現(xiàn)象不僅扼殺了模型的多樣性,也使其推理能力在訓(xùn)練早期就觸及天花板,無法充分釋放潛力。

      • 探索失控(熵爆炸)

      反之,當(dāng)稍大,模型便極易在龐大的動(dòng)作空間(數(shù)十萬個(gè)token)與超長(zhǎng)的推理軌跡(上千步生成)中失控。根據(jù)熵的定義,當(dāng)概率分布越“平”,熵就越高。而在如此龐大的詞表中,哪怕只把一點(diǎn)點(diǎn)概率質(zhì)量從高義詞(如“因此”)挪到無意義詞(如“<”“#@$%”),也能帶來顯著的熵增。

      更糟的是,在自回歸生成中,這種不確定性會(huì)沿著軌跡逐步累積——早期幾步的微小混亂,會(huì)迅速放大為整條推理鏈的失控。最終使得模型為了“拉高熵”,在每個(gè)位置、對(duì)每個(gè)token都分配一點(diǎn)概率,導(dǎo)致生成內(nèi)容充斥無意義符號(hào),邏輯斷裂、語義崩壞——這就是典型的熵爆炸(entropy explosion)。

      傳統(tǒng)方法會(huì)失效的根本原因在于:熵正則化的激勵(lì)是“無差別”的——它假設(shè)所有token、所有位置都同等值得探索。但LRM的生成過程具有鮮明的結(jié)構(gòu)性:

      • 在每個(gè)生成步驟上,僅有概率排名靠前的少數(shù)token具備語義合理性,其余絕大多數(shù)token概率趨近于零且無實(shí)際意義;
      • 在整個(gè)生成序列中,僅有少數(shù)承擔(dān)邏輯樞紐作用的關(guān)鍵詞(如邏輯連接詞、變量名、結(jié)論引導(dǎo)詞)真正影響推理走向,而大量用于句法填充的常規(guī)詞則應(yīng)保持高確定性,以維持推理連貫性。

      正因忽略了這種“探索價(jià)值的非均勻分布”,傳統(tǒng)熵正則化不僅難以有效引導(dǎo)探索,反而容易引發(fā)訓(xùn)練不穩(wěn)定,甚至背離提升推理能力的初衷。

      下圖表明,訓(xùn)練前模型的概率分布高度集中,且只有少量位置在邏輯上關(guān)鍵,值得探索;過度探索后概率被攤薄,生成內(nèi)容混亂。



      破局之道:為探索裝上“精準(zhǔn)導(dǎo)航”

      針對(duì)傳統(tǒng)方法的不足,研究人員提出選擇性熵正則化方法(SIREN),通過結(jié)構(gòu)化約束實(shí)現(xiàn)探索過程的精細(xì)調(diào)控。SIREN包含三個(gè)核心機(jī)制:

      1、劃定探索范圍(Top-p掩碼, Top-P Mask)

      在每個(gè)生成步驟中,將熵的計(jì)算范圍嚴(yán)格限定于概率最高的核心token集合,確保探索僅在語義合理的候選詞中進(jìn)行,避免無效探索。

      2、識(shí)別關(guān)鍵決策點(diǎn)(峰值熵掩碼,Peak-entropy Mask)

      自動(dòng)識(shí)別生成序列中熵值顯著高于平均水平的邏輯關(guān)鍵詞(如推理連接詞、假設(shè)引導(dǎo)詞等),并將探索激勵(lì)集中作用于這些關(guān)鍵位置。

      3、穩(wěn)定訓(xùn)練過程(自錨定正則化, Self-anchored Regularization)

      將熵值目標(biāo)從最大化調(diào)整為維持合理區(qū)間,通過動(dòng)態(tài)錨定機(jī)制使探索強(qiáng)度始終處于可控范圍,避免訓(xùn)練失穩(wěn)。

      這一方法首次在RLVR框架中實(shí)現(xiàn)了對(duì)探索范圍、位置和強(qiáng)度的三重精準(zhǔn)控制,為大規(guī)模推理模型的穩(wěn)定訓(xùn)練提供了可靠解決方案。

      下圖為SIREN的方法流程:



      實(shí)驗(yàn)驗(yàn)證:有效探索促進(jìn)性能提升

      實(shí)驗(yàn)結(jié)果顯示,SIREN在不同模型和數(shù)據(jù)集上均取得顯著提升。

      以下為SIREN在Qwen2.5-Math-7B上的實(shí)驗(yàn)結(jié)果:



      以及SIREN在其他基座模型上的實(shí)驗(yàn)結(jié)果:



      上述結(jié)果表明:

      • 在Qwen2.5-Math-7B上,SIREN平均maj@k達(dá)54.6%,超越最強(qiáng)基線4.8%
      • 在最具挑戰(zhàn)的AIME24/25上,提升均達(dá)6.6%
      • 在1.5B到8B不同規(guī)模、不同基座的模型上均穩(wěn)定有效。

      那么,這些性能提升從何而來?

      分析表明,這正是有效探索帶來的根本性改變。與傳統(tǒng)的熵正則方法相比,SIREN展現(xiàn)出更合理有效的探索模式。

      下圖中,SIREN展現(xiàn)出較高的pass@k,探索邊界顯著擴(kuò)展:



      還能避免困惑度坍縮,SIREN將答案多樣性保持良好:



      下圖表明,先加大探索再緩慢收斂,訓(xùn)練過程平穩(wěn)可控:



      小結(jié)

      這項(xiàng)研究致力于解決大語言模型在RLVR訓(xùn)練中面臨的策略探索難題

      通過系統(tǒng)的實(shí)證分析,研究人員發(fā)現(xiàn)傳統(tǒng)的探索機(jī)制在大規(guī)模動(dòng)作空間和長(zhǎng)序列生成中極易失衡,導(dǎo)致模型陷入熵崩塌和熵爆炸的困境。

      為突破這一瓶頸,團(tuán)隊(duì)提出了選擇性熵正則化方法(SIREN),通過劃定探索范圍、聚焦關(guān)鍵決策、穩(wěn)定訓(xùn)練過程的三重機(jī)制,實(shí)現(xiàn)了對(duì)探索行為的精準(zhǔn)調(diào)控。實(shí)驗(yàn)證明,該方法不僅在多項(xiàng)數(shù)學(xué)推理基準(zhǔn)上取得了顯著性能提升,更重要的是,它讓模型的探索過程變得更加高效與可控。

      團(tuán)隊(duì)表示,展望未來,隨著強(qiáng)化學(xué)習(xí)成為大模型后訓(xùn)練的主流方法,如何實(shí)現(xiàn)穩(wěn)定、可控、高效的探索,將成為釋放大模型潛力、突破性能瓶頸的核心議題。該研究提出的選擇性探索調(diào)控機(jī)制,為探索的精細(xì)化提供了一種可行的解決方案。

      團(tuán)隊(duì)期待這項(xiàng)工作能為下一代推理模型的訓(xùn)練范式提供啟發(fā),推動(dòng)大模型在數(shù)學(xué)、代碼、科學(xué)推理等復(fù)雜任務(wù)以及其他更廣闊的應(yīng)用領(lǐng)域走得更遠(yuǎn)。

      論文鏈接:https://arxiv.org/abs/2509.25133
      項(xiàng)目主頁:https://github.com/Linn3a/siren

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      沉默半月終開口,李麗婧談張雪峰,女兒近況惹人擔(dān)憂

      沉默半月終開口,李麗婧談張雪峰,女兒近況惹人擔(dān)憂

      皮蛋兒電影
      2026-04-08 22:36:46
      梅根復(fù)活節(jié)曬娃效果出人意料,莉莉貝特阿奇的三個(gè)疑點(diǎn)被揪住不放

      梅根復(fù)活節(jié)曬娃效果出人意料,莉莉貝特阿奇的三個(gè)疑點(diǎn)被揪住不放

      老吳教育課堂
      2026-04-10 18:20:07
      博士讀碩士怎么個(gè)事

      博士讀碩士怎么個(gè)事

      阿亮評(píng)論
      2026-04-11 09:30:48
      巴頓孫子走進(jìn)烏克蘭指揮中心:每一次擊殺都在大屏直播

      巴頓孫子走進(jìn)烏克蘭指揮中心:每一次擊殺都在大屏直播

      桂系007
      2026-04-11 00:11:11
      繼德國(guó)之后,英國(guó)也開始貼出“中文標(biāo)語”?中國(guó)游客:不能夠接受

      繼德國(guó)之后,英國(guó)也開始貼出“中文標(biāo)語”?中國(guó)游客:不能夠接受

      潮鹿逐夢(mèng)
      2026-04-02 12:31:48
      封鎖6周,超2萬海員被困船上:同事死去,不得不與遺體共處一船;物資短缺,有人已出現(xiàn)“精神崩潰”,還有人辭職并拒絕穿越霍爾木茲海峽

      封鎖6周,超2萬海員被困船上:同事死去,不得不與遺體共處一船;物資短缺,有人已出現(xiàn)“精神崩潰”,還有人辭職并拒絕穿越霍爾木茲海峽

      每日經(jīng)濟(jì)新聞
      2026-04-11 11:12:13
      悲催!網(wǎng)傳有女生舉報(bào)送桶裝水的大爺進(jìn)出女宿舍,現(xiàn)抱怨搬水太累

      悲催!網(wǎng)傳有女生舉報(bào)送桶裝水的大爺進(jìn)出女宿舍,現(xiàn)抱怨搬水太累

      火山詩(shī)話
      2026-04-10 11:12:20
      涉嫌嚴(yán)重違紀(jì)違法,楊福仁被查

      涉嫌嚴(yán)重違紀(jì)違法,楊福仁被查

      吉刻新聞
      2026-04-11 12:55:12
      茶山鎮(zhèn)黨委原書記黃錦發(fā)嚴(yán)重違紀(jì)違法被開除黨籍和公職

      茶山鎮(zhèn)黨委原書記黃錦發(fā)嚴(yán)重違紀(jì)違法被開除黨籍和公職

      南方都市報(bào)
      2026-04-11 09:52:16
      4.11今日金價(jià):不必等待!不出意外的話,金價(jià)或?qū)v史重演!

      4.11今日金價(jià):不必等待!不出意外的話,金價(jià)或?qū)v史重演!

      愛看劇的阿峰
      2026-04-11 12:48:19
      美國(guó)第一夫人發(fā)聲后 國(guó)會(huì)稱將就愛潑斯坦案舉行聽證會(huì)

      美國(guó)第一夫人發(fā)聲后 國(guó)會(huì)稱將就愛潑斯坦案舉行聽證會(huì)

      財(cái)聯(lián)社
      2026-04-11 14:14:18
      江蘇省掛號(hào)費(fèi)最貴的十位醫(yī)生

      江蘇省掛號(hào)費(fèi)最貴的十位醫(yī)生

      華庭講美食
      2026-04-10 12:09:24
      氣場(chǎng)足!36歲DAZN女主持曬球場(chǎng)美照,配文:我的足球復(fù)活節(jié)

      氣場(chǎng)足!36歲DAZN女主持曬球場(chǎng)美照,配文:我的足球復(fù)活節(jié)

      科學(xué)發(fā)掘
      2026-04-11 01:46:36
      剛亮底牌就被打腫臉!中方無上限封鎖,美日“千里眼”徹底報(bào)廢!

      剛亮底牌就被打腫臉!中方無上限封鎖,美日“千里眼”徹底報(bào)廢!

      觀察者海風(fēng)
      2026-04-08 21:17:56
      鹽水洗藍(lán)莓等于吃蟲卵!老果農(nóng)教一招,蟲子跑光營(yíng)養(yǎng)全保

      鹽水洗藍(lán)莓等于吃蟲卵!老果農(nóng)教一招,蟲子跑光營(yíng)養(yǎng)全保

      開心美食白科
      2026-04-09 09:44:59
      劉德華12歲女兒首度亮相演唱會(huì),笑容甜美,氣質(zhì)不輸圈內(nèi)頂流明星,神似16歲的劉亦菲

      劉德華12歲女兒首度亮相演唱會(huì),笑容甜美,氣質(zhì)不輸圈內(nèi)頂流明星,神似16歲的劉亦菲

      二妹扯娛
      2026-04-11 13:13:15
      男人開口問你要這樣?xùn)|西,證明他多半是有坑的

      男人開口問你要這樣?xùn)|西,證明他多半是有坑的

      冷愛
      2026-04-09 15:22:19
      美伊停火內(nèi)幕曝光!巴官員:中國(guó)本不愿擔(dān)保,經(jīng)巴方勸說才出面

      美伊停火內(nèi)幕曝光!巴官員:中國(guó)本不愿擔(dān)保,經(jīng)巴方勸說才出面

      老謝談史
      2026-04-11 14:19:11
      黎巴嫩宣布全國(guó)哀悼

      黎巴嫩宣布全國(guó)哀悼

      南方都市報(bào)
      2026-04-09 09:24:03
      一小國(guó)屢受侵略,加入中國(guó)后不愿離開,現(xiàn)成我國(guó)的一個(gè)“寶貝縣”

      一小國(guó)屢受侵略,加入中國(guó)后不愿離開,現(xiàn)成我國(guó)的一個(gè)“寶貝縣”

      大魚簡(jiǎn)科
      2026-04-10 11:43:17
      2026-04-11 15:39:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12457文章數(shù) 176449關(guān)注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

      頭條要聞

      媒體:多套雷達(dá)系統(tǒng)受損 美國(guó)尷尬發(fā)現(xiàn)"又要求助中國(guó)"

      頭條要聞

      媒體:多套雷達(dá)系統(tǒng)受損 美國(guó)尷尬發(fā)現(xiàn)"又要求助中國(guó)"

      體育要聞

      換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財(cái)經(jīng)要聞

      從日本翻身看:這次誰能扛住高油價(jià)?

      汽車要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬起

      態(tài)度原創(chuàng)

      教育
      本地
      藝術(shù)
      公開課
      軍事航空

      教育要聞

      腦科學(xué)揭秘:7歲前不養(yǎng)成3個(gè)腦習(xí)慣,孩子上了小學(xué)天天被找家長(zhǎng)

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      藝術(shù)要聞

      17位當(dāng)代青年畫家油畫欣賞

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗議長(zhǎng)帶四名遇難兒童照片赴美伊談判

      無障礙瀏覽 進(jìn)入關(guān)懷版