<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      LLM 僅靠自身就能增強(qiáng)推理?SePT 給出簡(jiǎn)潔在線自訓(xùn)練范式

      0
      分享至



      本文第一作者李夢(mèng)琦為香港中文大學(xué)(深圳)計(jì)算機(jī)科學(xué)專業(yè)博士生。本項(xiàng)研究是與上海交通大學(xué)趙磊老師、香港中文大學(xué)蘇文藻老師合作,并在香港中文大學(xué)(深圳)孫若愚老師與李肖老師的共同指導(dǎo)下完成。

      在推理后訓(xùn)練里,多數(shù)方法仍依賴獎(jiǎng)勵(lì)模型、驗(yàn)證器或額外教師信號(hào)。如果不依賴這些外部信號(hào),只使用模型自身生成的答案進(jìn)行自訓(xùn)練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出肯定答案,簡(jiǎn)潔的自訓(xùn)練方法,可在數(shù)學(xué)推理任務(wù)準(zhǔn)確率直升10個(gè)點(diǎn)!



      • 論文標(biāo)題:A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
      • 論文:https://arxiv.org/pdf/2510.18814
      • 代碼:https://github.com/ElementQi/SePT



      SePT的在線自訓(xùn)練循環(huán)示意:樣本以采樣溫度 τ_s 生成,訓(xùn)練階段采用標(biāo)準(zhǔn) SFT;下一輪訓(xùn)練數(shù)據(jù)由更新后的模型生成。

      如流程圖所示,SePT 的核心極其簡(jiǎn)潔:當(dāng)前模型先生成答案,再用這些答案做標(biāo)準(zhǔn) SFT,隨后由更新后的模型重新生成下一輪訓(xùn)練數(shù)據(jù)。下面先看這種在線循環(huán)自訓(xùn)練到底帶來了多少提升。

      數(shù)學(xué)推理上的結(jié)果:SePT vs Baseline

      主結(jié)果如圖所示。這里的 baseline 并非默認(rèn)采樣設(shè)置下直接評(píng)測(cè)的基座模型,而是未做后訓(xùn)練、但在推理階段經(jīng)過 temperature sweep 并取最佳結(jié)果的強(qiáng)基線。經(jīng)過 SePT 自訓(xùn)練后, 在 6 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。



      在 Qwen2.5-Math-7B 上,6 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項(xiàng)指標(biāo)上均明顯高于上述 baseline。

      數(shù)學(xué)推理上的結(jié)果:SePT vs RLVR

      如果進(jìn)一步與 RLVR 方法( GRPO) 比較,可以看到:自訓(xùn)練方法SePT 已經(jīng)能夠取得與 GRPO 較為接近的結(jié)果,尤其是在OTM數(shù)據(jù)集上。

      結(jié)合表中的結(jié)果,在 Qwen2.5-Math-7B 上,使用 OTM 時(shí),SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴(kuò)大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設(shè)置下,SePT 的 Pass@1 還略高于 GRPO(40.8 vs. 39.5)。

      這些結(jié)果說明,在本文的比較設(shè)置下,SePT 對(duì)訓(xùn)練題集選擇表現(xiàn)出更小的波動(dòng),而 GRPO 在 DSR 上的增益更明顯。



      OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準(zhǔn)比較。兩套訓(xùn)練題集規(guī)模相近。Δ 表示 DSR 相對(duì) OTM 的變化,陰影標(biāo)出 DSR 至少高出 OTM 2.0 分的情形。

      SePT 算法具體流程

      SePT 有著極其簡(jiǎn)潔的自訓(xùn)練框架設(shè)計(jì),可以概括為以下三個(gè)步驟:



      這一設(shè)計(jì)的關(guān)鍵可概括為:溫度解耦、標(biāo)準(zhǔn)SFT訓(xùn)練,最新模型自生成數(shù)據(jù)。







      SePT 中的在線自生成數(shù)據(jù)

      本文進(jìn)一步通過消融實(shí)驗(yàn)驗(yàn)證了這一設(shè)計(jì)的重要性:如果將“由最新模型逐輪生成下一輪訓(xùn)練數(shù)據(jù)”改為固定數(shù)據(jù)訓(xùn)練,性能會(huì)明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而在線版本的 SePT 可達(dá)到 55.0。



      SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號(hào)中的數(shù)值表示相對(duì) baseline 的變化。

      SePT 中的溫度解耦



      為什么這件事重要?本文的定理一給出了一個(gè)直觀的理論論證





      這一點(diǎn)在實(shí)驗(yàn)上也被直接驗(yàn)證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低于 baseline;而采用 decoupling 后,四項(xiàng)指標(biāo)可以提升到 39.5/57.7/67.9/55.0。

      也就是說,SePT 里“低溫生成 + 標(biāo)準(zhǔn) SFT”對(duì)于數(shù)學(xué)推理的提升并不是一個(gè)經(jīng)驗(yàn) trick,而是理論與實(shí)驗(yàn)都支持的重要設(shè)計(jì)。



      Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對(duì)比。括號(hào)內(nèi)數(shù)值表示方法值與基準(zhǔn)值的差(Method?Baseline)。





      Pass@1、Pass@8、Pass@32 以及 AVG 在基座模型上隨采樣溫度變化的結(jié)果。

      自訓(xùn)練是否會(huì)損害模型通用能力?

      模型的一般能力會(huì)不會(huì)因?yàn)橹辉跀?shù)學(xué)自生成軌跡上繼續(xù)訓(xùn)練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark正面回答了這一問題,測(cè)試基準(zhǔn)包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結(jié)果基本是幾乎不掉:基礎(chǔ)模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本不變;GRPO 也呈現(xiàn)了類似模式。這表明SePT自訓(xùn)練方法不會(huì)明顯損害模型的通用能力。



      Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 訓(xùn)練版本在通用領(lǐng)域的評(píng)測(cè)結(jié)果。

      代碼簡(jiǎn)單可用



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國(guó)海關(guān):2026年一季度俄羅斯對(duì)華石油出口增長(zhǎng)31%

      中國(guó)海關(guān):2026年一季度俄羅斯對(duì)華石油出口增長(zhǎng)31%

      俄羅斯衛(wèi)星通訊社
      2026-04-21 15:10:16
      19歲女孩迷上韓劇,嫁給31歲殘疾韓國(guó)男人!20年過去她怎么樣了?

      19歲女孩迷上韓劇,嫁給31歲殘疾韓國(guó)男人!20年過去她怎么樣了?

      凡知
      2026-04-21 15:34:56
      婆婆執(zhí)意替我們管錢,丈夫答應(yīng),問我:你咋不做飯?一句話他氣暈

      婆婆執(zhí)意替我們管錢,丈夫答應(yīng),問我:你咋不做飯?一句話他氣暈

      小影的娛樂
      2026-04-22 09:23:15
      我第一次與男友同居,男友的行為真是讓我大吃一驚!

      我第一次與男友同居,男友的行為真是讓我大吃一驚!

      小影的娛樂
      2026-04-22 11:54:57
      除了民粹和自我吹噓,永贏族還剩什么?

      除了民粹和自我吹噓,永贏族還剩什么?

      浪子說
      2026-04-22 13:18:53
      湖人G2勝火箭!老詹統(tǒng)領(lǐng)進(jìn)攻,另3首發(fā)齊爆,火箭僅靠2將替補(bǔ)狂鐵

      湖人G2勝火箭!老詹統(tǒng)領(lǐng)進(jìn)攻,另3首發(fā)齊爆,火箭僅靠2將替補(bǔ)狂鐵

      籃球資訊達(dá)人
      2026-04-22 13:21:23
      300890,直線“20cm”漲停!?鈉離子電池大爆發(fā)!

      300890,直線“20cm”漲停!?鈉離子電池大爆發(fā)!

      證券時(shí)報(bào)e公司
      2026-04-22 10:26:32
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報(bào)
      2025-12-14 22:36:54
      這也可以?霍爾木茲海峽驚現(xiàn)詐騙!有人冒充伊朗當(dāng)局,要求用加密貨幣付過境費(fèi),有船只被騙后“闖關(guān)”遭炮擊

      這也可以?霍爾木茲海峽驚現(xiàn)詐騙!有人冒充伊朗當(dāng)局,要求用加密貨幣付過境費(fèi),有船只被騙后“闖關(guān)”遭炮擊

      每日經(jīng)濟(jì)新聞
      2026-04-22 01:36:58
      遲來一年的懺悔!小S親口講述真相,大S執(zhí)意去日本另有深意

      遲來一年的懺悔!小S親口講述真相,大S執(zhí)意去日本另有深意

      阿郎娛樂
      2026-04-22 11:07:26
      讓以色列心驚膽戰(zhàn)的對(duì)手,終于猛龍過江了:既非土耳其,也非伊朗

      讓以色列心驚膽戰(zhàn)的對(duì)手,終于猛龍過江了:既非土耳其,也非伊朗

      遁走的兩輪
      2026-04-19 19:10:28
      日本自衛(wèi)隊(duì)坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

      日本自衛(wèi)隊(duì)坦克炸膛已致3人死亡,什么是坦克炸膛?原因是什么?

      之乎者也小魚兒
      2026-04-21 15:25:57
      從中國(guó)開往伊朗的貨船,遭美炮擊扣押!不到24小時(shí),中方下場(chǎng)表態(tài)

      從中國(guó)開往伊朗的貨船,遭美炮擊扣押!不到24小時(shí),中方下場(chǎng)表態(tài)

      混沌錄
      2026-04-22 13:59:08
      美國(guó)政壇要出大事了:萬斯大概率要當(dāng)選總統(tǒng)。

      美國(guó)政壇要出大事了:萬斯大概率要當(dāng)選總統(tǒng)。

      阿振觀點(diǎn)
      2026-04-21 05:22:52
      效仿徐昕申請(qǐng)離隊(duì)?焦泊喬拒絕與杜鋒交流,休賽期將主動(dòng)尋求交易

      效仿徐昕申請(qǐng)離隊(duì)?焦泊喬拒絕與杜鋒交流,休賽期將主動(dòng)尋求交易

      緋雨兒
      2026-04-22 12:47:29
      徐大雯:嫁給謝晉是她“最錯(cuò)誤”的決定,4個(gè)孩子3個(gè)傻,一生悲苦

      徐大雯:嫁給謝晉是她“最錯(cuò)誤”的決定,4個(gè)孩子3個(gè)傻,一生悲苦

      小蘭聊歷史
      2026-04-20 18:08:04
      烏克蘭拆解俄軍導(dǎo)彈:確認(rèn)朝鮮制造,焊接技術(shù)落后50年仍在實(shí)戰(zhàn)

      烏克蘭拆解俄軍導(dǎo)彈:確認(rèn)朝鮮制造,焊接技術(shù)落后50年仍在實(shí)戰(zhàn)

      桂系007
      2026-04-17 16:34:16
      大變局!阿聯(lián)酋警告美國(guó):或用人民幣結(jié)算石油!美元根基被撬動(dòng)?

      大變局!阿聯(lián)酋警告美國(guó):或用人民幣結(jié)算石油!美元根基被撬動(dòng)?

      王爺說圖表
      2026-04-21 17:17:20
      軍演開始,近兩萬大軍壓境中國(guó),派兵國(guó)家包括菲日,中方反制來了

      軍演開始,近兩萬大軍壓境中國(guó),派兵國(guó)家包括菲日,中方反制來了

      璀璨幻行者
      2026-04-22 12:19:20
      71歲白俄羅斯總統(tǒng)被曝與22歲模特交往,俄媒調(diào)侃:寶刀未老!

      71歲白俄羅斯總統(tǒng)被曝與22歲模特交往,俄媒調(diào)侃:寶刀未老!

      譯言
      2026-04-21 18:18:54
      2026-04-22 14:48:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12829文章數(shù) 142633關(guān)注度
      往期回顧 全部

      科技要聞

      對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

      頭條要聞

      媒體:特朗普關(guān)上了談判的大門 雙方就只剩下一個(gè)選項(xiàng)

      頭條要聞

      媒體:特朗普關(guān)上了談判的大門 雙方就只剩下一個(gè)選項(xiàng)

      體育要聞

      網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

      娛樂要聞

      復(fù)婚無望!baby黃曉明陪小海綿零交流

      財(cái)經(jīng)要聞

      伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

      汽車要聞

      純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

      態(tài)度原創(chuàng)

      游戲
      家居
      數(shù)碼
      健康
      軍事航空

      《天國(guó):拯救》開發(fā)商義舉 捐款保護(hù)真實(shí)歷史城堡

      家居要聞

      極簡(jiǎn)繪夢(mèng) 克制和諧

      數(shù)碼要聞

      官宣!追覓硅谷發(fā)布會(huì)定檔,4月27日-30日登陸北美

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      軍事要聞

      特朗普宣布延長(zhǎng)停火 伊朗表態(tài)

      無障礙瀏覽 進(jìn)入關(guān)懷版