網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LLM 僅靠自身就能增強(qiáng)推理？SePT 給出簡(jiǎn)潔在線自訓(xùn)練范式

2026-04-22 11:01:55　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文第一作者李夢(mèng)琦為香港中文大學(xué)（深圳）計(jì)算機(jī)科學(xué)專業(yè)博士生。本項(xiàng)研究是與上海交通大學(xué)趙磊老師、香港中文大學(xué)蘇文藻老師合作，并在香港中文大學(xué)（深圳）孫若愚老師與李肖老師的共同指導(dǎo)下完成。

在推理后訓(xùn)練里，多數(shù)方法仍依賴獎(jiǎng)勵(lì)模型、驗(yàn)證器或額外教師信號(hào)。如果不依賴這些外部信號(hào)，只使用模型自身生成的答案進(jìn)行自訓(xùn)練，是否仍然能夠提升推理能力？是的！SePT（Self-evolving Post-Training）給出肯定答案，簡(jiǎn)潔的自訓(xùn)練方法，可在數(shù)學(xué)推理任務(wù)準(zhǔn)確率直升10個(gè)點(diǎn)！

論文標(biāo)題：A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
論文：https://arxiv.org/pdf/2510.18814
代碼：https://github.com/ElementQi/SePT

SePT的在線自訓(xùn)練循環(huán)示意：樣本以采樣溫度 τ_s 生成，訓(xùn)練階段采用標(biāo)準(zhǔn) SFT；下一輪訓(xùn)練數(shù)據(jù)由更新后的模型生成。

如流程圖所示，SePT 的核心極其簡(jiǎn)潔：當(dāng)前模型先生成答案，再用這些答案做標(biāo)準(zhǔn) SFT，隨后由更新后的模型重新生成下一輪訓(xùn)練數(shù)據(jù)。下面先看這種在線循環(huán)自訓(xùn)練到底帶來了多少提升。

數(shù)學(xué)推理上的結(jié)果：SePT vs Baseline

主結(jié)果如圖所示。這里的 baseline 并非默認(rèn)采樣設(shè)置下直接評(píng)測(cè)的基座模型，而是未做后訓(xùn)練、但在推理階段經(jīng)過 temperature sweep 并取最佳結(jié)果的強(qiáng)基線。經(jīng)過 SePT 自訓(xùn)練后，在 6 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。

在 Qwen2.5-Math-7B 上，6 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG：SePT 在各項(xiàng)指標(biāo)上均明顯高于上述 baseline。

數(shù)學(xué)推理上的結(jié)果：SePT vs RLVR

如果進(jìn)一步與 RLVR 方法（ GRPO）比較，可以看到：自訓(xùn)練方法SePT 已經(jīng)能夠取得與 GRPO 較為接近的結(jié)果，尤其是在OTM數(shù)據(jù)集上。

結(jié)合表中的結(jié)果，在 Qwen2.5-Math-7B 上，使用 OTM 時(shí)，SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6，差距只有 1.4；而在 DSR 上，這一差距擴(kuò)大為 4.1（55.0 vs. 59.1）。在 DeepSeek-Math-7B-Instruct 上，同樣的差距分別為 0.4（33.0 vs. 33.4）和 1.7（33.9 vs. 35.6）。甚至在 Qwen2.5-Math-7B 的 OTM 設(shè)置下，SePT 的 Pass@1 還略高于 GRPO（40.8 vs. 39.5）。

這些結(jié)果說明，在本文的比較設(shè)置下，SePT 對(duì)訓(xùn)練題集選擇表現(xiàn)出更小的波動(dòng)，而 GRPO 在 DSR 上的增益更明顯。

OpenThoughts-Math（OTM）和 DeepScaleR（DSR）在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準(zhǔn)比較。兩套訓(xùn)練題集規(guī)模相近。Δ 表示 DSR 相對(duì) OTM 的變化，陰影標(biāo)出 DSR 至少高出 OTM 2.0 分的情形。

SePT 算法具體流程

SePT 有著極其簡(jiǎn)潔的自訓(xùn)練框架設(shè)計(jì)，可以概括為以下三個(gè)步驟：

這一設(shè)計(jì)的關(guān)鍵可概括為：溫度解耦、標(biāo)準(zhǔn)SFT訓(xùn)練，最新模型自生成數(shù)據(jù)。

SePT 中的在線自生成數(shù)據(jù)

本文進(jìn)一步通過消融實(shí)驗(yàn)驗(yàn)證了這一設(shè)計(jì)的重要性：如果將“由最新模型逐輪生成下一輪訓(xùn)練數(shù)據(jù)”改為固定數(shù)據(jù)訓(xùn)練，性能會(huì)明顯下降。以 Qwen2.5-Math-7B 為例，SePT (Offline) 的 AVG 為 45.5，而在線版本的 SePT 可達(dá)到 55.0。

SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較，括號(hào)中的數(shù)值表示相對(duì) baseline 的變化。

SePT 中的溫度解耦

為什么這件事重要？本文的定理一給出了一個(gè)直觀的理論論證：

這一點(diǎn)在實(shí)驗(yàn)上也被直接驗(yàn)證了。以 Qwen2.5-Math-7B 為例，若使用 temperature coupling，Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6，Pass@1 甚至低于 baseline；而采用 decoupling 后，四項(xiàng)指標(biāo)可以提升到 39.5/57.7/67.9/55.0。

也就是說，SePT 里“低溫生成 + 標(biāo)準(zhǔn) SFT”對(duì)于數(shù)學(xué)推理的提升并不是一個(gè)經(jīng)驗(yàn) trick，而是理論與實(shí)驗(yàn)都支持的重要設(shè)計(jì)。

Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對(duì)比。括號(hào)內(nèi)數(shù)值表示方法值與基準(zhǔn)值的差（Method?Baseline）。

Pass@1、Pass@8、Pass@32 以及 AVG 在基座模型上隨采樣溫度變化的結(jié)果。

自訓(xùn)練是否會(huì)損害模型通用能力？

模型的一般能力會(huì)不會(huì)因?yàn)橹辉跀?shù)學(xué)自生成軌跡上繼續(xù)訓(xùn)練而受損？本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark正面回答了這一問題，測(cè)試基準(zhǔn)包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結(jié)果基本是幾乎不掉：基礎(chǔ)模型分別為 23.4/47.5/29.9/41.4/32.1，SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說，SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升，BBH 基本不變；GRPO 也呈現(xiàn)了類似模式。這表明SePT自訓(xùn)練方法不會(huì)明顯損害模型的通用能力。

Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 訓(xùn)練版本在通用領(lǐng)域的評(píng)測(cè)結(jié)果。

代碼簡(jiǎn)單可用

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.