網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

首個(gè)測試時(shí)共進(jìn)化合成框架TTCS：在「左右互搏」中突破推理瓶頸

2026-02-10 17:28:32　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在 DeepSeek-R1 和 OpenAI o1 引領(lǐng)的「后訓(xùn)練（Post-Training）」與「測試時(shí)擴(kuò)展」（Test-Time Scaling）」時(shí)代，如何利用測試時(shí)的算力進(jìn)行有效訓(xùn)練成為焦點(diǎn)。

然而，面對(duì)極難的測試題，現(xiàn)有的測試時(shí)訓(xùn)練（Test-Time Training, TTT）往往因偽標(biāo)簽噪聲大而陷入「瞎猜」的困境。

廈門大學(xué) DeepLIT 課題組提出了一種全新的測試時(shí)課程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。該框架不依賴任何外部人工標(biāo)注，通過生成器（Synthesizer）與求解器（Solver）的共進(jìn)化博弈，自動(dòng)合成處于模型「能力邊界」的課程數(shù)據(jù)，解決了測試樣本過難導(dǎo)致的訓(xùn)練坍塌問題。

實(shí)驗(yàn)顯示，在 Qwen2.5-Math-1.5B 上，TTCS 將數(shù)學(xué)推理平均分從 17.30 暴漲至 41.49，在極具挑戰(zhàn)的 AIME 競賽題上更是顯著超越了 TTRL 等強(qiáng)基線。

論文標(biāo)題：TTCS: Test-Time Curriculum Synthesis for Self-Evolving
論文鏈接：https://arxiv.org/abs/2601.22628
項(xiàng)目代碼：https://github.com/XMUDeepLIT/TTCS
HuggingFace 主頁：https://huggingface.co/papers/2601.22628

01. 核心動(dòng)機(jī)：當(dāng)「題海戰(zhàn)術(shù)」遇到「超綱難題」

隨著大語言模型（LLM）的發(fā)展，業(yè)界共識(shí)已從單純的「預(yù)訓(xùn)練擴(kuò)大參數(shù)」轉(zhuǎn)向挖掘測試時(shí)擴(kuò)展（Test-Time Scaling）的潛力。

DeepSeek-R1 等模型的成功證明了強(qiáng)化學(xué)習(xí)（RL）在推理任務(wù)上的巨大威力。然而，目前的 RL 范式（如 RLVR）通常依賴大量高質(zhì)量的 Ground Truth 標(biāo)簽，這限制了其擴(kuò)展性。

為了擺脫對(duì)標(biāo)簽的依賴，測試時(shí)訓(xùn)練（Test-Time Training, TTT）應(yīng)運(yùn)而生。其核心思想是：在測試階段，利用模型對(duì)測試題生成的偽標(biāo)簽（Pseudo-labels）進(jìn)行即時(shí)更新。

但在面對(duì)高難度推理任務(wù)（如 AIME 數(shù)學(xué)競賽）時(shí)，TTT 遭遇了致命的「能力錯(cuò)配」悖論：

偽標(biāo)簽不可靠（Noisy Rewards）：面對(duì) AIME 這種難題，由于模型本身能力不足，即使進(jìn)行多次采樣（Majority Voting），大部分答案也是錯(cuò)的。基于錯(cuò)誤的共識(shí)進(jìn)行訓(xùn)練，只會(huì)讓模型「越學(xué)越偏」。（如 Intro 中 Figure 1 (a) 所示）
缺乏中間階梯（Steep Learning Curve）：就像讓小學(xué)生直接做微積分，缺乏中間難度的過渡題目，模型無法跨越巨大的難度鴻溝，導(dǎo)致優(yōu)化失敗。

團(tuán)隊(duì)思考：如果沒有老師，模型能否像人類自學(xué)者一樣，通過自己給自己出題，把一道難題拆解變?yōu)橐唤M成梯度、可解決的練習(xí)題，從而實(shí)現(xiàn)螺旋上升？

基于此，團(tuán)隊(duì)提出了TTCS—— 一個(gè)基于共進(jìn)化（Co-evolution）的測試時(shí)課程合成框架。

02. 方法論：Synthesizer 與 Solver 的雙重共進(jìn)化

TTCS 的核心在于構(gòu)建了一個(gè)閉環(huán)的生態(tài)系統(tǒng)，包含兩個(gè)共享初始權(quán)重的 Agent，它們通過迭代式的GRPO (Group Relative Policy Optimization)進(jìn)行訓(xùn)練：

角色分工

關(guān)鍵機(jī)制：如何尋找「能力邊界」？

為了防止生成的題目太簡單（無效訓(xùn)練）或太難（無效反饋），團(tuán)隊(duì)設(shè)計(jì)了一套精密的能力自適應(yīng)獎(jiǎng)勵(lì)（Capability-Adaptive Reward）機(jī)制：

閉環(huán)效應(yīng)：

Solver 能力提升后，其「能力邊界」會(huì)向更難的區(qū)域移動(dòng)，感知到這一變化的 Synthesizer 為了獲得高獎(jiǎng)勵(lì)會(huì)自動(dòng)生成難度更高的問題，Solver 繼續(xù)攻克新難題。二者相互追趕，在測試時(shí)實(shí)現(xiàn)了動(dòng)態(tài)的 Curriculum Learning。

03. 硬核實(shí)驗(yàn)結(jié)果：推理能力提升

團(tuán)隊(duì)在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多個(gè)權(quán)威數(shù)學(xué)基準(zhǔn)上進(jìn)行了廣泛驗(yàn)證。基礎(chǔ)模型涵蓋 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。

1. 主流基準(zhǔn)上的碾壓式提升

TTCS 在所有尺寸的模型上均取得了顯著優(yōu)于基線的成績（詳見 Table 1）：

Qwen2.5-Math-1.5B：TTCS 的平均分達(dá)到，相比預(yù)訓(xùn)練模型（17.30）提升了+24.19 分！即使對(duì)比測試時(shí)微調(diào)的強(qiáng)基線 TTRL（36.56），依然有大幅優(yōu)勢(shì)。
Qwen2.5-Math-7B：TTCS 平均分達(dá)到，相比廣泛使用的 Self-Consistency（32.15）提升了+20.39 分，再次證明了主動(dòng)的測試時(shí)訓(xùn)練遠(yuǎn)勝于被動(dòng)的多路采樣。

2. 攻克高難度競賽題 (AIME)

在最能體現(xiàn)推理上限的 AIME 競賽題上，TTCS 展現(xiàn)了極強(qiáng)的攻堅(jiān)能力：

AIME 2024：在 1.5B 模型上，TTRL 僅得 13.23 分，而 TTCS 躍升至分，提升幅度達(dá)
AIME 2025：在 7B 模型上，TTCS 達(dá)到了分，顯著優(yōu)于 TTRL 的 14.06 分。
這有力地證明了：當(dāng)測試題太難導(dǎo)致 TTRL 的偽標(biāo)簽失效時(shí)，TTCS 通過合成中間難度的課程，成功架起了通往高難度推理的橋梁。

3. 為什么 TTCS 有效？（深度分析）

為了探究性能提升的來源，團(tuán)隊(duì)進(jìn)行了多維度的分析：

不僅僅是數(shù)學(xué)（泛化性）

實(shí)驗(yàn) Q1 顯示，在 AIME 上進(jìn)行測試時(shí)訓(xùn)練的 TTCS 模型，在MMLU-Pro和SuperGPQA等通用領(lǐng)域推理任務(wù)上也實(shí)現(xiàn)了性能躍升（Figure 3a）。這說明模型學(xué)到的是通用的推理邏輯，而非簡單的過擬合。

動(dòng)態(tài)老師 > 靜態(tài)名師

團(tuán)隊(duì)嘗試用一個(gè)更強(qiáng)但固定的Qwen2.5-14B-Instruct模型作為 Synthesizer（實(shí)驗(yàn) Q3）。結(jié)果令人驚訝：共進(jìn)化的 1.5B Synthesizer (TTCS) 帶來的提升 (+5.34) 竟然是靜態(tài) 14B Synthesizer (+2.66) 的兩倍！

這揭示了一個(gè)深刻的道理：適應(yīng)學(xué)生當(dāng)前水平的老師，比單純水平高但不懂因材施教的老師更重要。

數(shù)據(jù)效率驚人

即使只使用 10% 的測試數(shù)據(jù)（僅 3 道題），TTCS 在 AIME24 上的準(zhǔn)確率就能達(dá)到13.33，遠(yuǎn)超同等數(shù)據(jù)量下 TTRL 的表現(xiàn)（Figure 4）。這表明 TTCS 能夠高效地榨取每一個(gè)測試樣本的信息量。

04. 總結(jié)與展望

TTCS 框架的提出，是對(duì)「測試時(shí)計(jì)算」范式的一次重構(gòu)。團(tuán)隊(duì)證明了：在測試時(shí)，模型不應(yīng)是被動(dòng)的解題者，而應(yīng)是主動(dòng)的課程設(shè)計(jì)者。

通過 Synthesizer 和 Solver 的共進(jìn)化，TTCS 完美解決了測試時(shí)訓(xùn)練中「數(shù)據(jù)稀缺」和「難度斷層」的兩大痛點(diǎn)。

這不僅為提升大模型在復(fù)雜數(shù)學(xué)、代碼推理任務(wù)上的表現(xiàn)提供了新思路，也為未來自進(jìn)化智能體（Self-Evolving Agents）—— 即模型能夠在完全未知的環(huán)境中通過自我博弈實(shí)現(xiàn)持續(xù)進(jìn)化 —— 奠定了堅(jiān)實(shí)基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.