![]()
在 DeepSeek-R1 和 OpenAI o1 引領(lǐng)的「后訓(xùn)練(Post-Training)」與「測試時(shí)擴(kuò)展」(Test-Time Scaling)」時(shí)代,如何利用測試時(shí)的算力進(jìn)行有效訓(xùn)練成為焦點(diǎn)。
然而,面對(duì)極難的測試題,現(xiàn)有的測試時(shí)訓(xùn)練(Test-Time Training, TTT)往往因偽標(biāo)簽噪聲大而陷入「瞎猜」的困境。
廈門大學(xué) DeepLIT 課題組提出了一種全新的測試時(shí)課程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。該框架不依賴任何外部人工標(biāo)注,通過生成器(Synthesizer)與求解器(Solver)的共進(jìn)化博弈,自動(dòng)合成處于模型「能力邊界」的課程數(shù)據(jù),解決了測試樣本過難導(dǎo)致的訓(xùn)練坍塌問題。
實(shí)驗(yàn)顯示,在 Qwen2.5-Math-1.5B 上,TTCS 將數(shù)學(xué)推理平均分從 17.30 暴漲至 41.49,在極具挑戰(zhàn)的 AIME 競賽題上更是顯著超越了 TTRL 等強(qiáng)基線。
![]()
- 論文標(biāo)題:TTCS: Test-Time Curriculum Synthesis for Self-Evolving
- 論文鏈接:https://arxiv.org/abs/2601.22628
- 項(xiàng)目代碼:https://github.com/XMUDeepLIT/TTCS
- HuggingFace 主頁:https://huggingface.co/papers/2601.22628
01. 核心動(dòng)機(jī):當(dāng)「題海戰(zhàn)術(shù)」遇到「超綱難題」
隨著大語言模型(LLM)的發(fā)展,業(yè)界共識(shí)已從單純的「預(yù)訓(xùn)練擴(kuò)大參數(shù)」轉(zhuǎn)向挖掘測試時(shí)擴(kuò)展(Test-Time Scaling)的潛力。
DeepSeek-R1 等模型的成功證明了強(qiáng)化學(xué)習(xí)(RL)在推理任務(wù)上的巨大威力。然而,目前的 RL 范式(如 RLVR)通常依賴大量高質(zhì)量的 Ground Truth 標(biāo)簽,這限制了其擴(kuò)展性。
為了擺脫對(duì)標(biāo)簽的依賴,測試時(shí)訓(xùn)練(Test-Time Training, TTT)應(yīng)運(yùn)而生。其核心思想是:在測試階段,利用模型對(duì)測試題生成的偽標(biāo)簽(Pseudo-labels)進(jìn)行即時(shí)更新。
但在面對(duì)高難度推理任務(wù)(如 AIME 數(shù)學(xué)競賽)時(shí),TTT 遭遇了致命的「能力錯(cuò)配」悖論:
- 偽標(biāo)簽不可靠(Noisy Rewards):面對(duì) AIME 這種難題,由于模型本身能力不足,即使進(jìn)行多次采樣(Majority Voting),大部分答案也是錯(cuò)的。基于錯(cuò)誤的共識(shí)進(jìn)行訓(xùn)練,只會(huì)讓模型「越學(xué)越偏」。(如 Intro 中 Figure 1 (a) 所示)
- 缺乏中間階梯(Steep Learning Curve):就像讓小學(xué)生直接做微積分,缺乏中間難度的過渡題目,模型無法跨越巨大的難度鴻溝,導(dǎo)致優(yōu)化失敗。
團(tuán)隊(duì)思考:如果沒有老師,模型能否像人類自學(xué)者一樣,通過自己給自己出題,把一道難題拆解變?yōu)橐唤M成梯度、可解決的練習(xí)題,從而實(shí)現(xiàn)螺旋上升?
![]()
基于此,團(tuán)隊(duì)提出了TTCS—— 一個(gè)基于共進(jìn)化(Co-evolution)的測試時(shí)課程合成框架。
02. 方法論:Synthesizer 與 Solver 的雙重共進(jìn)化
TTCS 的核心在于構(gòu)建了一個(gè)閉環(huán)的生態(tài)系統(tǒng),包含兩個(gè)共享初始權(quán)重的 Agent,它們通過迭代式的GRPO (Group Relative Policy Optimization)進(jìn)行訓(xùn)練:
角色分工
![]()
![]()
關(guān)鍵機(jī)制:如何尋找「能力邊界」?
為了防止生成的題目太簡單(無效訓(xùn)練)或太難(無效反饋),團(tuán)隊(duì)設(shè)計(jì)了一套精密的能力自適應(yīng)獎(jiǎng)勵(lì)(Capability-Adaptive Reward)機(jī)制:
![]()
閉環(huán)效應(yīng):
Solver 能力提升后,其「能力邊界」會(huì)向更難的區(qū)域移動(dòng),感知到這一變化的 Synthesizer 為了獲得高獎(jiǎng)勵(lì)會(huì)自動(dòng)生成難度更高的問題,Solver 繼續(xù)攻克新難題。二者相互追趕,在測試時(shí)實(shí)現(xiàn)了動(dòng)態(tài)的 Curriculum Learning。
03. 硬核實(shí)驗(yàn)結(jié)果:推理能力提升
團(tuán)隊(duì)在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多個(gè)權(quán)威數(shù)學(xué)基準(zhǔn)上進(jìn)行了廣泛驗(yàn)證。基礎(chǔ)模型涵蓋 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。
1. 主流基準(zhǔn)上的碾壓式提升
TTCS 在所有尺寸的模型上均取得了顯著優(yōu)于基線的成績(詳見 Table 1):
- Qwen2.5-Math-1.5B:TTCS 的平均分達(dá)到,相比預(yù)訓(xùn)練模型(17.30)提升了+24.19 分!即使對(duì)比測試時(shí)微調(diào)的強(qiáng)基線 TTRL(36.56),依然有大幅優(yōu)勢(shì)。
- Qwen2.5-Math-7B:TTCS 平均分達(dá)到,相比廣泛使用的 Self-Consistency(32.15)提升了+20.39 分,再次證明了主動(dòng)的測試時(shí)訓(xùn)練遠(yuǎn)勝于被動(dòng)的多路采樣。
![]()
2. 攻克高難度競賽題 (AIME)
在最能體現(xiàn)推理上限的 AIME 競賽題上,TTCS 展現(xiàn)了極強(qiáng)的攻堅(jiān)能力:
- AIME 2024:在 1.5B 模型上,TTRL 僅得 13.23 分,而 TTCS 躍升至分,提升幅度達(dá)
- AIME 2025:在 7B 模型上,TTCS 達(dá)到了分,顯著優(yōu)于 TTRL 的 14.06 分。
- 這有力地證明了:當(dāng)測試題太難導(dǎo)致 TTRL 的偽標(biāo)簽失效時(shí),TTCS 通過合成中間難度的課程,成功架起了通往高難度推理的橋梁。
3. 為什么 TTCS 有效?(深度分析)
為了探究性能提升的來源,團(tuán)隊(duì)進(jìn)行了多維度的分析:
- 不僅僅是數(shù)學(xué)(泛化性)
實(shí)驗(yàn) Q1 顯示,在 AIME 上進(jìn)行測試時(shí)訓(xùn)練的 TTCS 模型,在MMLU-Pro和SuperGPQA等通用領(lǐng)域推理任務(wù)上也實(shí)現(xiàn)了性能躍升(Figure 3a)。這說明模型學(xué)到的是通用的推理邏輯,而非簡單的過擬合。
![]()
- 動(dòng)態(tài)老師 > 靜態(tài)名師
團(tuán)隊(duì)嘗試用一個(gè)更強(qiáng)但固定的Qwen2.5-14B-Instruct模型作為 Synthesizer(實(shí)驗(yàn) Q3)。結(jié)果令人驚訝:共進(jìn)化的 1.5B Synthesizer (TTCS) 帶來的提升 (+5.34) 竟然是靜態(tài) 14B Synthesizer (+2.66) 的兩倍!
這揭示了一個(gè)深刻的道理:適應(yīng)學(xué)生當(dāng)前水平的老師,比單純水平高但不懂因材施教的老師更重要。
![]()
- 數(shù)據(jù)效率驚人
即使只使用 10% 的測試數(shù)據(jù)(僅 3 道題),TTCS 在 AIME24 上的準(zhǔn)確率就能達(dá)到13.33,遠(yuǎn)超同等數(shù)據(jù)量下 TTRL 的表現(xiàn)(Figure 4)。這表明 TTCS 能夠高效地榨取每一個(gè)測試樣本的信息量。
![]()
04. 總結(jié)與展望
TTCS 框架的提出,是對(duì)「測試時(shí)計(jì)算」范式的一次重構(gòu)。團(tuán)隊(duì)證明了:在測試時(shí),模型不應(yīng)是被動(dòng)的解題者,而應(yīng)是主動(dòng)的課程設(shè)計(jì)者。
通過 Synthesizer 和 Solver 的共進(jìn)化,TTCS 完美解決了測試時(shí)訓(xùn)練中「數(shù)據(jù)稀缺」和「難度斷層」的兩大痛點(diǎn)。
這不僅為提升大模型在復(fù)雜數(shù)學(xué)、代碼推理任務(wù)上的表現(xiàn)提供了新思路,也為未來自進(jìn)化智能體(Self-Evolving Agents)—— 即模型能夠在完全未知的環(huán)境中通過自我博弈實(shí)現(xiàn)持續(xù)進(jìn)化 —— 奠定了堅(jiān)實(shí)基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.