<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      首個(gè)測試時(shí)共進(jìn)化合成框架TTCS:在「左右互搏」中突破推理瓶頸

      0
      分享至



      在 DeepSeek-R1 和 OpenAI o1 引領(lǐng)的「后訓(xùn)練(Post-Training)」與「測試時(shí)擴(kuò)展」(Test-Time Scaling)」時(shí)代,如何利用測試時(shí)的算力進(jìn)行有效訓(xùn)練成為焦點(diǎn)。

      然而,面對(duì)極難的測試題,現(xiàn)有的測試時(shí)訓(xùn)練(Test-Time Training, TTT)往往因偽標(biāo)簽噪聲大而陷入「瞎猜」的困境。

      廈門大學(xué) DeepLIT 課題組提出了一種全新的測試時(shí)課程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。該框架不依賴任何外部人工標(biāo)注,通過生成器(Synthesizer)與求解器(Solver)的共進(jìn)化博弈,自動(dòng)合成處于模型「能力邊界」的課程數(shù)據(jù),解決了測試樣本過難導(dǎo)致的訓(xùn)練坍塌問題。

      實(shí)驗(yàn)顯示,在 Qwen2.5-Math-1.5B 上,TTCS 將數(shù)學(xué)推理平均分從 17.30 暴漲至 41.49,在極具挑戰(zhàn)的 AIME 競賽題上更是顯著超越了 TTRL 等強(qiáng)基線。



      • 論文標(biāo)題:TTCS: Test-Time Curriculum Synthesis for Self-Evolving
      • 論文鏈接:https://arxiv.org/abs/2601.22628
      • 項(xiàng)目代碼:https://github.com/XMUDeepLIT/TTCS
      • HuggingFace 主頁:https://huggingface.co/papers/2601.22628

      01. 核心動(dòng)機(jī):當(dāng)「題海戰(zhàn)術(shù)」遇到「超綱難題」

      隨著大語言模型(LLM)的發(fā)展,業(yè)界共識(shí)已從單純的「預(yù)訓(xùn)練擴(kuò)大參數(shù)」轉(zhuǎn)向挖掘測試時(shí)擴(kuò)展(Test-Time Scaling)的潛力。

      DeepSeek-R1 等模型的成功證明了強(qiáng)化學(xué)習(xí)(RL)在推理任務(wù)上的巨大威力。然而,目前的 RL 范式(如 RLVR)通常依賴大量高質(zhì)量的 Ground Truth 標(biāo)簽,這限制了其擴(kuò)展性。

      為了擺脫對(duì)標(biāo)簽的依賴,測試時(shí)訓(xùn)練(Test-Time Training, TTT)應(yīng)運(yùn)而生。其核心思想是:在測試階段,利用模型對(duì)測試題生成的偽標(biāo)簽(Pseudo-labels)進(jìn)行即時(shí)更新。

      但在面對(duì)高難度推理任務(wù)(如 AIME 數(shù)學(xué)競賽)時(shí),TTT 遭遇了致命的「能力錯(cuò)配」悖論

      1. 偽標(biāo)簽不可靠(Noisy Rewards):面對(duì) AIME 這種難題,由于模型本身能力不足,即使進(jìn)行多次采樣(Majority Voting),大部分答案也是錯(cuò)的。基于錯(cuò)誤的共識(shí)進(jìn)行訓(xùn)練,只會(huì)讓模型「越學(xué)越偏」。(如 Intro 中 Figure 1 (a) 所示)
      2. 缺乏中間階梯(Steep Learning Curve):就像讓小學(xué)生直接做微積分,缺乏中間難度的過渡題目,模型無法跨越巨大的難度鴻溝,導(dǎo)致優(yōu)化失敗。

      團(tuán)隊(duì)思考:如果沒有老師,模型能否像人類自學(xué)者一樣,通過自己給自己出題,把一道難題拆解變?yōu)橐唤M成梯度、可解決的練習(xí)題,從而實(shí)現(xiàn)螺旋上升?



      基于此,團(tuán)隊(duì)提出了TTCS—— 一個(gè)基于共進(jìn)化(Co-evolution)的測試時(shí)課程合成框架。

      02. 方法論:Synthesizer 與 Solver 的雙重共進(jìn)化

      TTCS 的核心在于構(gòu)建了一個(gè)閉環(huán)的生態(tài)系統(tǒng),包含兩個(gè)共享初始權(quán)重的 Agent,它們通過迭代式的GRPO (Group Relative Policy Optimization)進(jìn)行訓(xùn)練:

      角色分工





      關(guān)鍵機(jī)制:如何尋找「能力邊界」?

      為了防止生成的題目太簡單(無效訓(xùn)練)或太難(無效反饋),團(tuán)隊(duì)設(shè)計(jì)了一套精密的能力自適應(yīng)獎(jiǎng)勵(lì)(Capability-Adaptive Reward)機(jī)制:



      閉環(huán)效應(yīng):

      Solver 能力提升后,其「能力邊界」會(huì)向更難的區(qū)域移動(dòng),感知到這一變化的 Synthesizer 為了獲得高獎(jiǎng)勵(lì)會(huì)自動(dòng)生成難度更高的問題,Solver 繼續(xù)攻克新難題。二者相互追趕,在測試時(shí)實(shí)現(xiàn)了動(dòng)態(tài)的 Curriculum Learning。

      03. 硬核實(shí)驗(yàn)結(jié)果:推理能力提升

      團(tuán)隊(duì)在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多個(gè)權(quán)威數(shù)學(xué)基準(zhǔn)上進(jìn)行了廣泛驗(yàn)證。基礎(chǔ)模型涵蓋 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。

      1. 主流基準(zhǔn)上的碾壓式提升

      TTCS 在所有尺寸的模型上均取得了顯著優(yōu)于基線的成績(詳見 Table 1):

      • Qwen2.5-Math-1.5B:TTCS 的平均分達(dá)到,相比預(yù)訓(xùn)練模型(17.30)提升了+24.19 分!即使對(duì)比測試時(shí)微調(diào)的強(qiáng)基線 TTRL(36.56),依然有大幅優(yōu)勢(shì)。
      • Qwen2.5-Math-7B:TTCS 平均分達(dá)到,相比廣泛使用的 Self-Consistency(32.15)提升了+20.39 分,再次證明了主動(dòng)的測試時(shí)訓(xùn)練遠(yuǎn)勝于被動(dòng)的多路采樣。



      2. 攻克高難度競賽題 (AIME)

      在最能體現(xiàn)推理上限的 AIME 競賽題上,TTCS 展現(xiàn)了極強(qiáng)的攻堅(jiān)能力:

      • AIME 2024:在 1.5B 模型上,TTRL 僅得 13.23 分,而 TTCS 躍升至分,提升幅度達(dá)
      • AIME 2025:在 7B 模型上,TTCS 達(dá)到了分,顯著優(yōu)于 TTRL 的 14.06 分。
      • 這有力地證明了:當(dāng)測試題太難導(dǎo)致 TTRL 的偽標(biāo)簽失效時(shí),TTCS 通過合成中間難度的課程,成功架起了通往高難度推理的橋梁。

      3. 為什么 TTCS 有效?(深度分析)

      為了探究性能提升的來源,團(tuán)隊(duì)進(jìn)行了多維度的分析:

      • 不僅僅是數(shù)學(xué)(泛化性)

      實(shí)驗(yàn) Q1 顯示,在 AIME 上進(jìn)行測試時(shí)訓(xùn)練的 TTCS 模型,在MMLU-ProSuperGPQA等通用領(lǐng)域推理任務(wù)上也實(shí)現(xiàn)了性能躍升(Figure 3a)。這說明模型學(xué)到的是通用的推理邏輯,而非簡單的過擬合。



      • 動(dòng)態(tài)老師 > 靜態(tài)名師

      團(tuán)隊(duì)嘗試用一個(gè)更強(qiáng)但固定的Qwen2.5-14B-Instruct模型作為 Synthesizer(實(shí)驗(yàn) Q3)。結(jié)果令人驚訝:共進(jìn)化的 1.5B Synthesizer (TTCS) 帶來的提升 (+5.34) 竟然是靜態(tài) 14B Synthesizer (+2.66) 的兩倍

      這揭示了一個(gè)深刻的道理:適應(yīng)學(xué)生當(dāng)前水平的老師,比單純水平高但不懂因材施教的老師更重要。



      • 數(shù)據(jù)效率驚人

      即使只使用 10% 的測試數(shù)據(jù)(僅 3 道題),TTCS 在 AIME24 上的準(zhǔn)確率就能達(dá)到13.33,遠(yuǎn)超同等數(shù)據(jù)量下 TTRL 的表現(xiàn)(Figure 4)。這表明 TTCS 能夠高效地榨取每一個(gè)測試樣本的信息量。



      04. 總結(jié)與展望

      TTCS 框架的提出,是對(duì)「測試時(shí)計(jì)算」范式的一次重構(gòu)。團(tuán)隊(duì)證明了:在測試時(shí),模型不應(yīng)是被動(dòng)的解題者,而應(yīng)是主動(dòng)的課程設(shè)計(jì)者。

      通過 Synthesizer 和 Solver 的共進(jìn)化,TTCS 完美解決了測試時(shí)訓(xùn)練中「數(shù)據(jù)稀缺」和「難度斷層」的兩大痛點(diǎn)。

      這不僅為提升大模型在復(fù)雜數(shù)學(xué)、代碼推理任務(wù)上的表現(xiàn)提供了新思路,也為未來自進(jìn)化智能體(Self-Evolving Agents)—— 即模型能夠在完全未知的環(huán)境中通過自我博弈實(shí)現(xiàn)持續(xù)進(jìn)化 —— 奠定了堅(jiān)實(shí)基礎(chǔ)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      米蘭冬奧會(huì)賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會(huì)賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網(wǎng)
      2026-02-04 15:03:52
      一場追思會(huì),戳穿翁帆沉默兩個(gè)月真相,原來?xiàng)钫駥幧罢娴臎]說錯(cuò)

      一場追思會(huì),戳穿翁帆沉默兩個(gè)月真相,原來?xiàng)钫駥幧罢娴臎]說錯(cuò)

      來科點(diǎn)譜
      2025-12-15 09:06:33
      73歲老太在烈士陵園掃墓,意外發(fā)現(xiàn)自己的名字,隨即驚動(dòng)政府人員

      73歲老太在烈士陵園掃墓,意外發(fā)現(xiàn)自己的名字,隨即驚動(dòng)政府人員

      搜史君
      2026-01-04 18:15:03
      一家三口春節(jié)返鄉(xiāng)途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      一家三口春節(jié)返鄉(xiāng)途中突生變故:車輛拋錨,患病兒子離世……之后的事太暖心

      臺(tái)州交通廣播
      2026-02-20 12:14:08
      顧順章叛變,導(dǎo)致千名同志被害,為何到死也沒提“一號(hào)機(jī)密”?

      顧順章叛變,導(dǎo)致千名同志被害,為何到死也沒提“一號(hào)機(jī)密”?

      雍親王府
      2026-02-21 10:45:05
      年收入20萬配開53萬奔馳嗎?早餐店老板親測道出最真實(shí)的大實(shí)話

      年收入20萬配開53萬奔馳嗎?早餐店老板親測道出最真實(shí)的大實(shí)話

      搗蛋窩
      2026-02-21 17:17:16
      “媽媽讓孩子上交2萬壓歲錢”,沖上熱搜!網(wǎng)友熱議......

      “媽媽讓孩子上交2萬壓歲錢”,沖上熱搜!網(wǎng)友熱議......

      中國日?qǐng)?bào)
      2026-02-21 15:19:24
      谷愛凌:人們之所以對(duì)我有意見,是因?yàn)橛憛捴袊?>
    </a>
        <h3>
      <a href=懂球帝
      2026-02-21 16:53:05
      豆包推薦:人生回報(bào)率最高的8件事,盡早“焊死”在孩子身上

      豆包推薦:人生回報(bào)率最高的8件事,盡早“焊死”在孩子身上

      十點(diǎn)讀書
      2026-02-20 18:37:13
      你在體制內(nèi)捅過的最大簍子是啥? 網(wǎng)友:人怎么能捅這么大的簍子

      你在體制內(nèi)捅過的最大簍子是啥? 網(wǎng)友:人怎么能捅這么大的簍子

      帶你感受人間冷暖
      2026-02-13 10:06:39
      這就是為什么不要欺負(fù)底層員工的原因!網(wǎng)友:1600萬結(jié)款直接報(bào)廢

      這就是為什么不要欺負(fù)底層員工的原因!網(wǎng)友:1600萬結(jié)款直接報(bào)廢

      另子維愛讀史
      2026-02-01 20:32:25
      李連杰《鏢人:風(fēng)起大漠》口碑爆棚,王晶、謝苗和汪海林紛紛力挺

      李連杰《鏢人:風(fēng)起大漠》口碑爆棚,王晶、謝苗和汪海林紛紛力挺

      千信齊飛
      2026-02-20 21:04:11
      90歲老院士攤牌了:中國洲際導(dǎo)彈打擊覆蓋全球,不存在射程死角!

      90歲老院士攤牌了:中國洲際導(dǎo)彈打擊覆蓋全球,不存在射程死角!

      荷蘭豆愛健康
      2026-02-21 15:56:24
      “壞膽固醇”下降10%!Nature子刊:僅連續(xù)吃2天燕麥,就能顯著降低膽固醇,且效果至少持續(xù)6周

      “壞膽固醇”下降10%!Nature子刊:僅連續(xù)吃2天燕麥,就能顯著降低膽固醇,且效果至少持續(xù)6周

      梅斯醫(yī)學(xué)
      2026-02-20 07:53:33
      王藝迪再負(fù)日本選手引關(guān)注,恐懼心理顯現(xiàn),網(wǎng)友質(zhì)疑培養(yǎng)價(jià)值

      王藝迪再負(fù)日本選手引關(guān)注,恐懼心理顯現(xiàn),網(wǎng)友質(zhì)疑培養(yǎng)價(jià)值

      卿子書
      2026-02-21 11:24:42
      外媒曝光!英國《簡史防務(wù)》公布中國095型核潛艇衛(wèi)星照,泵噴推進(jìn)系統(tǒng)實(shí)錘了!

      外媒曝光!英國《簡史防務(wù)》公布中國095型核潛艇衛(wèi)星照,泵噴推進(jìn)系統(tǒng)實(shí)錘了!

      軍武速遞
      2026-02-20 19:10:37
      一覺醒來,世界大變,特朗普改新打法了

      一覺醒來,世界大變,特朗普改新打法了

      牛彈琴
      2026-02-21 08:02:08
      歐洲議會(huì)要員:美國總統(tǒng)任意加征關(guān)稅的時(shí)期或?qū)⒔Y(jié)束

      歐洲議會(huì)要員:美國總統(tǒng)任意加征關(guān)稅的時(shí)期或?qū)⒔Y(jié)束

      財(cái)聯(lián)社
      2026-02-21 02:16:19
      1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

      1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

      欽點(diǎn)歷史
      2026-02-20 16:53:54
      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      來科點(diǎn)譜
      2026-01-23 11:08:02
      2026-02-21 17:47:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      省直機(jī)關(guān)女工程師陷美男計(jì) 拉公職人員丈夫當(dāng)間諜17年

      頭條要聞

      省直機(jī)關(guān)女工程師陷美男計(jì) 拉公職人員丈夫當(dāng)間諜17年

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      健康
      本地
      軍事航空

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      軍事要聞

      硬核揭秘!福建艦“一馬當(dāng)先”底氣何在

      無障礙瀏覽 進(jìn)入關(guān)懷版