![]()
這項(xiàng)由清華大學(xué)何丙祥、曲澤凱、劉澤遠(yuǎn)等研究團(tuán)隊(duì)聯(lián)合伊利諾伊大學(xué)香檳分校錢程以及上海人工智能實(shí)驗(yàn)室崔贛渠共同完成的研究發(fā)表于2025年12月,展現(xiàn)了一個(gè)令人驚訝的發(fā)現(xiàn):在人工智能訓(xùn)練領(lǐng)域,有時(shí)候最簡(jiǎn)單的方法反而能取得最好的效果。這項(xiàng)名為"JustRL"的研究挑戰(zhàn)了當(dāng)前AI訓(xùn)練中越來越復(fù)雜化的趨勢(shì),證明了用最基礎(chǔ)的方法就能讓小型AI模型在數(shù)學(xué)推理任務(wù)上達(dá)到頂尖水平。
當(dāng)前的AI訓(xùn)練就像烹飪界的分子料理革命,每個(gè)廚師都在使用越來越復(fù)雜的技術(shù)和設(shè)備,試圖創(chuàng)造出完美的菜品。多階段訓(xùn)練管道、動(dòng)態(tài)參數(shù)調(diào)整、課程學(xué)習(xí)策略,這些聽起來高大上的技術(shù)被廣泛應(yīng)用,讓整個(gè)訓(xùn)練過程變得像精密的化學(xué)實(shí)驗(yàn)一樣復(fù)雜。然而,清華團(tuán)隊(duì)提出了一個(gè)根本性的問題:這種復(fù)雜性真的必要嗎?
研究團(tuán)隊(duì)決定回到最基礎(chǔ)的方法,就像一個(gè)經(jīng)驗(yàn)豐富的老廚師放棄所有花哨的工具,只用最簡(jiǎn)單的鍋碗瓢盆來證明自己的廚藝。他們使用單階段訓(xùn)練和固定的參數(shù)設(shè)置,在兩個(gè)15億參數(shù)的推理模型上進(jìn)行實(shí)驗(yàn)。結(jié)果令人震驚:這種簡(jiǎn)單方法不僅達(dá)到了當(dāng)前最先進(jìn)的性能水平,在九個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中平均準(zhǔn)確率達(dá)到54.9%和64.3%,而且使用的計(jì)算資源比那些復(fù)雜方法少了整整一半。
更重要的是,相同的參數(shù)設(shè)置可以直接應(yīng)用到不同的模型上,無需任何調(diào)整,訓(xùn)練過程表現(xiàn)出平穩(wěn)、單調(diào)的改進(jìn)趨勢(shì),在4000多個(gè)訓(xùn)練步驟中沒有出現(xiàn)通常需要人工干預(yù)的崩潰或停滯現(xiàn)象。這就像發(fā)現(xiàn)了一個(gè)萬能的烹飪秘方,不管是做川菜還是粵菜,都能保證出色的效果。
研究團(tuán)隊(duì)進(jìn)行了深入的分析,發(fā)現(xiàn)那些被認(rèn)為是"標(biāo)準(zhǔn)技巧"的復(fù)雜方法,比如明確的長(zhǎng)度懲罰和強(qiáng)大的驗(yàn)證器,實(shí)際上可能會(huì)通過限制探索而降低性能。這個(gè)發(fā)現(xiàn)暗示,該領(lǐng)域可能正在添加復(fù)雜性來解決那些在穩(wěn)定、擴(kuò)展的基線方法下根本不存在的問題。
一、從模仿到突破的轉(zhuǎn)變
在人工智能的發(fā)展歷程中,大型語(yǔ)言模型如OpenAI的o1和DeepSeek-R1已經(jīng)證明了大規(guī)模強(qiáng)化學(xué)習(xí)在數(shù)學(xué)和編程等具有挑戰(zhàn)性的推理任務(wù)中的卓越效果。但是,當(dāng)涉及到較小的輕量級(jí)模型時(shí),業(yè)界走上了一條不同的道路。
主流公司更傾向于使用蒸餾技術(shù),這本質(zhì)上是一種監(jiān)督微調(diào)方法,讓小模型學(xué)習(xí)大型教師模型的輸出。這種做法從實(shí)用角度來看很有意義:蒸餾技術(shù)效率高、穩(wěn)定,能夠立即帶來性能提升。Qwen3的強(qiáng)弱蒸餾技術(shù)和DeepSeek-R1都證明了這種策略對(duì)小型語(yǔ)言模型的有效性。
然而,蒸餾技術(shù)有一個(gè)根本性的限制:它受到教師模型能力的約束。當(dāng)研究人員依賴蒸餾來改進(jìn)較小模型的性能時(shí),他們會(huì)遇到一個(gè)上限,特別是當(dāng)教師模型的更新不頻繁時(shí)。即使增加數(shù)據(jù)量和延長(zhǎng)訓(xùn)練時(shí)間,一旦教師模型的性能達(dá)到平臺(tái)期,進(jìn)一步的性能提升也變得非常困難。
相比之下,強(qiáng)化學(xué)習(xí)可以在蒸餾過程達(dá)到飽和后提供進(jìn)一步的改進(jìn),使其在這種情況下成為關(guān)鍵方法。與此同時(shí),針對(duì)小型模型的強(qiáng)化學(xué)習(xí)卻獲得了不穩(wěn)定和困難的聲譽(yù),需要越來越復(fù)雜的技術(shù)才能可靠地工作。
過去一年中,我們看到了大量試圖穩(wěn)定和改進(jìn)小模型強(qiáng)化學(xué)習(xí)訓(xùn)練的方法激增:多階段訓(xùn)練管道、動(dòng)態(tài)參數(shù)調(diào)度、自適應(yīng)溫度控制、響應(yīng)長(zhǎng)度懲罰,以及各種形式的數(shù)據(jù)整理和過濾技術(shù)。這種技術(shù)的激增提出了一個(gè)重要問題:這種復(fù)雜性真的必要嗎?
當(dāng)不同的工作結(jié)合不同的方法子集并報(bào)告不同的結(jié)果時(shí),很難確定真正驅(qū)動(dòng)性能的因素。更令人擔(dān)憂的是,許多最近的工作都引用訓(xùn)練不穩(wěn)定性,如獎(jiǎng)勵(lì)崩潰、熵漂移和長(zhǎng)度爆炸,作為其技術(shù)的動(dòng)機(jī),但卻將這些技術(shù)應(yīng)用在已經(jīng)復(fù)雜的基線之上。這使得無法知道新方法是否提供了真正的好處,還是僅僅補(bǔ)償了之前復(fù)雜性引入的問題。
累積的"最佳實(shí)踐"可能是相互斗爭(zhēng),而不是對(duì)抗強(qiáng)化學(xué)習(xí)的根本挑戰(zhàn)。研究團(tuán)隊(duì)決定探索是否可以通過更簡(jiǎn)單的方法實(shí)現(xiàn)穩(wěn)定、競(jìng)爭(zhēng)性的訓(xùn)練。他們將最小化設(shè)置應(yīng)用于兩個(gè)流行的15億參數(shù)推理模型,使用基于常見實(shí)踐的單階段訓(xùn)練和固定參數(shù)。
二、簡(jiǎn)單配方的威力
研究團(tuán)隊(duì)的方法刻意保持簡(jiǎn)單,將自己限制在強(qiáng)化學(xué)習(xí)的基礎(chǔ)要素上,避免了在最近工作中變得常見的多階段管道、動(dòng)態(tài)調(diào)度和專門技術(shù)。
他們使用veRL中GRPO的默認(rèn)實(shí)現(xiàn),采用二元結(jié)果獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)信號(hào)來自DAPO的輕量級(jí)基于規(guī)則的驗(yàn)證器,沒有使用像SymPy這樣可能增加計(jì)算開銷的符號(hào)數(shù)學(xué)庫(kù)。研究團(tuán)隊(duì)保持了極致的簡(jiǎn)單性:采用單階段訓(xùn)練,沒有漸進(jìn)式上下文延長(zhǎng)、課程切換或階段轉(zhuǎn)換,從開始到結(jié)束連續(xù)訓(xùn)練;使用固定參數(shù),沒有自適應(yīng)溫度調(diào)度、動(dòng)態(tài)批量大小調(diào)整或訓(xùn)練中期參考模型重置;使用標(biāo)準(zhǔn)數(shù)據(jù),在DAPO-Math-17k上訓(xùn)練,沒有離線難度過濾或在線動(dòng)態(tài)采樣策略;使用基本提示,采用簡(jiǎn)單的后綴提示而不進(jìn)行調(diào)優(yōu):"請(qǐng)逐步推理,并將你的最終答案放在\boxed{}中";進(jìn)行長(zhǎng)度控制,簡(jiǎn)單地將最大上下文長(zhǎng)度設(shè)置為16K標(biāo)記,而不是使用明確的長(zhǎng)度懲罰項(xiàng)。
研究團(tuán)隊(duì)確實(shí)使用了一種技術(shù):"剪切更高",這是長(zhǎng)時(shí)間強(qiáng)化學(xué)習(xí)訓(xùn)練中穩(wěn)定性的一個(gè)成熟實(shí)踐。他們將此視為基線的一部分,而不是附加技術(shù)。他們使用veRL在兩個(gè)15億推理模型上訓(xùn)練了這個(gè)配方:DeepSeek-R1-Distill-Qwen-1.5B和OpenMath-Nemotron-1.5B,每個(gè)都使用32個(gè)A800-80GB GPU訓(xùn)練約15天。相同的參數(shù)對(duì)兩者都有效,無需逐模型調(diào)優(yōu),并在整個(gè)訓(xùn)練過程中保持固定。
在評(píng)估方面,研究團(tuán)隊(duì)評(píng)估了九個(gè)具有挑戰(zhàn)性的數(shù)學(xué)推理任務(wù),包括AIME 2024、AIME 2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT Feb 2025、CMIMC 2025和BRUMO 2025。他們報(bào)告Pass@1準(zhǔn)確率,對(duì)每個(gè)問題平均N個(gè)采樣響應(yīng)(MATH-500、Minerva Math和OlympiadBench使用N=4;其他使用N=32)。他們使用溫度0.7、top-p 0.9,并允許生成最多32K標(biāo)記。
為了解決基于規(guī)則的驗(yàn)證器的假陰性問題,他們用CompassVerifier-3B增強(qiáng)現(xiàn)有系統(tǒng),這是一個(gè)輕量級(jí)的基于模型的驗(yàn)證器。
三、突破性實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)將JustRL應(yīng)用于兩個(gè)流行的15億參數(shù)推理模型,展示了他們的最小配方在具有顯著穩(wěn)定訓(xùn)練動(dòng)力學(xué)的情況下實(shí)現(xiàn)競(jìng)爭(zhēng)性能。
從較弱基礎(chǔ)開始的擴(kuò)展實(shí)驗(yàn)顯示了令人矚目的成果。研究團(tuán)隊(duì)使用簡(jiǎn)單的單階段配方訓(xùn)練DeepSeek-R1-Distill-Qwen-1.5B 4380步。他們的模型JustRL-DeepSeek-1.5B在各基準(zhǔn)測(cè)試中實(shí)現(xiàn)了54.87%的平均成績(jī),超過了ProRL-V2的53.08%,盡管ProRL-V2使用了九階段訓(xùn)練管道和動(dòng)態(tài)參數(shù)以及更復(fù)雜的技術(shù)。他們?cè)诰艂€(gè)基準(zhǔn)測(cè)試中的六個(gè)上領(lǐng)先,展示了廣泛的改進(jìn)而不是對(duì)單個(gè)任務(wù)的過度擬合。
然而,真正的問題是他們的簡(jiǎn)單性是否會(huì)帶來計(jì)算成本。答案是否定的。計(jì)算成本比較顯示,他們匹配了ProRL-V2計(jì)算預(yù)算的一半,同時(shí)使用固定參數(shù)的單階段配方。BroRL通過將每個(gè)例子的rollout增加到512個(gè),基本上詳盡地探索解決方案空間,需要4.9倍的計(jì)算量。他們的方法在沒有這種計(jì)算開銷的情況下實(shí)現(xiàn)了競(jìng)爭(zhēng)性能。
值得注意的是,使用動(dòng)態(tài)采樣的模型過濾示例。按照POLARIS的做法,研究團(tuán)隊(duì)為使用動(dòng)態(tài)采樣的DeepSeek-R1-Distill-Qwen-1.5B估計(jì)了50%的過濾比率,因?yàn)閞ollout經(jīng)常包含許多瑣碎或困難的情況。即使假設(shè)沒有過濾,他們的計(jì)算使用仍然是可比較的甚至更低的,使他們的估計(jì)保守。
訓(xùn)練穩(wěn)定性方面的表現(xiàn)同樣令人印象深刻。JustRL-DeepSeek-1.5B的訓(xùn)練曲線顯示了平穩(wěn)和單調(diào)的改進(jìn),沒有通常需要干預(yù)的振蕩或平臺(tái)期。穩(wěn)定性本身表明他們沒有與訓(xùn)練設(shè)置作斗爭(zhēng)。
更強(qiáng)基礎(chǔ)的擴(kuò)展實(shí)驗(yàn)進(jìn)一步驗(yàn)證了方法的有效性。研究團(tuán)隊(duì)使用完全相同的配方訓(xùn)練OpenMath-Nemotron-1.5B 3440步,沒有參數(shù)變化。他們實(shí)現(xiàn)了64.32%的平均成績(jī),略微超過QuestA的63.81%,在九個(gè)基準(zhǔn)測(cè)試中的五個(gè)上領(lǐng)先。差距很小,這是有道理的,因?yàn)閮煞N方法都在推動(dòng)15億規(guī)模可實(shí)現(xiàn)的界限。關(guān)鍵區(qū)別在于如何到達(dá)那里。
QuestA引入了一種創(chuàng)新的課程學(xué)習(xí)方法,將問題與部分思維鏈解決方案作為提示進(jìn)行增強(qiáng),將訓(xùn)練階段分為不同難度。這不僅需要基礎(chǔ)真值答案,還需要更大模型生成的完整推理軌跡用于課程構(gòu)建,帶來額外的數(shù)據(jù)要求和工程復(fù)雜性。他們的方法僅使用標(biāo)準(zhǔn)問題-答案對(duì),沒有增強(qiáng)或課程設(shè)計(jì)。
在計(jì)算效率方面,他們使用的計(jì)算量減少了一半,同時(shí)實(shí)現(xiàn)了稍好的平均性能,沒有設(shè)計(jì)QuestA使用的復(fù)雜課程。另一條平滑的訓(xùn)練曲線表明,相同配方在兩個(gè)模型上都有效,無需參數(shù)調(diào)優(yōu),這表明了真正的魯棒性而不是對(duì)單個(gè)模型的幸運(yùn)優(yōu)化。
這些結(jié)果并不貶低QuestA的貢獻(xiàn),問題增強(qiáng)是一種明顯有幫助的聰明技術(shù)。相反,它們表明通過更簡(jiǎn)單的方法也可以實(shí)現(xiàn)競(jìng)爭(zhēng)性能。
四、訓(xùn)練動(dòng)態(tài)的深入分析
訓(xùn)練配方的終極測(cè)試不僅僅是最終數(shù)字,而是是否能夠可靠地達(dá)到目標(biāo)。復(fù)雜技術(shù)通常作為訓(xùn)練不穩(wěn)定性的響應(yīng)而出現(xiàn):振蕩獎(jiǎng)勵(lì)、策略崩潰或失控的響應(yīng)長(zhǎng)度。如果更簡(jiǎn)單的方法可以完全避免這些失敗模式,那么這表明我們可能一直在治療癥狀而不是原因。
研究團(tuán)隊(duì)詳細(xì)檢查了JustRL-DeepSeek-1.5B的訓(xùn)練動(dòng)態(tài),在4000個(gè)訓(xùn)練步驟中跟蹤三個(gè)關(guān)鍵動(dòng)態(tài):平均訓(xùn)練獎(jiǎng)勵(lì)、策略熵和平均響應(yīng)長(zhǎng)度。這些動(dòng)態(tài)揭示了模型是穩(wěn)定學(xué)習(xí)還是需要持續(xù)干預(yù)。
策略熵在訓(xùn)練后期步驟中在1.0和1.6之間振蕩,沒有系統(tǒng)性的向上漂移(探索崩潰)或向下漂移(過早收斂),表明簡(jiǎn)單的"剪切更高"技術(shù)在大規(guī)模強(qiáng)化學(xué)習(xí)中表現(xiàn)良好。平均獎(jiǎng)勵(lì)顯示從大約-0.6到+0.4的平均獎(jiǎng)勵(lì)攀升。曲線有噪音,但趨勢(shì)明顯向上。更重要的是,沒有會(huì)在多階段方法中通常觸發(fā)干預(yù)的擴(kuò)展平臺(tái)期或突然下降。信號(hào)足夠一致,模型可以持續(xù)學(xué)習(xí)。
模型開始時(shí)冗長(zhǎng),生成平均約8000標(biāo)記的響應(yīng)。沒有任何明確的長(zhǎng)度懲罰,它自然地壓縮到1000步時(shí)的4000-5000標(biāo)記,并保持在這個(gè)范圍內(nèi)。這種有機(jī)壓縮可能比明確的懲罰更魯棒,明確的懲罰可能創(chuàng)造模型學(xué)會(huì)利用的對(duì)抗性壓力。
與典型強(qiáng)化學(xué)習(xí)的對(duì)比非常明顯。雖然研究團(tuán)隊(duì)沒有計(jì)算資源來運(yùn)行廣泛的對(duì)照比較,但文獻(xiàn)提供了背景。許多最近的工作明確引用訓(xùn)練不穩(wěn)定性作為其技術(shù)的動(dòng)機(jī):ProRL-v2在觀察到長(zhǎng)度漂移后引入了調(diào)度長(zhǎng)度懲罰;BroRL在遇到平臺(tái)期后將rollout增加到數(shù)百個(gè);多個(gè)工作在KL散度增長(zhǎng)過大時(shí)應(yīng)用KL正則化和重置參考模型,這限制了訓(xùn)練上界。他們的訓(xùn)練沒有表現(xiàn)出任何激發(fā)干預(yù)的病態(tài)。
當(dāng)然,這些平滑曲線并不證明更簡(jiǎn)單的方法總是更穩(wěn)定,或者技術(shù)永遠(yuǎn)不會(huì)有幫助。他們無法分離哪些特定復(fù)雜技術(shù)導(dǎo)致不穩(wěn)定性,哪些解決了它。但對(duì)比是明顯的:最小配方產(chǎn)生的訓(xùn)練動(dòng)態(tài)根本不需要已成為標(biāo)準(zhǔn)實(shí)踐的干預(yù)。
五、消融研究的意外發(fā)現(xiàn)
研究團(tuán)隊(duì)從JustRL-DeepSeek-1.5B的基礎(chǔ)配方開始,進(jìn)行了兩項(xiàng)消融研究,都訓(xùn)練了3000多步,結(jié)果令人意外。
第一個(gè)修改是添加明確的長(zhǎng)度懲罰項(xiàng),針對(duì)最后4k標(biāo)記(如DAPO中使用的)。第二個(gè)修改是進(jìn)一步添加來自DeepScaleR的更復(fù)雜驗(yàn)證器,以減少假陰性。結(jié)果顯示,兩種修改都降低了性能:添加超長(zhǎng)懲罰在50% AIME 2024處平臺(tái)化(相對(duì)于55%基線),添加兩種修改在45%處平臺(tái)化。
關(guān)于超長(zhǎng)懲罰的發(fā)現(xiàn)尤其有啟發(fā)性。研究團(tuán)隊(duì)假設(shè)明確懲罰冗長(zhǎng)響應(yīng)可能通過更快地推動(dòng)模型走向簡(jiǎn)潔來改善訓(xùn)練效率。相反,性能顯著降低作為權(quán)衡。熵圖揭示了原因:明確懲罰崩潰探索,將熵驅(qū)動(dòng)到0.5-0.6,與他們基礎(chǔ)方法的1.2-1.4范圍相比。明確懲罰似乎創(chuàng)造了與學(xué)習(xí)目標(biāo)沖突的壓力,迫使模型在探索實(shí)際有效方法之前過早收斂到更短的響應(yīng)。
關(guān)于魯棒驗(yàn)證器的實(shí)驗(yàn)也產(chǎn)生了有趣的結(jié)果。研究團(tuán)隊(duì)進(jìn)一步假設(shè)減少假陰性(正確解決方案標(biāo)記錯(cuò)誤)會(huì)提供更清潔的學(xué)習(xí)信號(hào)。然而,即使在規(guī)范化獎(jiǎng)勵(lì)尺度后,其使用導(dǎo)致更差的最終性能,在45% AIME 2024處平臺(tái)化。
研究團(tuán)隊(duì)提供了兩種可能的解釋。首先,更嚴(yán)格的基礎(chǔ)驗(yàn)證器通過減少"完美"分?jǐn)?shù)創(chuàng)建了更豐富的學(xué)習(xí)信號(hào)頻譜,而魯棒驗(yàn)證器的寬容性提供了較少細(xì)致的指導(dǎo)。其次,更嚴(yán)格驗(yàn)證器對(duì)精確格式的依賴可能迫使模型發(fā)展更魯棒的內(nèi)部計(jì)算,當(dāng)驗(yàn)證器在外部糾正錯(cuò)誤時(shí)失去了這種激勵(lì)。因此,寬容的驗(yàn)證器可能無法鼓勵(lì)最佳泛化所需的精確性。
這些結(jié)果揭示了兩個(gè)重要教訓(xùn)。首先,并非所有"標(biāo)準(zhǔn)技巧"都能跨環(huán)境遷移。超長(zhǎng)懲罰在DAPO的設(shè)置中有效,但在他們的設(shè)置中降低了性能,表明技術(shù)以復(fù)雜和有時(shí)不可預(yù)測(cè)的方式與其他設(shè)計(jì)選擇交互。其次,更簡(jiǎn)單的方法并不總是更容易改進(jìn)。他們測(cè)試了兩個(gè)看似合理的修改,但都使情況變得更糟,表明他們的基礎(chǔ)配方實(shí)現(xiàn)了容易被額外干預(yù)破壞的微妙平衡。
研究團(tuán)隊(duì)明確說明了這些消融的局限性。他們測(cè)試了兩個(gè)特定修改,但許多其他技術(shù)仍未探索:課程學(xué)習(xí)、自適應(yīng)溫度調(diào)度、參考模型重置、不同驗(yàn)證器設(shè)計(jì)和各種形式的數(shù)據(jù)增強(qiáng)。其中一些可能改進(jìn)他們的基線。他們的觀點(diǎn)不是額外技術(shù)永遠(yuǎn)不會(huì)有幫助,而是應(yīng)該經(jīng)驗(yàn)性驗(yàn)證而不是假設(shè)有益。
六、現(xiàn)實(shí)意義與局限性
這項(xiàng)研究帶來的啟示是多層面的。平滑的訓(xùn)練曲線伴隨著健康的熵、單調(diào)獎(jiǎng)勵(lì)和自然長(zhǎng)度收斂,與經(jīng)常被引用作為復(fù)雜技術(shù)動(dòng)機(jī)的不穩(wěn)定性形成對(duì)比。他們的負(fù)面消融顯示,添加"改進(jìn)"實(shí)際上主動(dòng)降低了性能。這表明復(fù)雜性有時(shí)可能解決由其他設(shè)計(jì)選擇創(chuàng)造的癥狀,而不是根本的強(qiáng)化學(xué)習(xí)挑戰(zhàn)。
然而,研究團(tuán)隊(duì)承認(rèn)他們不知道的內(nèi)容。他們證明了簡(jiǎn)單強(qiáng)化學(xué)習(xí)效果很好,但無法分離原因。是參數(shù)嗎?訓(xùn)練數(shù)據(jù)集?驗(yàn)證器設(shè)計(jì)?三者之間的相互作用?他們的結(jié)果也僅限于數(shù)學(xué)推理中15億規(guī)模的兩個(gè)骨干。推廣到其他領(lǐng)域、模型大小和任務(wù)仍然是開放問題。
復(fù)雜性在某些情況下可能有幫助。在極端計(jì)算約束下,遇到他們沒有面臨的特定失敗模式時(shí),推動(dòng)超越當(dāng)前性能上限時(shí),或在具有更嘈雜獎(jiǎng)勵(lì)信號(hào)的領(lǐng)域中,額外技術(shù)可能是有價(jià)值的。他們的論點(diǎn)是方法論的:首先建立簡(jiǎn)單基線,然后僅在識(shí)別出它解決的特定問題時(shí)才添加復(fù)雜性。
研究團(tuán)隊(duì)的工作存在幾個(gè)限制。首先,他們的結(jié)果僅限于15億參數(shù)規(guī)模的數(shù)學(xué)推理任務(wù),推廣到其他領(lǐng)域(如編程、一般問答)和模型大小仍未探索。其次,雖然他們證明了簡(jiǎn)單性有效,但無法明確分離哪些特定組件(參數(shù)、驗(yàn)證器設(shè)計(jì)、訓(xùn)練數(shù)據(jù))對(duì)成功最關(guān)鍵。第三,他們的計(jì)算預(yù)算雖然低于一些復(fù)雜方法,但對(duì)資源受限的研究人員來說可能仍然過高。最后,他們沒有探索當(dāng)推向更長(zhǎng)訓(xùn)練時(shí)間時(shí)他們的方法是否保持優(yōu)勢(shì),或者在規(guī)模上額外技術(shù)是否變得必要。
七、簡(jiǎn)單之道的深遠(yuǎn)意義
關(guān)于小模型強(qiáng)化學(xué)習(xí)的辯論一直被復(fù)雜性對(duì)穩(wěn)定性和性能必要的假設(shè)所籠罩。研究團(tuán)隊(duì)著手回答一個(gè)直接問題:如果我們?cè)跊]有已成為標(biāo)準(zhǔn)實(shí)踐的專門技術(shù)的情況下將強(qiáng)化學(xué)習(xí)應(yīng)用于小型語(yǔ)言模型,會(huì)發(fā)生什么?
通過退回到更簡(jiǎn)單的方法,他們的發(fā)現(xiàn)提供了清晰的答案:具有穩(wěn)定基礎(chǔ)的適當(dāng)規(guī)模可以匹配復(fù)雜技術(shù)。從兩個(gè)基礎(chǔ)模型開始,他們使用單階段訓(xùn)練和固定參數(shù)實(shí)現(xiàn)了可比較或更好的性能,匹配或超越了采用多階段訓(xùn)練和課程學(xué)習(xí)的方法,同時(shí)使用了一半的計(jì)算量。
比最終數(shù)字更引人注目的是路徑:數(shù)千步的平滑、穩(wěn)定改進(jìn),沒有通常需要防止訓(xùn)練崩潰的干預(yù)。這項(xiàng)研究倡導(dǎo)方法論轉(zhuǎn)變:從簡(jiǎn)單開始,擴(kuò)大規(guī)模,只有當(dāng)簡(jiǎn)單、魯棒的基線明顯失敗時(shí)才添加復(fù)雜性。如果簡(jiǎn)單性比當(dāng)前實(shí)踐假設(shè)的更頻繁地足夠,那似乎值得關(guān)注。
這種發(fā)現(xiàn)對(duì)整個(gè)人工智能研究領(lǐng)域都有重要意義。在追求更好性能的過程中,研究社區(qū)往往傾向于添加越來越多的技巧和復(fù)雜機(jī)制。但正如這項(xiàng)研究所展示的,有時(shí)最有效的解決方案可能就是最簡(jiǎn)單的那一個(gè)。這不僅能夠節(jié)省計(jì)算資源,降低實(shí)施難度,還能提供更好的可復(fù)現(xiàn)性和可理解性。
對(duì)于實(shí)際應(yīng)用而言,這項(xiàng)研究為那些資源有限但希望訓(xùn)練高性能小模型的研究者和開發(fā)者提供了新的選擇。他們不再需要實(shí)施復(fù)雜的多階段訓(xùn)練系統(tǒng)或動(dòng)態(tài)參數(shù)調(diào)整策略,只需要按照研究團(tuán)隊(duì)提供的簡(jiǎn)單配方,就可能獲得出色的結(jié)果。這大大降低了強(qiáng)化學(xué)習(xí)在小模型訓(xùn)練中的門檻,讓更多人能夠參與到這個(gè)領(lǐng)域的研究和應(yīng)用中來。
說到底,這項(xiàng)研究提醒我們,在科學(xué)研究中,簡(jiǎn)單往往比復(fù)雜更有力量。正如法國(guó)作家安托萬·德·圣埃克蘇佩里所說:"完美的實(shí)現(xiàn),不是當(dāng)沒有更多東西可以添加時(shí),而是當(dāng)沒有更多東西可以去除時(shí)。"清華大學(xué)團(tuán)隊(duì)的JustRL正是這種哲學(xué)的完美體現(xiàn),它用最簡(jiǎn)潔的方法達(dá)到了最優(yōu)秀的效果,為未來的AI研究指明了一個(gè)值得深思的方向。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)arXiv:2512.16649v1查詢完整研究?jī)?nèi)容。
Q&A
Q1:JustRL是什么樣的AI訓(xùn)練方法?
A:JustRL是清華大學(xué)研究團(tuán)隊(duì)開發(fā)的一種極簡(jiǎn)強(qiáng)化學(xué)習(xí)方法,專門用于訓(xùn)練小型AI模型進(jìn)行數(shù)學(xué)推理。它的核心特點(diǎn)是使用單階段訓(xùn)練和固定參數(shù),避免了復(fù)雜的多階段訓(xùn)練管道和動(dòng)態(tài)參數(shù)調(diào)整,就像用最簡(jiǎn)單的烹飪方法做出最美味的菜肴一樣。
Q2:JustRL相比復(fù)雜方法有什么優(yōu)勢(shì)?
A:JustRL最大的優(yōu)勢(shì)是用一半的計(jì)算資源就能達(dá)到甚至超越復(fù)雜方法的性能。在數(shù)學(xué)推理任務(wù)中,它讓15億參數(shù)的模型達(dá)到了54.9%和64.3%的平均準(zhǔn)確率,同時(shí)訓(xùn)練過程非常穩(wěn)定,不需要人工干預(yù)來防止訓(xùn)練崩潰。
Q3:普通研究者能使用JustRL方法嗎?
A:可以的,這正是JustRL的一大優(yōu)勢(shì)。研究團(tuán)隊(duì)已經(jīng)開源了代碼和模型,普通研究者不需要復(fù)雜的技術(shù)實(shí)施就能使用這種方法。相同的參數(shù)設(shè)置可以直接應(yīng)用到不同模型上,大大降低了強(qiáng)化學(xué)習(xí)訓(xùn)練的技術(shù)門檻。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.