![]()
代彥琪(個人主頁:https://yanqidai.github.io/),現(xiàn)為人大高瓴四年級直博生、南洋理工大學(xué)訪問學(xué)生,師從盧志武教授與張含望教授,主要研究方向為多模態(tài)大模型和強化學(xué)習(xí)。預(yù)計于 2027 年 6 月畢業(yè),目前正積極尋求工業(yè)界發(fā)展機會。
在大模型數(shù)學(xué)推理的強化學(xué)習(xí)中,一個看似簡單、卻長期沒有被認(rèn)真回答的問題是:模型在訓(xùn)練時,到底應(yīng)該更重視哪些題目?
太容易的題,模型往往已經(jīng)掌握,繼續(xù)訓(xùn)練帶來的收益有限;完全不會的題,在當(dāng)前階段又很難提供有效的正向?qū)W習(xí)信號。真正最值得投入訓(xùn)練預(yù)算的,往往是那些更難,但并非不可學(xué)的問題。
圍繞這一點,中國人民大學(xué)高瓴人工智能學(xué)院聯(lián)合阿里巴巴高德、廈門大學(xué)和大連理工大學(xué)的研究團隊提出MathForge:從算法和數(shù)據(jù)兩端同時發(fā)力,讓大模型在強化學(xué)習(xí)過程中更有效地攻克難題,從而顯著提升數(shù)學(xué)推理能力。
![]()
- 論文題目:Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
- 論文地址:https://arxiv.org/abs/2601.20614
- 代碼倉庫:https://github.com/AMAP-ML/MathForge
一、為什么現(xiàn)有方法還不夠「重視難題」?
近年來,基于可驗證獎勵的強化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards, RLVR)的方法,已經(jīng)成為提升大模型數(shù)學(xué)推理能力的重要路線。它不依賴額外訓(xùn)練獎勵模型,而是直接通過規(guī)則檢查答案是否正確,因此在數(shù)學(xué)這類“答案可驗證”的任務(wù)上非常自然、也非常高效。
但這篇工作指出,現(xiàn)有方法對「難題」的忽視,實際上來自兩個層面。
第一,是算法層面。
當(dāng)前廣泛使用的 GRPO,本質(zhì)上是在同一道題生成的一組回答之間做相對比較,再決定更新方向和更新幅度。問題在于,這種機制并不會天然讓模型更關(guān)注難題。相反,論文通過理論分析指出:GRPO 的更新強度會更偏向中等難度題,而對過難和過易題的更新反而會被壓低。
這意味著在同一個訓(xùn)練批次中,那些真正能暴露模型短板、但又不是完全學(xué)不會的「難而可學(xué)」問題,未必能得到足夠大的訓(xùn)練信號。模型最該花精力去學(xué)的題,不一定真的被重點學(xué)到了。
第二,是數(shù)據(jù)層面。
已有的數(shù)學(xué)推理數(shù)據(jù)增強方法,常見做法要么是從頭生成新的題目和答案,要么只是對原題做簡單重述。前者往往很難保證答案質(zhì)量,尤其是高難度競賽數(shù)學(xué)題;后者雖然提升了表述多樣性,卻沒有真正提高了題目的內(nèi)在難度。
二、MathForge:從算法
和數(shù)據(jù)兩端同時「鍛造」模型
為了解決上面這兩個問題,論文提出了一個雙輪驅(qū)動框架 MathForge。它由兩個核心部分組成:
- DGPO:Difficulty-Aware Group Policy Optimization,難度感知的組策略優(yōu)化
- MQR:Multi-Aspect Question Reformulation,多方面問題改寫
一個解決「怎么學(xué)」,一個解決「學(xué)什么」。
1. DGPO:讓「更難但可學(xué)」的題真正被學(xué)到
DGPO 的核心思想,并不是一句簡單的「給難題更高權(quán)重」,而是一個非常清晰的兩步過程:先平衡,再重加權(quán)。
第一步,是 DGAE(Difficulty-balanced Group Advantage Estimation,難度平衡的組優(yōu)勢估計)。
作者發(fā)現(xiàn),GRPO 中對優(yōu)勢的歸一化方式會帶來對不同難度問題的更新幅度的不平衡。具體來講,GRPO 的優(yōu)化目標(biāo)如下:
![]()
在不考慮梯度剪裁的情況下,GRPO 的策略梯度如下:
![]()
把 GRPO 的梯度拆開來看,會發(fā)現(xiàn)優(yōu)勢項的符號決定更新方向,而優(yōu)勢項的絕對值決定更新幅度。所以,一道題對參數(shù)更新的整體影響,可以用組內(nèi)所有回答優(yōu)勢絕對值之和來近似理解。
![]()
![]()
![]()
其中最值得注意的是那些困難但可答對的題目:它們正確率不高,但并不是完全不會做。作者認(rèn)為這類題其實最有訓(xùn)練價值,因為它們恰好暴露了模型尚未掌握、但已經(jīng)接近掌握的能力邊界。
為此,DGAE 用平均絕對偏差(MAD)替代了原先的標(biāo)準(zhǔn)差歸一化,其組相關(guān)優(yōu)勢的計算方式如下:
![]()
作者在下方的定理 2 中證明:在不依賴必須使用二值正確性獎勵的情況下,DGAE 對每道題的總更新幅度為相等的定值 。這讓不同題目的更新幅度變得更加平衡,不再天然偏向中等難度題。
![]()
第二步,是 DQW(Difficulty-aware Question-level Weighting,難度感知的問題級別加權(quán))。
在更新幅度被拉平之后,DQW 再根據(jù)題目當(dāng)前的平均正確率來估計難度,對那些更難、但仍有有效學(xué)習(xí)信號的問題賦予更高權(quán)重。具體的權(quán)重計算方式如下:
![]()
2. MQR:把問題改得更難,但答案不變
如果說 DGPO 回答的是「怎么學(xué)」,那么 MQR 回答的就是「學(xué)什么」。
MQR 不滿足于對原題做淺層重述,而是系統(tǒng)性地從三個方向提升題目難度,同時嚴(yán)格保持原始標(biāo)準(zhǔn)答案不變。核心指令如下:
![]()
第一種是 Background。
給原題加入看似相關(guān)、但實際上會帶來干擾的信息背景,讓模型必須在更復(fù)雜的敘述里抓住真正關(guān)鍵的數(shù)學(xué)條件。
第二種是 Term。
給題目中的核心概念引入新的抽象術(shù)語,讓模型不能只靠熟悉的表面表達(dá)來作答,而必須真正理解定義和結(jié)構(gòu)。
第三種是 Sub-Problem。
把原題中的一個關(guān)鍵數(shù)值條件改造成一個需要先求解的小問題,再返回主問題。這會顯著增加推理鏈條長度,也更考驗?zāi)P偷亩嗖酵评砗涂珙I(lǐng)域推理能力。
構(gòu)造數(shù)據(jù)時有一個嚴(yán)格的限制條件是:所有改寫后的題目都必須保持原始 gold answer 不變。
這意味著,MQR 不是在重新造一套不穩(wěn)定的新題,而是在盡量不破壞數(shù)學(xué)本質(zhì)和標(biāo)準(zhǔn)答案的前提下,系統(tǒng)性地把同一道題改得更難、更有挑戰(zhàn)性。這樣既保證了訓(xùn)練信號的可靠性,也降低了額外數(shù)據(jù)構(gòu)造的成本和難度。
三、實驗結(jié)果:更難的訓(xùn)練,
帶來更強、更穩(wěn)、更泛化的推理
實驗結(jié)果非常清楚地說明了一點:更難的問題,確實更值得學(xué)。
如表 1 所示,在主實驗設(shè)置下,無論是只使用 DGPO,還是只使用 MQR,都能明顯超過強基線 GRPO;而當(dāng)兩者結(jié)合成完整的 MathForge 后,效果進一步達(dá)到最好,相比 GRPO 帶來了超過 4.5 個點的平均提升。更重要的是,這個優(yōu)勢并不是只在單一對比下成立,而是在與多種已有強化學(xué)習(xí)優(yōu)化方法比較時,依然保持了最強的整體表現(xiàn)。
![]()
進一步地,如表 2 所示,MathForge 在不同大小、不同類型的基礎(chǔ)模型上都保持了穩(wěn)定收益。從較小模型到 7B 級模型,它都能帶來大約 3 到 4.5 個點的平均提升。這說明它并不是依賴某一個特定 backbone 的「技巧性調(diào)參」,而是一種更普適的訓(xùn)練原則。
![]()
在算法分析上,如表 3 所示,DGPO 的兩個關(guān)鍵設(shè)計也都被驗證是必要的:DGAE 負(fù)責(zé)先把不同難度問題的更新強度拉平,DQW 再把訓(xùn)練重點推向更難但可學(xué)的問題,兩者是互補關(guān)系,而不是可有可無的附加項。與此同時,如表 4 所示,DGPO 還可以與多種現(xiàn)有強化學(xué)習(xí)方法直接結(jié)合,并繼續(xù)帶來額外收益,說明它并不是一個封閉替代方案,而更像是一種可插拔的通用增強機制。
![]()
![]()
更值得注意的是,這種「按難度組織學(xué)習(xí)」的思路并不只適用于文本數(shù)學(xué)任務(wù)。如表 5 所示,論文還把 DGPO 應(yīng)用到了多模態(tài)數(shù)學(xué)推理場景中,結(jié)果同樣比 GRPO 有超過 2 個點的提升。這說明 MathForge 所強調(diào)的,并不是某個特定數(shù)據(jù)集上的偶然技巧,而可能是一種更廣泛適用的后訓(xùn)練思路:不同問題不應(yīng)該被一視同仁,訓(xùn)練預(yù)算應(yīng)該優(yōu)先留給更難、但仍有學(xué)習(xí)價值的問題。
![]()
從數(shù)據(jù)角度看,MQR 的效果也并不只是「樣本變多了」。如表 6 和表 7 所示,論文專門控制了總訓(xùn)練量后發(fā)現(xiàn),使用 MQR 改寫后的數(shù)據(jù)依然優(yōu)于只用原始數(shù)據(jù)的訓(xùn)練版本;三種改寫策略單獨使用時都有效,組合起來效果最好。這意味著 MQR 真正帶來的,是更有價值的訓(xùn)練樣本,而不是簡單的樣本堆疊。更細(xì)致的難度分析還表明,這三類改寫后的問題整體都比原題更難,其中把關(guān)鍵條件改造成子問題的方式最能拉高推理難度。
![]()
![]()
在訓(xùn)練動態(tài)方面,如圖 1 所示,對于 DGPO 來說,模型不僅更準(zhǔn),而且輸出還更簡短,說明它學(xué)到的不是更冗長的推理,而是更高效的推理路徑。
![]()
如圖 2 所示,對于 MQR 來說,模型在訓(xùn)練階段的準(zhǔn)確率變得更低,但最終測試表現(xiàn)卻反而更好,呈現(xiàn)出非常直觀的「train harder, test better」現(xiàn)象。也就是說,更難的數(shù)據(jù)確實在逼著模型形成更強的泛化能力,而不是只在容易題上反復(fù)刷分。
![]()
四、總結(jié)
MathForge 真正回答了一個非常關(guān)鍵的問題:在強化學(xué)習(xí)里,哪些題最值得學(xué)?
答案不是最簡單的題,也不是完全不會的題,而是那些更難、但仍然可學(xué)的問題。DGPO 負(fù)責(zé)讓模型在訓(xùn)練中真正重視這類問題,MQR 負(fù)責(zé)穩(wěn)定地產(chǎn)生這類問題。兩者結(jié)合,最終把「更難的訓(xùn)練」轉(zhuǎn)化成了「更強的推理」。
從這個意義上說,MathForge 的價值不只是把數(shù)學(xué)推理結(jié)果再往前推了一步,更重要的是它提供了一種非常清晰的訓(xùn)練觀:不是所有樣本都應(yīng)該被平等對待,真正高價值的學(xué)習(xí),往往發(fā)生在難而可學(xué)的邊界地帶。
這也正是這篇工作的標(biāo)題想表達(dá)的核心:Harder Is Better。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.