![]()
這項(xiàng)由NVIDIA公司W(wǎng)ei Du、Shubham Toshniwal等研究團(tuán)隊(duì)開(kāi)展的突破性研究于2025年12月發(fā)表在arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2512.15489v1。該研究構(gòu)建了迄今為止最大規(guī)模的數(shù)學(xué)推理數(shù)據(jù)集Nemotron-Math,包含高達(dá)7500萬(wàn)條數(shù)學(xué)解題推理軌跡,讓AI模型在數(shù)學(xué)競(jìng)賽中達(dá)到了前所未有的100%滿(mǎn)分成績(jī)。
要理解這項(xiàng)研究的重要性,我們可以把AI學(xué)數(shù)學(xué)比作培養(yǎng)一個(gè)超級(jí)數(shù)學(xué)天才。以往的AI訓(xùn)練就像讓學(xué)生只看標(biāo)準(zhǔn)答案學(xué)習(xí),而Nemotron-Math則是讓AI觀察千萬(wàn)個(gè)不同風(fēng)格的數(shù)學(xué)老師如何詳細(xì)講解同一道題。有些老師講得簡(jiǎn)潔明了,有些老師會(huì)展開(kāi)每一個(gè)細(xì)節(jié),還有些老師會(huì)邊講邊用計(jì)算器驗(yàn)證每一步。通過(guò)觀察這些豐富多樣的解題過(guò)程,AI不僅學(xué)會(huì)了答案,更重要的是學(xué)會(huì)了思考的方法。
該研究團(tuán)隊(duì)使用了目前最先進(jìn)的gpt-oss-120b推理模型作為"超級(jí)老師",讓它以高、中、低三種不同的推理深度來(lái)解答數(shù)學(xué)題目。每種深度都分為兩個(gè)版本:純文字推理和結(jié)合Python編程工具的推理。這就像讓一位頂尖數(shù)學(xué)教授用六種不同的教學(xué)風(fēng)格來(lái)講解每道題目,確保學(xué)生能從多個(gè)角度理解數(shù)學(xué)問(wèn)題的本質(zhì)。
研究團(tuán)隊(duì)精心篩選了347000道數(shù)學(xué)題目,這些題目來(lái)源于兩個(gè)互補(bǔ)的數(shù)據(jù)源。首先是85000道來(lái)自藝術(shù)解題社區(qū)(AoPS)的競(jìng)賽級(jí)數(shù)學(xué)題,這些題目嚴(yán)謹(jǐn)規(guī)范,代表了數(shù)學(xué)競(jìng)賽的最高水準(zhǔn)。另外262000道題目則來(lái)自StackExchange數(shù)學(xué)論壇,這些是真實(shí)用戶(hù)在學(xué)習(xí)中遇到的各種數(shù)學(xué)問(wèn)題,更接近日常數(shù)學(xué)應(yīng)用的多樣性。這種組合就像同時(shí)準(zhǔn)備標(biāo)準(zhǔn)化考試和解決實(shí)際生活中的數(shù)學(xué)問(wèn)題,讓AI的數(shù)學(xué)能力更加全面。
一、多模式推理:讓AI用六種方式學(xué)數(shù)學(xué)
傳統(tǒng)的AI數(shù)學(xué)訓(xùn)練就像讓學(xué)生只看一種解題方法,而Nemotron-Math的創(chuàng)新之處在于提供了六種截然不同的學(xué)習(xí)方式。高推理模式就像最詳細(xì)的數(shù)學(xué)輔導(dǎo)書(shū),每一步都有詳盡的解釋和驗(yàn)證,生成的解題過(guò)程可以長(zhǎng)達(dá)128000個(gè)字符,相當(dāng)于一篇詳細(xì)的數(shù)學(xué)論文。中等推理模式則像標(biāo)準(zhǔn)的教科書(shū)解答,既有邏輯又不過(guò)分冗長(zhǎng)。低推理模式類(lèi)似于快速的解題技巧,直接給出核心步驟。
更有趣的是,每種推理模式都分為兩個(gè)版本:純文字推理和工具輔助推理。純文字推理就像傳統(tǒng)的紙筆計(jì)算,完全依靠邏輯推導(dǎo)。而工具輔助推理則像現(xiàn)代數(shù)學(xué)家的工作方式,會(huì)調(diào)用Python編程來(lái)驗(yàn)證計(jì)算、繪制圖形、進(jìn)行復(fù)雜的數(shù)值分析。這種結(jié)合讓AI不僅學(xué)會(huì)了數(shù)學(xué)思維,還掌握了現(xiàn)代數(shù)學(xué)研究的工具使用方法。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:工具輔助推理版本的解題軌跡通常比純文字版本更長(zhǎng)。這是因?yàn)楫?dāng)AI使用Python工具時(shí),它會(huì)進(jìn)行更多的驗(yàn)證和探索性計(jì)算,就像一個(gè)謹(jǐn)慎的數(shù)學(xué)家會(huì)多次檢驗(yàn)自己的結(jié)果。這種自我驗(yàn)證的習(xí)慣讓AI的解題更加可靠,也讓學(xué)習(xí)過(guò)程更加深入。
為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)采用了嚴(yán)格的篩選標(biāo)準(zhǔn)。他們讓gpt-oss-120b為每道題目生成16個(gè)不同的解答,然后檢查這些解答的正確率。如果一道題目的正確率超過(guò)80%,就認(rèn)為這道題目對(duì)模型來(lái)說(shuō)太簡(jiǎn)單了,不足以提供有價(jià)值的學(xué)習(xí)信號(hào),因此會(huì)被剔除。這個(gè)篩選過(guò)程就像挑選合適難度的練習(xí)題,確保AI既不會(huì)因?yàn)轭}目太難而無(wú)所適從,也不會(huì)因?yàn)轭}目太簡(jiǎn)單而學(xué)不到東西。
二、數(shù)據(jù)來(lái)源的巧妙平衡:競(jìng)賽嚴(yán)謹(jǐn)性與現(xiàn)實(shí)多樣性的結(jié)合
Nemotron-Math數(shù)據(jù)集的構(gòu)建體現(xiàn)了研究團(tuán)隊(duì)對(duì)數(shù)學(xué)學(xué)習(xí)本質(zhì)的深刻理解。他們認(rèn)識(shí)到,僅僅依靠標(biāo)準(zhǔn)化的競(jìng)賽題目雖然能保證嚴(yán)謹(jǐn)性,但可能會(huì)讓AI的數(shù)學(xué)能力過(guò)于狹窄。因此,他們采用了雙源策略,巧妙平衡了學(xué)術(shù)嚴(yán)謹(jǐn)性和現(xiàn)實(shí)應(yīng)用的多樣性。
AoPS來(lái)源的85000道題目代表了數(shù)學(xué)競(jìng)賽的精華。這些題目經(jīng)過(guò)數(shù)學(xué)競(jìng)賽專(zhuān)家的精心設(shè)計(jì),涵蓋了代數(shù)、幾何、數(shù)論和組合數(shù)學(xué)等核心領(lǐng)域。每道題目都有明確的標(biāo)準(zhǔn)答案,解題過(guò)程需要嚴(yán)密的邏輯推理。這些題目就像經(jīng)典的數(shù)學(xué)教材習(xí)題,為AI提供了扎實(shí)的數(shù)學(xué)基礎(chǔ)訓(xùn)練。
相比之下,StackExchange數(shù)學(xué)論壇的262000道題目則更加貼近現(xiàn)實(shí)。這些題目來(lái)自真實(shí)用戶(hù)的提問(wèn),包含了各種不規(guī)范的表述、實(shí)際應(yīng)用背景和跨領(lǐng)域的數(shù)學(xué)問(wèn)題。有些可能是工程師在設(shè)計(jì)中遇到的優(yōu)化問(wèn)題,有些可能是學(xué)生在學(xué)習(xí)中的困惑,還有些可能是研究者在探索新領(lǐng)域時(shí)的數(shù)學(xué)疑問(wèn)。這種多樣性讓AI學(xué)會(huì)了處理各種"不完美"的數(shù)學(xué)問(wèn)題,更好地適應(yīng)真實(shí)世界的應(yīng)用場(chǎng)景。
研究團(tuán)隊(duì)特別注意了數(shù)據(jù)預(yù)處理的細(xì)節(jié)。他們首先過(guò)濾掉了以證明為主要目標(biāo)的題目,因?yàn)檫@類(lèi)題目的答案往往不是數(shù)值或表達(dá)式,而是整個(gè)證明過(guò)程,難以進(jìn)行標(biāo)準(zhǔn)化的正確性檢驗(yàn)。接著,他們使用先進(jìn)的AI模型來(lái)檢測(cè)和清除與公開(kāi)基準(zhǔn)測(cè)試重疊的題目,確保訓(xùn)練數(shù)據(jù)不會(huì)"泄露"測(cè)試答案。這種嚴(yán)格的數(shù)據(jù)清洗過(guò)程保證了實(shí)驗(yàn)結(jié)果的可信度。
在答案驗(yàn)證方面,研究團(tuán)隊(duì)采用了一個(gè)創(chuàng)新的策略。對(duì)于每道題目,他們會(huì)生成多個(gè)不同的解答,然后使用AI判官來(lái)評(píng)估這些解答是否與參考答案一致。如果原始的參考答案與所有AI解答都不匹配,他們會(huì)用AI解答的多數(shù)投票結(jié)果來(lái)替換原始答案。這種做法基于一個(gè)合理的假設(shè):如果多個(gè)獨(dú)立的AI解答都得出了相同的結(jié)果,而這個(gè)結(jié)果與原始答案不同,那么很可能是原始答案有誤。通過(guò)人工抽查驗(yàn)證,他們發(fā)現(xiàn)這種替換確實(shí)提高了答案的準(zhǔn)確性。
三、創(chuàng)新的分桶訓(xùn)練策略:讓超長(zhǎng)文本訓(xùn)練變得高效可行
訓(xùn)練AI處理超長(zhǎng)數(shù)學(xué)推理文本面臨著巨大的計(jì)算挑戰(zhàn)。Nemotron-Math中的推理軌跡長(zhǎng)度變化極大,從幾千字符到128000字符不等,這就像要求一個(gè)學(xué)生同時(shí)適應(yīng)短篇閱讀和長(zhǎng)篇學(xué)術(shù)論文。如果始終按照最長(zhǎng)文本的標(biāo)準(zhǔn)來(lái)配置計(jì)算資源,就會(huì)造成嚴(yán)重的浪費(fèi),因?yàn)榇蟛糠钟?xùn)練時(shí)間都在處理相對(duì)較短的文本。
研究團(tuán)隊(duì)提出的分桶訓(xùn)練策略就像是為不同長(zhǎng)度的文本準(zhǔn)備了不同規(guī)格的教室。他們將訓(xùn)練數(shù)據(jù)按照文本長(zhǎng)度分為四個(gè)"桶":16K以下、16K-32K、32K-64K和64K以上。訓(xùn)練過(guò)程從最短的文本開(kāi)始,逐步增加到最長(zhǎng)的文本,每個(gè)階段都使用最適合當(dāng)前文本長(zhǎng)度的并行計(jì)算配置。
這種策略的巧妙之處在于充分利用了訓(xùn)練數(shù)據(jù)的分布特點(diǎn)。統(tǒng)計(jì)顯示,大部分推理軌跡都集中在較短的長(zhǎng)度范圍內(nèi),只有很少比例的文本達(dá)到了超長(zhǎng)長(zhǎng)度。因此,訓(xùn)練的大部分時(shí)間都可以在高效的短文本配置下完成,只有最后階段才需要使用昂貴的長(zhǎng)文本配置。這就像在建造一座大廈時(shí),大部分工作都在地面進(jìn)行,只有最后才需要高空作業(yè)的特殊設(shè)備。
具體來(lái)說(shuō),當(dāng)處理16K長(zhǎng)度的文本時(shí),系統(tǒng)可以使用優(yōu)化的并行配置,每個(gè)訓(xùn)練步驟只需要18秒。如果強(qiáng)行使用適配128K長(zhǎng)度文本的配置來(lái)處理這些短文本,每個(gè)步驟的時(shí)間會(huì)增加到25秒。雖然單看起來(lái)差異不大,但考慮到訓(xùn)練過(guò)程中有數(shù)百萬(wàn)個(gè)這樣的步驟,累積的時(shí)間節(jié)省就非常可觀了。研究團(tuán)隊(duì)通過(guò)詳細(xì)的計(jì)時(shí)分析發(fā)現(xiàn),這種分桶策略能夠?qū)崿F(xiàn)2-3倍的訓(xùn)練速度提升。
然而,這種策略也帶來(lái)了一些需要注意的問(wèn)題。當(dāng)訓(xùn)練進(jìn)入最長(zhǎng)文本階段時(shí),由于中等和低推理模式的文本很少達(dá)到128K長(zhǎng)度,訓(xùn)練數(shù)據(jù)主要由高推理模式的文本組成。如果不加注意,AI可能會(huì)過(guò)度偏向于生成冗長(zhǎng)詳細(xì)的推理過(guò)程,失去根據(jù)需要調(diào)整推理深度的能力。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)在最后階段特意加入了一定比例的中等和低推理模式數(shù)據(jù),確保AI能夠保持多樣化的推理風(fēng)格。
四、實(shí)驗(yàn)驗(yàn)證:全方位超越現(xiàn)有最佳數(shù)據(jù)集
為了驗(yàn)證Nemotron-Math數(shù)據(jù)集的效果,研究團(tuán)隊(duì)進(jìn)行了全面的對(duì)比實(shí)驗(yàn)。他們選擇了當(dāng)前最受認(rèn)可的OpenMathReasoning數(shù)據(jù)集作為基準(zhǔn),這個(gè)數(shù)據(jù)集此前被認(rèn)為是數(shù)學(xué)推理訓(xùn)練的金標(biāo)準(zhǔn)。為了確保比較的公平性,研究團(tuán)隊(duì)精心設(shè)計(jì)了對(duì)照實(shí)驗(yàn),使用相同的50000道AoPS題目,確保兩個(gè)數(shù)據(jù)集在問(wèn)題難度和分布上完全一致。
實(shí)驗(yàn)結(jié)果令人印象深刻。在使用Qwen3-30B-A3B模型進(jìn)行高推理模式訓(xùn)練后,Nemotron-Math數(shù)據(jù)集在所有測(cè)試基準(zhǔn)上都顯著超越了OpenMathReasoning。在AIME25競(jìng)賽中,準(zhǔn)確率從OpenMathReasoning的59.38%提升到了77.08%,在HMMT-24-25競(jìng)賽中從49.30%提升到了63.17%。這種提升不是微小的改進(jìn),而是實(shí)質(zhì)性的飛躍,相當(dāng)于將一個(gè)數(shù)學(xué)競(jìng)賽選手從地區(qū)水平提升到了國(guó)家級(jí)水平。
更有意思的是混合數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含50%Nemotron-Math和50%OpenMathReasoning的混合數(shù)據(jù)集,結(jié)果表明這種混合比純粹使用OpenMathReasoning效果更好,但仍然不如純粹使用Nemotron-Math。這個(gè)發(fā)現(xiàn)說(shuō)明Nemotron-Math的推理模式確實(shí)比傳統(tǒng)方法更加有效,甚至少量的傳統(tǒng)數(shù)據(jù)都可能稀釋其效果。
研究團(tuán)隊(duì)還專(zhuān)門(mén)測(cè)試了StackExchange數(shù)學(xué)數(shù)據(jù)的貢獻(xiàn)。他們構(gòu)建了兩個(gè)版本的數(shù)據(jù)集:僅包含AoPS題目的版本和包含50% StackExchange題目的版本。結(jié)果顯示,在傳統(tǒng)的數(shù)學(xué)競(jìng)賽基準(zhǔn)上,兩個(gè)版本的表現(xiàn)相當(dāng),說(shuō)明增加StackExchange數(shù)據(jù)不會(huì)損害競(jìng)賽表現(xiàn)。但在HLE-Math這個(gè)更接近實(shí)際應(yīng)用的基準(zhǔn)上,包含StackExchange數(shù)據(jù)的版本表現(xiàn)明顯更好,證明了數(shù)據(jù)多樣性對(duì)于提升AI泛化能力的重要作用。
五、模型規(guī)模實(shí)驗(yàn):小模型同樣受益顯著
一個(gè)特別有價(jià)值的發(fā)現(xiàn)是Nemotron-Math數(shù)據(jù)集對(duì)不同規(guī)模模型的普遍有效性。研究團(tuán)隊(duì)同時(shí)測(cè)試了Qwen3-8B(80億參數(shù))和Qwen3-30B-A3B(300億參數(shù))兩個(gè)模型,發(fā)現(xiàn)它們?cè)谑褂肗emotron-Math訓(xùn)練后都達(dá)到了相似的最終性能水平。
這個(gè)結(jié)果打破了"只有大模型才能處理復(fù)雜推理"的常見(jiàn)認(rèn)知。通過(guò)觀察訓(xùn)練過(guò)程曲線,研究團(tuán)隊(duì)發(fā)現(xiàn)兩個(gè)不同規(guī)模的模型展現(xiàn)出了幾乎相同的學(xué)習(xí)動(dòng)態(tài):它們以相似的速度改進(jìn),在相似的訓(xùn)練節(jié)點(diǎn)達(dá)到收斂,最終的準(zhǔn)確率也非常接近。這說(shuō)明高質(zhì)量的推理數(shù)據(jù)能夠讓較小的模型也發(fā)揮出接近大模型的推理能力。
在最具挑戰(zhàn)性的高推理模式配合Python工具使用的設(shè)置下,無(wú)論是80億參數(shù)的Qwen3-8B還是300億參數(shù)的Qwen3-30B-A3B,都在AIME24和AIME25競(jìng)賽中達(dá)到了100%的maj@16準(zhǔn)確率。這意味著當(dāng)AI被要求對(duì)每道題目生成16個(gè)不同的解答時(shí),在這16個(gè)解答中總是能找到正確答案。這種一致的優(yōu)異表現(xiàn)表明,Nemotron-Math數(shù)據(jù)集的訓(xùn)練效果不依賴(lài)于特定的模型架構(gòu)或參數(shù)規(guī)模,而是普遍適用的。
這個(gè)發(fā)現(xiàn)對(duì)于AI應(yīng)用具有重要的實(shí)踐意義。它表明組織和個(gè)人不需要投資昂貴的超大模型,通過(guò)合適的數(shù)據(jù)和訓(xùn)練方法,相對(duì)較小的模型也能達(dá)到世界級(jí)的數(shù)學(xué)推理水平。這大大降低了高級(jí)AI數(shù)學(xué)能力的應(yīng)用門(mén)檻,讓更多的研究機(jī)構(gòu)和教育組織能夠受益于這項(xiàng)技術(shù)。
六、工具集成推理的突破:讓AI像人類(lèi)數(shù)學(xué)家一樣工作
Nemotron-Math數(shù)據(jù)集的一個(gè)重要?jiǎng)?chuàng)新是大規(guī)模集成了Python工具使用。這不僅僅是簡(jiǎn)單的計(jì)算輔助,而是模擬了現(xiàn)代數(shù)學(xué)研究的真實(shí)工作流程。就像專(zhuān)業(yè)的數(shù)學(xué)家會(huì)使用計(jì)算軟件來(lái)驗(yàn)證推導(dǎo)、繪制圖形、進(jìn)行數(shù)值實(shí)驗(yàn)一樣,訓(xùn)練后的AI模型學(xué)會(huì)了在推理過(guò)程中主動(dòng)調(diào)用編程工具。
在工具集成推理模式下,AI不再是被動(dòng)地進(jìn)行符號(hào)推導(dǎo),而是會(huì)主動(dòng)編寫(xiě)Python代碼來(lái)驗(yàn)證每一步計(jì)算。比如在解決幾何問(wèn)題時(shí),AI可能會(huì)編寫(xiě)代碼來(lái)繪制圖形,直觀地理解問(wèn)題的空間關(guān)系。在處理概率統(tǒng)計(jì)問(wèn)題時(shí),AI會(huì)進(jìn)行蒙特卡洛模擬來(lái)驗(yàn)證理論推導(dǎo)的正確性。在代數(shù)問(wèn)題中,AI會(huì)使用符號(hào)計(jì)算庫(kù)來(lái)處理復(fù)雜的表達(dá)式變換。
這種工具集成帶來(lái)了顯著的性能提升。在所有測(cè)試基準(zhǔn)中,使用Python工具的版本都大幅超越了純文字推理的版本。在AIME25競(jìng)賽中,Qwen3-30B-A3B模型在高推理模式下,純文字版本的準(zhǔn)確率為84.79%,而工具集成版本達(dá)到了96%。這種提升不僅體現(xiàn)在準(zhǔn)確率上,更重要的是體現(xiàn)在推理過(guò)程的可靠性和可驗(yàn)證性上。
研究團(tuán)隊(duì)發(fā)現(xiàn),工具集成推理生成的軌跡通常比純文字推理更長(zhǎng),這是因?yàn)锳I會(huì)進(jìn)行更多的中間驗(yàn)證和探索性計(jì)算。這種"verbose but verified"的特點(diǎn)讓AI的推理過(guò)程更加透明和可信。教育工作者可以觀察AI的完整推理過(guò)程,了解每一步的邏輯依據(jù)和計(jì)算驗(yàn)證,這為AI輔助數(shù)學(xué)教學(xué)提供了新的可能性。
七、長(zhǎng)文本推理能力的突破:處理128K字符的完整推理鏈
傳統(tǒng)的AI模型在處理超長(zhǎng)文本時(shí)往往會(huì)遇到性能瓶頸,但Nemotron-Math訓(xùn)練出的模型能夠穩(wěn)定處理長(zhǎng)達(dá)128000字符的推理軌跡。這相當(dāng)于一篇詳細(xì)的學(xué)術(shù)論文的長(zhǎng)度,包含了完整的問(wèn)題分析、方法探索、計(jì)算過(guò)程、結(jié)果驗(yàn)證和總結(jié)反思。
這種超長(zhǎng)推理能力開(kāi)辟了全新的應(yīng)用場(chǎng)景。AI不再局限于給出簡(jiǎn)潔的答案,而是能夠像人類(lèi)專(zhuān)家一樣進(jìn)行深入的數(shù)學(xué)探索。在處理復(fù)雜的奧林匹克數(shù)學(xué)題時(shí),AI可能會(huì)嘗試多種不同的解題策略,詳細(xì)分析每種方法的優(yōu)缺點(diǎn),甚至在某個(gè)方向遇到困難時(shí)回頭嘗試其他路徑。這種完整的探索過(guò)程為學(xué)習(xí)者提供了寶貴的思維模型。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了長(zhǎng)文本推理的有效性。他們發(fā)現(xiàn),當(dāng)允許AI生成更長(zhǎng)的推理軌跡時(shí),解題的成功率會(huì)顯著提高。這不是因?yàn)槿唛L(zhǎng)本身有價(jià)值,而是因?yàn)楦浞值耐评磉^(guò)程能夠減少邏輯錯(cuò)誤和計(jì)算失誤。就像人類(lèi)數(shù)學(xué)家在處理復(fù)雜問(wèn)題時(shí)會(huì)進(jìn)行詳細(xì)的草稿推演一樣,AI通過(guò)長(zhǎng)文本推理獲得了更可靠的問(wèn)題解決能力。
長(zhǎng)文本推理還帶來(lái)了另一個(gè)重要優(yōu)勢(shì):自我糾錯(cuò)能力。在推理過(guò)程中,AI經(jīng)常會(huì)發(fā)現(xiàn)之前步驟的錯(cuò)誤并主動(dòng)進(jìn)行修正。這種自我監(jiān)控和糾錯(cuò)的能力是高水平數(shù)學(xué)推理的重要特征,也是Nemotron-Math訓(xùn)練的一個(gè)重要成果。
八、對(duì)比實(shí)驗(yàn)揭示的深層規(guī)律:推理模式的層次化效應(yīng)
通過(guò)對(duì)高、中、低三種推理模式的系統(tǒng)比較,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的規(guī)律。高推理模式確實(shí)在所有基準(zhǔn)測(cè)試中都表現(xiàn)最佳,但中等推理模式在某些情況下顯示出了更好的效率-效果平衡。低推理模式雖然準(zhǔn)確率相對(duì)較低,但生成速度快,適合需要快速響應(yīng)的應(yīng)用場(chǎng)景。
這種層次化的推理能力讓AI系統(tǒng)具備了類(lèi)似人類(lèi)的適應(yīng)性。就像人在面對(duì)不同難度的數(shù)學(xué)問(wèn)題時(shí)會(huì)自動(dòng)調(diào)整思考深度一樣,經(jīng)過(guò)Nemotron-Math訓(xùn)練的AI也能夠根據(jù)需要選擇合適的推理模式。簡(jiǎn)單問(wèn)題可以使用快速的低推理模式,復(fù)雜問(wèn)題則可以調(diào)用深度的高推理模式。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了推理模式與問(wèn)題類(lèi)型之間的有趣關(guān)聯(lián)。幾何問(wèn)題往往從工具集成推理中獲益更多,因?yàn)閳D形繪制和可視化分析對(duì)于幾何推理非常重要。代數(shù)問(wèn)題則在不同推理模式下的表現(xiàn)差異相對(duì)較小,說(shuō)明代數(shù)推理更多依賴(lài)于符號(hào)操作的邏輯性。組合數(shù)學(xué)問(wèn)題最能體現(xiàn)高推理模式的優(yōu)勢(shì),因?yàn)檫@類(lèi)問(wèn)題往往需要多步驟的案例分析和復(fù)雜的計(jì)數(shù)論證。
九、訓(xùn)練效率的工程突破:讓超算資源物盡其用
Nemotron-Math項(xiàng)目不僅在AI能力上實(shí)現(xiàn)了突破,在訓(xùn)練工程方面也做出了重要貢獻(xiàn)。傳統(tǒng)的長(zhǎng)文本AI訓(xùn)練面臨著嚴(yán)重的資源浪費(fèi)問(wèn)題:為了處理最長(zhǎng)的文本,整個(gè)訓(xùn)練過(guò)程都必須使用最大規(guī)模的并行配置,即使在處理短文本時(shí)也是如此。這就像為了偶爾運(yùn)輸大件貨物而始終使用最大型的卡車(chē),造成了巨大的成本浪費(fèi)。
分桶訓(xùn)練策略徹底改變了這種狀況。通過(guò)將訓(xùn)練數(shù)據(jù)按照長(zhǎng)度進(jìn)行分組,并為每個(gè)長(zhǎng)度范圍設(shè)計(jì)最優(yōu)的并行配置,研究團(tuán)隊(duì)實(shí)現(xiàn)了2-3倍的訓(xùn)練速度提升。這種提升不是通過(guò)更快的硬件或更多的計(jì)算資源實(shí)現(xiàn)的,而是通過(guò)更聰明的資源利用策略。
具體的優(yōu)化效果令人印象深刻。在處理16K長(zhǎng)度的文本時(shí),優(yōu)化配置下的訓(xùn)練步驟耗時(shí)18秒,而固定使用128K配置則需要25秒。考慮到16K長(zhǎng)度的數(shù)據(jù)占總訓(xùn)練數(shù)據(jù)的很大比例,這種單步優(yōu)化的累積效應(yīng)非常顯著。在整個(gè)訓(xùn)練過(guò)程中,這種策略節(jié)省了數(shù)百小時(shí)的計(jì)算時(shí)間,相當(dāng)于節(jié)省了數(shù)萬(wàn)美元的云計(jì)算費(fèi)用。
這種工程創(chuàng)新的意義不僅在于成本節(jié)約,更在于使超長(zhǎng)文本AI訓(xùn)練變得更加可行。許多研究機(jī)構(gòu)和公司之前可能因?yàn)橛?jì)算成本過(guò)高而無(wú)法嘗試長(zhǎng)文本AI研究,現(xiàn)在通過(guò)這種優(yōu)化策略,他們也能夠進(jìn)行相關(guān)的探索。這降低了高級(jí)AI研究的門(mén)檻,有助于整個(gè)領(lǐng)域的加速發(fā)展。
十、基準(zhǔn)測(cè)試的全面勝利:從競(jìng)賽到實(shí)際應(yīng)用的跨越
Nemotron-Math的優(yōu)異表現(xiàn)不僅體現(xiàn)在傳統(tǒng)的數(shù)學(xué)競(jìng)賽基準(zhǔn)上,更重要的是在多樣化的評(píng)估場(chǎng)景中都取得了顯著進(jìn)步。研究團(tuán)隊(duì)精心選擇了兩類(lèi)互補(bǔ)的基準(zhǔn)測(cè)試:Comp-Math-24-25代表嚴(yán)格的競(jìng)賽數(shù)學(xué),HLE-Math代表開(kāi)放域的實(shí)際數(shù)學(xué)應(yīng)用。這種雙重評(píng)估確保了AI能力的全面性和實(shí)用性。
在競(jìng)賽類(lèi)基準(zhǔn)測(cè)試中,訓(xùn)練后的模型在AIME24、AIME25和HMMT-24-25三個(gè)頂級(jí)數(shù)學(xué)競(jìng)賽中都達(dá)到了驚人的成績(jī)。特別是在最高難度的配置下(高推理模式+Python工具),兩個(gè)不同規(guī)模的模型都在AIME24和AIME25中達(dá)到了100% maj@16準(zhǔn)確率。這意味著AI在這些被認(rèn)為極其困難的數(shù)學(xué)競(jìng)賽中達(dá)到了完美表現(xiàn),超越了絕大多數(shù)人類(lèi)數(shù)學(xué)天才的水平。
在實(shí)際應(yīng)用導(dǎo)向的HLE-Math基準(zhǔn)上,結(jié)果同樣令人鼓舞。雖然絕對(duì)準(zhǔn)確率相對(duì)較低(這是因?yàn)镠LE-Math涵蓋了極其廣泛的數(shù)學(xué)領(lǐng)域和應(yīng)用場(chǎng)景),但包含StackExchange數(shù)據(jù)的模型版本顯著超越了僅用競(jìng)賽數(shù)據(jù)訓(xùn)練的版本。這個(gè)結(jié)果驗(yàn)證了數(shù)據(jù)多樣性對(duì)于AI泛化能力的重要作用:真實(shí)世界的數(shù)學(xué)問(wèn)題往往比標(biāo)準(zhǔn)競(jìng)賽題目更加多樣和不規(guī)范,需要AI具備更強(qiáng)的適應(yīng)性。
特別值得注意的是maj@k指標(biāo)的優(yōu)異表現(xiàn)。這個(gè)指標(biāo)測(cè)量的是AI在生成多個(gè)候選答案時(shí)命中正確答案的能力,更接近實(shí)際應(yīng)用中的使用方式。在實(shí)踐中,用戶(hù)可以要求AI為每個(gè)問(wèn)題生成幾個(gè)不同的解答,然后選擇最合理的一個(gè)。Nemotron-Math訓(xùn)練的模型在這種設(shè)置下表現(xiàn)卓越,為實(shí)際部署提供了可靠的保障。
說(shuō)到底,Nemotron-Math項(xiàng)目的成功不僅僅是技術(shù)指標(biāo)的突破,更是對(duì)AI數(shù)學(xué)推理能力認(rèn)知的重新定義。這項(xiàng)研究證明了通過(guò)精心設(shè)計(jì)的數(shù)據(jù)和訓(xùn)練方法,AI可以達(dá)到甚至超越頂尖人類(lèi)數(shù)學(xué)家的推理水平。更重要的是,這種能力是可復(fù)現(xiàn)和可擴(kuò)展的,為AI在教育、科研和工程應(yīng)用中發(fā)揮更大作用奠定了基礎(chǔ)。
研究團(tuán)隊(duì)承諾將公開(kāi)所有的數(shù)據(jù)、代碼和訓(xùn)練好的模型,這種開(kāi)放態(tài)度將加速整個(gè)AI數(shù)學(xué)推理領(lǐng)域的發(fā)展。其他研究者可以基于這些資源進(jìn)行進(jìn)一步的改進(jìn)和應(yīng)用探索,形成良性的技術(shù)生態(tài)。對(duì)于教育工作者來(lái)說(shuō),這意味著他們很快就能獲得世界級(jí)的AI數(shù)學(xué)助手,為學(xué)生提供個(gè)性化的數(shù)學(xué)輔導(dǎo)和練習(xí)反饋。對(duì)于科研工作者來(lái)說(shuō),這樣的AI系統(tǒng)可以成為強(qiáng)大的數(shù)學(xué)工具,協(xié)助處理復(fù)雜的理論推導(dǎo)和數(shù)值計(jì)算。
歸根結(jié)底,Nemotron-Math代表了AI從"會(huì)算題"向"會(huì)思考"的重要跨越。它不僅讓AI掌握了數(shù)學(xué)知識(shí),更重要的是讓AI學(xué)會(huì)了數(shù)學(xué)思維的方法。這種突破的影響將遠(yuǎn)遠(yuǎn)超出數(shù)學(xué)領(lǐng)域本身,為AI在其他需要復(fù)雜推理的領(lǐng)域(如科學(xué)研究、工程設(shè)計(jì)、策略分析等)的應(yīng)用開(kāi)辟了新的可能性。隨著這項(xiàng)技術(shù)的不斷完善和普及,我們有理由期待AI將成為人類(lèi)智力活動(dòng)的強(qiáng)大伙伴,共同推動(dòng)知識(shí)的邊界向更深更廣的方向拓展。
Q&A
Q1:Nemotron-Math數(shù)據(jù)集包含多少條數(shù)學(xué)推理軌跡?
A:Nemotron-Math數(shù)據(jù)集包含7500萬(wàn)條高質(zhì)量的數(shù)學(xué)推理軌跡,這些軌跡由gpt-oss-120b模型在高、中、低三種推理模式下生成,每種模式都分為使用和不使用Python工具兩個(gè)版本,覆蓋了347000道精心篩選的數(shù)學(xué)題目。
Q2:這種分桶訓(xùn)練策略能帶來(lái)多大的效率提升?
A:NVIDIA團(tuán)隊(duì)的分桶訓(xùn)練策略能夠?qū)崿F(xiàn)2-3倍的訓(xùn)練速度提升。通過(guò)將數(shù)據(jù)按長(zhǎng)度分組并為每組配置最優(yōu)的并行設(shè)置,大部分訓(xùn)練可以在高效的短文本配置下完成,只有最后階段才需要昂貴的長(zhǎng)文本配置,大大節(jié)省了計(jì)算資源。
Q3:訓(xùn)練后的AI模型在數(shù)學(xué)競(jìng)賽中表現(xiàn)如何?
A:使用Nemotron-Math訓(xùn)練的Qwen3-8B和Qwen3-30B-A3B模型在高推理模式配合Python工具的設(shè)置下,都在AIME24和AIME25數(shù)學(xué)競(jìng)賽中達(dá)到了100% maj@16準(zhǔn)確率,這意味著AI每次生成16個(gè)解答時(shí)總能找到正確答案,達(dá)到了完美的競(jìng)賽水平。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.