★置頂zzllrr小樂公眾號(主頁右上角)數(shù)學(xué)科普不迷路!
AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快。技術(shù)飛速迭代,基準(zhǔn)測試正以前所未有的速度過時。
作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-2-27
![]()
圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數(shù)學(xué)習(xí)題中的得分,比最新版Gemini Deep Think至少高出5%。
AI解決高階數(shù)學(xué)問題的能力正飛速提升
圖源:谷歌DeepMind
數(shù)學(xué)常被視為有效衡量AI進(jìn)展的理想領(lǐng)域。其分步推進(jìn)的邏輯易于追蹤,且答案明確、可自動驗(yàn)證,能排除人為或主觀因素的干擾。但AI系統(tǒng)的進(jìn)步速度如此之快,以至于數(shù)學(xué)基準(zhǔn)測試已難以跟上其步伐。
早在2024年11月,非營利研究機(jī)構(gòu)Epoch AI悄然發(fā)布了FrontierMath基準(zhǔn)測試。這一標(biāo)準(zhǔn)化、嚴(yán)謹(jǐn)?shù)臏y試工具,旨在衡量最先進(jìn)AI工具的數(shù)學(xué)推理能力。
“它包含一系列難度極高的數(shù)學(xué)題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現(xiàn)在所說的1-3級;但目睹AI能力突飛猛進(jìn)后,我們意識到必須全力跟進(jìn)才能保持領(lǐng)先,因此新增了一組精心設(shè)計(jì)的特殊挑戰(zhàn)題,命名為4級。”
大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數(shù)學(xué)水平。該測試推出時,最先進(jìn)的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優(yōu)秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。
AI挑戰(zhàn)博士級數(shù)學(xué)研究
這種驚人的進(jìn)步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發(fā)的實(shí)驗(yàn)性AI系統(tǒng)Aletheia,取得了可發(fā)表級別的博士水平研究成果。盡管從數(shù)學(xué)角度來看較為冷門——計(jì)算算術(shù)幾何中名為“特征權(quán)重”的特定結(jié)構(gòu)常數(shù)——但這一成果在AI發(fā)展史上具有重要意義。
“他們聲稱該系統(tǒng)基本實(shí)現(xiàn)了自主研究,即無需人類指導(dǎo),且研究結(jié)果達(dá)到了發(fā)表標(biāo)準(zhǔn),”伯納姆說,“這雖然算不上能讓數(shù)學(xué)家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破。”
為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導(dǎo)得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。
Aletheia的成果及其他AI“數(shù)學(xué)家”近期的突破表明,我們亟需更快地推出更嚴(yán)苛的新基準(zhǔn)測試來評估AI能力,因?yàn)楝F(xiàn)有測試很快就會過時。“已有好幾代較簡單的數(shù)學(xué)基準(zhǔn)測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內(nèi)達(dá)到飽和狀態(tài)(即最先進(jìn)AI模型得分為100%),甚至可能更快。”
“首輪證明”挑戰(zhàn)賽
為應(yīng)對這一問題,2月6日,11位頂尖數(shù)學(xué)家聯(lián)合發(fā)起了“首輪證明”(First Proof)挑戰(zhàn)賽。該挑戰(zhàn)賽包含10道極難的數(shù)學(xué)題,均源自出題者自身的研究過程,證明過程約5頁紙以內(nèi),且此前未向任何人公開。這一挑戰(zhàn)賽是評估AI系統(tǒng)獨(dú)立解決研究級數(shù)學(xué)問題能力的初步嘗試。詳情參閱:
挑戰(zhàn)賽在數(shù)學(xué)界引發(fā)了廣泛關(guān)注,專業(yè)與業(yè)余數(shù)學(xué)家紛紛參與,OpenAI等團(tuán)隊(duì)也積極應(yīng)戰(zhàn)。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。
事實(shí)上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團(tuán)隊(duì)外,多數(shù)外部參與者的表現(xiàn)都不盡如人意。在“有限人類監(jiān)督”下,OpenAI最先進(jìn)的內(nèi)部AI系統(tǒng)解決了10道題中的5道,Aletheia也取得了類似成績——數(shù)學(xué)界對此反應(yīng)不一,有人驚嘆,也有人失望。“首輪證明”挑戰(zhàn)賽團(tuán)隊(duì)計(jì)劃于3月14日推出難度更高的第二輪挑戰(zhàn)。
AI的新前沿
“我認(rèn)為‘首輪證明’挑戰(zhàn)賽非常出色:它盡可能真實(shí)地讓AI系統(tǒng)模擬數(shù)學(xué)家的工作場景,”伯納姆說。盡管他贊賞該挑戰(zhàn)賽能測試AI對各類數(shù)學(xué)領(lǐng)域及數(shù)學(xué)家的實(shí)用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點(diǎn)基準(zhǔn)測試的獨(dú)特之處在于,它包含16道來自研究領(lǐng)域的開放問題(后續(xù)還將新增),這些問題都是專業(yè)數(shù)學(xué)家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。
“通過‘開放問題’測試,我們試圖讓挑戰(zhàn)難度再上一個臺階,”伯納姆說,“僅達(dá)到基準(zhǔn)線的成果就具備發(fā)表價值,至少能在專業(yè)期刊上發(fā)表。”更重要的是,每道題都設(shè)計(jì)成可自動評分的形式。“這有點(diǎn)違反直覺,”伯納姆補(bǔ)充道,“雖然沒人知道答案,但我們有一個計(jì)算機(jī)程序,能夠判斷提交的答案是否正確。”
伯納姆認(rèn)為“首輪證明”與“開放問題”這兩項(xiàng)測試是互補(bǔ)的。“我認(rèn)為對AI能力的了解越多越好,”他說,“AI已經(jīng)發(fā)展到在某些方面優(yōu)于大多數(shù)博士生的水平,因此我們需要提出一些人類數(shù)學(xué)家至少會適度感興趣的問題——不是因?yàn)檫@些問題是AI在解決,而是因?yàn)樗鼈儽旧砭褪侨祟悢?shù)學(xué)家關(guān)注的數(shù)學(xué)問題。”
參考資料
https://spectrum.ieee.org/ai-math-benchmarks
小樂數(shù)學(xué)科普近期文章
·開放 · 友好 · 多元 · 普適 · 守拙·![]()
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點(diǎn)贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點(diǎn)擊zzllrr小樂
公眾號主頁
右上角
置頂★加星
數(shù)學(xué)科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.