<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快——技術(shù)飛速迭代,基準(zhǔn)測試正以前所未有的速度過時——IEEE Spectrum

      0
      分享至

      置頂zzllrr小樂公眾號(主頁右上角)數(shù)學(xué)科普不迷路!

      AI解數(shù)學(xué)題的速度比科學(xué)家編考題還快。技術(shù)飛速迭代,基準(zhǔn)測試正以前所未有的速度過時。

      作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26

      譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-2-27


      圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數(shù)學(xué)習(xí)題中的得分,比最新版Gemini Deep Think至少高出5%。

      AI解決高階數(shù)學(xué)問題的能力正飛速提升

      圖源:谷歌DeepMind

      數(shù)學(xué)常被視為有效衡量AI進(jìn)展的理想領(lǐng)域。其分步推進(jìn)的邏輯易于追蹤,且答案明確、可自動驗(yàn)證,能排除人為或主觀因素的干擾。但AI系統(tǒng)的進(jìn)步速度如此之快,以至于數(shù)學(xué)基準(zhǔn)測試已難以跟上其步伐。

      早在2024年11月,非營利研究機(jī)構(gòu)Epoch AI悄然發(fā)布了FrontierMath基準(zhǔn)測試。這一標(biāo)準(zhǔn)化、嚴(yán)謹(jǐn)?shù)臏y試工具,旨在衡量最先進(jìn)AI工具的數(shù)學(xué)推理能力。

      “它包含一系列難度極高的數(shù)學(xué)題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現(xiàn)在所說的1-3級;但目睹AI能力突飛猛進(jìn)后,我們意識到必須全力跟進(jìn)才能保持領(lǐng)先,因此新增了一組精心設(shè)計(jì)的特殊挑戰(zhàn)題,命名為4級。”

      大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數(shù)學(xué)水平。該測試推出時,最先進(jìn)的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優(yōu)秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。

      AI挑戰(zhàn)博士級數(shù)學(xué)研究

      這種驚人的進(jìn)步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發(fā)的實(shí)驗(yàn)性AI系統(tǒng)Aletheia,取得了可發(fā)表級別的博士水平研究成果。盡管從數(shù)學(xué)角度來看較為冷門——計(jì)算算術(shù)幾何中名為“特征權(quán)重”的特定結(jié)構(gòu)常數(shù)——但這一成果在AI發(fā)展史上具有重要意義。

      “他們聲稱該系統(tǒng)基本實(shí)現(xiàn)了自主研究,即無需人類指導(dǎo),且研究結(jié)果達(dá)到了發(fā)表標(biāo)準(zhǔn),”伯納姆說,“這雖然算不上能讓數(shù)學(xué)家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破。”

      為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導(dǎo)得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。

      Aletheia的成果及其他AI“數(shù)學(xué)家”近期的突破表明,我們亟需更快地推出更嚴(yán)苛的新基準(zhǔn)測試來評估AI能力,因?yàn)楝F(xiàn)有測試很快就會過時。“已有好幾代較簡單的數(shù)學(xué)基準(zhǔn)測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內(nèi)達(dá)到飽和狀態(tài)(即最先進(jìn)AI模型得分為100%),甚至可能更快。”

      “首輪證明”挑戰(zhàn)賽

      為應(yīng)對這一問題,2月6日,11位頂尖數(shù)學(xué)家聯(lián)合發(fā)起了“首輪證明”(First Proof)挑戰(zhàn)賽。該挑戰(zhàn)賽包含10道極難的數(shù)學(xué)題,均源自出題者自身的研究過程,證明過程約5頁紙以內(nèi),且此前未向任何人公開。這一挑戰(zhàn)賽是評估AI系統(tǒng)獨(dú)立解決研究級數(shù)學(xué)問題能力的初步嘗試。詳情參閱:

      挑戰(zhàn)賽在數(shù)學(xué)界引發(fā)了廣泛關(guān)注,專業(yè)與業(yè)余數(shù)學(xué)家紛紛參與,OpenAI等團(tuán)隊(duì)也積極應(yīng)戰(zhàn)。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。

      事實(shí)上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團(tuán)隊(duì)外,多數(shù)外部參與者的表現(xiàn)都不盡如人意。在“有限人類監(jiān)督”下,OpenAI最先進(jìn)的內(nèi)部AI系統(tǒng)解決了10道題中的5道,Aletheia也取得了類似成績——數(shù)學(xué)界對此反應(yīng)不一,有人驚嘆,也有人失望。“首輪證明”挑戰(zhàn)賽團(tuán)隊(duì)計(jì)劃于3月14日推出難度更高的第二輪挑戰(zhàn)。

      AI的新前沿

      “我認(rèn)為‘首輪證明’挑戰(zhàn)賽非常出色:它盡可能真實(shí)地讓AI系統(tǒng)模擬數(shù)學(xué)家的工作場景,”伯納姆說。盡管他贊賞該挑戰(zhàn)賽能測試AI對各類數(shù)學(xué)領(lǐng)域及數(shù)學(xué)家的實(shí)用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點(diǎn)基準(zhǔn)測試的獨(dú)特之處在于,它包含16道來自研究領(lǐng)域的開放問題(后續(xù)還將新增),這些問題都是專業(yè)數(shù)學(xué)家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。

      “通過‘開放問題’測試,我們試圖讓挑戰(zhàn)難度再上一個臺階,”伯納姆說,“僅達(dá)到基準(zhǔn)線的成果就具備發(fā)表價值,至少能在專業(yè)期刊上發(fā)表。”更重要的是,每道題都設(shè)計(jì)成可自動評分的形式。“這有點(diǎn)違反直覺,”伯納姆補(bǔ)充道,“雖然沒人知道答案,但我們有一個計(jì)算機(jī)程序,能夠判斷提交的答案是否正確。”

      伯納姆認(rèn)為“首輪證明”與“開放問題”這兩項(xiàng)測試是互補(bǔ)的。“我認(rèn)為對AI能力的了解越多越好,”他說,“AI已經(jīng)發(fā)展到在某些方面優(yōu)于大多數(shù)博士生的水平,因此我們需要提出一些人類數(shù)學(xué)家至少會適度感興趣的問題——不是因?yàn)檫@些問題是AI在解決,而是因?yàn)樗鼈儽旧砭褪侨祟悢?shù)學(xué)家關(guān)注的數(shù)學(xué)問題。”

      參考資料

      https://spectrum.ieee.org/ai-math-benchmarks

      小樂數(shù)學(xué)科普近期文章

      ·開放 · 友好 · 多元 · 普適 · 守拙·

      讓數(shù)學(xué)

      更加

      易學(xué)易練

      易教易研

      易賞易玩

      易見易得

      易傳易及

      歡迎評論、點(diǎn)贊、在看、在聽

      收藏、分享、轉(zhuǎn)載、投稿

      查看原始文章出處

      點(diǎn)擊zzllrr小樂

      公眾號主頁

      右上角

      置頂★加星

      數(shù)學(xué)科普不迷路!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

      哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

      迷世書童H9527
      2026-03-01 16:03:12
      重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

      重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

      每日經(jīng)濟(jì)新聞
      2026-02-28 10:40:45
      伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

      伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

      軍機(jī)Talk
      2026-03-02 09:50:33
      實(shí)錘水貨!熱刺6500萬歐標(biāo)王21場僅貢獻(xiàn)1球,真是拉胯至極!

      實(shí)錘水貨!熱刺6500萬歐標(biāo)王21場僅貢獻(xiàn)1球,真是拉胯至極!

      田先生籃球
      2026-03-02 15:19:00
      研究警告:越來越多家庭因吃它中毒!冰箱里這類肉別超3個月!

      研究警告:越來越多家庭因吃它中毒!冰箱里這類肉別超3個月!

      全球軍事記
      2026-02-28 10:12:38
      爆:工信部副部長,“空降”通信央企董事長!

      爆:工信部副部長,“空降”通信央企董事長!

      通信頭條
      2026-03-02 21:06:39
      內(nèi)卷之風(fēng)吹到水果罐頭!有廠家設(shè)計(jì)玻璃把手并贈濾網(wǎng),可當(dāng)茶杯用

      內(nèi)卷之風(fēng)吹到水果罐頭!有廠家設(shè)計(jì)玻璃把手并贈濾網(wǎng),可當(dāng)茶杯用

      火山詩話
      2026-03-03 06:00:32
      10球慘案!巴西1:4+0:6遭阿根廷雙殺,安切洛蒂帥位承壓

      10球慘案!巴西1:4+0:6遭阿根廷雙殺,安切洛蒂帥位承壓

      阿晞體育
      2026-03-02 20:47:14
      伊朗前總統(tǒng)內(nèi)賈德親信稱其平安

      伊朗前總統(tǒng)內(nèi)賈德親信稱其平安

      界面新聞
      2026-03-02 11:52:29
      蘋果發(fā)布新款 iPad Air,內(nèi)在變了!

      蘋果發(fā)布新款 iPad Air,內(nèi)在變了!

      花果科技
      2026-03-02 23:15:38
      蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      抽象派大師
      2026-03-03 03:37:08
      美專家急喊中國停手,自己壟斷技術(shù)60年卻不讓中國碰

      美專家急喊中國停手,自己壟斷技術(shù)60年卻不讓中國碰

      書寫傳奇
      2026-03-02 23:28:24
      請假2小時被開除后續(xù):女孩改口道歉,官方介入,店主或麻煩大

      請假2小時被開除后續(xù):女孩改口道歉,官方介入,店主或麻煩大

      社會日日鮮
      2026-03-02 20:25:30
      8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

      8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

      消化石醫(yī)生
      2026-02-27 07:02:22
      上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

      上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

      靜若梨花
      2026-03-01 16:25:46
      國家動真格了!不到48小時,4大名人禁言被封,沒有一個值得同情

      國家動真格了!不到48小時,4大名人禁言被封,沒有一個值得同情

      社會日日鮮
      2026-03-03 05:19:50
      馬斯克變性女兒亮相米蘭時裝周,姿勢怪異男相明顯,堪稱辣眼睛

      馬斯克變性女兒亮相米蘭時裝周,姿勢怪異男相明顯,堪稱辣眼睛

      電影偵探社
      2026-03-01 16:36:05
      蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

      蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

      談史論天地
      2026-02-28 13:35:18
      2026元宵遇罕見紅月!老祖宗傳下4大禁忌,別不當(dāng)回事!

      2026元宵遇罕見紅月!老祖宗傳下4大禁忌,別不當(dāng)回事!

      老特有話說
      2026-02-27 16:55:35
      熬了800多天,從660萬降到345.8萬!深圳一業(yè)主賣房經(jīng)歷引關(guān)注

      熬了800多天,從660萬降到345.8萬!深圳一業(yè)主賣房經(jīng)歷引關(guān)注

      火山詩話
      2026-03-02 06:08:24
      2026-03-03 07:04:49
      小樂數(shù)學(xué)科普 incentive-icons
      小樂數(shù)學(xué)科普
      zzllrr小樂,小樂數(shù)學(xué)科普,讓前沿數(shù)學(xué)流行起來~
      251文章數(shù) 7關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果中國官網(wǎng)上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

      體育要聞

      “想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經(jīng)要聞

      油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      時尚
      旅游
      手機(jī)
      健康
      公開課

      今年春天一定要擁有的4件衣服,太好看了!

      旅游要聞

      尋禮曲阜感受年味(新春走基層)

      手機(jī)要聞

      小米17 Ultra徠卡版全新黑銀配色預(yù)售:7999元起,10日發(fā)售

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版