超越IMO金牌？谷歌創(chuàng)超難FirstProof數(shù)學挑戰(zhàn)新紀錄

2026-02-27 16:37:25　來源: 算法與數(shù)學之美

北京舉報

分享至

去年 7 月的 IMO 數(shù)學奧林匹克競賽中，兩大人工智能公司搶奪競賽「金牌」成績的鬧劇搞得沸沸揚揚。

當時 OpenAI 和谷歌同時聲稱取得競賽金牌，而 OpenAI 因，遭到廣泛吐槽；谷歌 DeepMind 的 Gemini 進階模型。

競賽與真正的數(shù)學研究之間，仍然存在一道明顯的分界線。

在此之后，AI 智能體飛速發(fā)展，解決數(shù)學問題的能力不再僅依靠模型的推理能力。AI 智能體已經(jīng)可以開始自己做數(shù)學，不只是解題，更能夠進行數(shù)學研究，而且研究的還是頂尖數(shù)學家都要撓頭的問題，這意味著什么？

近日，來自谷歌 DeepMind ，由 Gemini 3 Deep Think 驅(qū)動的最新數(shù)學研究智能體 Aletheia 在首屆 FirstProof 挑戰(zhàn)中，自主解決了 10 道高難度研究問題中的 6 道，成為創(chuàng)下了該數(shù)學挑戰(zhàn)賽的最佳紀錄。

曾帶隊實現(xiàn) AI IMO 金牌成績的 DeepMind 超人類推理方向負責人 Thang Luong 表示，這一成果的分量超過去年 AI 在 IMO 測試中獲得金牌的表現(xiàn)。

相關(guān)論文《Aletheia tackles FirstProof autonomously》已發(fā)布在 arXiv，并且團隊在 Github 上公開了解決 FirstProof 問題的提示詞與輸出結(jié)果。

論文標題：Aletheia tackles FirstProof autonomously
論文鏈接：https://arxiv.org/pdf/2602.21201
提示詞與輸出結(jié)果：https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof：把 AI 放進真實的數(shù)學研究現(xiàn)場

FirstProof 是一項專門為評估 AI 數(shù)學研究能力而設(shè)計的實驗性挑戰(zhàn)。項目由多位活躍在不同數(shù)學分支的一線研究者發(fā)起，題目全部來自真實科研過程中的命題，被提出作為評估當前人工智能能力的測試。

這些問題在挑戰(zhàn)啟動前從未公開證明，組織方提前將標準證明加密保存，以盡量排除訓練數(shù)據(jù)泄露的可能。最終提交的答案，需要由領(lǐng)域?qū)＜胰斯忛?/strong>，判斷其邏輯嚴密性與學術(shù)可接受度。評價標準接近論文審稿，而非自動判分。

這種設(shè)計刻意提高了門檻。它測試的，是 AI 在陌生問題上進行長期推理與結(jié)構(gòu)構(gòu)造的能力。換句話說，F(xiàn)irstProof 關(guān)心的，是系統(tǒng)是否具備參與數(shù)學研究的潛力。

這些問題于 2026 年 2 月 5 日發(fā)布，并設(shè)定了截止時間為太平洋時間 2026 年 2 月 13 日晚上 11:59 ，解決方法在截止后在互聯(lián)網(wǎng)上發(fā)布。

這項評估本身極其困難，能夠真正理解這些問題的專家屈指可數(shù)。關(guān)鍵的一點是：Aletheia 的所有解答均在沒有任何人工干預(yù)的情況下生成，并且在 FirstProof 挑戰(zhàn)規(guī)定的時間范圍內(nèi)提交。

研究團隊執(zhí)行整體流程

FirstProof 的第一作者確認了這一事實：

研究團隊運行了兩個版本的 Aletheia（兩者僅在底層基礎(chǔ)模型上有所不同），它們都由 Gemini DeepThink 提供支持。綜合多數(shù)專家評審意見，這兩個系統(tǒng)共同解決了 10 道題中的 6 道（第 2、5、7、8、9、10 題）。我們注意到，專家們對第 8 題的評估并不完全一致。

Aletheia 在 FirstProof 上的性能總結(jié)。專家評估列顯示了在咨詢的總專家人數(shù)中，有多少專家將解決方案評為正確。僅在 P8 上的評估不是一致的。

Aletheia 的「解題分析」
兩個智能體在同樣的 FirstProof 十個問題的執(zhí)行結(jié)果如下所示：

在 FirstProof 的 10 道問題中，Aletheia 為其中 6 道題（P2、P5、P7、P8、P9、P10）生成了候選解答。在「best-of-2」的評估設(shè)置下，根據(jù)多數(shù)專家的評審意見，這 6 道題都被認定為在該解釋框架下已正確解決。
Aletheia A 與 Aletheia B 針對相同的六道題目都生成了候選解答。單獨來看，每個智能體都至少出現(xiàn)過一次「假陽性」（false positive），但在 best-of-2 的評估機制下，它們共同為六道題目都提供了可信的解答。這一結(jié)果相比 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本，在準確率上有明顯提升。
不過，P8 的評估并非一致通過 ——7 位專家中有 5 位給出了「Correct」的評價。對于另外 4 道題（P1、P3、P4、P6），兩個智能體都沒有給出解答：要么明確輸出「No solution found」（未找到解答），要么在時間限制內(nèi)沒有返回任何結(jié)果。
研究團隊認為，Aletheia 具備一種「自我篩選」機制，這也是 Aletheia 的關(guān)鍵設(shè)計原則之一。
在將 AI 擴展為數(shù)學研究助手的過程中，可靠性才是首要瓶頸。如果智能體給出錯誤的「幻覺」答案，會極度浪費人類專家用于驗證結(jié)果的時間與精力，與提高研究效率和自動化的目標背道而馳。
此外，解決問題的推理成本也是非常重要的指標。

在圖中展示了每個候選解的推理成本，并將其表示為相對于 Erd?s-1051 解答推理成本的倍數(shù)。不難發(fā)現(xiàn)，Aletheia 在所有問題上，推理成本都高于 Erd?s-1051。
尤其是 P7，其推理成本比此前觀察到的規(guī)模高出一個數(shù)量級。研究者稱，這一方面是因為 Generator 子智能體在生成候選解時消耗了大量計算資源，另一方面是因為需要更多輪交互才能通過 Verifier 子智能體的驗證。
總結(jié)
數(shù)學研究包含多個環(huán)節(jié)：提出問題、建立框架、尋找關(guān)鍵結(jié)構(gòu)、完成證明。當前系統(tǒng)顯然還無法全面承擔所有角色，但它已經(jīng)開始在證明與驗證環(huán)節(jié)發(fā)揮作用。
未來的研究場景或許會發(fā)生變化。人類研究者提出方向與核心思想，AI 負責高強度的路徑搜索與形式化驗證，再由人類進行理論整合與升華。這種協(xié)作模式，正在逐漸成形。
數(shù)學長期以來被視為人類理性能力的高地。如今，AI 正在這里取得實質(zhì)性突破。當機器開始穩(wěn)定地完成研究級證明，我們或許需要重新思考一個問題：
在未來的數(shù)學論文作者名單中，AI 會以什么身份出現(xiàn)？
? THE END
文章來源：機器之心。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點推薦

確認了！兩人系間諜

浙江之聲 2026-04-16 22:16:31
8783 跟貼 8783

蘇林坐10小時高鐵離京感慨：中國鐵路成就令人欽佩

澎湃新聞 2026-04-17 08:57:38
119 跟貼 119

小伙曾花80萬開店失敗被離婚：妻子覺得我很難翻身

封面新聞 2026-04-16 22:04:38
1013 跟貼 1013

中越聯(lián)合聲明：加快推進兩國鐵路、公路、口岸基礎(chǔ)設(shè)施互聯(lián)互通將鐵路合作作為兩國戰(zhàn)略合作新亮點

財聯(lián)社 2026-04-17 10:42:13
1007 跟貼 1007

揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
3338 跟貼 3338

廣東“莫氏雞煲大公主”爆火前后反差大，晚上干到凌晨2點才收工，發(fā)文吐槽：這個雞你們是非吃不可嗎

大象新聞 2026-04-15 12:57:04
1752 跟貼 1752

格力怒斥海信，稱其沒資格用“真銅實料”四字進行宣傳，海信高管回懟：又當又立

大風新聞 2026-04-15 15:07:03
955 跟貼 955

媒體：法國要"將不義之財歸還中國" 沒你想得那么容易

新民周刊 2026-04-16 15:02:54
2477 跟貼 2477

陽臺遭飛鳥"精準投糞" 住戶:每天來十多次或為挑釁貓

星視頻 2026-04-16 18:45:58
1538 跟貼 1538

上海業(yè)主傻眼安保、保潔突然全離崗小區(qū)垃圾堆積成山

新聞坊 2026-04-16 21:23:28
4 跟貼 4

400毫升無償獻血證被中介賣至2000元獻血者僅拿400元

大風新聞 2026-04-16 19:53:03
1336 跟貼 1336

納指十二連漲再創(chuàng)收盤新高

財聯(lián)社 2026-04-17 04:02:05
669 跟貼 669

美國人對華好感提升對于"是否將中國視為敵人"分歧大

上觀新聞 2026-04-16 17:18:11
510 跟貼 510

中越簽署一系列合作文件涉援越鐵路

界面新聞 2026-04-17 12:02:24
46 跟貼 46

美戰(zhàn)爭成本或達1萬億影響供烏武器

紅星新聞 2026-04-16 11:14:37
1322 跟貼 1322

字節(jié)回應(yīng)“億元年薪挖DeepSeek員工”

澎湃新聞 2026-04-17 00:58:11
81 跟貼 81

這一刻，爸爸好幸福！爸爸去幼兒園接女兒放學，孩子雖然很著急，但還是先把凳子擺好。可愛又懂事的孩子，為

中國網(wǎng)資訊 2026-04-17 03:12:57
103 跟貼 103

最新：同濟大學已成立調(diào)查組

南方都市報 2026-04-16 16:57:13
0 跟貼 0

拾光紀·繁忙元首外交彰顯大國擔當

國際在線 2026-04-16 19:57:22
161 跟貼 161

間諜策反中企員工致項目停工停產(chǎn) 國安機關(guān)披露詳情

極目新聞 2026-04-17 07:00:50
0 跟貼 0

廣州提醒：快尋找安全室內(nèi)暫避！

南方都市報 2026-04-17 11:25:20
0 跟貼 0

杭州女子買5份海鮮3份僅退款商家氣憤跨省趕來質(zhì)問

錢江晚報 2026-04-16 14:34:09
0 跟貼 0

人民銳評：“續(xù)費刺客”如此“近視”，必撞南墻

上觀新聞 2026-04-17 12:58:04
0 跟貼 0

山東泰安24歲準新娘感冒輸液昏迷3個月未醒，原定8天后結(jié)婚

九方魚論 2026-04-17 12:59:06
0 跟貼 0

小信宣國安 ▍看似“寶藏網(wǎng)友”，實則“竊密黑手”

十二師在線 2026-04-17 12:50:33
0 跟貼 0

深圳一小區(qū)地樁竟“長”出“金屬倒刺”！居民嚇壞，物業(yè)整改

南方都市報 2026-04-17 12:56:56
0 跟貼 0

歐聯(lián)杯淪為雞肋，半決賽對陣連歐冠“配菜”都不如

齊魯壹點 2026-04-17 11:51:09
0 跟貼 0

有錢有閑有福氣的三大生肖，2026花的理直氣壯，過得瀟灑自由！
毅談生肖
2026-04-17 10:48:55

老彩民發(fā)現(xiàn)彩票玄機，中獎8000萬，私下透露：一個被人忽略的細節(jié)
紅豆講堂
2025-11-26 12:55:06

零涂層電飯煲降價42%：松下這次押對了什么
我是一個粉刷匠2
2026-04-16 15:15:17

張婉婷直播對齊溪開火，諷刺齊溪七年不生娃，離婚一年就王懷上了
童叔不飆車
2026-04-17 10:41:01

1998年，媽媽年輕時算不算美女？
華人星光
2026-03-19 12:03:59

豆包最實用的10個AI功能，強烈建議收藏！
秋葉PPT
2026-04-15 18:58:59

向太拿煙頭燙繼女的內(nèi)幕！
八卦瘋叔
2026-04-17 10:47:50

醫(yī)生坦言：只要血脂報告里沒有這2個詞，血管健康就不用太擔憂
健康科普365
2026-04-07 11:35:05

馮白駒晚年坦言：瓊崖縱隊能幸存，靠的不是深山，而是人心
掠影后有感
2026-04-17 10:07:18

女演員千萬別整容《八千里路云和月》看43歲萬茜和24歲王和就知道
亦暖追劇隨筆
2026-04-17 12:28:50

有趣的醫(yī)學案例：直腸射精！
黯泉
2026-04-07 21:58:25

以色列和黎巴嫩政府和談，真主黨面臨徹底覆滅的危險
高博新視野
2026-04-17 07:30:13

太可憐了！2張照片，幾乎就是張雪峰人生的最後定格
魔都姐姐雜談
2026-03-28 04:04:21

伊朗革命衛(wèi)隊稱抵抗陣線向曼德海峽船只發(fā)出警告
每日經(jīng)濟新聞
2026-04-17 10:17:20

廣州市中心一路口左轉(zhuǎn)車占道嚴重，阻擋右轉(zhuǎn)車通行，交警：已整體改造
環(huán)球網(wǎng)資訊
2026-04-17 10:01:12

陪玩陪睡已過時！繼被注射藥物、熱巴事件后，王陽再爆圈內(nèi)陰暗面
小椰的奶奶
2026-04-17 06:51:33

張?zhí)m：咱就不服，隔空否認要放棄事業(yè)，給汪小菲馬筱梅帶孩子！
小娛樂悠悠
2026-04-17 09:47:41

捷豹路虎中國宣布26年款攬勝正式上市
界面新聞
2026-04-16 21:09:39

斯坦丘沒被挖角，大連主場復(fù)仇+為保級打基礎(chǔ) 李國旭破河南鐵桶陣
替補席看球
2026-04-17 12:05:21

大佬站隊、鄭麗文得強援！國民黨1人嚇破膽，連忙否認“2個太陽”
云景侃記
2026-04-17 09:48:27

2026-04-17 13:11:00

算法與數(shù)學之美

分享知識，交流思想

5478文章數(shù) 64623關(guān)注度

往期回顧全部

科技要聞

Anthropic推出Opus 4.7，坦言依不及Mythos

字節(jié)回應(yīng)“億元年薪挖DeepSeek員工”

趙明：智駕之戰(zhàn)，看誰在大模型上更高效

39.98萬！小鵬GX預(yù)售“純電增程同價”

寧德時代一季度日賺2.3億元

頭條要聞

毛焦爾當面"逼宮"匈牙利總統(tǒng)：你不配趕緊辭職走人

男子住酒店攀爬樓道窗戶墜樓 5天后被發(fā)現(xiàn)已死亡

游說2年等來中資西班牙官員笑嘻嘻：還得感謝特朗普

蘇林乘坐中國高鐵隨行官員：希望越南也有這樣的列車

牛彈琴：中東好消息來了特朗普可能要親自去巴基斯坦

頭條要聞

毛焦爾當面"逼宮"匈牙利總統(tǒng)：你不配趕緊辭職走人

男子住酒店攀爬樓道窗戶墜樓 5天后被發(fā)現(xiàn)已死亡

游說2年等來中資西班牙官員笑嘻嘻：還得感謝特朗普

蘇林乘坐中國高鐵隨行官員：希望越南也有這樣的列車

牛彈琴：中東好消息來了特朗普可能要親自去巴基斯坦

體育要聞

贏下快船，這場很庫里，很格林，很科爾

官方:東契奇坎寧安申訴成功獲評獎資格華子申訴被駁回

歐聯(lián)杯綜述：維拉總分7-1進4強西甲雙雄+波爾圖出局

馬刺隊史首人！文班亞馬斬獲魔術(shù)師約翰遜獎戰(zhàn)勝庫里字母哥等人

李楠正式結(jié)束3年禁賽期：可回場邊輔佐許利民本季北京主帥不會變

娛樂要聞

劉德華摯友潘宏彬離世曾一起租房住

演員潘宏彬去世，與劉德華斷交后退圈賣房謀生

楊子帶23歲新女友見91歲母親，銅錢盆搶鏡

貝嫂首談長子決裂，否認視兒媳婦為敵人

向太自曝拆散向佐多段戀情：豪門不是童話

財經(jīng)要聞

海爾與醫(yī)美女王互撕換血抗衰誰的生意?

茅臺公告揭傳言"謎底" 董辦回應(yīng)：王莉?qū)⒒貧w

跨省獻血證倒賣鏈條曝光：2000元就能買到

兩萬億量化私募合規(guī)拷問:保本承諾等違規(guī)頻現(xiàn)

發(fā)改委：將制定擴大內(nèi)需戰(zhàn)略實施方案、加快推進109項重大工程項目實施

汽車要聞

又快又穩(wěn)的開掛動力！阿維塔06T全系搭分布式電驅(qū)

沈劭劼：轉(zhuǎn)型移動物理AI公司，卓馭要做基礎(chǔ)設(shè)施

賈躍亭FF變身美國機器人先鋒，加州財長親臨揭幕EAI實驗室

寶馬宣傳片"車還沒造，先跑數(shù)百萬公里"，疑似內(nèi)涵了國內(nèi)某車企

干了這么多年，極狐終于進純電新勢力第一梯隊

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

家居

游戲

軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

藍莓也有粉色的，專家：不等于營養(yǎng)價值高

谷雨時節(jié)，建議你多吃這些食物

驚蟄節(jié)氣，疏肝潤燥正當時

如何保護心臟健康？來看醫(yī)生怎么說

教育要聞

“恭喜你成太子太傅了”，沙特王子報考上交大研究生，評論區(qū)炸鍋

特級教師劉忠偉：教師在教學中要有敢于否定自我的勇氣

時光印記中那個悄然長大的男孩——滕國峰家教好故事

以評促教以評促學！濟寧天立學校與劍橋英語達成深度教學合作

以愛為基，伴服務(wù)成長——王鋒家教好故事

家居要聞

法式線條時光靜淌

智能舒適簡約風尚

簡而不減暖居之道

現(xiàn)代融合自然靈動

《繕寫室：羊皮卷大師》現(xiàn)已登陸Steam平臺

《王牌戰(zhàn)略：機甲新星》定檔4月24日上線Steam

任天堂親自催你玩游戲！Switch游戲太多玩不過來？

《刺客信條：黑旗重制版》或?qū)⒃?月9日發(fā)售

軍事要聞

美宣布黎以停火10天以方稱不會撤軍

護航東風五號試射中國導(dǎo)彈驅(qū)逐艦首次亮相太平洋

美國邊稱“接近達成協(xié)議”邊加碼施壓伊朗

特朗普：伊朗已同意幾乎所有要求

手機 / 數(shù)碼

房產(chǎn) / 家居

超越IMO金牌？谷歌創(chuàng)超難FirstProof數(shù)學挑戰(zhàn)新紀錄

Anthropic推出Opus 4.7，坦言依不及Mythos

毛焦爾當面"逼宮"匈牙利總統(tǒng)：你不配 趕緊辭職走人

毛焦爾當面"逼宮"匈牙利總統(tǒng)：你不配 趕緊辭職走人

贏下快船，這場很庫里，很格林，很科爾

劉德華摯友潘宏彬離世 曾一起租房住

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

又快又穩(wěn)的開掛動力！ 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

干細胞抗衰4大誤區(qū),90%的人都中招

“恭喜你成太子太傅了”，沙特王子報考上交大研究生，評論區(qū)炸鍋

法式線條 時光靜淌

《繕寫室：羊皮卷大師》現(xiàn)已登陸Steam平臺

美宣布黎以停火10天 以方稱不會撤軍

毛焦爾當面"逼宮"匈牙利總統(tǒng)：你不配趕緊辭職走人

毛焦爾當面"逼宮"匈牙利總統(tǒng)：你不配趕緊辭職走人

劉德華摯友潘宏彬離世曾一起租房住

海爾與醫(yī)美女王互撕換血抗衰誰的生意?

又快又穩(wěn)的開掛動力！阿維塔06T全系搭分布式電驅(qū)

法式線條時光靜淌

美宣布黎以停火10天以方稱不會撤軍