網易首頁 > 網易號 > 正文申請入駐

超越IMO金牌？谷歌創超難FirstProof數學挑戰新紀錄

2026-02-26 15:04:12　來源: 機器之心Pro

河北舉報

分享至

編輯｜冷貓

去年 7 月的 IMO 數學奧林匹克競賽中，兩大人工智能公司搶奪競賽「金牌」成績的鬧劇搞得沸沸揚揚。

當時 OpenAI 和谷歌同時聲稱取得競賽金牌，而 OpenAI 因繞過官方競賽規則提前官宣，遭到廣泛吐槽；谷歌 DeepMind 的 Gemini 進階模型成為首個獲得奧賽組委會官方認定為金牌的 AI 系統。

競賽與真正的數學研究之間，仍然存在一道明顯的分界線。

在此之后，AI 智能體飛速發展，解決數學問題的能力不再僅依靠模型的推理能力。AI 智能體已經可以開始自己做數學，不只是解題，更能夠進行數學研究，而且研究的還是頂尖數學家都要撓頭的問題，這意味著什么？

近日，來自谷歌 DeepMind ，由 Gemini 3 Deep Think 驅動的最新數學研究智能體 Aletheia 在首屆 FirstProof 挑戰中，自主解決了 10 道高難度研究問題中的 6 道，成為創下了該數學挑戰賽的最佳紀錄。

曾帶隊實現 AI IMO 金牌成績的 DeepMind 超人類推理方向負責人 Thang Luong 表示，這一成果的分量超過去年 AI 在 IMO 測試中獲得金牌的表現。

相關論文《Aletheia tackles FirstProof autonomously》已發布在 arXiv，并且團隊在 Github 上公開了解決 FirstProof 問題的提示詞與輸出結果。

論文標題：Aletheia tackles FirstProof autonomously
論文鏈接：https://arxiv.org/pdf/2602.21201
提示詞與輸出結果：https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof：把 AI 放進真實的數學研究現場

FirstProof 是一項專門為評估 AI 數學研究能力而設計的實驗性挑戰。項目由多位活躍在不同數學分支的一線研究者發起，題目全部來自真實科研過程中的命題，被提出作為評估當前人工智能能力的測試。

這些問題在挑戰啟動前從未公開證明，組織方提前將標準證明加密保存，以盡量排除訓練數據泄露的可能。最終提交的答案，需要由領域專家人工審閱，判斷其邏輯嚴密性與學術可接受度。評價標準接近論文審稿，而非自動判分。

這種設計刻意提高了門檻。它測試的，是 AI 在陌生問題上進行長期推理與結構構造的能力。換句話說，FirstProof 關心的，是系統是否具備參與數學研究的潛力。

這些問題于 2026 年 2 月 5 日發布，并設定了截止時間為太平洋時間 2026 年 2 月 13 日晚上 11:59 ，解決方法在截止后在互聯網上發布。

這項評估本身極其困難，能夠真正理解這些問題的專家屈指可數。關鍵的一點是：Aletheia 的所有解答均在沒有任何人工干預的情況下生成，并且在 FirstProof 挑戰規定的時間范圍內提交。

研究團隊執行整體流程

FirstProof 的第一作者確認了這一事實：

研究團隊運行了兩個版本的 Aletheia（兩者僅在底層基礎模型上有所不同），它們都由 Gemini DeepThink 提供支持。綜合多數專家評審意見，這兩個系統共同解決了 10 道題中的 6 道（第 2、5、7、8、9、10 題）。我們注意到，專家們對第 8 題的評估并不完全一致。

Aletheia 在 FirstProof 上的性能總結。專家評估列顯示了在咨詢的總專家人數中，有多少專家將解決方案評為正確。僅在 P8 上的評估不是一致的。

Aletheia 的「解題分析」

兩個智能體在同樣的 FirstProof 十個問題的執行結果如下所示：

在 FirstProof 的 10 道問題中，Aletheia 為其中 6 道題（P2、P5、P7、P8、P9、P10）生成了候選解答。在「best-of-2」的評估設置下，根據多數專家的評審意見，這 6 道題都被認定為在該解釋框架下已正確解決。

Aletheia A 與 Aletheia B 針對相同的六道題目都生成了候選解答。單獨來看，每個智能體都至少出現過一次「假陽性」（false positive），但在 best-of-2 的評估機制下，它們共同為六道題目都提供了可信的解答。這一結果相比 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本，在準確率上有明顯提升。

不過，P8 的評估并非一致通過 ——7 位專家中有 5 位給出了「Correct」的評價。對于另外 4 道題（P1、P3、P4、P6），兩個智能體都沒有給出解答：要么明確輸出「No solution found」（未找到解答），要么在時間限制內沒有返回任何結果。

研究團隊認為，Aletheia 具備一種「自我篩選」機制，這也是 Aletheia 的關鍵設計原則之一。

在將 AI 擴展為數學研究助手的過程中，可靠性才是首要瓶頸。如果智能體給出錯誤的「幻覺」答案，會極度浪費人類專家用于驗證結果的時間與精力，與提高研究效率和自動化的目標背道而馳。

此外，解決問題的推理成本也是非常重要的指標。

在圖中展示了每個候選解的推理成本，并將其表示為相對于 Erd?s-1051 解答推理成本的倍數。不難發現，Aletheia 在所有問題上，推理成本都高于 Erd?s-1051。

尤其是 P7，其推理成本比此前觀察到的規模高出一個數量級。研究者稱，這一方面是因為 Generator 子智能體在生成候選解時消耗了大量計算資源，另一方面是因為需要更多輪交互才能通過 Verifier 子智能體的驗證。

總結

數學研究包含多個環節：提出問題、建立框架、尋找關鍵結構、完成證明。當前系統顯然還無法全面承擔所有角色，但它已經開始在證明與驗證環節發揮作用。

未來的研究場景或許會發生變化。人類研究者提出方向與核心思想，AI 負責高強度的路徑搜索與形式化驗證，再由人類進行理論整合與升華。這種協作模式，正在逐漸成形。

數學長期以來被視為人類理性能力的高地。如今，AI 正在這里取得實質性突破。當機器開始穩定地完成研究級證明，我們或許需要重新思考一個問題：

在未來的數學論文作者名單中，AI 會以什么身份出現？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.