![]()
新智元報道
編輯:犀牛
【新智元導讀】OpenAI首席科學家震撼爆料,其神秘內部模型僅憑一周成功攻克了10道未發表頂尖數學難題中的6道。這一名為First Proof的挑戰標志著AI已從奧賽選手進化為前沿知識的創造者,奧特曼更直言STEM研究范式將被徹底重塑。
還記得兩年前,AI只能磕磕絆絆地解出一道小學奧數題。
今天,讀完這篇文章時,你可能會感到一種深入骨髓的戰栗。
因為那個曾經蹣跚學步的「孩子」,在剛剛過去的一周里,不僅學會了奔跑,還一腳踢開了人類智力皇冠上最堅固的那扇門——前沿數學研究。
就在剛剛,OpenAI首席科學家Jakub Pachocki在X上扔出了一顆重磅炸彈——
「我們用內部模型對10道前沿數學研究題發起挑戰,在僅有少量人工監督的情況下,至少6道的解答有很高概率是正確的。」
![]()
隨后,奧特曼親自轉發并感慨:「我們從AI連小學數學都做不好,到AI能解決研究級別的數學問題,只用了短短幾年。」
![]()
奧特曼以一貫的輕描淡寫風格加了一句:「我也相當確定,大家的主要反應會是『也沒那么難嘛』。」
嗯,典型的奧式凡爾賽。
奧特曼甚至表示,AI已經有了產生新知識的能力!
![]()
OpenAI總裁Brockman也轉發表示振奮!
![]()
確實,這不是奧數競賽題,不是考研真題,不是任何已經有標準答案的東西。
這是11位世界頂級數學家剛剛從自己的研究中挖出來、答案從未公開過的前沿問題。
人類專家自己解這些題,每道也需要好幾天,甚至更久。
而OpenAI一個還沒公開的神秘模型,一周搞定了其中大部分。
這到底是怎么回事?
一場硬核的數學考試
故事要從2月6日說起。
那天,來自斯坦福大學、哥倫比亞大學、哈佛大學、耶魯大學、洛桑聯邦理工學院等頂尖機構的11位數學家,聯合發布了一篇名為「First Proof」(首次發酵)的論文。
![]()
這個名字本身就很有意思——在烘焙中,「first proof」指的是面團的第一次整體發酵,在分割成型之前讓它慢慢膨脹。
數學家們把這次實驗比作面團發酵:先把問題撒出去,讓AI和社區一起「醒發」。
這11位出題人來頭可不小。
其中Martin Hairer是2014年菲爾茲獎得主,Daniel Spielman是耶魯大學的譜圖論大牛,Lauren Williams是哈佛大學的代數組合學權威。
![]()
Martin Hairer
他們每人貢獻了一道(或參與出了一道)從自己正在進行的研究中抽出來的真問題。
這10道題覆蓋了數學中極為廣泛的領域:代數組合、譜圖論、代數拓撲、隨機分析、辛幾何、表示論、李群中的格、張量分析、數值線性代數。
![]()
網站地址:https://1stproof.org/
每一道題的證明長度大約在五頁左右——這不是那種需要幾百頁論文才能搞定的世紀難題,而是數學家在研究過程中遇到的「引理」(lemma),也就是通往更大定理路上的一塊關鍵墊腳石。
換句話說,這是一個優秀研究生可能需要苦苦琢磨一段時間的那種日常級研究任務。
關鍵是,這些問題的答案從未在互聯網上出現過。
沒有發表過,沒有在任何會議上講過,沒有出現在任何公開場合。
答案被加密后上傳到了1stproof.org。
這意味著,AI模型不可能通過檢索訓練數據來作弊。
數學家們的目標很明確:我們不想再看AI做奧數題了,我們想知道,AI到底能不能做真正的數學研究。
OpenAI的瘋狂一周
消息一出,整個AI圈和數學圈都炸了。
斯坦福大學數學教授、First Proof團隊成員Mohammed Abouzaid后來坦言:「我們完全沒想到會引發這么大的動靜,更沒想到AI公司會這么認真地投入資源來做這件事。」
其中最引人注目的參賽者,當然是OpenAI。
根據Jakub Pachocki的描述,這并不是OpenAI傾巢出動的大會戰,而是一次「Side-sprint」(副業沖刺)。
就像是工程師們在午休時間順手搞的一個測試。
他們使用的是一個內測模型。
不是GPT-5.2,不知道它是不是GPT-6,還是某種更激進的架構。
這個模型在「有限的人工監督」下工作:OpenAI沒有向模型提供數學思路或解題建議,但在某些解答上,根據專家反饋要求模型進行了擴展和補充。
他們還手動安排了這個內部模型與ChatGPT之間的對話,用于驗證、排版和風格潤色。
對于部分問題,他們從幾次嘗試中按照人類判斷選出了最優解。
最終,OpenAI在2月13日提交了一份67頁的PDF,包含了對全部10道題的解答嘗試。
Pachocki自信地宣布:至少6道解答(第2、4、5、6、9、10題)有很高概率是正確的。
![]()
文檔地址:https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf
OpenAI的另一位核心研究者Noam Brown也在社交媒體上高調喊話:「去年夏天IMO的結果公布時,有些人不以為然,說那只是高中數學。我們認為我們最新的模型將消除一切懷疑——STEM研究即將發生根本性變革。」
![]()
Noam Brown還在文中承諾,他們很快會發布這個新模型。
真相比宣傳復雜得多
2月14日,First Proof團隊公布了全部10道題的正式答案,并發布了他們自己用公開AI模型(GPT-5.2 Pro和Gemini 3.0 Deepthink)測試這些題目的經驗報告。
![]()
有趣的是,官方論文中可能出現了一個小錯誤。
這里應該是2026,不是2025。
![]()
不過,這都不重要。
我們來看結論。
結論相當冷峻:在單次嘗試的情況下,公開可用的最強AI模型只答對了2道題——第9題(張量代數關系)和第10題(核化CP-ALS子問題)。
而且第9題還存在疑似「數據污染」問題——一個幾乎等價的證明已經存在于已有文獻中。
第1題也被發現受到了污染,出題人Hairer網站上曾經有一個證明草稿的存檔,但即便如此,AI也沒能填上其中的關鍵缺口。
更耐人尋味的是Abouzaid對AI產出風格的評價:「我看到的AI給出的正確解答,有一種19世紀數學的味道。但我們要構建的是21世紀的數學。」
那么OpenAI自稱的「6道很可能正確」到底怎么樣了?
事態很快出現了戲劇性轉折。
論文發布不到一天,數學社區就開始對OpenAI的解答進行逐題審查。
Pachocki自己很快更新了聲明,承認第2題(關于扭曲局部Rankin-Selberg積分的非消沒檢驗向量)的解答「很可能不正確」。
![]()
社區的獨立評審則進一步發現,第5題(關于等變穩定范疇的O-適應切片濾過)和第7題(關于Q-無環萬有覆疊的均勻格)的解答也存在嚴重漏洞。
到目前為止,根據《科學美國人》的報道以及社區數學家的獨立評判,比較確定正確的是第4題(有限加法卷積的調和平均不等式)、第8題(四價多面體拉格朗日曲面的光滑化)、第9題和第10題。
![]()
其余幾道仍在審查中,但整體來看,OpenAI的實際命中率很可能低于其最初宣稱的六成。
依然是一個歷史時刻
盡管真實成績可能沒有OpenAI宣傳的那么輝煌,但我們不應因此低估這件事的歷史意義。
哪怕最終確認只有3到4道題被正確解答,這也意味著一個AI,在面對從未見過的、真正前沿的數學研究問題時,能在一周之內獨立(或半獨立地)給出嚴格的數學證明。
這在幾年前是完全不可想象的事情。
2022年,當時ChatGPT還經常在分數加減法上犯錯。
2024年,AI開始能解一些競賽數學題。
2025年夏天,OpenAI的模型在國際數學奧林匹克上拿到金牌成績。
而現在——2026年2月——AI正在嘗試解答人類數學家正在研究的、從未發表過的原創問題。
從小學算術到前沿研究,這條路走了不到四年。
這個速度,才是真正讓人心跳加速的地方。
更值得關注的是那些被AI做對了的題目。
比如第4題,關于有限加法卷積中Φ_n函數的調和平均不等式——這需要一系列精巧的線性代數操作、對雙隨機矩陣的深刻理解、以及Jensen不等式的巧妙應用。
OpenAI的模型寫出了一個自包含的23頁證明,邏輯鏈條完整,最終被專家確認為正確。
![]()
一個AI,獨立完成了一篇可以發表在數學期刊上的研究級證明。
這不是做題,這就是做研究。
數學家要失業了嗎?
至少現在,還不會。
《科學美國人》在報道這次事件時給出的判斷很直接:「AI目前還不能取代數學家。」
![]()
為什么?
因為數學研究遠不止「證明一個已知問題」這一個環節。
真正的數學研究包括:發現值得研究的問題、創造新的概念和定義、構建新的理論框架——然后才是證明。
First Proof測試的只是最后一步,也是最機械化的一步。
而在前面那些需要真正的洞察力、審美判斷和開創性想象的環節,AI目前連門都還沒摸到。
但奧特曼說的也沒錯:速度是關鍵變量。
如果AI從做不了小學數學到能碰前沿研究只用了四年。
那再過四年呢?
有趣的是,一些頂尖數學家已經開始用腳投票。
哥倫比亞大學的數學天才Ashwin Sawhney從學術界休假加入了OpenAI。意大利數學家Pagano則去了Google DeepMind。
他們的理由出奇一致:「很明顯這將改變我們做數學的方式,與其以后被動適應,不如趁早參與。」
面團還在發酵
First Proof團隊已經宣布,他們將在3月14日(恰好是π日)發布更多細節和分析,并計劃在未來幾個月內發布第二批問題——附帶更嚴格的評判標準和更完善的規則。
他們甚至愿意與AI公司簽訂協議,在問題公開前進行受控測試。
![]()
這不是一場考試的結束,而是一個新時代的開始。
數學——這門人類最古老、最純粹的智力活動——正在第一次面臨一個真正的對話伙伴。
這個伙伴有時胡說八道,有時又驚人地深刻。
它會用19世紀的語言說話,但運算速度是21世紀的。
它還不能代替數學家思考,但它已經可以在某些關鍵節點上為數學家分擔工作。
面團還在發酵。
我們已經聞到面包的香味了。
參考資料:
https://x.com/merettm/status/2022517085193277874
https://x.com/polynoamial/status/2022527227049742779
https://x.com/sama/status/2022729068949717182
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.