<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華人女學霸AI殺瘋!本科最難數賽12題全對,自主證明首次公開

      0
      分享至

      在人類滿分都罕見的普特南數賽上,AI直接12題全對拿滿分。陶哲軒等大佬預言AI已經取得了重要里程碑,再加上GPT-5.2 Pro在數學上強到「離譜」的表現,那種「奇點將近」的直覺,真的壓不住了。

      全網震撼!

      今天,24歲華人女學霸Carina Hong初創打造的AxiomProver,在2025 Putnam數學競賽拿下了滿分成績。

      12道題,AI全部答對!

      與此同時,AxiomProver自主生成的Lean證明也正式公開。


      這一競賽,堪稱北美本科生數學競賽的天花板級別,人類需在6小時攻克12道題。

      Putnam競賽總分120分,要接近滿分極其罕見,通常只有Putnam Fellows(前幾名)才能做到。

      網友表示,「AxiomProver拿下Putnam競賽比奪得IMO金牌更厲害,解決下一個千禧難題可能比預想的要來得更快」!


      最近,陶哲軒公開表示,ChatGPT等AI鞠躬基本可以自主解決「埃爾德什問題」,瞬間登上HK熱榜。


      OpenAI總裁Greg、科學家Sebastien Bubeck紛紛激動轉發。


      看來,千禧年難題,或許離破解之日不遠了......

      「本科最難數賽」奪下滿分,全網震撼

      先來看看AxiomProver,如何在「本科版最難數學競賽」中拔得頭籌。


      https://axiommath.ai/territory/from-seeing-why-to-checking-everything

      在AxiomMathAI的官方博客中,把所有的Lean證明都公開了,還把題目分成了這么幾類:

      人類直覺簡單,但形式化起來卻極為繁瑣的問題;

      AI出人意料地攻克人類未曾預料到的問題;

      AxiomProver和人類采用不同數學思路解出來的問題。

      之所以這么分,在于AI與人類對「難度」感知并不一致。

      團隊指出,以后更理想的工作流大概是:

      人主要負責提供靈感的想法,而機器負責快速自洽檢查與形式化落地,甚至推動數學研究中的新抽象選擇。


      人類覺得簡單,AI直接「懷疑人生」

      但在Putnam競賽中,最「好下手」的往往是微積分題。

      回想Mathlib庫( Lean語言的數學庫,相當于給AI用的「數學字典」)的早期,隨便一本分析教材第一章里的簡單概念,都要花很長時間才能定義清楚。

      而在Putnam2025里,這類題通常出現在每個部分的第二題。

      以A2題為例。


      這道題如果給人看,我們只需要附上一張函數圖像,你的眼睛會瞬間捕捉到曲線的走勢,非常直觀。


      但是這在系統那里,你必須把這些線條、趨勢、拐點,統統翻譯成嚴格的數學語言。

      人類要是逐行去讀Lean代碼,那就更像是在「坐牢」。

      B2也是同樣的故事。


      對人類來說一個很簡單的「正性引理」,在Lean里要寫60多行。

      A2的引理h_nonpos_on_Icc和B2的引理psi_support_pos,成了各自證明里最難啃、最費篇幅的「釘子戶」。

      這就是形式化的代價。

      組合構造:友善的「野獸」

      假如你正在下午茶時間的黑板邊聊天,朋友給你展示了一個精妙的組合構造,你卡殼半天,他只說了句:「先這樣,再那樣,把這個切開……」

      然后你恍然大悟:怎么就變得這么簡單了?

      這種感覺很震撼,問題仿佛一瞬間就溶解了。

      但一旦你試圖把這種直覺「釘死」成一個完全形式化的證明,尤其是在證明助手里,事情就會出奇地棘手。


      拿A5題來說。

      Axiom團隊和AxiomProver都想到了同一個很自然的思路:

      對一個排列里最大(或最小)的元素做歸納,把剩下的切成兩段,然后據此推理。


      用人類語言來講,這種論證可能兩三段就寫完了,但在Lean的世界里并非這樣簡單。

      每一個小角落的特殊情況、每一處記賬式的繁瑣細節,都必須被明確寫出來,沒有任何模糊空間。

      當然,也不能使用人類最愛的「省略號」。

      于是結果就令人咋舌:這份Lean形式化代碼長達2054行,生成耗時518分鐘!

      這并非要吐槽Lean,而是從「人類顯而易見的證明」走到「這是機器校驗過的證明」,你所必須繳納的稅。

      AI神來之筆,人類沒想到的

      AI有望破解組合數學,幾何引擎并非必需

      一直以來,大家都覺得組合題是AI的軟肋。

      事實上,這類題目「臭名昭著」到很多工程團隊直接選擇放棄。

      看看近幾年的IMO,最難的硬骨頭幾乎都是組合題。IMO 2025唯一沒做出來的題,以及IMO 2024的兩道題,全是組合。

      所以,當Axiom團隊看到Putnam的A3是一道組合博弈論,B1是一道歐式幾何時,心里的預期其實是極低的。

      畢竟,AxiomProver目前連一個完整的幾何引擎都沒有。

      然而,奇跡發生了。

      系統自主解出了A3和B1。那一刻,Axiom辦公室里直接有人尖叫了起來。他們根本沒想到它現在就夠解開這兩道題!


      Axiom團隊賽后分析,這并不意味著幾何或博弈論變容易了,而是說明他們之前的悲觀判斷有點過于草率了。

      這些例子說明,這道「門檻」比他們之前判斷的更微妙、更有層次。

      A3的解決的確有點運氣成分。

      在這道題中,「后手玩家」有一個非常干凈的必勝策略,一旦看破,只需要機械執行,不需要去探索復雜的博弈樹。這種「少狀態、無分支」的邏輯,恰好是Lean最擅長的。


      B1題可能更有趣。


      問題B1的概要

      題面涉及「外心」這個純幾何概念。系統給出的解法風格非常幾何,但當Axiom團隊的數學家讀的時候,如果沒有圖,根本跟不上。

      這就有點諷刺了,因為機器從頭到尾也沒畫過圖。最后,人類不得不自己畫了個草圖,才弄明白機器到底干了什么。

      機器似乎很滿足于純符號推理,它沒畫過一張圖就建立了一個「兩條圓恰好相交于兩個點」的事實。

      而人類則強烈依賴圖像。

      為了更具體地讓人感受這些機器證明如何和人類的幾何直覺對齊,這里截取了一段Lean代碼,用來建立這樣一個事實:

      在某個特定構型下,兩條圓恰好相交于兩個點(這個構型里,每個圓都經過另一個圓的圓心,而且兩個圓心不同)。


      而對人類讀者來說,配圖能立刻把情況講清楚。

      作為對照,Axiom小組也想出了一個類似的幾何論證。


      Axiom團隊對于B1的解法

      這次AxiomProver意外搞定人們原本沒指望它能做出來的組合題,而且也證明了沒有幾何引擎也不一定不行。

      蠻力的勝利:數學家幾乎都栽在了這個問題上

      Axiom團隊坦言,這次AxiomProver系統最終解出A6,令他們非常震驚。

      因為這道題幾乎把他們內部的所有人都打敗了。

      他們的一位數學家認出它屬于p進算術動力系統的范疇,他知道處理p進冪級數展開必須非常小心,甚至他的大方向都是對的。

      但「方向對了」和「把題徹底做完」是兩碼事。在A6這場硬仗上,機器贏了。

      AxiomProver居然5小時就做完了它,而且這是12題里Token用量第二高的一題。

      而且,它在處理相關冪級數的求導上用了一種特別笨拙、但確實有效的方法——人類絕對不會這么寫,但它就是能跑通。

      有時候,我們不得不承認,蠻力本身也有一種不講道理、碾壓一切的優雅。

      同一道題,兩條完全不同的路

      A4可能是這一批里最有故事的一題,因為它完美展示了「人類的代數直覺」與「AI的幾何視角」的碰撞。

      人類數學家看到這道題,本能地去找代數方法,靠符號推演。

      然而在競賽中,AxiomProver展示了另一種思路:它會把人類覺得「應該代數」的東西轉成幾何,把人類想用圖講清楚的內容,變成機械化的組合核算。

      在下面兩道很有代表性題:A4和B4,人類和AxiomProver解法各有特色。

      A4:人類想推公式,AI先把它變成幾何

      A4的設定看起來就很「代數」。


      人類選手在這套題上分歧也很典型:

      有人很快給出k=3的構造,于是開始懷疑答案會隨著n以某種方式增長;另一個人從小n往上堆,排除了k=2,直覺上覺得答案應該就是3。

      兩人一起拼出了若干針對不同n的臨時構造,能支持「答案是3」這個猜測,但離「統一的通用構造」還有距離。

      與此同時,他們隱約覺得背后可能藏著表示論的影子:這也很符合人類的經驗——當一個條件像「關系編碼」時,很容易聯想到群作用、表示、代數結構。

      AxiomProver的建議簡潔到有點「反常識」:讓每個A_i 都是投影到某個單位向量v_i上的秩一投影(rank-one projection)。

      驗證層面,形式化里最「重」的節點,往往集中在一件在人類眼里極其自然的事:

      認真檢查一圈n個向量的構造確實滿足要求。

      人們往往認為,「顯然相鄰垂直,其他不垂直,環狀閉合也沒問題」。

      Lean大量篇幅被花在「把直覺變成可檢驗的陳述」上,這恰好反映了形式化的性格:它不反對直覺,它拒絕用直覺替代證明文本。

      B4:人類用一張圖講完,AI直出1061行代碼

      在B4中,思路是構造一個從特殊對角線(第一條非零對角線)到取值為1的條目的單射。


      人類選手盯著圖看一會兒,函數怎么定義就很清楚了;也能看出來它為什么成立,圖自己就把話說完了。

      題在于Lean不會「看圖」。


      AxiomProver直接產出了1061行Lean代碼,把行列的組合性質一條條磨到結論出來。

      它能在缺乏圖像溝通的情況下,用耐心把組合性質逐格展開,把證明變成可驗證的流水線。

      奇點臨近,GPT-5.2攻克難題

      不僅如此,就連菲爾茲獎得主陶哲軒認為,AI已經取得了重要里程碑。


      這兩天,波蘭數學家Bartosz Naskr?cki在X上發的帖把這把火點得更旺了。

      他直言,GPT-5.2 Pro在數學上的表現強得離譜:面對非瑣碎問題,很難找到真正能讓AI卡死的點。

      即使是高難題,一到兩小時的來回交互,模型就能把答案推出來。


      最要命的是,他還用半開玩笑的方式表達震撼:

      要么OpenAI 背后有一支「全天候的小精靈與頂尖數學家團隊」在實時代打,要么模型已經具備非常扎實的能力。

      甚至,讓人產生「奇點將近」的直覺。


      這次Putnam 2025競賽的成績,對于AxiomProver團隊來說是一次重要的勝利。

      他們在博客最后總結道,「看著系統實時硬啃競賽數學,確實有種說不出的爽感:即使它經常用一些我們根本想不到的方式。」

      這也引出了一個深層問題:到底是什么讓一道數學題對機器來說「難」?

      顯然,人類覺得難的,和機器覺得難的并不是一回事。

      人類怕繁瑣的枚舉,怕沒有靈感(巧妙構造)就卡死的死胡同。但對機器而言,什么才是真正的障礙?目前還是一個黑盒。

      但正因為雙方擅長和卡殼的點不一樣,「人機協作」才顯得如此合理。

      而Axiom正在構建這樣一個世界:人類直覺由機器驗證來「落地」,而機器驗證反過來激發人類直覺。

      這就好比做咖啡:機器負責磨豆子,人類負責品咖啡。

      在Axiom看來,我們不需要去硬攻數學研究每一個問題。

      正如Grothendieck所說的「漲潮的海」——我們抬高水位,直到問題被那些堅硬的陸地慢慢包圍,最終自然溶解。

      雖然目前人類還未完全到達那一步,但奇點已經臨近。

      AxiomProver在Putnam 2025競賽中取得滿分,以及GPT-5.2 Pro在數學上的驚艷表現,都在提醒我們:

      這個未來更近了。

      參考資料:

      https://x.com/apples_jimmy/status/2009742681166229687

      https://x.com/axiommathai/status/2009682955804045370

      https://x.com/nasqret/status/2008672809094905970

      https://jmlr.org/papers/v24/22-125.html

      文章來源:新智元。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我國崩塌最徹底的專業,從年薪20萬到找不到工作,畢業即失業!

      我國崩塌最徹底的專業,從年薪20萬到找不到工作,畢業即失業!

      黯泉
      2026-02-10 22:00:47
      維穩辦不能變成欺壓辦,孫玉良:真正的穩定是讓弱勢群體揚眉吐氣

      維穩辦不能變成欺壓辦,孫玉良:真正的穩定是讓弱勢群體揚眉吐氣

      孫玉良
      2026-02-23 08:18:07
      程瀟:這姐一直都是,洶涌澎湃的

      程瀟:這姐一直都是,洶涌澎湃的

      手工制作阿殲
      2026-02-06 11:10:47
      恭喜!香港名模突然宣布懷上雙胞胎,結婚七年終于造人成功

      恭喜!香港名模突然宣布懷上雙胞胎,結婚七年終于造人成功

      鄉野小珥
      2026-02-24 04:17:52
      中年婦女最貴的奢侈品是獨處

      中年婦女最貴的奢侈品是獨處

      格十三
      2026-02-24 09:32:24
      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      郭富城陪方媛回縣城過年,和親戚合照很開心,岳父竟比他還小2歲

      郭富城陪方媛回縣城過年,和親戚合照很開心,岳父竟比他還小2歲

      章眽八卦
      2026-02-25 17:51:25
      一箱油可橫跨北美 本田新型小飛機賣爆:購買意向達產能10倍

      一箱油可橫跨北美 本田新型小飛機賣爆:購買意向達產能10倍

      快科技
      2026-02-24 08:21:03
      中俄朝3國都明白了,打美軍航母不重要了:必須先打日本導彈基地

      中俄朝3國都明白了,打美軍航母不重要了:必須先打日本導彈基地

      人生就是要簡單
      2026-01-30 08:22:46
      特朗普國情咨文,直接鬧成一鍋粥了

      特朗普國情咨文,直接鬧成一鍋粥了

      觀察者網
      2026-02-25 17:18:06
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      江西一家5口自駕返程遇車禍致1死4傷 目擊者稱一半車身被大貨車擠壓在護欄上

      江西一家5口自駕返程遇車禍致1死4傷 目擊者稱一半車身被大貨車擠壓在護欄上

      閃電新聞
      2026-02-25 09:57:16
      踢球者:拜仁管理層樂于見到諾伊爾續約,球員也想在拜仁退役

      踢球者:拜仁管理層樂于見到諾伊爾續約,球員也想在拜仁退役

      懂球帝
      2026-02-26 01:26:11
      實話實說,目前能對趙心童斯諾克之路,構成威脅的球員僅有這三位

      實話實說,目前能對趙心童斯諾克之路,構成威脅的球員僅有這三位

      富貴體壇說
      2026-02-25 11:56:50
      熱搜爆了! 曲婉婷穿中國紅試水復出, 遭全網抵制! 下場很慘…

      熱搜爆了! 曲婉婷穿中國紅試水復出, 遭全網抵制! 下場很慘…

      北國向錫安
      2026-02-23 13:59:56
      日本會成為本世紀第一個從發達國家,跌回發展中國家的經濟體嗎?

      日本會成為本世紀第一個從發達國家,跌回發展中國家的經濟體嗎?

      羅sir財話
      2026-02-23 13:34:48
      情系桑梓 賦能醫療——中國工程院院士、溫州醫科大學校長李校堃回鄉考察夏縣人民醫院

      情系桑梓 賦能醫療——中國工程院院士、溫州醫科大學校長李校堃回鄉考察夏縣人民醫院

      十目觀
      2026-02-25 10:25:07
      朝鮮人對中國人是怎樣的態度?讓我告訴你真相

      朝鮮人對中國人是怎樣的態度?讓我告訴你真相

      世界圈
      2026-02-24 19:20:21
      《呼嘯山莊》發布中國獨家海報,提示“未成年人謹慎觀影”

      《呼嘯山莊》發布中國獨家海報,提示“未成年人謹慎觀影”

      紅星新聞
      2026-02-25 12:40:08
      岳母送來兩壇腌蘿卜,我嫌味大扔給大客戶,一周后卻簽下百萬大單

      岳母送來兩壇腌蘿卜,我嫌味大扔給大客戶,一周后卻簽下百萬大單

      白云故事
      2026-02-14 17:20:09
      2026-02-26 03:07:00
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5374文章數 64616關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      藝術
      本地
      時尚
      公開課
      軍事航空

      藝術要聞

      這些作品太美了,仙氣飄飄,三位大咖不容錯過!

      本地新聞

      津南好·四時總相宜

      “復古甜心”穿搭突然大火!春天穿時髦又減齡

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版