<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<var id="d1wpm"><fieldset id="d1wpm"><th id="d1wpm"></th></fieldset></var>

<tt id="d1wpm"></tt>

<nobr id="d1wpm"></nobr>

<nav id="d1wpm"><strike id="d1wpm"></strike></nav>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

華人女學霸AI殺瘋！本科最難數賽12題全對，自主證明首次公開

2026-01-28 16:22:05　來源: 算法與數學之美

北京舉報

0

分享至

在人類滿分都罕見的普特南數賽上，AI直接12題全對拿滿分。陶哲軒等大佬預言AI已經取得了重要里程碑，再加上GPT-5.2 Pro在數學上強到「離譜」的表現，那種「奇點將近」的直覺，真的壓不住了。

全網震撼！

今天，24歲華人女學霸Carina Hong初創打造的AxiomProver，在2025 Putnam數學競賽拿下了滿分成績。

12道題，AI全部答對！

與此同時，AxiomProver自主生成的Lean證明也正式公開。

這一競賽，堪稱北美本科生數學競賽的天花板級別，人類需在6小時攻克12道題。

Putnam競賽總分120分，要接近滿分極其罕見，通常只有Putnam Fellows（前幾名）才能做到。

網友表示，「AxiomProver拿下Putnam競賽比奪得IMO金牌更厲害，解決下一個千禧難題可能比預想的要來得更快」！

最近，陶哲軒公開表示，ChatGPT等AI鞠躬基本可以自主解決「埃爾德什問題」，瞬間登上HK熱榜。

OpenAI總裁Greg、科學家Sebastien Bubeck紛紛激動轉發。

看來，千禧年難題，或許離破解之日不遠了......

「本科最難數賽」奪下滿分，全網震撼

先來看看AxiomProver，如何在「本科版最難數學競賽」中拔得頭籌。

https://axiommath.ai/territory/from-seeing-why-to-checking-everything

在AxiomMathAI的官方博客中，把所有的Lean證明都公開了，還把題目分成了這么幾類：

人類直覺簡單，但形式化起來卻極為繁瑣的問題；

AI出人意料地攻克人類未曾預料到的問題；

AxiomProver和人類采用不同數學思路解出來的問題。

之所以這么分，在于AI與人類對「難度」感知并不一致。

團隊指出，以后更理想的工作流大概是：

人主要負責提供靈感的想法，而機器負責快速自洽檢查與形式化落地，甚至推動數學研究中的新抽象選擇。

人類覺得簡單，AI直接「懷疑人生」

但在Putnam競賽中，最「好下手」的往往是微積分題。

回想Mathlib庫（ Lean語言的數學庫，相當于給AI用的「數學字典」）的早期，隨便一本分析教材第一章里的簡單概念，都要花很長時間才能定義清楚。

而在Putnam2025里，這類題通常出現在每個部分的第二題。

以A2題為例。

這道題如果給人看，我們只需要附上一張函數圖像，你的眼睛會瞬間捕捉到曲線的走勢，非常直觀。

但是這在系統那里，你必須把這些線條、趨勢、拐點，統統翻譯成嚴格的數學語言。

人類要是逐行去讀Lean代碼，那就更像是在「坐牢」。

B2也是同樣的故事。

對人類來說一個很簡單的「正性引理」，在Lean里要寫60多行。

A2的引理h_nonpos_on_Icc和B2的引理psi_support_pos，成了各自證明里最難啃、最費篇幅的「釘子戶」。

這就是形式化的代價。

組合構造：友善的「野獸」

假如你正在下午茶時間的黑板邊聊天，朋友給你展示了一個精妙的組合構造，你卡殼半天，他只說了句：「先這樣，再那樣，把這個切開……」

然后你恍然大悟：怎么就變得這么簡單了？

這種感覺很震撼，問題仿佛一瞬間就溶解了。

但一旦你試圖把這種直覺「釘死」成一個完全形式化的證明，尤其是在證明助手里，事情就會出奇地棘手。

拿A5題來說。

Axiom團隊和AxiomProver都想到了同一個很自然的思路：

對一個排列里最大（或最小）的元素做歸納，把剩下的切成兩段，然后據此推理。

用人類語言來講，這種論證可能兩三段就寫完了，但在Lean的世界里并非這樣簡單。

每一個小角落的特殊情況、每一處記賬式的繁瑣細節，都必須被明確寫出來，沒有任何模糊空間。

當然，也不能使用人類最愛的「省略號」。

于是結果就令人咋舌：這份Lean形式化代碼長達2054行，生成耗時518分鐘！

這并非要吐槽Lean，而是從「人類顯而易見的證明」走到「這是機器校驗過的證明」，你所必須繳納的稅。

AI神來之筆，人類沒想到的

AI有望破解組合數學，幾何引擎并非必需

一直以來，大家都覺得組合題是AI的軟肋。

事實上，這類題目「臭名昭著」到很多工程團隊直接選擇放棄。

看看近幾年的IMO，最難的硬骨頭幾乎都是組合題。IMO 2025唯一沒做出來的題，以及IMO 2024的兩道題，全是組合。

所以，當Axiom團隊看到Putnam的A3是一道組合博弈論，B1是一道歐式幾何時，心里的預期其實是極低的。

畢竟，AxiomProver目前連一個完整的幾何引擎都沒有。

然而，奇跡發生了。

系統自主解出了A3和B1。那一刻，Axiom辦公室里直接有人尖叫了起來。他們根本沒想到它現在就夠解開這兩道題！

Axiom團隊賽后分析，這并不意味著幾何或博弈論變容易了，而是說明他們之前的悲觀判斷有點過于草率了。

這些例子說明，這道「門檻」比他們之前判斷的更微妙、更有層次。

A3的解決的確有點運氣成分。

在這道題中，「后手玩家」有一個非常干凈的必勝策略，一旦看破，只需要機械執行，不需要去探索復雜的博弈樹。這種「少狀態、無分支」的邏輯，恰好是Lean最擅長的。

B1題可能更有趣。

問題B1的概要

題面涉及「外心」這個純幾何概念。系統給出的解法風格非常幾何，但當Axiom團隊的數學家讀的時候，如果沒有圖，根本跟不上。

這就有點諷刺了，因為機器從頭到尾也沒畫過圖。最后，人類不得不自己畫了個草圖，才弄明白機器到底干了什么。

機器似乎很滿足于純符號推理，它沒畫過一張圖就建立了一個「兩條圓恰好相交于兩個點」的事實。

而人類則強烈依賴圖像。

為了更具體地讓人感受這些機器證明如何和人類的幾何直覺對齊，這里截取了一段Lean代碼，用來建立這樣一個事實：

在某個特定構型下，兩條圓恰好相交于兩個點（這個構型里，每個圓都經過另一個圓的圓心，而且兩個圓心不同）。

而對人類讀者來說，配圖能立刻把情況講清楚。

作為對照，Axiom小組也想出了一個類似的幾何論證。

Axiom團隊對于B1的解法

這次AxiomProver意外搞定人們原本沒指望它能做出來的組合題，而且也證明了沒有幾何引擎也不一定不行。

蠻力的勝利：數學家幾乎都栽在了這個問題上

Axiom團隊坦言，這次AxiomProver系統最終解出A6，令他們非常震驚。

因為這道題幾乎把他們內部的所有人都打敗了。

他們的一位數學家認出它屬于p進算術動力系統的范疇，他知道處理p進冪級數展開必須非常小心，甚至他的大方向都是對的。

但「方向對了」和「把題徹底做完」是兩碼事。在A6這場硬仗上，機器贏了。

AxiomProver居然5小時就做完了它，而且這是12題里Token用量第二高的一題。

而且，它在處理相關冪級數的求導上用了一種特別笨拙、但確實有效的方法——人類絕對不會這么寫，但它就是能跑通。

有時候，我們不得不承認，蠻力本身也有一種不講道理、碾壓一切的優雅。

同一道題，兩條完全不同的路

A4可能是這一批里最有故事的一題，因為它完美展示了「人類的代數直覺」與「AI的幾何視角」的碰撞。

人類數學家看到這道題，本能地去找代數方法，靠符號推演。

然而在競賽中，AxiomProver展示了另一種思路：它會把人類覺得「應該代數」的東西轉成幾何，把人類想用圖講清楚的內容，變成機械化的組合核算。

在下面兩道很有代表性題：A4和B4，人類和AxiomProver解法各有特色。

A4：人類想推公式，AI先把它變成幾何

A4的設定看起來就很「代數」。

人類選手在這套題上分歧也很典型：

有人很快給出k=3的構造，于是開始懷疑答案會隨著n以某種方式增長；另一個人從小n往上堆，排除了k=2，直覺上覺得答案應該就是3。

兩人一起拼出了若干針對不同n的臨時構造，能支持「答案是3」這個猜測，但離「統一的通用構造」還有距離。

與此同時，他們隱約覺得背后可能藏著表示論的影子：這也很符合人類的經驗——當一個條件像「關系編碼」時，很容易聯想到群作用、表示、代數結構。

AxiomProver的建議簡潔到有點「反常識」：讓每個A_i 都是投影到某個單位向量v_i上的秩一投影（rank-one projection）。

驗證層面，形式化里最「重」的節點，往往集中在一件在人類眼里極其自然的事：

認真檢查一圈n個向量的構造確實滿足要求。

人們往往認為，「顯然相鄰垂直，其他不垂直，環狀閉合也沒問題」。

Lean大量篇幅被花在「把直覺變成可檢驗的陳述」上，這恰好反映了形式化的性格：它不反對直覺，它拒絕用直覺替代證明文本。

B4：人類用一張圖講完，AI直出1061行代碼

在B4中，思路是構造一個從特殊對角線（第一條非零對角線）到取值為1的條目的單射。

人類選手盯著圖看一會兒，函數怎么定義就很清楚了；也能看出來它為什么成立，圖自己就把話說完了。

題在于Lean不會「看圖」。

AxiomProver直接產出了1061行Lean代碼，把行列的組合性質一條條磨到結論出來。

它能在缺乏圖像溝通的情況下，用耐心把組合性質逐格展開，把證明變成可驗證的流水線。

奇點臨近，GPT-5.2攻克難題

不僅如此，就連菲爾茲獎得主陶哲軒認為，AI已經取得了重要里程碑。

這兩天，波蘭數學家Bartosz Naskr?cki在X上發的帖把這把火點得更旺了。

他直言，GPT-5.2 Pro在數學上的表現強得離譜：面對非瑣碎問題，很難找到真正能讓AI卡死的點。

即使是高難題，一到兩小時的來回交互，模型就能把答案推出來。

最要命的是，他還用半開玩笑的方式表達震撼：

要么OpenAI 背后有一支「全天候的小精靈與頂尖數學家團隊」在實時代打，要么模型已經具備非常扎實的能力。

甚至，讓人產生「奇點將近」的直覺。

這次Putnam 2025競賽的成績，對于AxiomProver團隊來說是一次重要的勝利。

他們在博客最后總結道，「看著系統實時硬啃競賽數學，確實有種說不出的爽感：即使它經常用一些我們根本想不到的方式。」

這也引出了一個深層問題：到底是什么讓一道數學題對機器來說「難」？

顯然，人類覺得難的，和機器覺得難的并不是一回事。

人類怕繁瑣的枚舉，怕沒有靈感（巧妙構造）就卡死的死胡同。但對機器而言，什么才是真正的障礙？目前還是一個黑盒。

但正因為雙方擅長和卡殼的點不一樣，「人機協作」才顯得如此合理。

而Axiom正在構建這樣一個世界：人類直覺由機器驗證來「落地」，而機器驗證反過來激發人類直覺。

這就好比做咖啡：機器負責磨豆子，人類負責品咖啡。

在Axiom看來，我們不需要去硬攻數學研究每一個問題。

正如Grothendieck所說的「漲潮的海」——我們抬高水位，直到問題被那些堅硬的陸地慢慢包圍，最終自然溶解。

雖然目前人類還未完全到達那一步，但奇點已經臨近。

AxiomProver在Putnam 2025競賽中取得滿分，以及GPT-5.2 Pro在數學上的驚艷表現，都在提醒我們：

這個未來更近了。

參考資料：

https://x.com/apples_jimmy/status/2009742681166229687

https://x.com/axiommathai/status/2009682955804045370

https://x.com/nasqret/status/2008672809094905970

https://jmlr.org/papers/v24/22-125.html

文章來源：新智元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中華人民共和國和德意志聯邦共和國聯合新聞聲明

新華社 2026-02-25 21:46:25
621 跟貼 621
俄對外情報局稱英國和法國正準備向烏克蘭轉讓核武器，外交部表態

環球網資訊 2026-02-25 15:31:00
414 跟貼 414

300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1619 跟貼 1619

沖上熱搜！中秋請3天假堪比春節，13天超長假期！最實用拼假攻略已備好

上觀新聞 2026-02-25 14:08:57
756 跟貼 756
黑龍江姑娘在上海過年，媽媽寄來300多個餃子，每個單獨包裝，網友：一看就是媽媽牌

齊魯壹點 2026-02-25 07:13:17
73 跟貼 73

哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869

美媒：比爾·蓋茨就其與愛潑斯坦關系向蓋茨基金會員工道歉

環球網資訊 2026-02-25 14:04:22
513 跟貼 513
重慶女子中靈山墜亡：疑點重重，充滿無法解釋的矛盾

胡言炫語 2026-02-26 02:05:01
0 跟貼 0

微信出新功能，網友：簡直是社恐福音

南方都市報 2026-02-25 16:59:07
284 跟貼 284
世界最長高速公路隧道為何超抗凍？

環球網資訊 2026-02-25 21:10:06
10 跟貼 10
廣州馬場地塊拍賣報價突破218億！超10萬人圍觀，服務器一度崩了

廣東臺今日關注 2026-02-25 16:53:00
144 跟貼 144
日經指數期貨開盤上漲790點，報58095點

每日經濟新聞 2026-02-25 07:43:04
512 跟貼 512
記者觀察｜日本高價大米背后的民生難題

新華社 2026-02-25 15:55:24
609 跟貼 609
山東高速集團召開工程建設動員會，今年確保濟南至寧津等高速通車

齊魯壹點 2026-02-25 10:22:27
106 跟貼 106
山西一地要求出租車給游客打九折，官方通報

界面新聞 2026-02-25 19:34:08
281 跟貼 281
美核動力航母650個廁所每天都維修

財聯社 2026-02-25 16:40:05
387 跟貼 387
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
109 跟貼 109
環境空氣質量新國標來了 "好天氣"標準更嚴

新華社 2026-02-24 20:10:04
424 跟貼 424
儀征一飯店突起火，剛剛，官方回應！

視覺儀征 2026-02-26 02:10:08
0 跟貼 0
應急車道，多“急”才能停（2026·02·25）

今日辟謠 2026-02-25 17:37:11
82 跟貼 82
鐵路部門回應“半夜候補成功1700元車票作廢”報道

大象新聞 2026-02-25 18:17:03
0 跟貼 0
面包車一路疾馳男孩坐車尾晃蕩目擊者：加速超車告知面包車司機

新浪財經 2026-02-26 02:13:11
0 跟貼 0

我國崩塌最徹底的專業，從年薪20萬到找不到工作，畢業即失業！

我國崩塌最徹底的專業，從年薪20萬到找不到工作，畢業即失業！

黯泉

2026-02-10 22:00:47

維穩辦不能變成欺壓辦，孫玉良：真正的穩定是讓弱勢群體揚眉吐氣

維穩辦不能變成欺壓辦，孫玉良：真正的穩定是讓弱勢群體揚眉吐氣

孫玉良

2026-02-23 08:18:07

程瀟：這姐一直都是，洶涌澎湃的

程瀟：這姐一直都是，洶涌澎湃的

手工制作阿殲

2026-02-06 11:10:47

恭喜！香港名模突然宣布懷上雙胞胎，結婚七年終于造人成功

恭喜！香港名模突然宣布懷上雙胞胎，結婚七年終于造人成功

鄉野小珥

2026-02-24 04:17:52

中年婦女最貴的奢侈品是獨處

格十三

2026-02-24 09:32:24

有沒有人敢爆自己的瓜？網友：確定玩這么大嗎？

有沒有人敢爆自己的瓜？網友：確定玩這么大嗎？

夜深愛雜談

2026-02-18 20:55:58

郭富城陪方媛回縣城過年，和親戚合照很開心，岳父竟比他還小2歲

郭富城陪方媛回縣城過年，和親戚合照很開心，岳父竟比他還小2歲

章眽八卦

2026-02-25 17:51:25

一箱油可橫跨北美本田新型小飛機賣爆：購買意向達產能10倍

一箱油可橫跨北美本田新型小飛機賣爆：購買意向達產能10倍

快科技

2026-02-24 08:21:03

中俄朝3國都明白了，打美軍航母不重要了：必須先打日本導彈基地

中俄朝3國都明白了，打美軍航母不重要了：必須先打日本導彈基地

人生就是要簡單

2026-01-30 08:22:46

特朗普國情咨文，直接鬧成一鍋粥了

特朗普國情咨文，直接鬧成一鍋粥了

觀察者網

2026-02-25 17:18:06

美媒感慨：若不是中國還在反抗特朗普，幾乎全世界都向他投降了

美媒感慨：若不是中國還在反抗特朗普，幾乎全世界都向他投降了

悅心知足

2026-02-21 23:03:46

江西一家5口自駕返程遇車禍致1死4傷目擊者稱一半車身被大貨車擠壓在護欄上

江西一家5口自駕返程遇車禍致1死4傷目擊者稱一半車身被大貨車擠壓在護欄上

閃電新聞

2026-02-25 09:57:16

踢球者：拜仁管理層樂于見到諾伊爾續約，球員也想在拜仁退役

踢球者：拜仁管理層樂于見到諾伊爾續約，球員也想在拜仁退役

懂球帝

2026-02-26 01:26:11

實話實說，目前能對趙心童斯諾克之路，構成威脅的球員僅有這三位

實話實說，目前能對趙心童斯諾克之路，構成威脅的球員僅有這三位

富貴體壇說

2026-02-25 11:56:50

熱搜爆了! 曲婉婷穿中國紅試水復出, 遭全網抵制! 下場很慘…

熱搜爆了! 曲婉婷穿中國紅試水復出, 遭全網抵制! 下場很慘…

北國向錫安

2026-02-23 13:59:56

日本會成為本世紀第一個從發達國家，跌回發展中國家的經濟體嗎？

日本會成為本世紀第一個從發達國家，跌回發展中國家的經濟體嗎？

羅sir財話

2026-02-23 13:34:48

情系桑梓賦能醫療——中國工程院院士、溫州醫科大學校長李校堃回鄉考察夏縣人民醫院

情系桑梓賦能醫療——中國工程院院士、溫州醫科大學校長李校堃回鄉考察夏縣人民醫院

十目觀

2026-02-25 10:25:07

朝鮮人對中國人是怎樣的態度？讓我告訴你真相

朝鮮人對中國人是怎樣的態度？讓我告訴你真相

世界圈

2026-02-24 19:20:21

《呼嘯山莊》發布中國獨家海報，提示“未成年人謹慎觀影”

《呼嘯山莊》發布中國獨家海報，提示“未成年人謹慎觀影”

紅星新聞

2026-02-25 12:40:08

岳母送來兩壇腌蘿卜，我嫌味大扔給大客戶，一周后卻簽下百萬大單

岳母送來兩壇腌蘿卜，我嫌味大扔給大客戶，一周后卻簽下百萬大單

白云故事

2026-02-14 17:20:09

算法與數學之美

分享知識，交流思想

5374文章數 64616關注度

往期回顧全部

科技要聞

“機器人只跳舞，沒什么用”

頭條要聞

女子爬山失聯10天后遺體被找到丈夫：她登頂神情恐懼

頭條要聞

女子爬山失聯10天后遺體被找到丈夫：她登頂神情恐懼

體育要聞

勇士爆冷惜敗鵜鶘梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情！與小22歲美女同游新加坡

財經要聞

上海樓市放大招，地產預期別太大

汽車要聞

750km超長續航 2026款小鵬X9純電版將于3月2日上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

本地

時尚

公開課

軍事航空

藝術要聞

這些作品太美了，仙氣飄飄，三位大咖不容錯過！

本地新聞

津南好·四時總相宜

“復古甜心”穿搭突然大火！春天穿時髦又減齡

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

軍事要聞

俄烏沖突四周年：和平談判希望渺茫

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<button id="j08vx"><th id="j08vx"></th></button>