網易首頁 > 網易號 > 正文申請入駐

2026AI科學盛典——菲爾茲獎得主陶哲軒主題演講全文《機器輔助與數學研究的未來》

2026-02-15 17:37:02　來源: 科學的歷程

湖北舉報

分享至

2月11日，陶哲軒在UCLA（加州大學洛杉磯分校），發表首場主題演講《機器輔助與數學研究的未來》：

作者摘要：
近年來，多種機器輔助的數學輔助方式迅速成熟，尤其是在形式證明助手、大語言模型、在線協作平臺及其相互作用方面。我們回顧了這些發展，并推測它們將如何影響未來的數學研究實踐。
核心要點筆記（極簡版）

數學很保守
教材、黑板、小團隊合作，兩百年來變化很小。
AI 帶來三大突破
規模化研究、大眾可參與、形式化驗證過濾錯誤。
埃爾德什問題集現狀
- AI 成功率約 1%–2%
- 能解決關注人少、中等難度問題
- 暫時啃不動頂級難題
未來模式
- 人類主攻深度思想
- AI 負責檢索、計算、批量嘗試、形式化
- 社區 + 工具 + 驗證 = 新數學
長期判斷
- AI 會變成標配工具，而非取代數學家
- 跨學科合作（數學 × 物理 × 生物）也將因此受益

以下正文為完整演講內容（含Q&A問答環節）

作者：陶哲軒（Terence Tao） & SAIR基金會 2026-2-11

譯者：zzllrr小樂（數學科普公眾號）2026-2-15

陶哲軒演講全文

嗯，我們能建立的所有這些新聯系……我覺得 IPAM（加州大學洛杉磯分校純數學與應用數學研究所）這個平臺的核心就是搭建交流與聯結，而今天這場活動，正是探討一個非常重要話題的絕佳場合。

好的，那我接下來要講的是數學正在如何發生改變。過去幾年里，大家能明顯感受到一股熱潮：AI人工智能和各類工具在數學以及其他領域的能力越來越強。但我認為，真正的變革，是從今年才真正開始落地的。

說實話，數學這門學科早就該迎來一些革新了。因為在很多方面，我們是一個極度保守的領域——不是政治意義上的保守，而是研究與教學方式上的保守。

我給大家舉兩個例子。

差不多 201 年前，柯西寫過一本專著，奠定了復分析的基礎，比如大家熟知的柯西公式。這本書是用法語寫的，不是拉丁語——（笑聲）——但除此之外，它和你今天看到的教材幾乎一模一樣。我們現在教數學的方式，只在次要細節上有變化。一個研究復分析的研究生，基本上能完全看懂那本兩百年前的書。

還有，我們至今仍極度依賴黑板。數學幾乎是唯一一個還在大量使用黑板的學科，甚至到了攝影師都把黑板當成一種藝術形式的地步。事實上，杰西卡·溫就出過一本很精美的畫冊，專門拍攝數學家的黑板，把它當作一種別處看不到的獨特藝術。（笑聲）

所以我們這個領域確實有點與眾不同。

再比如，我們的合作程度非常低，至少直到最近都是如此。哪怕和其他自然科學比也是這樣。這里有一張十年前的圖表，統計的是數學、化學、物理論文的合著人數。幾十年來，數學論文的合作者一直停留在 1～2 人；而其他學科早就意識到，現代研究需要廣泛協作、多元團隊。我們在這方面明顯落后，沒能跟上科學規模化、產業化的趨勢。

這背后是有原因的，不只是因為數學家“不愛社交”。（笑聲）

首先，數學的入門門檻極高，很多問題甚至需要數學博士才能理解題意。

其次，我們對證明的嚴謹性要求極高。我們希望每一步都絕對正確。如果 10 個人合作，只要有一個人不可靠、給出的論證站不住腳，要么所有人都得逐一核對——這非常繁瑣——要么整個工作流程就無法規模化。

黑板在兩三個人討論時非常棒，和思維同頻的人一起在黑板上推導問題，體驗堪稱絕佳。

但如果是 20 人、50 人，分布在不同國家，你就沒法靠一塊黑板、甚至靠 Zoom 真正解決一個復雜問題。

所以，數學不像其他學科那樣與時俱進，是有客觀原因的。

但我認為，隨著技術發展，這一切即將改變。

過去一兩年，我們終于開始出現大規模合作項目。

我喜歡打一個比方：

在實驗科學里，有兩種研究模式：

一種是個案研究——盯著一個對象，做深度、細致的分析。這很像傳統數學：盯著一個問題、一個概念，仔細鉆研。

另一種是群體普查——研究上千個樣本，做數據分析、統計，看比例、看規律。

而在數學里，我們一直做不到第二種，因為直到最近，我們都沒有工具能系統地研究“一大批問題”。

現在，我們終于可以開始廣泛參與了。

在其他科學里，早就有公民科學：業余愛好者可以收集蝴蝶、觀測彗星、采集水樣……哪怕數據沒那么完美、有噪聲，依然能用。

而直到不久前，數學還做不到這一點，除了找大素數等少數項目能吸引愛好者參與。

但現在，數學也可以了。

我們開始出現這樣的項目：貢獻者不只是職業數學家，還有研究生、中學生、計算機行業、科技行業的愛好者，利用業余時間參與。

越來越多人能用有趣的方式為數學做出貢獻。

當然，還有人工智能。

AI 發展得極快，現在已經能實時助力這些項目，帶來的效率提升遠大于它帶來的麻煩。我們已經跨過了這個臨界點。

而讓這一切真正運轉起來的，還有一個秘密武器：

形式化驗證。

自動檢驗論證是否正確的技術取得了巨大進步。

哪怕來自 AI、大眾或大規模項目的貢獻并不完全可靠，我們也有辦法過濾掉不可信的內容，留下優質成果。這一點帶來了顛覆性改變。

我這幾年多次講過類似內容，以前通常會列舉 AI、神經網絡在單點問題上取得的進展。

但正如我所說，我們現在進入了規模化時代。

所以今天我只重點講一個“群體研究”案例，我把它叫做一次樣本普查——就是最近在社交網絡上很火的：

埃爾德什問題集。

https://www.erdosproblems.com

它是第一批能讓我們系統用上所有這些新工具的大規模問題庫，可以清晰看出哪些方法有效、優勢和局限在哪里。

保羅·埃爾德什（Paul Erd?s, 1913—1996）

保羅·埃爾德什是 20 世紀一位極其多產的數學家，發了 1500 多篇論文，至今可能仍是紀錄保持者。他幾乎和所有人都合作過。（笑聲）他特別喜歡提問題，我 10 歲見過他，他當場就丟給我一個問題，我們一起研究，雖然沒解決，但后來被別人解決了。

他最有名的特點之一，就是不斷提出問題，有些還設了現金獎勵。大部分獎金不高，幾十美元，但有少數問題影響極大。

比如其中一個問題，他懸賞了 5000 美元，至今仍是開放問題。我本人也研究過它的一些方向，很多階段性成果都發在了頂級期刊。

埃爾德什很擅長提出這種好問題：non-trivial（非平凡），也不是完全不可能，剛好處在只要有進展就很有價值的邊界上。

他把這類問題叫作橡子：需要深刻、精妙的新洞見，最終能長成參天大樹。

但他提了大約一千多個問題，不都是“橡子”。

有些后來發現簡單得離譜。

比如他問過一個階乘方程有沒有解，看上去像個經典數論問題。幾十年后人們用計算機一搜就發現：無解，有非常直接的反例。

https://www.erdosproblems.com/399

他自己也知道這類問題，把它們叫作棉花糖：只是一口小甜點，短暫有趣一下。

所以這一千多個問題難度差異極大。

這里我要先澄清一個誤區：

最近社交媒體上，有些 AI 公司宣傳“我們解決了 5 個、6 個埃爾德什問題”，仿佛數學家的工作就是天天解這種題。

我必須先說明：解題只是數學研究的一部分。

我們更關心理解概念、溝通、簡化、建立理論。解題的意義，往往不在于問題本身有多少應用，而在于解題過程中會發現新方法。

比如等差數列相關問題，直接催生了整個加性組合領域。

但不管怎么說，這一千個問題，有解的、未解的，在計算機科學家眼里，非常像一個基準測試集。

它不是官方基準，但非常誘人：你可以拿新 AI 工具來測——能解多少個？

它成了一個很好的數據集，用來快照式評估當前工具的水平，還能做對比實驗：哪種 AI 用法更有效？只看一兩個成功案例看不出來，但一千個問題就可以做數據分析。

當然，這里也有不少炒作。我直接說結論：

目前 AI 并沒有在數學家最關心的那些頂級難題上取得突破。

它解決的，大多是關注度不足的問題：只在論文里出現過一兩次，幾乎沒有后續文獻，沒人認真深挖。

但 AI 可以規模化，所以它能幫我們清理掉一大批被人類忽略的“低垂果實”。

即便如此，AI 的能力提升絕不是純炒作，是肉眼可見的真實進步。

對我來說，這些進展真正展示的是：

數學可以有一種互補的新模式。

傳統上，人類小團隊花數月攻克難題，我們會繼續這么做。

但同時，我們可以讓 AI 去規模化掃蕩一千個問題，把所有簡單可解的先解決掉：把 20 種技巧自動套用到一萬個問題上，看哪些能直接攻破——這就是現在 AI 能做到的。

我們還能做統計。

從去年 9 月起，我們開始追蹤數據：

這一千多個問題里，目前還有 699 個未解決；已解決大約 480 個，數量一直在穩步上升。AI 大約從某個節點開始大幅貢獻；還有一次激增是因為文獻檢索工具出現，AI 從舊文獻里挖出了一堆早已被解決但沒被統計進來的答案。

最近幾周增速有所放緩，可能是因為有新的基準出現，吸引了大量注意力。

同時，我們還在把很多證明形式化，用 Lean 語言進行機器驗證。

很多進步現在看起來平平無奇，但半年前還覺得很震撼，就像當年的網頁搜索：剛出現時驚為天人，現在習以為常。

現在的深度研究工具，可以讓 AI 檢索海量文獻，跨語言、跨領域，找到幾十年前某篇論文里的相似結論，稍微修改就能解決當前問題。

我們終于有了語義檢索，這是我們多年想要的能力。

AI 偶爾會編造參考文獻，但至少文獻檢索可以手動核對。

就這樣，二三十個埃爾德什問題被解決。

現在用 AI 生成代碼、做數值實驗也極其簡單。

更重要的是形式化速度大幅提升：

以前把非形式證明轉成可機器檢查的形式證明要花幾周，現在幾小時就能完成。

這對和 AI 合作至關重要，因為 AI 生成的幾頁證明常常夾雜錯誤，沒人有時間逐行看，但自動轉成形式證明后，能不能通過一目了然，我們就能處理大量 AI 輸出的證明。

我自己最近一篇論文也用到了 AI：用它驗證結論、畫專業級圖表，比自己寫 Python 快得多。

哪怕只做這些輔助工作，AI 已經非常優秀。

這就是形式化證明的樣子，有點像數學和 Python 的混合體。對專家來說有點冗長、不夠優雅，但只要能編譯過，我們就滿意了。優雅可以以后再優化。

我們能取得這么多進展，還有一個關鍵：社區。

Thomas Bloom 非常努力地建立了社區、論壇和規則。

我們既不極端捧 AI，也不極端反 AI。

論壇允許 AI 生成的解法，但有明確規則：

必須披露、必須總結、必須對內容負責、不能刷屏、長內容放鏈接。

這套合理的規則運行得很好，避免了被低質 AI 內容淹沒，傳統數學家和 AI 輔助研究者之間有了建設性交流。

我快速舉兩個真實的人機協作案例：

第一個是問題 367，嚴格來說還沒完全解決，它有兩個不等式。

AI 證明了其中一個，另一個仍開放。

https://www.erdosproblems.com/367

過程是：

一位參與者做數值實驗，得到一個構造，但需要證明一個恒等式；

我登錄論壇，沒手推，直接把問題給了 Gemini，它用稍復雜的工具證明了缺失步驟；

我把證明簡化解釋在論壇；

第三個人把證明喂給 AI 自動形式化工具，轉成 Lean 代碼，驗證通過。

這就是典型的人機協作鏈條。

第二個例子，也是最后一個：

問題 1026，我們完全解決了。

https://www.erdosproblems.com/1026

它可以理解成一個硬幣游戲：

愛麗絲把硬幣分成 n 堆，鮑勃只能選單調遞增或單調遞減的堆，要讓自己拿到最多硬幣；愛麗絲要讓自己損失最少。

問題是：這個游戲的公平價格是多少？也就是 c(n) 是多少？這就是埃爾德什的問題。

論壇里有人用線性規劃算出小 n 的情況，提出猜想：

如果堆數是平方數 k2，最優比例是 1/k。

后來用深度檢索發現，這個猜想 1980 年就有人提過，只是我們不知道。

兩個月沒進展，直到有人把猜想喂給自動證明工具，居然證出來了。

AI 把硬幣問題巧妙轉化成了小正方形填大正方形的問題，我們都很意外。

后來發現 1959 年有過類似技巧，2016 年也有人用別的方法解決過平方情況。

所以這不是全新的開放問題突破，但方法很有創造性。

但它只解決了平方數情況，那非平方數呢？

線性規劃到后來規模指數爆炸，算不動。

我用另一個 AI 工具 AlphaEvolve，算出直到 n=16 的最優或近似最優分堆方式，觀察規律，給出 c(n) 的猜想；

合作者又把猜想簡化；

再后來有人發現，這個函數和另一個正方形裝箱問題里的函數幾乎一樣，而那個問題兩年前剛被解決。

把這些拼在一起，我們最終完整解決了問題 1026，并且已經形式化驗證。

這是非常迷人的人機協作過程。

總結

AI 已經讓數學以前所未有的規模、速度展開新可能，參與者也空前廣泛。

最重要的是：當你有一套系統化的問題或任務數據集，很多好事就會發生。

計算機科學早就懂這一點，但數學家以前不夠重視數據集。

現在，有了好的任務集，有大量工具，有很多非職業數學家愿意嘗試，就會出現各種意想不到的進展。

AI 顯著降低了數學的入門門檻。

有些問題甚至是高中生在 AI 輔助下解決的，而且能用 Lean 嚴格驗證。

另一點至關重要：驗證機制。

大家都見過不加驗證的 AI 會帶來什么。

AI 本身已經很強，但人機協作的潛力才更大，尤其適合長尾應用。

對于最難的那幾個頂級難題，目前還不清楚怎么直接應用這套方法；

但如果是一千個中等難度問題，AI 非常強大。

我的分享就到這里，謝謝大家。

（掌聲）

問答環節

問：您最后說 AI 的應用非常場景化。五年、十年后還會是這樣嗎？

答：技術上可能仍然是場景化的，但我們會學會怎么正確使用它。

可以類比維基百科：剛出現時，學生直接抄到作業里，老師想禁止。后來大家明白：維基百科不是用來給最終答案的，而是起點、參考文獻，需要自己判斷。

現在沒人禁止維基百科，因為我們懂了用法。

AI 會走同樣的路。

五年后，學界會形成成熟文化，知道 AI 能做什么、不能做什么，不再需要糾結“好 AI”、“壞 AI”的問題。

問：那些很難的著名問題，比如你證明的那個定理，AI 能解決嗎？

答：目前還不能。

有人把一千個問題挨個喂給 AI，成功率大約 1%～2%，已經很驚人。

但目前解決的，都是研究較少、解法較短、比較標準的問題。

對于需要艱深獨創方法的難題，AI 還沒有給出過人類從未見過的全新思路。這是我們當前的狀態。

問：那提出猜想呢？

答：好問題。

這個網站目前不接受外來新猜想。

但猜想是潛在的重要方向。

問題有明確“解/未解”，有評分目標，AI 很擅長優化。

但猜想有用/沒用，很難評分。隨機生成猜想很容易，生成有用的猜想很難。

短期來看，更可能的模式是：

人類提出猜想，AI 來評判、嘗試證偽、用例子檢驗、給出反饋。

AI 自主提出高質量猜想，暫時還做不到，但會是重要方向。

問：你說 AI 幫助數學解決中等難度問題，那它對數學和物理、生物等學科的交叉有幫助嗎？

答：目前跨學科合作依然很難，往往只有同校剛好有重疊方向的人才會合作。

如果能讓數學家更多參與應用數學，會非常棒。

我們下個月就有活動，把物理學家和數學家聚在一起做這件事。

AI 應該會有幫助，比如解釋基礎概念：我和物理學家合作，我不懂量子場論，讓 AI“用數學家能懂的方式講給我聽”，這很有用。

不過有一點區別：

數學之所以能很好地用 AI，是因為我們有嚴格驗證，能過濾錯誤。

換到其他學科，驗證沒有這么嚴密，但依然有空間。

更廣泛的參與，也包括讓數學家參與物理、化學、生物項目。

好的，再次感謝大家。

參考資料

https://www.youtube.com/watch?v=SuTxpKggY30

https://sair.foundation/event/ai-for-science-kickoff-2026/

2026AI科學盛典——圓桌討論《AI與高等教育變革》會議全文

2026AI科學盛典——圓桌討論《AI與數學》會議全文

2026AI科學盛典——諾貝爾獎得主巴里·巴里什（Barry Barish）主題演講全文《LIGO：十年新科學》

https://www.erdosproblems.com/367

https://www.erdosproblems.com/26

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.