2月11日,陶哲軒在UCLA(加州大學洛杉磯分校),發表首場主題演講《機器輔助與數學研究的未來》:
![]()
作者摘要:
近年來,多種機器輔助的數學輔助方式迅速成熟,尤其是在形式證明助手、大語言模型、在線協作平臺及其相互作用方面。我們回顧了這些發展,并推測它們將如何影響未來的數學研究實踐。
核心要點筆記(極簡版)
- 數學很保守
教材、黑板、小團隊合作,兩百年來變化很小。
- AI 帶來三大突破
規模化研究、大眾可參與、形式化驗證過濾錯誤。
- 埃爾德什問題集現狀
AI 成功率約 1%–2%
能解決關注人少、中等難度問題
暫時啃不動頂級難題
- 未來模式
人類主攻深度思想
AI 負責檢索、計算、批量嘗試、形式化
社區 + 工具 + 驗證 = 新數學
- 長期判斷
AI 會變成標配工具,而非取代數學家
跨學科合作(數學 × 物理 × 生物)也將因此受益
以下正文為完整演講內容(含Q&A問答環節)
作者:陶哲軒(Terence Tao) & SAIR基金會 2026-2-11
譯者:zzllrr小樂(數學科普公眾號)2026-2-15
陶哲軒演講全文
嗯,我們能建立的所有這些新聯系……我覺得 IPAM(加州大學洛杉磯分校純數學與應用數學研究所)這個平臺的核心就是搭建交流與聯結,而今天這場活動,正是探討一個非常重要話題的絕佳場合。
好的,那我接下來要講的是數學正在如何發生改變。過去幾年里,大家能明顯感受到一股熱潮:AI人工智能和各類工具在數學以及其他領域的能力越來越強。但我認為,真正的變革,是從今年才真正開始落地的。
說實話,數學這門學科早就該迎來一些革新了。因為在很多方面,我們是一個極度保守的領域——不是政治意義上的保守,而是研究與教學方式上的保守。
我給大家舉兩個例子。
![]()
差不多 201 年前,柯西寫過一本專著,奠定了復分析的基礎,比如大家熟知的柯西公式。這本書是用法語寫的,不是拉丁語——(笑聲)——但除此之外,它和你今天看到的教材幾乎一模一樣。我們現在教數學的方式,只在次要細節上有變化。一個研究復分析的研究生,基本上能完全看懂那本兩百年前的書。
還有,我們至今仍極度依賴黑板。數學幾乎是唯一一個還在大量使用黑板的學科,甚至到了攝影師都把黑板當成一種藝術形式的地步。事實上,杰西卡·溫就出過一本很精美的畫冊,專門拍攝數學家的黑板,把它當作一種別處看不到的獨特藝術。(笑聲)
所以我們這個領域確實有點與眾不同。
![]()
再比如,我們的合作程度非常低,至少直到最近都是如此。哪怕和其他自然科學比也是這樣。這里有一張十年前的圖表,統計的是數學、化學、物理論文的合著人數。幾十年來,數學論文的合作者一直停留在 1~2 人;而其他學科早就意識到,現代研究需要廣泛協作、多元團隊。我們在這方面明顯落后,沒能跟上科學規模化、產業化的趨勢。
這背后是有原因的,不只是因為數學家“不愛社交”。(笑聲)
首先,數學的入門門檻極高,很多問題甚至需要數學博士才能理解題意。
其次,我們對證明的嚴謹性要求極高。我們希望每一步都絕對正確。如果 10 個人合作,只要有一個人不可靠、給出的論證站不住腳,要么所有人都得逐一核對——這非常繁瑣——要么整個工作流程就無法規模化。
黑板在兩三個人討論時非常棒,和思維同頻的人一起在黑板上推導問題,體驗堪稱絕佳。
但如果是 20 人、50 人,分布在不同國家,你就沒法靠一塊黑板、甚至靠 Zoom 真正解決一個復雜問題。
所以,數學不像其他學科那樣與時俱進,是有客觀原因的。
但我認為,隨著技術發展,這一切即將改變。
過去一兩年,我們終于開始出現大規模合作項目。
我喜歡打一個比方:
在實驗科學里,有兩種研究模式:
一種是個案研究——盯著一個對象,做深度、細致的分析。這很像傳統數學:盯著一個問題、一個概念,仔細鉆研。
另一種是群體普查——研究上千個樣本,做數據分析、統計,看比例、看規律。
而在數學里,我們一直做不到第二種,因為直到最近,我們都沒有工具能系統地研究“一大批問題”。
![]()
現在,我們終于可以開始廣泛參與了。
在其他科學里,早就有公民科學:業余愛好者可以收集蝴蝶、觀測彗星、采集水樣……哪怕數據沒那么完美、有噪聲,依然能用。
而直到不久前,數學還做不到這一點,除了找大素數等少數項目能吸引愛好者參與。
但現在,數學也可以了。
我們開始出現這樣的項目:貢獻者不只是職業數學家,還有研究生、中學生、計算機行業、科技行業的愛好者,利用業余時間參與。
越來越多人能用有趣的方式為數學做出貢獻。
當然,還有人工智能。
AI 發展得極快,現在已經能實時助力這些項目,帶來的效率提升遠大于它帶來的麻煩。我們已經跨過了這個臨界點。
而讓這一切真正運轉起來的,還有一個秘密武器:
形式化驗證。
自動檢驗論證是否正確的技術取得了巨大進步。
哪怕來自 AI、大眾或大規模項目的貢獻并不完全可靠,我們也有辦法過濾掉不可信的內容,留下優質成果。這一點帶來了顛覆性改變。
我這幾年多次講過類似內容,以前通常會列舉 AI、神經網絡在單點問題上取得的進展。
但正如我所說,我們現在進入了規模化時代。
所以今天我只重點講一個“群體研究”案例,我把它叫做一次樣本普查——就是最近在社交網絡上很火的:
![]()
埃爾德什問題集。
![]()
https://www.erdosproblems.com
它是第一批能讓我們系統用上所有這些新工具的大規模問題庫,可以清晰看出哪些方法有效、優勢和局限在哪里。
![]()
保羅·埃爾德什(Paul Erd?s, 1913—1996)
保羅·埃爾德什是 20 世紀一位極其多產的數學家,發了 1500 多篇論文,至今可能仍是紀錄保持者。他幾乎和所有人都合作過。(笑聲)他特別喜歡提問題,我 10 歲見過他,他當場就丟給我一個問題,我們一起研究,雖然沒解決,但后來被別人解決了。
![]()
他最有名的特點之一,就是不斷提出問題,有些還設了現金獎勵。大部分獎金不高,幾十美元,但有少數問題影響極大。
![]()
比如其中一個問題,他懸賞了 5000 美元,至今仍是開放問題。我本人也研究過它的一些方向,很多階段性成果都發在了頂級期刊。
埃爾德什很擅長提出這種好問題:non-trivial(非平凡),也不是完全不可能,剛好處在只要有進展就很有價值的邊界上。
他把這類問題叫作橡子:需要深刻、精妙的新洞見,最終能長成參天大樹。
但他提了大約一千多個問題,不都是“橡子”。
有些后來發現簡單得離譜。
![]()
比如他問過一個階乘方程有沒有解,看上去像個經典數論問題。幾十年后人們用計算機一搜就發現:無解,有非常直接的反例。
![]()
https://www.erdosproblems.com/399
他自己也知道這類問題,把它們叫作棉花糖:只是一口小甜點,短暫有趣一下。
所以這一千多個問題難度差異極大。
這里我要先澄清一個誤區:
![]()
最近社交媒體上,有些 AI 公司宣傳“我們解決了 5 個、6 個埃爾德什問題”,仿佛數學家的工作就是天天解這種題。
我必須先說明:解題只是數學研究的一部分。
我們更關心理解概念、溝通、簡化、建立理論。解題的意義,往往不在于問題本身有多少應用,而在于解題過程中會發現新方法。
比如等差數列相關問題,直接催生了整個加性組合領域。
但不管怎么說,這一千個問題,有解的、未解的,在計算機科學家眼里,非常像一個基準測試集。
它不是官方基準,但非常誘人:你可以拿新 AI 工具來測——能解多少個?
它成了一個很好的數據集,用來快照式評估當前工具的水平,還能做對比實驗:哪種 AI 用法更有效?只看一兩個成功案例看不出來,但一千個問題就可以做數據分析。
當然,這里也有不少炒作。我直接說結論:
![]()
目前 AI 并沒有在數學家最關心的那些頂級難題上取得突破。
它解決的,大多是關注度不足的問題:只在論文里出現過一兩次,幾乎沒有后續文獻,沒人認真深挖。
但 AI 可以規模化,所以它能幫我們清理掉一大批被人類忽略的“低垂果實”。
即便如此,AI 的能力提升絕不是純炒作,是肉眼可見的真實進步。
對我來說,這些進展真正展示的是:
數學可以有一種互補的新模式。
傳統上,人類小團隊花數月攻克難題,我們會繼續這么做。
但同時,我們可以讓 AI 去規模化掃蕩一千個問題,把所有簡單可解的先解決掉:把 20 種技巧自動套用到一萬個問題上,看哪些能直接攻破——這就是現在 AI 能做到的。
我們還能做統計。
從去年 9 月起,我們開始追蹤數據:
![]()
這一千多個問題里,目前還有 699 個未解決;已解決大約 480 個,數量一直在穩步上升。AI 大約從某個節點開始大幅貢獻;還有一次激增是因為文獻檢索工具出現,AI 從舊文獻里挖出了一堆早已被解決但沒被統計進來的答案。
最近幾周增速有所放緩,可能是因為有新的基準出現,吸引了大量注意力。
同時,我們還在把很多證明形式化,用 Lean 語言進行機器驗證。
很多進步現在看起來平平無奇,但半年前還覺得很震撼,就像當年的網頁搜索:剛出現時驚為天人,現在習以為常。
![]()
現在的深度研究工具,可以讓 AI 檢索海量文獻,跨語言、跨領域,找到幾十年前某篇論文里的相似結論,稍微修改就能解決當前問題。
我們終于有了語義檢索,這是我們多年想要的能力。
AI 偶爾會編造參考文獻,但至少文獻檢索可以手動核對。
就這樣,二三十個埃爾德什問題被解決。
![]()
現在用 AI 生成代碼、做數值實驗也極其簡單。
更重要的是形式化速度大幅提升:
以前把非形式證明轉成可機器檢查的形式證明要花幾周,現在幾小時就能完成。
這對和 AI 合作至關重要,因為 AI 生成的幾頁證明常常夾雜錯誤,沒人有時間逐行看,但自動轉成形式證明后,能不能通過一目了然,我們就能處理大量 AI 輸出的證明。
我自己最近一篇論文也用到了 AI:用它驗證結論、畫專業級圖表,比自己寫 Python 快得多。
哪怕只做這些輔助工作,AI 已經非常優秀。
![]()
這就是形式化證明的樣子,有點像數學和 Python 的混合體。對專家來說有點冗長、不夠優雅,但只要能編譯過,我們就滿意了。優雅可以以后再優化。
![]()
我們能取得這么多進展,還有一個關鍵:社區。
Thomas Bloom 非常努力地建立了社區、論壇和規則。
我們既不極端捧 AI,也不極端反 AI。
論壇允許 AI 生成的解法,但有明確規則:
必須披露、必須總結、必須對內容負責、不能刷屏、長內容放鏈接。
這套合理的規則運行得很好,避免了被低質 AI 內容淹沒,傳統數學家和 AI 輔助研究者之間有了建設性交流。
![]()
我快速舉兩個真實的人機協作案例:
第一個是問題 367,嚴格來說還沒完全解決,它有兩個不等式。
AI 證明了其中一個,另一個仍開放。
![]()
https://www.erdosproblems.com/367
過程是:
一位參與者做數值實驗,得到一個構造,但需要證明一個恒等式;
![]()
我登錄論壇,沒手推,直接把問題給了 Gemini,它用稍復雜的工具證明了缺失步驟;
我把證明簡化解釋在論壇;
![]()
第三個人把證明喂給 AI 自動形式化工具,轉成 Lean 代碼,驗證通過。
![]()
這就是典型的人機協作鏈條。
第二個例子,也是最后一個:
問題 1026,我們完全解決了。
![]()
https://www.erdosproblems.com/1026
它可以理解成一個硬幣游戲:
愛麗絲把硬幣分成 n 堆,鮑勃只能選單調遞增或單調遞減的堆,要讓自己拿到最多硬幣;愛麗絲要讓自己損失最少。
![]()
問題是:這個游戲的公平價格是多少?也就是 c(n) 是多少?這就是埃爾德什的問題。
論壇里有人用線性規劃算出小 n 的情況,提出猜想:
如果堆數是平方數 k2,最優比例是 1/k。
![]()
后來用深度檢索發現,這個猜想 1980 年就有人提過,只是我們不知道。
兩個月沒進展,直到有人把猜想喂給自動證明工具,居然證出來了。
AI 把硬幣問題巧妙轉化成了小正方形填大正方形的問題,我們都很意外。
![]()
后來發現 1959 年有過類似技巧,2016 年也有人用別的方法解決過平方情況。
所以這不是全新的開放問題突破,但方法很有創造性。
但它只解決了平方數情況,那非平方數呢?
線性規劃到后來規模指數爆炸,算不動。
![]()
我用另一個 AI 工具 AlphaEvolve,算出直到 n=16 的最優或近似最優分堆方式,觀察規律,給出 c(n) 的猜想;
合作者又把猜想簡化;
![]()
再后來有人發現,這個函數和另一個正方形裝箱問題里的函數幾乎一樣,而那個問題兩年前剛被解決。
把這些拼在一起,我們最終完整解決了問題 1026,并且已經形式化驗證。
這是非常迷人的人機協作過程。
總結
![]()
AI 已經讓數學以前所未有的規模、速度展開新可能,參與者也空前廣泛。
最重要的是:當你有一套系統化的問題或任務數據集,很多好事就會發生。
計算機科學早就懂這一點,但數學家以前不夠重視數據集。
現在,有了好的任務集,有大量工具,有很多非職業數學家愿意嘗試,就會出現各種意想不到的進展。
AI 顯著降低了數學的入門門檻。
有些問題甚至是高中生在 AI 輔助下解決的,而且能用 Lean 嚴格驗證。
另一點至關重要:驗證機制。
大家都見過不加驗證的 AI 會帶來什么。
AI 本身已經很強,但人機協作的潛力才更大,尤其適合長尾應用。
對于最難的那幾個頂級難題,目前還不清楚怎么直接應用這套方法;
但如果是一千個中等難度問題,AI 非常強大。
我的分享就到這里,謝謝大家。
(掌聲)
![]()
問答環節
問:您最后說 AI 的應用非常場景化。五年、十年后還會是這樣嗎?
答:技術上可能仍然是場景化的,但我們會學會怎么正確使用它。
可以類比維基百科:剛出現時,學生直接抄到作業里,老師想禁止。后來大家明白:維基百科不是用來給最終答案的,而是起點、參考文獻,需要自己判斷。
現在沒人禁止維基百科,因為我們懂了用法。
AI 會走同樣的路。
五年后,學界會形成成熟文化,知道 AI 能做什么、不能做什么,不再需要糾結“好 AI”、“壞 AI”的問題。
問:那些很難的著名問題,比如你證明的那個定理,AI 能解決嗎?
答:目前還不能。
有人把一千個問題挨個喂給 AI,成功率大約 1%~2%,已經很驚人。
但目前解決的,都是研究較少、解法較短、比較標準的問題。
對于需要艱深獨創方法的難題,AI 還沒有給出過人類從未見過的全新思路。這是我們當前的狀態。
問:那提出猜想呢?
答:好問題。
這個網站目前不接受外來新猜想。
但猜想是潛在的重要方向。
問題有明確“解/未解”,有評分目標,AI 很擅長優化。
但猜想有用/沒用,很難評分。隨機生成猜想很容易,生成有用的猜想很難。
短期來看,更可能的模式是:
人類提出猜想,AI 來評判、嘗試證偽、用例子檢驗、給出反饋。
AI 自主提出高質量猜想,暫時還做不到,但會是重要方向。
問:你說 AI 幫助數學解決中等難度問題,那它對數學和物理、生物等學科的交叉有幫助嗎?
答:目前跨學科合作依然很難,往往只有同校剛好有重疊方向的人才會合作。
如果能讓數學家更多參與應用數學,會非常棒。
我們下個月就有活動,把物理學家和數學家聚在一起做這件事。
AI 應該會有幫助,比如解釋基礎概念:我和物理學家合作,我不懂量子場論,讓 AI“用數學家能懂的方式講給我聽”,這很有用。
不過有一點區別:
數學之所以能很好地用 AI,是因為我們有嚴格驗證,能過濾錯誤。
換到其他學科,驗證沒有這么嚴密,但依然有空間。
更廣泛的參與,也包括讓數學家參與物理、化學、生物項目。
好的,再次感謝大家。
參考資料
https://www.youtube.com/watch?v=SuTxpKggY30
https://sair.foundation/event/ai-for-science-kickoff-2026/
2026AI科學盛典——圓桌討論《AI與高等教育變革》會議全文
2026AI科學盛典——圓桌討論《AI與數學》會議全文
2026AI科學盛典——諾貝爾獎得主巴里·巴里什(Barry Barish)主題演講全文《LIGO:十年新科學》
https://www.erdosproblems.com/367
https://www.erdosproblems.com/26
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.