網易首頁 > 網易號 > 正文申請入駐

專訪數學家Daniel Litt（丹尼爾?利特）：AI人工智能的數學能力或長期處于不均衡發展狀態（上）

2026-01-31 00:10:53　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數學科普不迷路！

訪談背景簡介：

丹尼爾?利特（Daniel Litt）是多倫多大學數學系教授。他一直密切關注AI人工智能在推動數學發現領域的發展進程，對此態度時而審慎懷疑，時而滿懷期待。

本期Epoch.ai與其探討的話題包括：當下的模型能解決的最難數學問題究竟是什么；是否有確鑿證據表明人工智能正推動數學研究提速；以及人工智能能否攻克千禧年大獎難題。

他們還探討如何評估數學研究的進展，其中包括Epoch.ai全新推出的「FrontierMath前沿數學：開放式問題」基準測試 —— 該測試以數學領域具有研究價值的未解問題為依據，對人工智能模型的能力進行評估。

詳情參閱：

訪談人簡介：

丹尼爾·利特（Daniel Litt）是多倫多大學數學助理教授。他獲得斯坦福大學博士學位，研究重點是代數幾何與數論之間的相互作用。

格雷格?伯納姆（Greg Burnham）是 Epoch AI 的研究員。在此之前，他曾在Elemental Cognition和Bridgewater Associates工作。他擁有普林斯頓大學數學學士學位。

安森（Anson Ho）是 Epoch AI 的研究員。他致力于幫助對人工智能未來發展及其社會影響進行更嚴謹的理解。

時間節點目錄：

（采訪時間和內容較長，分成十四小節，上下兩篇。本篇為上篇，涉及前七小節）

00:00:00 一、如今人工智能能解決的最難數學問題是什么？

00:16:08 二、當下的人工智能模型對數學研究的助力有多大？

00:23:36 三、垃圾論文、大語言模型生成的證明與審稿危機

00:27:21 四、人工智能實現數學問題的大規模篩選

00:33:49 五、人工智能何時能發展到足以在頂級數學期刊發表成果的水平？

00:42:15 六、智能的價值回報體現在何處？

00:59:50 七、人工智能能否攻克千禧年大獎難題？

01:11:54 八、數學領域還存在大量易解的「低垂果實」嗎？

01:18:47 九、丹尼爾如何調整職業發展，以適應人工智能的發展進程？

01:25:28 十、人工智能數學基準測試，實際在評估什么能力？

01:33:05 十一、開放式問題基準測試的設計思路

01:56:35 十二、數學家會相信關于數學猜想的啟發式論證嗎？

02:01:24 十三、若人工智能攻克「FrontierMath前沿數學：開放式問題」基準測試，會帶來什么影響？

02:06:53 十四、人工智能是否即將推動數學研究邁入加速發展階段？

作者：epoch.ai 2026-1-29

譯者：zzllrr小樂（數學科普公眾號）2026-1-30

訪談實錄（上）：
一、如今的人工智能能攻克哪些最難的數學難題？
[00:00:00]

格雷格：大家好，我是Epoch人工智能研究院（Epoch AI）的研究員格雷格?伯納姆（Greg Burnham），這位是我的同事安森（Anson Ho）。

安森：我也是Epoch人工智能研究院的研究員。

格雷格：今天我們還邀請到了丹尼爾，你好，丹尼爾。

丹尼爾：你們好，很高興和大家見面，能線下交流很開心。我是丹尼爾?利特（ Daniel Litt ），多倫多大學的數學教授。

格雷格：我們先從一個有趣的問題開始吧。你能否說說，如今的人工智能系統能解決的最難的數學難題，大概處于什么水平？

丹尼爾：這個問題問得很好。目前所有的前沿大模型，基本都能在最新的國際數學奧林匹克競賽（IMO）中拿到金牌，這可以作為衡量其能力的一個不錯基準。后面我們也會聊到幾個已經被解決的數學開放問題，這些問題要么是在人工智能的輔助下解決的，要么是由人工智能自主攻克的。客觀來說，這些問題的難度大概相當于國際數學奧林匹克競賽中難度中等或偏低的題目。

格雷格：明白了。

丹尼爾：有跡象表明，現在的人工智能系統其實能做到更好一些。如果加以優化，當前這一代的模型大概率能發揮出更優的性能。但總體而言，其解題水平還是停留在競賽題層面 —— 也就是優秀的高中生或大學生能在幾小時內解決的題目。

格雷格：你曾大膽斷言，未來一年內，我們或許能看到一些些許有價值的數學猜想被人工智能解決。這句話具體是什么意思？

丹尼爾：在我看來，“些許有價值的猜想”，指的是有人正式發表過、至少有一個研究者真正關注過，且大概率有人為其花費過至少數小時研究的猜想。這類難度的猜想數量不少，我認為當前的人工智能系統，在算力支持達到約 100 萬次運算量級的情況下，就能解決其中一部分。

格雷格：懂了。

丹尼爾：其實近期已經有一些例子符合這個標準了，或許這個預測已經成真，只是對于這些問題的實際價值，還存在一些爭議。

格雷格：也就是爭議在于這些問題的價值到底有多大。

丹尼爾：對，核心就是這些問題的實際研究價值究竟如何。

格雷格：你多次提到用 “人類解決該問題所需的時間” 作為衡量標準，你總體來說認可這個衡量維度嗎？

丹尼爾：說實話，并不認可。我覺得這不是衡量難題難度的好方法。拿國際數學奧林匹克競賽的題目來說，全世界最頂尖的參賽學生大概有一個半小時的解題時間，這能給難度設定一個上限，但對于很多這類題目，如果你交給專業數學家來做，他們實際花費的時間反而會更長 —— 因為他們會反復推敲，也沒有競賽中那種強烈的解題動力。此外，解決競賽題所用到的方法是非常有限的，而在數學研究中，研究者沒有任何方法上的束縛，會嘗試所有思路、反復摸索，甚至會借助計算機演算具體的例子。

難度本身是個很微妙的概念，該如何評判呢？很多時候，或許最好的評判方式是事后復盤：當你看到證明過程的邏輯結構后，會覺得 “其實這個問題也沒那么難”。但這種方式也有隱患 —— 如果用它來評估人工智能模型的能力，很容易導致不斷改變評判標準：模型給出了證明，你卻會說 “這題本來就不難，我不過是點了個按鈕而已”。

安森：你經常在推特上提到，這些人工智能系統能為數學研究帶來的實際助力其實相當有限，但也有人認為這種助力要大得多。你如何解釋這種認知差異？

丹尼爾：人工智能模型在某些領域的表現確實更出色。比如最優化理論領域，我的了解是，OpenAI 有不少該領域的專家，他們生成了大量相關數據，還結合自身的人類專業知識指導模型訓練。所以該領域的研究者能從模型中獲得更多幫助，我一點也不意外。相比之下，在代數幾何和數論領域，人工智能模型的表現就沒那么好了。

有些研究領域，更適配人工智能模型當前所具備的工具使用能力。比如你想為某個不等式找反例，編寫代碼驗證是很自然的做法；但如果你想為 “三次三維簇的中間雅可比簇相關猜想” （

intermediate Jacobian of a cubic threefold

）找反例，大概率沒有任何代碼能幫上忙。

除此之外，我認為很多人可能夸大了模型對自己的幫助。新工具的出現，使用起來確實很有趣，但很多人在談論人工智能加速科學研究時，并沒有嘗試進行嚴謹的實證檢驗。我愿意相信，人工智能確實消除了研究中的一些阻礙，但數學研究中還有很多瓶頸，是當前的模型無法觸及的。如果人工智能只是解決了 “打開論文找到引理 3.7” 這類小問題，卻無法幫研究者產生好的想法，那這真的能算加速研究嗎？

安森：我通常會用莫拉維克（Moravec）悖論來解釋人工智能在不同領域的能力差異或能力的不均衡性，而在數學領域內部，這種能力的不均衡性同樣存在。一部分原因來自訓練數據，一部分是因為有些數學領域更適配人工智能的特性。這兩點能解釋大部分的能力差異嗎？還是說還有其他因素？

丹尼爾：開展數學研究需要的是一種高維度的綜合能力，這和競賽解題有一點不同 —— 研究中沒有一套固定的、已知的有效方法。那些需要創造性思維的數學問題，模型至今都沒能成功解決。

我們在數學領域看到的這種能力不均衡，其實和在其他所有領域看到的情況是一樣的，并沒有什么特殊性。人工智能模型無法自主開展高質量數學研究的最大障礙，和自動化任何工作的最大障礙是同一個：它們無法完成長上下文任務。人類需要花費六個月解決的任務，模型目前完全做不到。一旦未來的模型能完成這個量級的軟件工程任務，那么它們開始開展高質量的數學研究，也就不足為奇了。在這一點上，數學研究并沒有什么特殊之處。

格雷格：我有一個腦洞大開的想法：人工智能模型在空間推理和視覺空間直覺方面的能力較弱，或許當一個數學問題能通過符號運算的方式解決時，它們的表現會格外出色？

丹尼爾：或許是這樣，但我對這種解釋持一點懷疑態度。數學家思考數學問題的方式千差萬別，我們中有些人是空間視覺型思考者，有些人則更偏向語言文字型思考者。

格雷格：我很好奇，有沒有數學家患有心象缺失癥（aphantasia）？

丹尼爾：當然有，甚至有些幾何學家都患有心象缺失癥，這是很有名的事。有大量數學家在用截然不同的方法研究問題，這也是為什么有些數學家的整體數學水平遠高于我，卻無法在相同時間內證明我能證明的定理，甚至根本證明不了。核心原因就是我們的研究方法不同。

目前能較好解決數學問題的人工智能模型大概有三四款，它們的解題方法略有差異，但這種差異性遠小于人類數學家之間的差異，這一點在各項基準測試中也能體現出來：不同模型能解決的問題有很高的重合度，而基準測試中的所有問題，至少有一位人類數學家能解決。在我看來，我們可以把人工智能模型看作一位獨立的數學家 —— 它們會在某些問題上表現出色，也會在某些問題上束手無策。但或許我們不必過度解讀模型擅長或不擅長的問題類型，這只是因為目前可供研究的模型只有兩三款而已，只是一種客觀結果。

格雷格：你認為人工智能的能力，在數學的不同子領域之間，存在多大的遷移性？

丹尼爾：我的感受是，當你讓模型證明一個代數幾何領域的命題時，它大概率只會嘗試在文獻中找到相關命題，或是極其相似的結論，然后在此基礎上進行一兩步推理。而當你問它一個組合數學的問題時，它并不會做出同樣的、真正的解題嘗試。

和一個掌握了所有模型所知的代數幾何或數論知識的研究生相比，這個研究生能進行的推理要多得多，也能真正嘗試去證明定理。在部分數學領域，模型的知識儲備已經超越人類，但它們未必掌握了擁有相同知識儲備的人類研究生所具備的研究方法。這只是我的直觀感受。

格雷格：你覺得模型在哪些數學領域的原生推理能力更強？

丹尼爾：在證明不等式這類問題上，它們的能力絕對比我強。我猜測原因是這類問題更容易生成訓練數據，而且相關的訓練數據量可能遠多于代數幾何領域。

格雷格：你說的不等式，是競賽類型的不等式嗎？還是分析學中更有研究價值的不等式？

丹尼爾：是那些編寫代碼能輔助解決的不等式問題，模型在這類問題上的表現通常都很出色。現在我每次需要證明不等式時，第一步都會借助模型編寫代碼，來探究問題的解空間特征。

格雷格：你之前提到的兩個觀點，看起來存在一定矛盾：一方面，你說模型缺少的是產生好想法的能力；另一方面，你又說如果模型能在多個領域持續工作六個月，或許也能做好數學研究。

丹尼爾：這個問題問得很好，這兩個觀點確實存在矛盾。在我看來，從單純應用已知方法，到開發新的研究方法，這之間是一個連續的過程。而開發一種新方法，說白了就是把上百種不同的思路以某種方式結合起來，而完成這件事的關鍵要素之一，就是時間。只是目前還不確定，時間是不是唯一的要素。

我自己做數學研究的經歷是，極少會出現 “突然想到一個絕妙的想法，一下子就解決了問題” 的情況。偶爾會有半夜醒來，問題突然有了答案的時刻，但通常這種情況的發生，前提是你已經為這個問題鉆研了數月。時間的積累確實有其獨特的價值，只是我不確定自己的自我反思是否足夠可靠，能判斷時間是不是唯一的核心要素。

研究中還會發生其他事：你會形成自己的研究思路，或是找到不同問題之間的類比關系 —— 數學研究中存在一種難以言喻的玄妙特質，而這種特質，目前的模型還無法展現。但或許這也只是一種主觀感受，這種玄妙的特質，可能只是把你讀過、吸收的大量想法濃縮成人類能理解的形式而已，或許和上下文壓縮的原理很接近。

格雷格：目前有一些關于智能的核心類比觀點 —— 比如 “智能是一種搜索行為”，或是 “智能是一種信息壓縮能力”，而人類目前只是在這些方面做得更好而已。

丹尼爾：我總體上對這類類比持懷疑態度。在我看來，做好數學研究的方式有很多種。看看不同數學家的研究能力就會發現，彼此的能力重疊度其實很低。我敢肯定，沒有哪位數學家能證明我能證明的所有定理，也有很多數學家的思考方式和我截然不同。

二、如今的人工智能模型對數學研究的幫助有多大？

[00:16:08]

格雷格：能否結合前代研究工具，說說你認為當前人工智能工具的實際效用？比如文獻檢索功能，現在的模型確實做得更好，但谷歌學術早就實現了文獻檢索。

丹尼爾：目前的人工智能工具，其實和前代工具處于同一發展脈絡中。文獻檢索方面，模型至少在部分任務上，已經比谷歌或谷歌學術做得更好了，這確實能節省一些時間，但具體能省多少，我也不確定。和過去去圖書館查資料相比，能節省多少時間呢？

格雷格：大概就是長期來看，能提升 2% 左右的工作效率這種水平。

丹尼爾：沒錯，基本就是這個趨勢。總體而言，這些提升都相當有限，我懷疑其帶來的效率提升不會超過 1% 或 2%。

格雷格：如果今天人工智能的發展突然停滯，你認為當前的技術水平，不足以推動數學研究質量出現爆發式提升？

丹尼爾：我認為數學研究的效率會保持我們以往看到的增長速度，這種增長在一定程度上可能歸功于技術，但大概率主要是因為研究人口的增長。你也可以對谷歌提出同樣的問題：谷歌或電子郵件，到底提升了多少工作效率？

格雷格：你經歷過谷歌出現前后的時代嗎？那段變化對你有什么感受？

丹尼爾：沒有，我出生于 1988 年，2015 年拿到博士學位，所以在我開始接觸數學研究時，谷歌就已經存在了。我問過一些年長的數學家這個問題，他們的普遍共識是，谷歌確實提升了數學研究的效率，但這種提升很難直觀看到，也很難找到一個指標來衡量。從直觀感受來看，谷歌的出現并沒有帶來優秀數學新思想的爆發式增長，我認為核心原因是，文獻檢索并非數學研究的主要瓶頸。

人工智能工具還有一個前身，那就是計算機技術的發展。上世紀 60、70、80 年代，計算機技術的發展推動了多個數學領域的重大進展。有一個經典的例子：歐拉曾提出冪和猜想，探討何時存在若干個 k 次冪的和等于另一個 k 次冪。這個猜想的第一個反例，就是通過計算機搜索找到的。更著名的是，四次冪的情況在 1988 年由埃爾基斯解決，他用到了一種非常巧妙的計算機搜索方法。

格雷格：如果沒有計算機，這種方法根本無從施展，盡管其中包含了大量人類的巧思。

丹尼爾：沒錯。他找到了一種方法，讓 1988 年的計算機能處理這類問題，即便是現在，單純的暴力窮舉也依然無法解決這些問題。但這確實是數學研究的一大突破。如果我們的人工智能模型停留在當前水平，數學研究也會沿著這個趨勢自然發展。

格雷格：具體會呈現出怎樣的發展狀態？目前我們主要將模型用于文獻檢索和代碼編寫，或許未來會在代碼編寫方面進一步發展，比如朝著 AlphaEvolve 的方向？

丹尼爾：有時候，數學研究的突破需要進行大量的搜索驗證，而這類搜索往往需要一定的研究技巧。比如你需要驗證上千個不同的例子，卻沒有固定的算法來處理每個例子，每個例子都需要一點新的想法，或是運用一些標準的研究方法，這種工作很難用計算機程序自動化實現。

在代數幾何領域，你可能需要完成一系列推導步驟，其中一部分可以用 Python 程序自動化，另一部分則需要真正的研究思路。以目前模型的能力，我認為可以想象，一些這類例子的搜索驗證工作，能以較高的可靠性實現自動化。

格雷格：這類工作過去大多需要人工完成，工作量會隨著問題規模線性增加，而現在 ——

丹尼爾：現在其中一部分工作的工作量能大幅減少，這也是我非常期待的一點。有時候我發表的論文，核心就是一個精妙的構造，而找到這個構造，需要我進行大量搜索，還要思考該從哪個方向入手。AlphaEvolve 的出現，或許就是這種自動化搜索的雛形 —— 也就是由智能大語言模型輔助的自動化搜索。我能想象，這會對數學研究產生非常重大的影響，但這種影響和計算機技術的影響一脈相承，并不意味著數學研究的完全自動化。

格雷格：也就是繼續探索如何利用計算機減少人工勞動，或是開辟新的研究方向。

丹尼爾：對，就像四色定理的證明、開普勒猜想的證明一樣，這類問題需要驗證大量的案例，而計算機能幫助我們完成這項工作。

格雷格：如果大幅提升算力，能讓這類工作實現更大的突破嗎？

丹尼爾：其實數學家已經在這么做了。我和計算數論領域的研究者聊過，他們的對話非常有趣 —— 有人會拿著一個問題說，“根據摩爾定律，等到算力不再成為限制時，這個問題在今年就能被解決”，而這些預測的準確率還相當高。

你或許聽過這個例子：一個整數能否表示為三個立方數的和。我們知道每個具體案例的解決難度，提升兩倍、三倍算力，就能找到更多有研究價值的整數解。但問題是，這種進展究竟能算真正的數學突破嗎？有人對此比我更興奮。

我想象的場景是，當你要尋找某種構造的例子，卻沒有已知的算法時，讓 GPT 進行巧妙的搜索，讓它自己產生思路。

格雷格：如果給它足夠的測試時間 ——

丹尼爾：或許最終它能找到一些結果。我并不認為隨著測試時間的增加，它能產生越來越精妙的想法，只是能嘗試更多的思路而已。

三、垃圾論文、大語言模型生成的證明，以及數學審稿危機

[00:23:36]

格雷格：目前人工智能是否給數學研究帶來了一些問題？大學中的作弊問題顯然已經出現，那垃圾論文的問題呢？

丹尼爾：垃圾論文的問題肯定存在。大概從 9 月份開始，我開始統計預印本平臺 arXiv 上標題或摘要中包含 “霍奇猜想（Hodge conjecture）” 的論文。霍奇猜想是現存的六大千禧年難題之一，也是普通人最難理解其表述的一個猜想。長期以來，這個猜想都能避開一些非專業研究者的胡亂嘗試，因為普通人根本寫不出關于它的、看似合理的內容，但現在情況不同了，前沿模型能寫出關于霍奇猜想的、看起來言之有理的文本。

9 月和 10 月，arXiv 的數學 - 代數幾何分類下，有 12 到 13 篇論文的標題或摘要包含霍奇猜想，其中除了一篇，其余全是無意義的垃圾論文。我無法證明這些論文是大語言模型生成的，但從寫作風格來看，答案非常明顯，而且其中有大概六位作者是反復發表這類垃圾論文的。

這個問題的影響有多大呢？它不過是浪費了我幾分鐘的時間。但隨著大語言模型越來越擅長寫看似連貫的文本，過去你花 10 秒就能看出一篇論文是無意義的，現在卻需要花幾分鐘。其中最離譜的一篇，論證邏輯完全不通，但你必須讀到論文中間，才能發現一些命題純粹是胡說八道 —— 它的引言部分寫得完全合理、有趣，還提出了非常大膽的結論，想要驗證它是垃圾論文，并不是一件容易的事。我認為這個問題會越來越嚴重。

在目前形式化驗證并不實用的數學領域，這會成為一個大問題。你可以想象更糟糕的情況：一個卡在某個問題上的研究生，利用模型生成某個關鍵步驟的無意義證明，論文的 99% 都是正確的，但因為這一處無意義的證明，整篇論文變得毫無價值。

格雷格：人類從很久以前就開始在研究中弄虛作假了。

丹尼爾：現在確實有很多錯誤的論文，但核心問題在于邊際成本：說謊和作弊的邊際成本，現在變得低多了。

格雷格：如果人工智能的能力就此停滯，這個問題在社會層面能得到管控嗎？

丹尼爾：這個問題正在加劇數學領域的審稿危機 —— 目前產生的論文數量，遠超過了能被嚴謹審稿的數量，而且情況會持續惡化。這在很大程度上是由數學學術界的激勵機制造成的，而非模型本身的問題。我們會沿用以往的方式管控，但效果會不盡如人意。不過我也看到了一些希望：模型也能幫助檢查論文，目前已經有一些不錯的相關工具在開發中了。

四、人工智能實現了大規模的數學問題搜索驗證

[00:27:21]

安森：我想從更長遠的角度聊聊這個問題。人工智能和數學研究的發展，很大一部分都依賴于算力和規模化，我們之前也聊到，讓人工智能進行大量的例子驗證。當我們擁有了大規模開展這類數學實驗的能力后，數學各領域的發展會呈現出怎樣的趨勢？

丹尼爾：你問的正是我之前提到的，讓模型進行大量的例子驗證，而非讓模型去解決黎曼猜想這類頂級難題。

安森：對，就是這個意思。

丹尼爾：我認為這會是以往研究趨勢的延續 —— 我們能驗證更多有研究價值的例子，核心優勢在于，嘗試第一個直觀思路的成本變得極低。在過去，我想要找到一個精妙的構造，必須坐下來嘗試各種思路，即便這些思路幾乎不需要什么巧思，也依然要花費我幾天的時間，而我本身還有很多其他工作。更何況，這個問題可能只是一個偶然想到的問題，我還有更感興趣的研究方向，嘗試解決它存在機會成本。

而現在，嘗試一種思路的邊際成本變得極低，即便用的是能力并不出眾的模型，這也具有極高的價值。數學研究的推進方式之一，就是尋找各類有趣的案例，而偶爾就能從中發現有價值的結論，這并不一定需要深刻的洞見或絕妙的想法，只需要花費時間。讓人工智能自動化地搜索這些有趣的案例，會是一件意義重大的事。

數學中有一些零散的經典案例，比如散在有限單群、例外李群，研究者會用相當系統的方法去尋找它們，但最終還是需要靠發現。很多時候，發現的過程就是看到有人推導出了一個有趣的例子，然后從中觀察到一些有價值的性質。我最引以為傲的一些研究成果，就是從文獻中發現了有趣的結論，然后推導出了相關的推論。

格雷格：這種研究方式的效率確實很高。

丹尼爾：這是數學研究推進的重要方式，數學的發展并非只依靠最頂尖的數學家證明驚天定理，還有大量研究者在做著基礎性的工作，研究各類有趣的問題，他們偶爾就能發現重要的結論。即便自動化的水平達不到普通專業數學家的程度，這種自動化的搜索驗證，也會對數學研究產生巨大的影響。

安森：這類數學實驗的收益遞減速度有多快？驗證一千個例子，會比驗證一百個例子有用得多嗎？

丹尼爾：這取決于搜索的方式。至少對我而言，最有價值的例子，往往出現在需要從無限多的對象中尋找少數特殊對象的場景中，比如找 26 個特殊對象，這些對象都是極其罕見、極具特殊性的。這時候就不能用暴力窮舉，而是需要一定的巧思，而模型能將這部分巧思的工作實現一定程度的自動化。我能想象，在一些場景中，驗證一百萬個例子的價值，遠高于驗證一百個例子。

安森：哪些數學領域最適配這種大規模的實驗驗證？

丹尼爾：我認為所有領域都適配。代數幾何中有一些我很喜歡的特殊構造，比如三次曲面上的 27 條直線、平面四次曲線的 28 條雙切線，這些例子都有有趣的性質，還和例外李群相關。這些都是1800年代的經典結論，但如果能找到新的、類似的精妙特殊構造，會是一件非常了不起的事，而且這并非不可能，研究者也一直在發現這類有趣的例子。

安森：這么說來，算力確實至關重要。那為什么不是所有數學家都想去大型實驗室，和 OpenAI、深度思維（DeepMind）這類擁有海量算力的機構合作呢？

丹尼爾：因為目前模型的能力還沒達到那個水平。現在想要實現這種自動化，方式大概是讓模型循環執行 “尋找該現象的有趣例子” 的指令，并記錄已經驗證過的例子，但當你真的讓模型這么做時，它基本會 100% 失敗。至少在代數幾何領域，模型的能力還達不到，它們甚至無法完成一個有研究價值的例子的驗證。不過這種情況可能很快就會改變。

安森：如果根據 FrontierMath 的發展趨勢推斷，或許到明年年底，這個基準測試就會被模型完全攻克。

丹尼爾：但我認為，攻克 FrontierMath，和實現這種大規模的例子驗證，并沒有什么關聯。

五、人工智能何時能寫出登上頂級數學期刊的論文？

[00:33:49]

格雷格：聊聊你關心的時間維度吧。你曾和塔梅伊?貝西羅格盧（Tamay Besiroglu）打賭，以 3 比 1 的賠率賭：到 2030 年初，人工智能系統無法自主寫出符合當前標準、能發表在你所在領域頂級期刊《數學年刊》（Annals）上的論文。這意味著你認為這件事發生的概率只有 25%。

丹尼爾：我覺得自己當時可能有點過于自信了，不過從那之后，我的預估其實更偏向于自己的判斷了。

格雷格：我記得，塔梅伊的預估向你靠攏了，而你的預估也向他靠攏了一點。

丹尼爾：對，還挺有意思的。這個打賭還有一些附加條件：首先，人工智能的這種能力必須是可復現的 —— 當然，如果模型證明了黎曼猜想，那這條條件就另當別論了。

格雷格：要求可復現，是為了避免只是偶然的成功。

丹尼爾：對，不能是模型恰好找到一個反例，推翻了某個重要猜想這種偶然情況，而是能穩定地產出高質量論文。還有一個成本條件：每篇論文的邊際成本必須約為 10 萬美元，這個數字是估算的人類數學家寫出一篇《數學年刊》論文的邊際成本。

格雷格：畢竟數學家的年薪也到不了上百萬美元，所以 ——

丹尼爾：大概率我們不會花費 10 萬美元的算力去做這件事，不過也有可能。但如果到 2031 年，模型寫出這樣的論文只需要 1000 美元，那這個賭局就很容易判定結果了。

格雷格：客觀來說，五年內有 25% 的概率實現這件事，從當前的技術水平來看，這已經是非常大的進步了。

丹尼爾：我認為這個預測是很合理的。

格雷格：從打賭到現在，你的判斷有哪些變化？

丹尼爾：25% 這個概率感覺有點偏低，這其實只是我的直觀感受，沒有什么實際依據。我認為，模型在這段時間內，大概率能自主開展高質量的數學研究。這個打賭原本是為了衡量 “模型是否會在數學研究中對人類形成絕對優勢”，但我現在發現，這其實是一個很糟糕的衡量標準。

原因之一是：目前有很多數學家的能力遠勝于我，他們寫出一篇《數學年刊》論文的邊際成本也低得多，一年就能寫一篇。我目前只發表過一篇《數學年刊》的論文，還有幾篇發表在同級別期刊上，但從某種意義上來說，這些數學家并沒有對我形成絕對優勢 —— 我們的研究視角不同，做數學研究的方式也不同，在一些領域，我在證明有趣的定理、理解有趣的數學問題上，反而具有顯著的優勢。

格雷格：如果五年后的模型，依然保持著如今的特性 —— 所有模型的解題方式都大同小異，就像一位風格固定的數學家。

丹尼爾：沒錯。你可以想象，未來的模型會在某些類型的數學研究中表現極其出色，甚至能證明各類不同的定理，但即便如此，就像馬克西姆?孔采維奇（Maxim Kontsevich）這樣的頂級數學家存在，并不意味著其他數學家就沒有存在的價值了。

格雷格：這里的成本條件其實有點關聯。假設算力成本為零，模型的運算速度也不再受限，就好像把你的大腦放進數據中心，一分鐘就能經歷主觀上的 100 年，你能勝過世界上所有的數學家嗎？

丹尼爾：這個問題問得很好。目前，由于各種限制，我主要在自己擅長的領域做研究，偶爾需要學習或開發新的研究方法 —— 這也是目前模型還無法做到的事，而這需要花費大量的精力。如果沒有這些限制，我就能更容易地學習其他研究者的方法，而這取決于我持續學習的能力。

當我們把人類和模型對比時，結果可能也取決于模型在持續學習方面的發展。不過我的預期是，即便有這樣的條件，我或許能做出很多精彩的數學研究 —— 如果擁有這么多資源卻毫無建樹，那也太說不過去了。但其他數學家依然會有極高的價值，因為數學研究中存在一些我并不適合的思考方式和研究模式。

格雷格：人工智能會打破我們熟知的比較優勢格局嗎？

丹尼爾：我認為沒有理由這么認為。而且我們討論的是沒有資源限制的情況，而資源限制是分析比較優勢的關鍵前提。

格雷格：五年后的場景，或許會是這樣：人工智能在某些數學領域表現不佳，人類就專注于這些領域，而少數人類研究者則指導人工智能在其擅長的領域開展研究。

丹尼爾：我認為研究者也會嘗試為人工智能建立一種 “研究品味” 的評估體系，讓它能自主去研究有價值的問題。五年的時間，25% 的概率這個判斷，我基本還是保持不變，可能會稍微調高一點。我認為，在 15 到 20 年內，人工智能系統大概率會在很多數學領域對人類形成優勢，如果沒有出現這種情況，我會感到很意外。

格雷格：你是根據什么趨勢做出這個判斷的？

丹尼爾：主要還是直觀感受。我也延續了人工智能預測的老傳統：說五年，就是認為這件事很快會發生；說超過五年，就是指從五年到永遠的任何時間。上世紀 60、70 年代的人工智能發展預測，也是這樣說 5 到 20 年的。

格雷格：說白了，就是兩種判斷：一種是 “可能很快會發生，但我不確定”，另一種是 “天啊，誰知道呢”。

丹尼爾：我的意思是，如果當前的發展趨勢持續下去，模型能開展高質量的自主數學研究，是有合理可能性的 ——25%，但遠非必然。

六、智能的收益究竟有多大？

[00:42:15]

安森：或許我們可以把時間拉到 15 或 20 年以后，甚至更久。一個人思考 100 年，和 100 個人思考 1 年，這兩種方式的研究成果該如何對比？有沒有辦法衡量，一個人持續思考 100 年，能力會提升多少？

丹尼爾：我把這個問題和我們之前聊的 “如何判斷問題難度” 結合起來說吧。有很多數學問題，明顯具有這樣的特質：如果開展一個曼哈頓計劃式的專項研究，集中力量攻克，很快就能解決，這些問題缺少的只是研究者的關注。即便只是讓幾位數學家全身心投入研究，這些問題也幾乎肯定能被解決。

格雷格：你能舉幾個這樣的例子嗎？

丹尼爾：比如最后一個散在有限單群 ——馬蒂厄群（Mathieu group） M??的反問題，這大概率是一個難題，已經有不少人研究過了。但我敢肯定，如果美國政府將其每年 2 億美元的數學研究經費中的相當一部分，投入到這個問題的研究中，它很快就能被解決。

格雷格：這個例子很有參考價值。

丹尼爾：如果讓一個人長期專注思考，很多問題都能被解決。我從 2016 年開始思考一個問題，這個問題是我在一場報告中接觸到的，我很喜歡這個問題，嘗試解決過，但當時沒有任何進展，不過我一直把它放在心上，最終在 2024 年解決了它。

在這個過程中，你會學習新的知識，將不同的問題關聯起來，還會遇到一個問題：如何將自己的知識和猜想匹配起來，甚至首先要知道這個猜想的存在。隨著時間的推移，你嘗試各種思路，有時最終就能找到解決方法。事實上，這個問題的解決方法中，有一個核心要素直到 2023 年才被提出，有時候你就是需要等待其他人完成相關的研究工作。

格雷格：這么說來，單個數學家的研究過程，其實有點像一個數學家團隊的研究過程，因為其他人也完成了其中的部分工作。

丹尼爾：沒錯，一部分原因就是時間的推移：你會學習新知識，嘗試不同思路，成為更優秀的數學家，掌握更多研究方法。數學研究的一個重要點 —— 也是目前人類依然遠勝于模型的一點，就是當你接觸到一個新的研究對象時，你會嘗試去 “熟悉” 它：反復研究、推敲各類相關問題和例子，分析相關的特殊情況，通過這種方式了解這個研究對象，并為其建立相關的理論。

我真的很擔心當前范式下的模型能力：現在，模型想要學習一個新的領域，必須重新訓練一個新模型。比如彼得?舒爾茨（Peter Scholze）正在發展的 Gestalten（格式塔）理論，這是一種新的空間理論，目前所有的模型都不了解這個理論，它們可以上網查閱相關論文，但無法真正接觸這個研究對象并開展研究。

格雷格：也就是只能做到淺嘗輒止的程度。

丹尼爾：它們無法真正去 “熟悉” 一個研究對象，而人類可以隨著時間的推移做到這一點。時間對解決問題的最大幫助，就是讓你熟悉研究對象，并形成相關的直覺。而模型如果不重新訓練，就無法做到這一點。解決一個涉及新研究對象或新思考方式的問題，其邊際成本就是訓練一個新模型的成本 —— 這個成本極高，遠比讓一個人類研究者去理解這個研究對象的成本高得多。

格雷格：即便是為了完成這類研究，持續學習能力也顯得至關重要。

丹尼爾：這種持續學習，不僅僅是像人類一樣讀一篇論文就能理解研究對象，還需要像人類一樣去 “探索嘗試”。我知道目前已經有人嘗試讓模型在數學研究中進行自博弈，但目前還不清楚其效果如何。

格雷格：在模型的思維鏈推理中，能看到一點這種探索嘗試的跡象：它們會嘗試不同的思路，進行一些摸索，最終找到解決方法。這可能是因為它們的訓練目標就是解決具體的問題，而非基于研究品味去尋找 “更好的研究視角”，或許這種能力會隨著規模化發展而提升。

丹尼爾：對，我對此并非持懷疑態度。

安森：我還發現一個有趣的點，就是研究的并行化存在局限性。你剛才提到的那個 2024 年解決的問題，依賴于 2023 年的另一項研究成果。如果對比 “丹尼爾思考 100 年” 和 “100 個丹尼爾同時思考”，或許長期的持續思考，會因為持續學習而更有成效，但研究的并行化也存在瓶頸，或者說，整個數學研究領域的發展，還需要其他方面的突破。

丹尼爾：你說得很對。這個問題的解決，借鑒了兩大深度理論的成果：非交換霍奇理論和函數域上的朗蘭茲綱領。而這項研究能推進的關鍵，是其他人 —— 埃斯諾爾特（Esnault）、達德齊奧（D’Addezio）和格雷琴尼希（Groechenig），利用函數域上的朗蘭茲綱領和伴隨理論證明了一個結論。這一點是我自己想不到的，雖然它和我的研究領域很接近，我也有所了解，但這確實是一個極具創造性的重要研究成果，和我當時的研究思路截然不同。

即便我獨自思考這個問題 100 年，也很難確定自己能發現這兩者之間的關聯。從歷史來看，讓一個人類研究者獨自長期專注于一個問題，研究效率大概率是很低的，你會嘗試各種思路，然后在某個時間點遭遇收益遞減。

格雷格：研究的并行化中，多樣性是很重要的一點。你有沒有嘗試讓模型去做一些令人意外、更具原創性的研究，即便結果是錯誤的？

丹尼爾：當然試過。現在，每當我思考一個開放問題時，第一件事就是讓模型給出一些思路，但這些思路幾乎都是無意義的。

格雷格：確實是這樣。

丹尼爾：我從來沒有從模型那里，得到過一個能通過初步檢驗、適用于深度開放問題的思路。

格雷格：從某種抽象的角度來看，隨機初始化似乎應該能解決這個問題，但我們目前還沒看到這種效果。

丹尼爾：你也可以嘗試 —— 我每天醒來，其實都是一次新的 “隨機初始化”。

格雷格：沒錯。

丹尼爾：但我自身的思維定式依然存在，這限制了我去真正探索數學研究的全部可能性。

安森：這就牽扯到了智能的收益問題。如果有一百萬個安森，嘗試去做你現在的研究，我認為不會有太多進展。而如果把規模再擴大，一百萬個丹尼爾和超級智能數學家對比，是否會出現同樣的情況：超級智能的能力遠超人類，無論增加多少研究者數量，或是延長多少研究時間，都無法匹敵？

丹尼爾：我先反駁一下你說的 “安森做我的研究不會有進展” 這個觀點。我認為，如果你真的投入大量時間去學習有趣的數學知識，一定能做出精彩的數學研究，只是研究的方向大概率會和我不同，因為我們的偏好和能力不同。但你看起來是個很聰明的人，只要有足夠的動力和資源，我相信你一定能做出有價值的數學研究。

同樣，對于超級智能人工智能 —— 無論這個概念具體指什么，即便是在數學研究這個相對狹窄的領域，智能也是一種極其高維度的能力。對比不同的人類數學家就能發現，我們各自在截然不同的方面表現出色。即便想象出一個能解決大量有趣研究問題的人工智能，也無法確定它能解決所有人類擅長的、有趣的數學研究問題。

格雷格：我們可以把問題說得更具體一點：在某個特定領域中，最適合該領域的、最聰明的研究者，其研究效率的天花板是怎樣的？有沒有這樣的情況：如果你知道某個頂尖研究者正在研究一個問題，你就會避開這個問題？

丹尼爾：這種情況在某種程度上是存在的，但我認為這和能力無關。比如目前p 進霍奇理論是一個非常活躍的領域，我在多個方面和這個領域有所交集，但我并沒有真正投身其中，原因是這個領域的發展速度非常快，如果我想進入這個領域，需要學習大量知識，跟上其他研究者的步伐，這更多的是機會成本的問題。

格雷格：所以在人類研究者中，我們并沒有看到所謂的 “智能收益” 的極致體現。

丹尼爾：我有一個兩歲半的女兒，她很可愛，也很聰明，但目前還無法進行數學研究，畢竟她才兩歲半。人類的能力之間，確實存在絕對的差異，但在專業數學家之間，能力的差異更多體現在數學研究是一個高維度的領域，而研究者各自專注于不同的方向。

如果模型繼續沿著當前的范式發展，保持能力的不均衡性，且相比人類，其能力范圍更狹窄，那它們依然能為數學研究帶來巨大的價值。人類研究者各自專注于極小的研究領域，這意味著幾乎所有的數學問題，都存在 “關注瓶頸”—— 甚至能理解一個問題表述中所有術語的人，可能只有十個。你可以想象，這些問題本身未必很難，只是沒有人有時間去研究而已。

安森：對于關心超級智能和人工智能快速發展的人來說，還有一個角度：假設我們通過某種方式提升了數學研究的進展速度，并將其分解為三個因素 —— 更多的人工智能、人工智能更長時間的研究、更智能的人工智能。這三者的貢獻占比會是怎樣的？

丹尼爾：其實在人工智能出現之前，我都不確定過去 40 年數學研究的進展速度是否真的提升了。我的感受是，研究效率的提升，很大程度上歸功于數學家數量的增加。一旦人工智能的能力達到人類的水平，或許研究效率的提升，也會主要取決于人工智能的數量。

有一個小問題需要關注：為什么人類研究者的數量增加，能帶來研究效率的提升？一部分原因是關注的問題變多了，另一部分是思考方式的多樣性。而人工智能能否帶來同樣的效果，取決于其發展方向。

數學家數量的增加，帶來的研究效率提升，大概率只是因為有更多的時間被投入到不同的問題上，有更多的問題得到了關注。我認為，即便是能力并不出眾的人工智能，其數量的增加也能帶來顯著的研究效率提升。

而關于 “智能的收益”，這個問題的定義本身就不夠清晰，在我看來，智能是一個非常高維度的概念。

你可以想象，擁有一種能巧妙搜索高維度證明空間的能力，會具有極高的價值。黎曼猜想的證明，大概率需要發展出目前尚未存在的各類研究對象和理論，而這需要在極高維度的搜索空間中進行大量的探索。

在實際研究中，這種探索大多是這樣進行的：普通數學家研究各類研究對象，進行低維度的搜索，驗證大量的例子，發現其中的規律；然后研究者開始將這些規律提煉為相關的研究對象和理論。那些我們認為最頂尖的數學家所做的、高層次的理論構建，其實高度依賴于底層的大量基礎工作和例子分析，而這在很大程度上，也歸功于數學家數量的增加帶來的規模效應。

七、人工智能會解決千禧年數學難題嗎？

[00:59:50]

格雷格：來聊一個有趣的小問題：你認為黎曼猜想，或是其他的千禧年難題，在不同時間被解決的概率是多少？

丹尼爾：我最熟悉的千禧年難題是黎曼猜想、BSD猜想（伯奇和斯溫納頓 - 戴爾猜想），以及霍奇猜想。其中，黎曼猜想是我們唯一能大致想象出證明框架的難題。

有一個與之類似的猜想 ——有限域上代數簇的黎曼猜想，由德利涅（Deligne）在上世紀 70 年代證明，而其中最接近黎曼猜想的部分，是更早由韋伊（Weil）證明的曲線的黎曼猜想。我們其實能大致想象出黎曼猜想的證明框架 —— 它應該和韋伊的證明框架相似。

韋伊給出了曲線黎曼猜想的兩個證明，問題在于，證明中的各類推導步驟，在整數域中并不適用，只適用于有限域上的曲線。我們需要找到方法，讓這些推導步驟在整數域中也能成立。這聽起來像是科幻小說，但至少我們有一個看似合理的思考方向。

很多數學家都研究過如何讓這些推導步驟在整數域中成立，我認為在未來十年內，其中一種嘗試有可能成功，我給的概率大概是 15%—— 概率不算高，但也并非不可能。

總體而言，觀察重大開放問題的解決過程會發現，從掌握解決問題所需的最后一個關鍵思路，到最終完成證明，這段時間通常都很短。比如費馬大定理，谷山-志村（Taniyama-Shimura）猜想的提出，到費馬大定理最終被證明，時間間隔其實并不長。

格雷格：這么說來，既然曲線的韋伊猜想已經被證明了幾十年，或許黎曼猜想的證明也離我們不遠了？

丹尼爾：事實上，當韋伊證明了曲線的黎曼猜想后，人們都認為黎曼猜想的證明很快就會到來，這是我對這段數學史的理解。但結果并非如此，所以人們其實并不知道，解決黎曼猜想還缺少哪些關鍵的新想法，我們只是對這些想法的大致方向有一些模糊的感知。

事實上，當韋伊證明了曲線領域的黎曼猜想后，人們都以為黎曼猜想的完整證明很快就會問世。這是我對這段歷史的理解。可結果并非如此。所以時至今日，人們依然不知道究竟缺失了哪些新的思路。我們只是隱約能感知到，這些新思路大概會是何種方向。

格雷格：人工智能的發展，有沒有讓你改變對相關時間的預判？

丹尼爾：其實并沒有 —— 我目前還沒看到，人工智能展現出開展高質量數學研究所需的任何關鍵特質。一絲火花都沒有。在我看來，解開一道國際數學奧林匹克競賽題，與開展高質量的數學研究之間的差距，比很多人想象的要大得多。

我的預判基本沒什么變化。當下人工智能能助力完成的任務，以及看似很快就能勝任的任務，似乎都并非解決重大未解猜想的核心瓶頸。話雖如此，我依然認為人工智能有 25% 的可能性實現高質量的數學研究。而這其中或許有 5% 的可能性 —— 具體取決于技術的發展路徑 —— 它會取得一些顛覆性的突破。

格雷格：聊個輕松的話題：千禧年大獎難題。這些數學領域的重大目標，你覺得它們被解決的可能性有多大？人工智能又是否會做出實質性的貢獻？

丹尼爾：我的預判是，未來十年，沒有任何一個千禧年大獎難題能由人工智能自主解決。

格雷格：十年？

丹尼爾：總的來說，未來十年能被解決的，我覺得可能是 0 到 1 個。納維 - 斯托克斯方程的研究據說有了一些進展，不過這并非我的研究領域，但我并不認為它被徹底解決是完全不可能的事。近期有消息稱，有一個團隊正與深度思維公司合作研究這個問題 —— 他們用的或許更多是傳統的深度學習技術，而非大語言模型或推理模型。

格雷格：這七個難題中，龐加萊猜想在被正式提出后不久就被解決了。也就是說，我們的成功先例并非為零。

丹尼爾：但其中有幾個難題，比如霍奇猜想，目前來看完全毫無思路，BSD 猜想也是如此。至于黎曼猜想，我們之前也聊過，雖然有一些初步的思路，但根本說不清離最終證明還有多遠。可能十年內就能解決，也可能要等上百年。

格雷格：這和你對人工智能發展時間線的其他判斷能關聯起來 —— 你說五年內人工智能寫出《數學年刊》級別的論文有 25% 的可能性，這其中是否也包含了……

丹尼爾：我的看法是，即便人工智能還沒開始攻克千禧年大獎難題，實現這一目標也是很有可能的。

格雷格：也就是說，這 25% 的可能性里，攻克千禧年難題的占比其實很小。而你預判的 20 年時間線，其實已經超出了這個范疇 —— 是人工智能經過更久的沉淀和發展之后的事。

丹尼爾：這取決于人工智能的發展速度是否會加快，或者說是否能實現自我迭代。總的來說，我對此持懷疑態度，就像我對所有領域的發展加速論都存疑一樣。

格雷格：那我們不妨聊聊數學研究的評估與基準測試。先做一個假設：你說目前還沒看到人工智能展現出你認為的關鍵特質，那這些特質具體是什么？

丹尼爾：我來設想一下，在我看來，人工智能具備這些特質會有哪些信號。

第一，提出一個新穎且有價值的定義，這一點至關重要；

第二，展現出專業的研究品味 —— 比如提出一個有意義的問題，哪怕只是通過猜想發現某種新的數學現象。事實上，很多最重要的數學成果，最初都只是一個猜想。而這一點，目前的人工智能系統很難做到。

第三，構建一套理論 —— 這和提出新定義相關，也就是建立理論體系的能力。目前來看，人工智能還從未展現出過這種能力。不過讓我頗感意外的是，現在的模型能在訓練中學習人類使用的方法，并加以應用。這也是推理模型的重大突破 —— 它們能掌握成熟的方法，并以較高的可靠性落地應用。

如果人工智能能開發出一種新的研究方法 —— 新方法和舊方法之間本就存在一個連續的發展譜系 —— 只要我能識別出這種創新，那就是一個重要信號。但目前來看，這些特質人工智能一個都不具備。它們會很快擁有嗎？或許吧。

格雷格：在數學研究的各項任務中，哪些是人工智能最難攻克的？你提到的構建理論和提出猜想似乎是核心難點，還有其他的嗎？

丹尼爾：我要求自己的每一篇論文都包含新的思路，雖然并非所有論文都能做到 —— 有時候你只是找到一個技巧，解決了一個古老的猜想。其實大多數人都很難產生大量新想法，數學家通常一年也就發表 1 到 2 篇論文。和其他學科相比，我們的總產出其實并不算高。

而開發一種新的研究方法，本質上就是提出真正的新想法。可究竟什么才算是新想法？這正是最難的地方。

格雷格：只有當你真正看到時，才會明白。

丹尼爾：沒錯，這就是核心難點。人們總喜歡拿AlphaGo舉例 —— 它的第 37 步棋被稱作 “非人類的一步”，是人類棋手永遠不會想到的走法。這一步，讓人工智能跳出了人類棋手的搜索范圍。但如果人工智能只是提出了一個新想法，哪怕這個想法人類也能想到，這算不算另一種形式的 “第 37 步棋”？

有意思的是，其實在這些人工智能系統出現之前，類似的情況就已經存在了。開普勒猜想的證明、四色定理的證明，都是 “非人類的證明”。研究的主導者是人，但絕大部分工作都是由計算機完成的海量案例分析 —— 你可以說這是繁瑣的案例分析，也可以說是精妙的，因為數學里沒有糟糕的研究，所有正確的結論都是美的。

格雷格：你說過，你會鼓勵自己的研究生去適應這種研究方式。

丹尼爾：解決數學問題，本就該不擇手段，為什么要自我設限？從這個角度來說，上述的計算機輔助證明其實也算一種 “第 37 步棋”，只不過和人工智能無關。但如果人工智能只是復刻這種證明方式 —— 把海量的案例分析自動化，我不會認為這是它的 “第 37 步棋”，因為人類早就做到過這一點了。

你也可以想象，用Lean定理證明器給出某個難題的證明過程，全程沒有任何注釋，人類根本無法從中提煉出清晰的論證思路。只要看過Lean的代碼就知道，這絕非易事。

但如果我看到人工智能提出了一種我認為的新方法 —— 一種在現有文獻中完全找不到先例的方法，那我會感到無比興奮。

格雷格：我之所以格外關注你的觀點，是因為你一直在努力做到實事求是，不隨意抬高評價的門檻。

丹尼爾：人總是很容易忍不住抬高門檻。當下，人工智能解決一個問題所能說明的，一方面是 “人工智能具備相應能力”，另一方面也可能是 “這個問題本身并不難”。

數學家們總愛說：“這個問題雖然被人工智能解決了，但它其實很簡單，所以我們不必過分高估人工智能的能力。” 在某種程度上，這話是對的。但我們也應該客觀評估模型的實際表現，不妨問問自己：如果這是人類寫出的答案，我會感到興奮嗎？對于近期人工智能解決的那些數學問題，如果有人告訴我，這是人類用這種方法解決的 —— 現實中也確實有人類做到過 —— 我會說：“哇，這很酷。” 對待人工智能的成果，我也是同樣的態度。

格雷格：“哇，這很酷。生活繼續。但當下不必貶低這份成果。”

——上篇完，下篇待續——

原文參考資料：

歐拉冪和猜想：

蘭德與帕金（Lander & Parkin，1966 年，首個反例）https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf

埃爾基斯（Elkies，1988 年，四次冪情形）https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf

埃斯諾爾特與格羅申尼希（Esnault & Groechenig，相伴理論與朗蘭茲綱領）https://arxiv.org/abs/1707.00752

德利涅（Deligne）對韋伊猜想的證明（1974 年）http://www.numdam.org/item/PMIHES_1974__43__273_0/

澤塔ζ函數值的無理性：

阿佩里（Apéry）的證明（1978-1979 年）http://www.numdam.org/item/AST_1979__61__11_0/

范德普滕（Van der Poorten）的闡釋https://doi.org/10.1007/BF03028234

扎吉爾（Zagier）的計算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf

卡萊加里 - 季米特洛夫 - 唐云清（Calegari-Dimitrov-Tang）的近期進展https://arxiv.org/abs/2408.15403

數論中的隨機模型：

梅蘭妮?馬切特?伍德（Melanie Matchett Wood）關于隨機矩陣的研究https://doi.org/10.1353/ajm.2019.0008

科恩 - 倫斯特拉（Cohen-Lenstra）啟發式https://doi.org/10.1007/BFb0099440

提及的千禧年大獎難題：

黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/

霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/

貝赫和斯維訥通 - 戴爾（BSD）猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/

納維 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/

前沿數學：開放式問題基準測試 https://epoch.ai/frontiermath/open-problems

參考資料

https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂加星★

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.