網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

專訪數(shù)學家Daniel Litt（丹尼爾?利特）：AI人工智能的數(shù)學能力或長期處于不均衡發(fā)展狀態(tài)（下）

2026-02-01 00:06:11　來源: 小樂數(shù)學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數(shù)學科普不迷路！

接上篇：

訪談背景簡介：

丹尼爾?利特（Daniel Litt）是多倫多大學數(shù)學系教授。他一直密切關(guān)注人工智能在推動數(shù)學發(fā)現(xiàn)領(lǐng)域的發(fā)展進程，對此態(tài)度時而審慎懷疑，時而滿懷期待。

本期Epoch.ai與其探討的話題包括：當下的模型能解決的最難數(shù)學問題究竟是什么；是否有確鑿證據(jù)表明人工智能正推動數(shù)學研究提速；以及人工智能能否攻克千禧年大獎難題。

他們還探討如何評估數(shù)學研究的進展，其中包括Epoch.ai全新推出的「FrontierMath前沿數(shù)學：開放式問題」基準測試 —— 該測試以數(shù)學領(lǐng)域具有研究價值的未解問題為依據(jù)，對人工智能模型的能力進行評估。

詳情參閱：

訪談人簡介：

丹尼爾·利特（Daniel Litt）是多倫多大學數(shù)學助理教授。他獲得斯坦福大學博士學位，研究重點是代數(shù)幾何與數(shù)論之間的相互作用。

格雷格?伯納姆（Greg Burnham）是 Epoch AI 的研究員。在此之前，他曾在Elemental Cognition和Bridgewater Associates工作。他擁有普林斯頓大學數(shù)學學士學位。

安森（Anson Ho）是 Epoch AI 的研究員。他致力于幫助對人工智能未來發(fā)展及其社會影響進行更嚴謹?shù)睦斫狻?/p>

時間節(jié)點目錄：

（采訪時間和內(nèi)容較長，分成十四小節(jié)，上下兩篇。本篇為下篇，涉及后七小節(jié)）

00:00:00 一、如今人工智能能解決的最難數(shù)學問題是什么？

00:16:08 二、當下的人工智能模型對數(shù)學研究的助力有多大？

00:23:36 三、垃圾論文、大語言模型生成的證明與審稿危機

00:27:21 四、人工智能實現(xiàn)數(shù)學問題的大規(guī)模篩選

00:33:49 五、人工智能何時能發(fā)展到足以在頂級數(shù)學期刊發(fā)表成果的水平？

00:42:15 六、智能的價值回報體現(xiàn)在何處？

00:59:50 七、人工智能能否攻克千禧年大獎難題？

01:11:54 八、數(shù)學領(lǐng)域還存在大量易解的「低垂果實」嗎？

01:18:47 九、丹尼爾如何調(diào)整職業(yè)發(fā)展，以適應(yīng)人工智能的發(fā)展進程？

01:25:28 十、人工智能數(shù)學基準測試，實際在評估什么能力？

01:33:05 十一、開放式問題基準測試的設(shè)計思路

01:56:35 十二、數(shù)學家會相信關(guān)于數(shù)學猜想的啟發(fā)式論證嗎？

02:01:24 十三、若人工智能攻克「FrontierMath前沿數(shù)學：開放式問題」基準測試，會帶來什么影響？

02:06:53 十四、人工智能是否即將推動數(shù)學研究邁入加速發(fā)展階段？

作者：epoch.ai 2026-1-29

譯者：zzllrr小樂（數(shù)學科普公眾號）2026-1-31

訪談實錄（下）：

八、數(shù)學領(lǐng)域還有很多容易解決的問題嗎？

[01:11:54]

安森：你在推特上提到過，解決一個數(shù)學問題的含金量，取決于前人在這個問題上付出了多少努力。我們是否有可能梳理這些問題，量化一下前人的付出？

丹尼爾：可以去看提出這些問題的論文，以及這篇論文的引用量。不過對于那些已經(jīng)被解決的問題，我其實并不清楚具體數(shù)據(jù)。比如第 124 號難題的高難度版本目前仍未解決，提出這個問題的論文只有 14 次引用。對于一篇 1996 年的數(shù)學論文來說，這個引用量并不算高。

格雷格：但 14 次引用也并非毫無意義。

丹尼爾：1996 年發(fā)表的數(shù)學論文里，有很多引用量為零。而且這 14 次引用，大概率并非都是針對這個難題本身 —— 這篇論文里提出了很多問題。

格雷格：你知道有多少人在研究p曲率猜想（p-curvature conjecture）嗎？

丹尼爾：非常少。這也是我一直想要攻克的難題，我為它投入了大量精力。目前還在積極研究這個猜想的人，我估計我都認識，人數(shù)應(yīng)該不到 20 個。從歷史來看，80 年代、90 年代和 21 世紀初，這個領(lǐng)域的研究熱度更高，后來研究者們陷入了瓶頸，熱度也就降了下來。或許現(xiàn)在相關(guān)領(lǐng)域出現(xiàn)了一些新的思路。

任何一個連專業(yè)術(shù)語都沒多少人理解的問題，關(guān)注者自然會很少。目前能完全理解 p 曲率猜想所有術(shù)語的人，可能也就幾千個。

格雷格：是否存在一種選擇效應(yīng)，讓一些問題變成了 “研究者覺得研究它很沒面子” 的問題？

丹尼爾：比如考拉茲猜想（3n+1猜想），它還很容易吸引一些非專業(yè)的業(yè)余研究者。很多問題，專家的看法都是 “我們目前還沒有合適的方法解決它”，這就難免會讓人產(chǎn)生一種 “你憑什么覺得自己能解決” 的質(zhì)疑。（詳情參閱）

對于那些著名的重大難題，是否有很多研究者在悄悄嘗試，只是沒有公布成果？或許每個人都會偶爾思考這些著名難題，包括那些在相關(guān)領(lǐng)域發(fā)表過論文的知名學者。但 “嘗試解決一個問題” 到底意味著什么？很多時候，人們只是想著 “要是能解決這個問題就好了”，然后就沒有任何實際行動了。

格雷格：當你覺得 “或許我有一個值得一試的想法” 時，是什么感受？

丹尼爾：有時候會在半夜醒來，突然想到一個絕妙的主意。我思考問題的方式主要有兩種：要么從一個想法出發(fā)，慢慢推演；要么先掌握一種通過其他途徑想到的新方法，再思考 “這個方法能解決哪些問題”，從中挖掘價值，這是一種機會主義的研究思路。

有時候我也會定下明確的目標，比如解決某個問題、證明某個猜想 —— 更準確地說，是先嘗試理解某個數(shù)學對象，再通過證明一個有意義的結(jié)論，來檢驗自己的理解程度。我會找一個最簡單的例子，一個用現(xiàn)有方法無法解決的例子，先嘗試攻克它，在這個過程中開發(fā)新的方法，再看看這種新方法能走多遠。

格雷格：從數(shù)據(jù)分析的角度來看，如果把引用量作為評估指標，是否需要進行一些非線性的修正？

丹尼爾：引用量的參考價值可能被高估了 —— 有很多論文引用了黎曼猜想的相關(guān)研究，但其實并沒有為解決黎曼猜想做出任何實質(zhì)性的貢獻。

格雷格：那這樣一來，引用量這個指標就沒什么意義了。

丹尼爾：我認為用這種方式評估數(shù)學問題的難度，其實非常不靠譜。

安森：還存在垃圾論文的問題。

丹尼爾：還有大量論文聲稱證明了黎曼猜想，這顯然讓相關(guān)研究的評估變得更難。計算機科學領(lǐng)域也有很多論文引用了 P 與 NP 問題的相關(guān)內(nèi)容，但它們真的推動了這個問題的解決嗎？

九、丹尼爾如何適應(yīng)人工智能發(fā)展，調(diào)整自己的職業(yè)發(fā)展規(guī)劃

[01:18:47]

格雷格：在我們深入聊評估方法之前，想問一下，為了在人工智能時代站穩(wěn)腳跟、謀求發(fā)展，你已經(jīng)做出了哪些調(diào)整，或者有哪些規(guī)劃？

丹尼爾：我正在做一些事，因為我預(yù)判人工智能的能力會不斷提升。目前有很多研究者在做數(shù)學形式化的工作，比如用Lean或其他證明驗證軟件將數(shù)學內(nèi)容形式化，但我并沒有參與這項工作，因為我預(yù)計未來幾年，能讓人憑直覺完成形式化的工具會有大幅改進。

格雷格：憑直覺完成形式化 —— 我再跟你確認一下這個概念。

丹尼爾：當然，也有一部分原因是我并非這個領(lǐng)域的專家，我只是簡單嘗試過。而且我并不打算因為預(yù)判人工智能能力會提升，就改變自己研究的問題方向，或是使用的研究方法。

究其根本，我認為自己的工作核心不是證明定理，而是理解數(shù)學對象。證明定理，只是檢驗理解程度的一個標準。很多定理或猜想，都是研究的 “終點” 而非 “源頭”—— 也就是說，如果你能開發(fā)出一種方法證明這個定理，說明你已經(jīng)理解了相關(guān)的數(shù)學內(nèi)容，但研究的真正價值，在于這份理解本身。

這或許也能解釋，為什么訓練人工智能開展高質(zhì)量數(shù)學研究如此困難：我們發(fā)表的論文，大多沒能傳達出數(shù)學研究的真正價值 —— 研究的核心，是讓人類對某個學科的理解更進一步。

格雷格：你腦海中形成這份理解時的那些想法，并不會出現(xiàn)在論文里。

丹尼爾：研究者會努力把自己的直覺寫進論文，但這向來是個難題。如果我能直接告訴學生 “你應(yīng)該這樣理解這個數(shù)學對象”—— 我確實會這么說，但這并不能傳遞任何有價值的信息。這只是給了他們一個線索，需要他們自己去研究這個數(shù)學對象，才能慢慢領(lǐng)悟，而這份直覺本身，無法直接傳遞。除了一些高度凝練的表述或隱晦的提示，論文的文字里根本沒有這份直覺的痕跡。

格雷格：我能想象到這種情況：你發(fā)表了一篇論文，標題是 “某猜想的證明”，但你構(gòu)建相關(guān)理論的過程曲折得多，而論文里根本沒有留下多少能讓人工智能學習的線索。

丹尼爾：很多研究都是這樣的：證明一個結(jié)論時，你通常會有一個非常清晰的核心思路，之后會遇到各種各樣的障礙，可能是因為你不理解證明過程中的某個中間對象。你會想辦法繞開這些障礙，最終寫出來的論證過程看起來會非?；逎?。當然，你會試圖在論文里提示 “這才是我真正的研究思路”，但這種提示的效果往往不盡如人意。

那這和人工智能對我個人規(guī)劃的影響有什么關(guān)系呢？人工智能無法替我理解數(shù)學對象。正因為直覺的傳遞如此困難，即便有一個模型在各方面能力都超過我，它可能也只能在很小的程度上幫助我理解這些數(shù)學對象，甚至可能毫無幫助。

格雷格：也就是說，核心的研究工作，終究還是要靠自己。

丹尼爾：我看到你在推特上引用了一位哲學家的話，說數(shù)學家的社會角色，是成為數(shù)學理解的 “載體”。我特別喜歡這個說法 —— 太貼切了。我很好奇，你是否會為這種角色感到困擾？如果未來人工智能能比人類更快地解決任何數(shù)學問題，徹底主導(dǎo)人類的數(shù)學研究，你會感到困擾嗎？你還會繼續(xù)研究數(shù)學嗎？

丹尼爾：做數(shù)學研究的一大樂趣，就是證明一個結(jié)論時的那種成就感。這種成就感，未必只有解決未解難題才能獲得。或許會少了一些虛榮心的滿足，但這份核心的情感體驗依然存在。

對我而言，研究數(shù)學的真正目標，是理解這個世界。如果未來社會的需求，正如佩利所說，是讓數(shù)學家成為人類數(shù)學理解的 “載體”，讓我們通過研討會，向大家解讀人工智能證明的最新重大成果，只要社會愿意支持這項工作，我會非常樂意。

格雷格：就像在后稀缺的烏托邦社會（post-scarcity utopia）里，這種工作依然有價值。

丹尼爾：當然。而且我認為，我們離那個時代還很遠。

格雷格：但只要我們還是現(xiàn)在的自己，就依然會想要做這份工作。

丹尼爾：這里存在一個社會問題：如果人工智能模型在數(shù)學研究的所有領(lǐng)域都比人類更有優(yōu)勢，或者公眾認為它們更有優(yōu)勢 —— 我認為后者的可能性更大 —— 社會還會愿意支持數(shù)學家的研究工作嗎？這是一個懸而未決的問題，但我希望答案是肯定的。

格雷格：目前來看，公眾普遍認為數(shù)學研究大多最終會產(chǎn)生實際價值。

丹尼爾：數(shù)學之所以能產(chǎn)生實際價值，一個重要原因是有人類專家的存在，以及數(shù)學研究培養(yǎng)出的人力資本。即便是研究最抽象、最純粹數(shù)學的人，他們作為數(shù)學理解的 “載體”，本身就具有價值。無論未來的人工智能模型能力多強、創(chuàng)新能力多高，讓人類成為數(shù)學理解的載體依然有價值，即便在數(shù)學研究領(lǐng)域，人工智能已經(jīng)完全超越了人類。

十、人工智能數(shù)學基準測試，究竟在評估什么？

[01:25:28]

格雷格：我們想繼續(xù)完善數(shù)學基準測試的體系，尤其是 “前沿數(shù)學” 基準測試。但目前來看，這個測試的評估維度，并沒有涵蓋所有重要的能力。你認為其中最核心的缺失是什么？

丹尼爾：我先說說我對基準測試評估內(nèi)容的理解。這類測試試圖評估的能力包括：是否理解專業(yè)術(shù)語的含義？是否掌握已有的研究成果？是否熟悉現(xiàn)有的研究方法？能否應(yīng)用這些方法？還有一定的推理能力和創(chuàng)新能力？

但在我看來，這些基準測試最終主要評估的，還是知識儲備。人類解決問題時，知識儲備通常是有限的，所以我們會怎么做？可能先有一個思路，研究一段時間后，發(fā)現(xiàn) “需要把這個結(jié)論或結(jié)果作為中間步驟”，然后再嘗試證明這個中間結(jié)論，或者去查閱相關(guān)資料。

證明中間結(jié)論的過程，甚至發(fā)現(xiàn) “存在這樣一個可利用的中間結(jié)論” 的過程，都是高度依賴推理的。但如果一個模型已經(jīng)記住了所有的數(shù)學文獻，它早就知道這個中間結(jié)論的存在，要意識到這個結(jié)論能用來證明目標問題，就幾乎不需要任何推理了。

當你向一個熟記所有文獻的模型提問時，你其實并沒有測試到那種 “知識儲備有限的人類解決問題時所展現(xiàn)的核心推理能力”。人類需要自己發(fā)現(xiàn)的那些已有結(jié)論，模型早就知道了。

對人類而言，很多能測試出推理能力、并與數(shù)學專業(yè)能力和研究成就高度相關(guān)的問題，對模型而言，已經(jīng)無法反映其真正的推理能力了。任何一個人類，如果能在 “前沿數(shù)學FrontierMath” 基準測試中取得和模型一樣的成績，大概率會成為一名非常成功的研究者，但模型并沒有展現(xiàn)出相應(yīng)的研究能力。這就是原因所在 —— 同一個問題，對人類和對模型，測試的是完全不同的能力。

格雷格：補充一個你可能不知道的信息：我們深入研究了Gemini 2.5 （谷歌雙子座AI工具）深度思考模型的數(shù)學能力，還讓它手動完成了 “前沿數(shù)學” 基準測試。測試中的所有問題都有三個評分維度：背景知識、執(zhí)行難度、創(chuàng)新要求。執(zhí)行難度主要看解題過程的長度，以及需要完成的繁瑣計算量；背景知識看解題所需的知識是否高深、晦澀；而創(chuàng)新要求 —— 我本以為這是三個維度中，與我們所說的推理能力最相關(guān)的一個。但結(jié)果顯示，Gemini 模型的得分與背景知識、執(zhí)行難度維度呈負相關(guān)，而與創(chuàng)新要求維度完全無關(guān)。

丹尼爾：這很有意思。

格雷格：這恰好印證了你所說的現(xiàn)象。即便我們試圖讓 “前沿數(shù)學” 基準測試覆蓋創(chuàng)新能力這個維度，但模型解決問題的過程，似乎并沒有體現(xiàn)出對這個維度的感知，也不會因為問題的創(chuàng)新要求高而覺得更難。

丹尼爾：其他模型也呈現(xiàn)出同樣的規(guī)律嗎？Google Gemini（雙子座）模型似乎很少使用合成數(shù)據(jù)，這可能導(dǎo)致它對一些偏門的專業(yè)領(lǐng)域了解較少。

格雷格：GPT-5 等其他模型也是如此。沒錯，它們確實缺失了創(chuàng)新能力這一核心維度。

丹尼爾：還有一個問題：人們試圖設(shè)計一道難題時，實際上，出題者本身都很忙，他們設(shè)計的題目，往往是自己已經(jīng)知道解法的。而一道任何人都知道解法的題，顯然可以用現(xiàn)有的方法解決。

或許出題者會想出一種新方法來解題，只是還沒寫進論文。但這種方法究竟是真正的創(chuàng)新，還是只是對出題者而言的新方法，就不得而知了。最終這篇論文發(fā)表，新方法進入訓練數(shù)據(jù)，這個問題也就無法再用來測試模型開發(fā)新方法的能力了。

有時候，解決一道難題的關(guān)鍵，只是需要在一篇論文里找到一個公式，代入數(shù)值計算，而理解這篇論文的專業(yè)術(shù)語，需要大量的背景知識。但模型的背景知識儲備量極大，它們能直接讀取 PDF 文獻，然后代入數(shù)值計算。

格雷格：有時候，這類測試最終變成了測試 “模型能否讀懂 PDF 文獻”。

丹尼爾：沒錯。我的看法是，如果一個基準測試的難度，僅限于人類幾小時內(nèi)能解決的問題，那它很快就會被模型吃透。人類幾小時能完成的工作，其實非常有限。

格雷格：參與我們 “前沿數(shù)學” 四級測試命題的一位研究者說，他對自己出的題特別滿意，因為這道題是他被 “絆住” 后花了兩周時間研究出來的。他沒有直接用自己會解的題，而是給自己定了一個目標 ——“用這些方法設(shè)計一道題”，然后不斷探索，最終才有了這道題。

丹尼爾：出題者投入的時間越長，題目質(zhì)量大概率也會越高。但這里還有一個陷阱：如果一個人刻意想設(shè)計一道難題，最終設(shè)計出的，往往是對他自己而言的難題。比如他會在自己不擅長的領(lǐng)域出題。

格雷格：然后就會覺得所有內(nèi)容都是新的、有趣的、難的。

丹尼爾：但對這個領(lǐng)域的專家而言，這道題可能很簡單。設(shè)計一道難題，卻不驗證它的實際難度，最終做出的基準測試，很容易就會被模型吃透。

十一、開放式問題基準測試的設(shè)計思路

[01:33:05]

格雷格：接下來聊聊我們正在設(shè)計的 “開放式問題” 基準測試 —— 目前還只是暫定名。這個測試的核心目標，是選取目前人類還無法解決的數(shù)學開放式問題。同時我們還受限于 “自動驗證” 的要求：即便目前人類不知道答案，一旦人工智能給出一個答案，我們需要能用程序驗證這個答案是否正確。設(shè)計這個測試，也是為了避開 “無法評估問題實際難度” 的痛點。

丹尼爾：很多開放式問題的研究，都受限于 “關(guān)注者過少”，所以這些問題的實際難度，可能并沒有看起來那么高。一個有效的辦法，是讓數(shù)學家來評估 “這道題是否難”，這樣能避免后續(xù)隨意抬高評價門檻。

我很認可這個項目的一點是：目前很多人工智能實驗室都投入大量資源解決某個數(shù)學問題，只是為了對外宣稱 “我們解決了這個問題”。如果這些資源能被投入到人們真正關(guān)心的問題上，會是一件好事。有些實驗室在做真正的科學研究，但有些實驗室的主要工作，其實只是公關(guān)。

格雷格：這個測試也能讓我們對一系列問題進行 “預(yù)先登記”。當某個實驗室宣稱 “我們的模型解決了這個問題” 時，我們就能知道，這個成果的篩選有多刻意。

丹尼爾：開放人工智能曾發(fā)表過一篇論文，他們梳理了一些學術(shù)會議的論文，從中挑選問題研究，我記得他們選了十個問題，最終解決了一個。這個數(shù)據(jù)能讓我們窺見一斑。我認為這篇論文，并不能證明人工智能的數(shù)學能力在加速提升。而且和所有這類研究成果一樣，背后都存在各種復(fù)雜的影響因素。

格雷格：沒錯。如果我們能讓數(shù)學家來評估 “這個問題是否有研究價值”，該如何量化這種評估？我們該用什么樣的標準？

丹尼爾：或許可以讓數(shù)學家給出評級，比如 “有價值”、“非常有價值”、“極具價值”，也可以讓他們分析這個問題的研究意義。有時候，一個問題有研究價值，是因為它是研究的 “源頭”—— 解決它能推導(dǎo)出很多有意義的結(jié)論。我理解這個基準測試，主要是尋找能被驗證的構(gòu)造性問題。

格雷格：我們并非只關(guān)注構(gòu)造性問題，但受限于 “自動驗證” 的要求，選取的問題通常都是 “構(gòu)造一個數(shù)學對象” 這類問題。

丹尼爾：有些構(gòu)造性問題的研究，確實能產(chǎn)生實質(zhì)性的研究成果；但有些構(gòu)造性問題，只是檢驗理解程度的 “基準”。比如歐拉冪和猜想，因為暴力搜索的方法行不通，解決這個問題的過程，就是檢驗研究者理解程度的過程。要解決它，你必須想出一種巧妙的搜索方法，而這也意味著你已經(jīng)理解了相關(guān)的搜索空間。

格雷格：這些作為 “理解基準” 的構(gòu)造性問題，目前人類都無法解決，用它們來評估人工智能的理解能力，是否公平？

丹尼爾：這取決于問題本身。有些問題的研究，只是受限于關(guān)注者過少。很多研究者尋找的數(shù)學構(gòu)造，目前的研究水平還停留在 “有人在周末用筆記本電腦做了一次簡單的搜索”。如果人工智能能找到一種更好的構(gòu)造方法，只能說明它做了一次嘗試，而人類之前從未嘗試過。這種成果顯然有價值，但我們很難判斷，這能反映出人工智能的什么能力。

但也有一些問題，比如 M?? 單群的逆問題，我認為如果能像曼哈頓計劃一樣集中資源研究，肯定能解決，它絕對在人類的能力范圍內(nèi)，而且也確實有很多研究者嘗試過。

格雷格：我們是否應(yīng)該將 “研究價值” 和 “難度” 作為兩個獨立的評估維度？

丹尼爾：這絕對是兩個不同的維度，只是二者存在相關(guān)性，因為人們會更愿意研究有價值的問題，而那些有價值卻仍未被解決的問題，往往難度都很高。

格雷格：我們之前聊過抬高評價門檻的問題。有些情況是，你原本以為某個問題不會用一種平庸的方法解決，但看到人工智能的解法后發(fā)現(xiàn)，其中毫無新想法，完全就是硬算出來的。它確實證明了結(jié)論，但這個成果，對預(yù)測人工智能的能力發(fā)展，似乎毫無參考價值。我們該如何提前規(guī)避這種情況？

丹尼爾：我想說明的是，如果人工智能解決的是一個并非因 “關(guān)注者過少” 而未解的開放式問題，即便證明過程只是硬算，這也依然有價值，我們不能說 “這個成果毫無意義”。硬算的能力，對數(shù)學家而言，本身就是一種重要的技能。

格雷格：如果有能力的話，數(shù)學家自己也會這么做。

丹尼爾：四色定理的證明，難道就沒人認可嗎？確實有人質(zhì)疑，但我認為這些質(zhì)疑是錯誤的。

數(shù)學研究中，抬高評價門檻的現(xiàn)象由來已久。18、19 世紀的很多偉大數(shù)學家，都是計算高手，而他們當時做的很多計算工作，現(xiàn)在一個八年級的學生用圖形計算器就能完成。我們本就是工具的使用者，使用工具解決問題，無可厚非。

格雷格：用各種方法做有價值的數(shù)學研究，本就是公平的。但從能力預(yù)測的角度來看，如果我們發(fā)現(xiàn)，人工智能解決某個問題的方法，和AlphaProof（阿爾法證明器）解決 2024 年國際數(shù)學奧林匹克競賽第六題的方法如出一轍 —— 都是平庸的硬算，這會讓人感到震驚。

丹尼爾：有時候，一個問題在被解決之前，你永遠不知道它其實很簡單，人類數(shù)學家也會遇到這種情況。去年，我和艾倫?蘭德斯曼（Aaron Landesman）解決了一個懸置了 40 年的開放式問題，但我們沒有把成果發(fā)表在《數(shù)學年刊》上，因為事后看來，這個解法并沒有什么研究價值。這種情況很常見。

或許我們可以這樣做：建立一套明確的標準，判斷一個成果是否包含真正的新想法，也就是一套事后評估準則。我們甚至可以等五年，看看有多少新的研究成果，是基于這個成果中的想法得出的。

有限域上的相關(guān)猜想，其證明引入了多項式方法，而這個方法后來產(chǎn)生了巨大的影響，這篇論文也發(fā)表在了《數(shù)學年刊》上，從后續(xù)的研究成果來看，這個發(fā)表決定是完全合理的。但如果只是用硬算的方法解決了國際數(shù)學奧林匹克競賽的第六題，這個解法顯然無法衍生出任何新的研究成果。

格雷格：我們一直在思考一種難度評估方法：統(tǒng)計有多少數(shù)學家為這個問題付出了努力，付出了多長時間，還可以考慮研究者的資歷。如果有 1 到 2 位青年數(shù)學家嘗試解決這個問題但失敗了，那么人工智能解決了它，對我們而言，算是多大的突破？

丹尼爾：目前還不清楚，數(shù)學領(lǐng)域究竟還有多少容易解決的問題，有可能數(shù)量非常多。人工智能目前還沒有開始解決有價值的開放式問題，這或許能從側(cè)面說明，這類問題的數(shù)量并不多。但所有問題的研究，都受限于關(guān)注者過少。如果真的有大量容易解決的問題，那么人工智能的出現(xiàn)，會帶來數(shù)學研究的巨大突破，基準測試也會變得很簡單 —— 隨便拿一個開放式問題給它，最終都能被解決。

另一方面，也有一些側(cè)面證據(jù)表明，并非所有問題的研究都受限于關(guān)注者過少，數(shù)學領(lǐng)域的 “低垂果實” 其實并不多。當研究者真正投入精力研究一個問題時，要么能解決它，要么會發(fā)現(xiàn)它確實很難。

格雷格：你為什么會有這樣的感受？

丹尼爾：那些著名的未解猜想，證明過程卻非常簡短的，這樣的例子其實寥寥無幾。如果數(shù)學領(lǐng)域真的有大量容易解決卻未被解決的問題，我們應(yīng)該會經(jīng)?？吹窖芯空甙l(fā)現(xiàn)并解決這類問題的案例。這種情況確實存在，但非常罕見。

通常來說，一個重要猜想的解決，并非只引入一個簡單的新想法，而是會引入多個新想法，或者依賴于該領(lǐng)域的諸多其他研究進展。你能從證明過程中，清晰地看到解決這個問題所需的各項突破。

當然，我們并非總能提前看到這些突破。有時候，你能證明一個結(jié)論，只是因為你需要的最后一個中間結(jié)論，剛被其他人證明，恰好能用上；有時候，這個中間結(jié)論已經(jīng)發(fā)表在文獻中二十年了，只是你才發(fā)現(xiàn)。

我們每個人都有過這樣的經(jīng)歷：看到一篇新發(fā)表的論文，會想 “哦，我早就知道這個核心想法了，要是我當時能意識到它能解決這個問題就好了”。我最喜歡的一篇論文就是如此，它的核心想法，來自我?guī)啄昵霸跀?shù)學問答網(wǎng)站MathOverflow上提的一個問題的回答，我當時看到這個回答時，腸子都悔青了。

格雷格：對于這個開放式問題基準測試，我們被一個硬性、惱人且不自然的條件束縛著 —— 自動驗證，我們需要用計算機程序來判斷答案是否正確。這個條件的影響有多大？

丹尼爾：理論上，這并不是一個限制。任何數(shù)學構(gòu)造，排除不完備性的問題，都可以附上一個能被驗證的證明過程。但在實際操作中，這確實是一個實實在在的限制，因為我們的資源有限，無法讓研究者為所有問題編寫驗證程序。

格雷格：我們目前只能選取 “普通的計算機程序就能驗證答案” 的問題。

丹尼爾：所以第一個限制就是，很多數(shù)學領(lǐng)域和有價值的問題，都不屬于這類可被程序驗證的問題。比如代數(shù)幾何的很多領(lǐng)域，就沒有這類問題，數(shù)論的一些領(lǐng)域也是如此，不過計算數(shù)論領(lǐng)域有很多漂亮的可驗證問題。

這個條件帶來的核心限制，其實是對問題研究價值的篩選。有些問題，比如反伽羅瓦問題，既需要構(gòu)造可驗證的數(shù)學對象，也有很高的研究價值，但這類問題非常少見。大多數(shù)情況下，研究者需要構(gòu)造的是一系列無限的數(shù)學對象，而這類構(gòu)造的驗證難度要大得多。

格雷格：我發(fā)現(xiàn)有一類問題很適合這個測試 —— 零知識證明相關(guān)問題。比如需要構(gòu)造一個無限序列，我們不需要驗證整個序列，只需要驗證第 297 項即可。

丹尼爾：這是一個非常好的思路，但很快就會遇到實際問題，除非驗證的速度能極快。通常來說，我們最多也就驗證前五項。即便是反伽羅瓦問題，我們可以提出驗證要求，但大概率驗證到前 3 到 4 項之后，就不具備實操性了。

所以這個條件帶來的限制是非常大的。我們希望這個基準測試中，構(gòu)造數(shù)學對象的能力，能成為人工智能理解能力或巧妙搜索能力的一個參考指標，但往往很難判斷這一點。有時候，我們有證據(jù)表明人類研究者嘗試過但失敗了，所以能確定，人類目前缺失了某種能力；但有時候，人類研究者已經(jīng)用一些巧妙的思路解決了類似的問題，而這個問題卻毫無進展。

格雷格：確實有一些問題，每一次新的構(gòu)造，都需要一個漂亮的新想法。如果人工智能能給出一個新的構(gòu)造，我們會希望背后也有一個漂亮的新想法支撐。

我之前給你發(fā)過一份問題清單，我們的目標是讓清單中的問題覆蓋不同的難度等級。在難度較低的一端，我們擔心的是，出題的博士后當時可能狀態(tài)不好，出的題在某些方面，難度甚至不如國際數(shù)學奧林匹克競賽的第一題。不過我們可以用統(tǒng)計學的方法規(guī)避這個問題。我也很好奇難度較高的一端 —— 數(shù)學領(lǐng)域最有價值、最難的問題，往往抽象性也更高。

丹尼爾：這可能涉及到莫拉維克（Moravec）悖論：數(shù)學問題的難度，一方面在于需要高強度的推理，另一方面在于需要掌握大量的專業(yè)術(shù)語，在腦海中構(gòu)建一套龐大的理論體系。

代數(shù)幾何素來以難度高著稱，這很可能只是因為人類本身并不擅長這個領(lǐng)域，而且從事該領(lǐng)域研究的人類研究者本就很少。

格雷格：沒錯，還是關(guān)注者過少的問題。對于我發(fā)給你的那份問題清單，你有沒有直觀的感受，哪些問題 “難度高得多，也更有研究價值”？

丹尼爾：有幾個問題給我的印象很深。比如 M??單群的逆問題，我可以明確說，如果這個問題被解決，我會非常興奮。我認為集中資源研究的話，人類能解決這個問題，而它的解決，也會是一件大事。無論是人類還是人工智能解決了它，我都會無比興奮。

還有一些關(guān)于無理性的問題。70 年代末，阿佩里（Apéry）證明了黎曼澤塔zeta函數(shù)ζ(3)是無理數(shù)，也就是所有正整數(shù)的立方的倒數(shù)和是無理數(shù)，這個證明堪稱神奇。他在一次會議上公布了這個證明，當時所有人都不敢相信，直到大家回去驗證后，才驚嘆于證明的精妙。后來研究者們發(fā)現(xiàn)，這個證明與深奧的 G-函數(shù)理論相關(guān)。

而相關(guān)的開放式問題是，尋找一系列整數(shù)或冪級數(shù)，讓阿佩里的方法能應(yīng)用于其他有意義的常數(shù)。扎吉爾（Zagier）是一位非常資深的數(shù)學家，他做了大量的計算，試圖找到類似的序列，取得了一些小成果，找到了 6 到 7 個例子。

格雷格：這些例子，都不是你之前認為最有研究價值的那些常數(shù)吧？

丹尼爾：近期，卡萊加里（Calegari）、季米特洛夫（Dimitrov）和唐云清在這個領(lǐng)域取得了新的進展。他們沒有尋找新的序列，而是想出了新的方法，對阿佩里的通用方法進行了漂亮的改進，讓這個方法能應(yīng)用于更廣泛的序列。我可以明確說，這個問題的難度很高，有很多研究者都為它付出了努力。

十二、數(shù)學家會相信關(guān)于猜想的啟發(fā)式論證嗎？

[01:56:35]

格雷格：我們面臨的另一個挑戰(zhàn)是，希望選取的問題都是有解的。

丹尼爾：你們想要選取的是有確定答案的問題，也就是正確的猜想。但要判斷一個猜想是否正確，本身就非常難，更不用說證明它了。

格雷格：如果一個熟悉某領(lǐng)域的數(shù)學家告訴我們，他有 80% 的把握，這個問題會朝某個方向解決，只是他自己無法構(gòu)造出相關(guān)的數(shù)學對象，你會有多相信他的判斷？

丹尼爾：比隨機猜測的準確率高一點，但高不了多少。數(shù)學家的觀點總是在變化。比如你清單中的一個問題：尋找秩至少為 30 的橢圓曲線。長期以來，這個領(lǐng)域的所有人都認為，橢圓曲線的秩是無界的，但現(xiàn)在，大部分研究者認為，橢圓曲線的秩是有界的。

格雷格：真的嗎？

丹尼爾：近期有不少啟發(fā)式的研究支持這個觀點，不過也有一些研究者對此表示懷疑。人們對猜想正確性的判斷一直在變，比如霍奇猜想，大部分代數(shù)幾何學家認為它是正確的，但也有很多人持反對意見。

格雷格：有些情況下，研究者已經(jīng)證明了某種數(shù)學構(gòu)造是存在的，但就是無法具體構(gòu)造出來。

丹尼爾：我其實很喜歡這類問題。比如用概率方法得出的拉姆齊數(shù)（Ramsey numbers）的界，研究者已經(jīng)證明了這個界的存在，而相關(guān)的開放式問題，就是尋找具體的構(gòu)造。我目前正在研究的一個問題，也屬于這類：塞爾（Serre）提出，需要為一些用非構(gòu)造性方法證明存在的數(shù)學對象，找到具體的構(gòu)造，而我正在做這項工作。構(gòu)造性的證明和非構(gòu)造性的證明，有著天壤之別，構(gòu)造性的證明能讓你獲得更多的洞見。

安森：有哪些經(jīng)典的啟發(fā)式論證，或是這類論證的典型例子，能讓研究者在沒有完整證明的情況下，改變對猜想的判斷？

丹尼爾：數(shù)論領(lǐng)域，用隨機模型研究數(shù)論對象的做法，由來已久。比如，我們可以認為素數(shù)的分布，類似于滿足某些性質(zhì)的隨機整數(shù)集合，然后構(gòu)造一個滿足這些性質(zhì)的隨機序列，研究這個序列幾乎必然具備的性質(zhì)，進而猜測素數(shù)也具備這些性質(zhì)。

研究橢圓曲線時，我們也會先梳理出它的所有性質(zhì)，構(gòu)造一個滿足這些性質(zhì)的隨機模型，再猜測橢圓曲線的性質(zhì)。一個最基礎(chǔ)的例子：某個幾何或數(shù)論問題中，出現(xiàn)了一個 n 階方陣，我們可以假設(shè)這個方陣的行為，和一個隨機的 n 階方陣一致。

梅蘭妮?馬切特?伍德（Melanie Matchett Wood）和她的合作者做了一項漂亮的研究，他們研究了整數(shù)隨機矩陣，并基于此對橢圓曲線及相關(guān)數(shù)論對象做出了預(yù)測。這項研究背后有定理支撐 —— 該定理指出，滿足 x、y、z 性質(zhì)的隨機對象，會具備某類特定性質(zhì)。

一個經(jīng)典的例子是數(shù)域的類群，我們假設(shè)它的行為，和按照某種分布生成的隨機交換群一致，進而猜測，如果按照某種自然的順序羅列數(shù)域，那么滿足 X、Y、Z 性質(zhì)的數(shù)域的比例，和滿足這些性質(zhì)的隨機交換群的比例一致。這就是科恩 - 倫斯特拉（Cohen-Lenstra）啟發(fā)式，它也是目前數(shù)論和算術(shù)統(tǒng)計領(lǐng)域的重要研究動力。

十三：如果人工智能攻克了 “Frontier Math前沿數(shù)學：開放式問題” 基準測試會怎樣？

[2:01:24]

格雷格：如果人工智能徹底碾壓了這個基準測試，解決了我們討論的這類問題，那我們所處的世界，會變成什么樣？

丹尼爾：我會感到無比興奮?？梢韵胍姡斯ぶ悄苷业竭@些數(shù)學構(gòu)造的方法，至少在很大程度上，會是有研究價值的。

有一個值得思考的問題：人工智能解決這類構(gòu)造性問題的能力，與它的其他能力之間，存在怎樣的相關(guān)性？構(gòu)造性問題有明確的獎勵信號，我們可以針對性地訓練模型，讓它專注于解決這類問題，但很難說這個獎勵信號，是否能讓模型的能力遷移到證明類問題上。當然，證明類問題的答案，也是可以被驗證的。

格雷格：但或許需要等驗證的體系更加完善后，再針對證明類問題訓練模型。

丹尼爾：對我而言，關(guān)于人工智能數(shù)學能力未來發(fā)展的一個核心問題，是模型的能力遷移性有多強。如果每發(fā)現(xiàn)或發(fā)明一個新的數(shù)學對象，都需要從頭訓練一個新的模型，那么人工智能的發(fā)展，會和模型能快速掌握新對象并展開研究的情況，截然不同。

甚至可以說，模型在代數(shù)幾何領(lǐng)域的通用知識和能力，能否遷移到 “代數(shù)幾何 + 微小拓展” 的領(lǐng)域，都是一個問題。過去十年，數(shù)學家提出了十種關(guān)于 “空間” 的新定義，而人工智能面臨的問題，甚至不只是持續(xù)學習 —— 即便模型能學習這些新定義，它是否能像人類一樣，具備運用這些定義開展研究的能力，還是一個未知數(shù)。

我們現(xiàn)在討論的，是一個特殊情況：模型非常擅長構(gòu)造可驗證的數(shù)學對象。但這種能力，與更廣泛的數(shù)學研究能力之間的相關(guān)性，仍未可知。但可以肯定的是，這種能力的出現(xiàn)，會是一個劃時代的突破。

格雷格：至少在數(shù)學領(lǐng)域，絕對是劃時代的。而對于人工智能的整體能力而言，這取決于模型的能力遷移性如何。它的能力可能非常狹窄，就像我們通過不斷優(yōu)化，讓人工智能在棋牌游戲中取勝一樣。

丹尼爾：目前，AlphaEvolve（阿爾法進化）已經(jīng)能做出一些數(shù)學構(gòu)造了，雖然它還無法完成有價值的證明，但已經(jīng)能做出有意義的構(gòu)造。

格雷格：你在推特上明確表示過，AlphaEvolve做出的構(gòu)造，研究價值有限。

丹尼爾：這些構(gòu)造的研究價值，主要在于它們是由自動化系統(tǒng)完成的。但我們可以想象，未來的迭代版本，能做出本身就具備重要獨立研究價值的構(gòu)造。

格雷格：最后一個我真正關(guān)心的問題：人工智能的這種能力，不僅能遷移到數(shù)學的其他領(lǐng)域，還能遷移到其他科學領(lǐng)域、研發(fā)領(lǐng)域嗎？如果未來人工智能能持續(xù)解決有價值的數(shù)學問題，而且并非依靠AlphaProof（阿爾法證明器）這類高度專業(yè)化的方法，這會對其他科學研究、人工智能自身的研發(fā)，帶來什么影響？

丹尼爾：我的看法是，目前人工智能無法自主開展高質(zhì)量數(shù)學研究的核心障礙，和它無法完成任何有經(jīng)濟價值的工作的障礙，是一致的：有時候需要創(chuàng)新能力，需要適應(yīng)新的方法，需要學習新的知識，需要為一項工作投入大量的時間，而這些，都是目前的人工智能系統(tǒng)難以做到的。

我認為，如果這些障礙被攻克，模型會成為非常優(yōu)秀的數(shù)學研究者，而攻克這些障礙，也是模型具備高水平數(shù)學研究能力的必要條件。

格雷格：有一個問題：是否存在一種特殊的要素，讓數(shù)學研究的難度獨樹一幟，以至于數(shù)學成為人工智能邁向具有社會變革意義的通用智能過程中，最后被攻克的領(lǐng)域之一？

丹尼爾：我認為這種可能性非常小。我們很難說清，開展高質(zhì)量的數(shù)學研究，究竟需要哪些能力，這本身就是一個需要內(nèi)省的問題。但有證據(jù)表明，它需要創(chuàng)新能力，需要長期投入的毅力。

當然，也有可能事實并非如此，如果是這樣，那么數(shù)學領(lǐng)域的發(fā)展，可能會領(lǐng)先于其他領(lǐng)域。但我認為，數(shù)學研究并不存在什么特殊的 “獨門要素”，我的研究工作，和其他人的工作，本質(zhì)上并沒有太大區(qū)別。當然，我會花更多的時間躺在沙發(fā)上，盯著墻，單純地思考問題，但這些工作所需的核心能力，和其他任何有經(jīng)濟價值的工作，其實都是相通的。

十四、人工智能即將推動數(shù)學研究加速發(fā)展嗎？

[02:06:53]

格雷格：還有哪些問題，是我們應(yīng)該問但還沒問的？

丹尼爾：我想再多說一點：這一切的核心，其實是開展不同數(shù)學研究活動的邊際成本。我認為人工智能會帶來重大影響的領(lǐng)域，是讓 “嘗試解決一個問題” 的邊際成本變得極低。

很多猜想的研究，都存在這樣的情況：你其實應(yīng)該寫一個計算機程序，做一些計算驗證，但你只是懶得做。解決這類猜想，并不需要能力多強的人工智能系統(tǒng)，而我們已經(jīng)看到，很多這類猜想正在被人工智能解決。我認為這是一件意義重大的事。

格雷格：這會讓數(shù)學研究的發(fā)展速度，提升多少？

丹尼爾：我并不認為這會帶來多大的 “加速”，數(shù)學研究本身存在一種 “成本”—— 你必須動手嘗試，而降低這種成本，本身就有重要意義，即便研究的核心瓶頸并不在此。

數(shù)學研究的核心障礙，始終是：你需要有一個好的想法。大多數(shù)人一年也就只有幾個好想法，我目前還不清楚，人工智能能在多大程度上幫助人類產(chǎn)生好想法。但有時候，研究并不需要好想法，只需要坐下來，硬算完成即可。而判斷一個問題是否需要好想法，本身就是一種非常重要的能力。

即便人工智能的能力不再提升，數(shù)學研究中的很多摩擦和阻礙，也會逐漸消失，而這，也是我認為人工智能會帶來最多進展的領(lǐng)域。

格雷格：也就是說，你認為人工智能目前給數(shù)學研究帶來的影響，并非讓研究速度出現(xiàn)突破性的提升，而是消除了研究中的諸多阻礙，這是你理解人工智能對數(shù)學研究當下價值的核心視角。

丹尼爾：說到 “加速發(fā)展”，我非常希望能找到一種方法，將這個概念量化，真正去評估：我們是否真的在經(jīng)歷數(shù)學研究的加速發(fā)展？人類歷史上，是否出現(xiàn)過這樣的加速？隨著時間的推移，數(shù)學家的人均研究產(chǎn)出，是否有所提升？即便有了這么多新工具，這個問題的答案，對我而言依然不明確。該如何量化這個問題？我們可以看引用量，但這是一個非常糟糕的參考指標，而且它還和人口數(shù)量高度相關(guān)。

格雷格：在我們結(jié)束訪談之前，未來幾個月，有哪些事是你比較期待的？

丹尼爾：八月份的時候，我還說過，“以人工智能目前的能力，還沒有解決很多稍有研究價值的猜想，這一點很奇怪”。而現(xiàn)在，我認為這類猜想的解決，已經(jīng)開始出現(xiàn)了。

未來一年內(nèi)，會有更多這樣的猜想被解決 —— 這些問題沒人真正深入研究過，只是研究者隨手寫下的問題，但依然有一定的研究價值，而人工智能會自主解決它們。我認為這種情況的可能性非常大。

格雷格：未來我們肯定會有很多機會，推出緊急播客來解讀這些成果。大家可以關(guān)注丹尼爾的推特，這里絕對是了解人工智能與數(shù)學研究相關(guān)資訊的優(yōu)質(zhì)平臺。非常感謝你接受我們的訪談。

丹尼爾：也非常感謝你們的邀請，能參加這次訪談，我很開心。

格雷格：非常愉快的交流。

原文參考資料：

歐拉冪和猜想：

蘭德與帕金（Lander & Parkin，1966 年，首個反例）https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf

埃爾基斯（Elkies，1988 年，四次冪情形）https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf

埃斯諾爾特與格羅申尼希（Esnault & Groechenig，相伴理論與朗蘭茲綱領(lǐng)）https://arxiv.org/abs/1707.00752

德利涅（Deligne）對韋伊猜想的證明（1974 年）http://www.numdam.org/item/PMIHES_1974__43__273_0/

澤塔ζ函數(shù)值的無理性：

阿佩里（Apéry）的證明（1978-1979 年）http://www.numdam.org/item/AST_1979__61__11_0/

范德普滕（Van der Poorten）的闡釋https://doi.org/10.1007/BF03028234

扎吉爾（Zagier）的計算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf

卡萊加里 - 季米特洛夫 - 唐云清（Calegari-Dimitrov-Tang）的近期進展https://arxiv.org/abs/2408.15403

數(shù)論中的隨機模型：

梅蘭妮?馬切特?伍德（Melanie Matchett Wood）關(guān)于隨機矩陣的研究https://doi.org/10.1353/ajm.2019.0008

科恩 - 倫斯特拉（Cohen-Lenstra）啟發(fā)式https://doi.org/10.1007/BFb0099440

提及的千禧年大獎難題：

黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/

霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/

貝赫和斯維訥通 - 戴爾（BSD）猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/

納維 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/

前沿數(shù)學：開放式問題基準測試 https://epoch.ai/frontiermath/open-problems

參考資料

https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time

小樂數(shù)學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數(shù)學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉(zhuǎn)載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂加星★

數(shù)學科普不迷路！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.