★置頂zzllrr小樂公眾號(主頁右上角)數(shù)學(xué)科普不迷路!
![]()
接上篇:
訪談背景簡介:
丹尼爾?利特(Daniel Litt)是多倫多大學(xué)數(shù)學(xué)系教授。他一直密切關(guān)注人工智能在推動數(shù)學(xué)發(fā)現(xiàn)領(lǐng)域的發(fā)展進(jìn)程,對此態(tài)度時而審慎懷疑,時而滿懷期待。
本期Epoch.ai與其探討的話題包括:當(dāng)下的模型能解決的最難數(shù)學(xué)問題究竟是什么;是否有確鑿證據(jù)表明人工智能正推動數(shù)學(xué)研究提速;以及人工智能能否攻克千禧年大獎難題。
他們還探討如何評估數(shù)學(xué)研究的進(jìn)展,其中包括Epoch.ai全新推出的「FrontierMath前沿數(shù)學(xué):開放式問題」基準(zhǔn)測試 —— 該測試以數(shù)學(xué)領(lǐng)域具有研究價值的未解問題為依據(jù),對人工智能模型的能力進(jìn)行評估。
詳情參閱:
訪談人簡介:
![]()
丹尼爾·利特(Daniel Litt)是多倫多大學(xué)數(shù)學(xué)助理教授。他獲得斯坦福大學(xué)博士學(xué)位,研究重點(diǎn)是代數(shù)幾何與數(shù)論之間的相互作用。
![]()
格雷格?伯納姆(Greg Burnham)是 Epoch AI 的研究員。在此之前,他曾在Elemental Cognition和Bridgewater Associates工作。他擁有普林斯頓大學(xué)數(shù)學(xué)學(xué)士學(xué)位。
![]()
安森(Anson Ho)是 Epoch AI 的研究員。他致力于幫助對人工智能未來發(fā)展及其社會影響進(jìn)行更嚴(yán)謹(jǐn)?shù)睦斫狻?/p>
時間節(jié)點(diǎn)目錄:
(采訪時間和內(nèi)容較長,分成十四小節(jié),上下兩篇。本篇為下篇,涉及后七小節(jié))
00:00:00 一、如今人工智能能解決的最難數(shù)學(xué)問題是什么?
00:16:08 二、當(dāng)下的人工智能模型對數(shù)學(xué)研究的助力有多大?
00:23:36 三、垃圾論文、大語言模型生成的證明與審稿危機(jī)
00:27:21 四、人工智能實(shí)現(xiàn)數(shù)學(xué)問題的大規(guī)模篩選
00:33:49 五、人工智能何時能發(fā)展到足以在頂級數(shù)學(xué)期刊發(fā)表成果的水平?
00:42:15 六、智能的價值回報體現(xiàn)在何處?
00:59:50 七、人工智能能否攻克千禧年大獎難題?
01:11:54 八、數(shù)學(xué)領(lǐng)域還存在大量易解的「低垂果實(shí)」嗎?
01:18:47 九、丹尼爾如何調(diào)整職業(yè)發(fā)展,以適應(yīng)人工智能的發(fā)展進(jìn)程?
01:25:28 十、人工智能數(shù)學(xué)基準(zhǔn)測試,實(shí)際在評估什么能力?
01:33:05 十一、開放式問題基準(zhǔn)測試的設(shè)計思路
01:56:35 十二、數(shù)學(xué)家會相信關(guān)于數(shù)學(xué)猜想的啟發(fā)式論證嗎?
02:01:24 十三、若人工智能攻克「FrontierMath前沿數(shù)學(xué):開放式問題」基準(zhǔn)測試,會帶來什么影響?
02:06:53 十四、人工智能是否即將推動數(shù)學(xué)研究邁入加速發(fā)展階段?
作者:epoch.ai 2026-1-29
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-1-31
訪談實(shí)錄(下):
八、數(shù)學(xué)領(lǐng)域還有很多容易解決的問題嗎?
[01:11:54]
安森:你在推特上提到過,解決一個數(shù)學(xué)問題的含金量,取決于前人在這個問題上付出了多少努力。我們是否有可能梳理這些問題,量化一下前人的付出?
丹尼爾:可以去看提出這些問題的論文,以及這篇論文的引用量。不過對于那些已經(jīng)被解決的問題,我其實(shí)并不清楚具體數(shù)據(jù)。比如第 124 號難題的高難度版本目前仍未解決,提出這個問題的論文只有 14 次引用。對于一篇 1996 年的數(shù)學(xué)論文來說,這個引用量并不算高。
格雷格:但 14 次引用也并非毫無意義。
丹尼爾:1996 年發(fā)表的數(shù)學(xué)論文里,有很多引用量為零。而且這 14 次引用,大概率并非都是針對這個難題本身 —— 這篇論文里提出了很多問題。
格雷格:你知道有多少人在研究p曲率猜想(p-curvature conjecture)嗎?
丹尼爾:非常少。這也是我一直想要攻克的難題,我為它投入了大量精力。目前還在積極研究這個猜想的人,我估計我都認(rèn)識,人數(shù)應(yīng)該不到 20 個。從歷史來看,80 年代、90 年代和 21 世紀(jì)初,這個領(lǐng)域的研究熱度更高,后來研究者們陷入了瓶頸,熱度也就降了下來。或許現(xiàn)在相關(guān)領(lǐng)域出現(xiàn)了一些新的思路。
任何一個連專業(yè)術(shù)語都沒多少人理解的問題,關(guān)注者自然會很少。目前能完全理解 p 曲率猜想所有術(shù)語的人,可能也就幾千個。
格雷格:是否存在一種選擇效應(yīng),讓一些問題變成了 “研究者覺得研究它很沒面子” 的問題?
丹尼爾:比如考拉茲猜想(3n+1猜想),它還很容易吸引一些非專業(yè)的業(yè)余研究者。很多問題,專家的看法都是 “我們目前還沒有合適的方法解決它”,這就難免會讓人產(chǎn)生一種 “你憑什么覺得自己能解決” 的質(zhì)疑。(詳情參閱 )
對于那些著名的重大難題,是否有很多研究者在悄悄嘗試,只是沒有公布成果?或許每個人都會偶爾思考這些著名難題,包括那些在相關(guān)領(lǐng)域發(fā)表過論文的知名學(xué)者。但 “嘗試解決一個問題” 到底意味著什么?很多時候,人們只是想著 “要是能解決這個問題就好了”,然后就沒有任何實(shí)際行動了。
格雷格:當(dāng)你覺得 “或許我有一個值得一試的想法” 時,是什么感受?
丹尼爾:有時候會在半夜醒來,突然想到一個絕妙的主意。我思考問題的方式主要有兩種:要么從一個想法出發(fā),慢慢推演;要么先掌握一種通過其他途徑想到的新方法,再思考 “這個方法能解決哪些問題”,從中挖掘價值,這是一種機(jī)會主義的研究思路。
有時候我也會定下明確的目標(biāo),比如解決某個問題、證明某個猜想 —— 更準(zhǔn)確地說,是先嘗試?yán)斫饽硞€數(shù)學(xué)對象,再通過證明一個有意義的結(jié)論,來檢驗(yàn)自己的理解程度。我會找一個最簡單的例子,一個用現(xiàn)有方法無法解決的例子,先嘗試攻克它,在這個過程中開發(fā)新的方法,再看看這種新方法能走多遠(yuǎn)。
格雷格:從數(shù)據(jù)分析的角度來看,如果把引用量作為評估指標(biāo),是否需要進(jìn)行一些非線性的修正?
丹尼爾:引用量的參考價值可能被高估了 —— 有很多論文引用了黎曼猜想的相關(guān)研究,但其實(shí)并沒有為解決黎曼猜想做出任何實(shí)質(zhì)性的貢獻(xiàn)。
格雷格:那這樣一來,引用量這個指標(biāo)就沒什么意義了。
丹尼爾:我認(rèn)為用這種方式評估數(shù)學(xué)問題的難度,其實(shí)非常不靠譜。
安森:還存在垃圾論文的問題。
丹尼爾:還有大量論文聲稱證明了黎曼猜想,這顯然讓相關(guān)研究的評估變得更難。計算機(jī)科學(xué)領(lǐng)域也有很多論文引用了 P 與 NP 問題的相關(guān)內(nèi)容,但它們真的推動了這個問題的解決嗎?
九、丹尼爾如何適應(yīng)人工智能發(fā)展,調(diào)整自己的職業(yè)發(fā)展規(guī)劃
[01:18:47]
格雷格:在我們深入聊評估方法之前,想問一下,為了在人工智能時代站穩(wěn)腳跟、謀求發(fā)展,你已經(jīng)做出了哪些調(diào)整,或者有哪些規(guī)劃?
丹尼爾:我正在做一些事,因?yàn)槲翌A(yù)判人工智能的能力會不斷提升。目前有很多研究者在做數(shù)學(xué)形式化的工作,比如用Lean或其他證明驗(yàn)證軟件將數(shù)學(xué)內(nèi)容形式化,但我并沒有參與這項(xiàng)工作,因?yàn)槲翌A(yù)計未來幾年,能讓人憑直覺完成形式化的工具會有大幅改進(jìn)。
格雷格:憑直覺完成形式化 —— 我再跟你確認(rèn)一下這個概念。
丹尼爾:當(dāng)然,也有一部分原因是我并非這個領(lǐng)域的專家,我只是簡單嘗試過。而且我并不打算因?yàn)轭A(yù)判人工智能能力會提升,就改變自己研究的問題方向,或是使用的研究方法。
究其根本,我認(rèn)為自己的工作核心不是證明定理,而是理解數(shù)學(xué)對象。證明定理,只是檢驗(yàn)理解程度的一個標(biāo)準(zhǔn)。很多定理或猜想,都是研究的 “終點(diǎn)” 而非 “源頭”—— 也就是說,如果你能開發(fā)出一種方法證明這個定理,說明你已經(jīng)理解了相關(guān)的數(shù)學(xué)內(nèi)容,但研究的真正價值,在于這份理解本身。
這或許也能解釋,為什么訓(xùn)練人工智能開展高質(zhì)量數(shù)學(xué)研究如此困難:我們發(fā)表的論文,大多沒能傳達(dá)出數(shù)學(xué)研究的真正價值 —— 研究的核心,是讓人類對某個學(xué)科的理解更進(jìn)一步。
格雷格:你腦海中形成這份理解時的那些想法,并不會出現(xiàn)在論文里。
丹尼爾:研究者會努力把自己的直覺寫進(jìn)論文,但這向來是個難題。如果我能直接告訴學(xué)生 “你應(yīng)該這樣理解這個數(shù)學(xué)對象”—— 我確實(shí)會這么說,但這并不能傳遞任何有價值的信息。這只是給了他們一個線索,需要他們自己去研究這個數(shù)學(xué)對象,才能慢慢領(lǐng)悟,而這份直覺本身,無法直接傳遞。除了一些高度凝練的表述或隱晦的提示,論文的文字里根本沒有這份直覺的痕跡。
格雷格:我能想象到這種情況:你發(fā)表了一篇論文,標(biāo)題是 “某猜想的證明”,但你構(gòu)建相關(guān)理論的過程曲折得多,而論文里根本沒有留下多少能讓人工智能學(xué)習(xí)的線索。
丹尼爾:很多研究都是這樣的:證明一個結(jié)論時,你通常會有一個非常清晰的核心思路,之后會遇到各種各樣的障礙,可能是因?yàn)槟悴焕斫庾C明過程中的某個中間對象。你會想辦法繞開這些障礙,最終寫出來的論證過程看起來會非常晦澀。當(dāng)然,你會試圖在論文里提示 “這才是我真正的研究思路”,但這種提示的效果往往不盡如人意。
那這和人工智能對我個人規(guī)劃的影響有什么關(guān)系呢?人工智能無法替我理解數(shù)學(xué)對象。正因?yàn)橹庇X的傳遞如此困難,即便有一個模型在各方面能力都超過我,它可能也只能在很小的程度上幫助我理解這些數(shù)學(xué)對象,甚至可能毫無幫助。
格雷格:也就是說,核心的研究工作,終究還是要靠自己。
丹尼爾:我看到你在推特上引用了一位哲學(xué)家的話,說數(shù)學(xué)家的社會角色,是成為數(shù)學(xué)理解的 “載體”。我特別喜歡這個說法 —— 太貼切了。我很好奇,你是否會為這種角色感到困擾?如果未來人工智能能比人類更快地解決任何數(shù)學(xué)問題,徹底主導(dǎo)人類的數(shù)學(xué)研究,你會感到困擾嗎?你還會繼續(xù)研究數(shù)學(xué)嗎?
丹尼爾:做數(shù)學(xué)研究的一大樂趣,就是證明一個結(jié)論時的那種成就感。這種成就感,未必只有解決未解難題才能獲得。或許會少了一些虛榮心的滿足,但這份核心的情感體驗(yàn)依然存在。
對我而言,研究數(shù)學(xué)的真正目標(biāo),是理解這個世界。如果未來社會的需求,正如佩利所說,是讓數(shù)學(xué)家成為人類數(shù)學(xué)理解的 “載體”,讓我們通過研討會,向大家解讀人工智能證明的最新重大成果,只要社會愿意支持這項(xiàng)工作,我會非常樂意。
格雷格:就像在后稀缺的烏托邦社會(post-scarcity utopia)里,這種工作依然有價值。
丹尼爾:當(dāng)然。而且我認(rèn)為,我們離那個時代還很遠(yuǎn)。
格雷格:但只要我們還是現(xiàn)在的自己,就依然會想要做這份工作。
丹尼爾:這里存在一個社會問題:如果人工智能模型在數(shù)學(xué)研究的所有領(lǐng)域都比人類更有優(yōu)勢,或者公眾認(rèn)為它們更有優(yōu)勢 —— 我認(rèn)為后者的可能性更大 —— 社會還會愿意支持?jǐn)?shù)學(xué)家的研究工作嗎?這是一個懸而未決的問題,但我希望答案是肯定的。
格雷格:目前來看,公眾普遍認(rèn)為數(shù)學(xué)研究大多最終會產(chǎn)生實(shí)際價值。
丹尼爾:數(shù)學(xué)之所以能產(chǎn)生實(shí)際價值,一個重要原因是有人類專家的存在,以及數(shù)學(xué)研究培養(yǎng)出的人力資本。即便是研究最抽象、最純粹數(shù)學(xué)的人,他們作為數(shù)學(xué)理解的 “載體”,本身就具有價值。無論未來的人工智能模型能力多強(qiáng)、創(chuàng)新能力多高,讓人類成為數(shù)學(xué)理解的載體依然有價值,即便在數(shù)學(xué)研究領(lǐng)域,人工智能已經(jīng)完全超越了人類。
十、人工智能數(shù)學(xué)基準(zhǔn)測試,究竟在評估什么?
[01:25:28]
格雷格:我們想繼續(xù)完善數(shù)學(xué)基準(zhǔn)測試的體系,尤其是 “前沿數(shù)學(xué)” 基準(zhǔn)測試。但目前來看,這個測試的評估維度,并沒有涵蓋所有重要的能力。你認(rèn)為其中最核心的缺失是什么?
丹尼爾:我先說說我對基準(zhǔn)測試評估內(nèi)容的理解。這類測試試圖評估的能力包括:是否理解專業(yè)術(shù)語的含義?是否掌握已有的研究成果?是否熟悉現(xiàn)有的研究方法?能否應(yīng)用這些方法?還有一定的推理能力和創(chuàng)新能力?
但在我看來,這些基準(zhǔn)測試最終主要評估的,還是知識儲備。人類解決問題時,知識儲備通常是有限的,所以我們會怎么做?可能先有一個思路,研究一段時間后,發(fā)現(xiàn) “需要把這個結(jié)論或結(jié)果作為中間步驟”,然后再嘗試證明這個中間結(jié)論,或者去查閱相關(guān)資料。
證明中間結(jié)論的過程,甚至發(fā)現(xiàn) “存在這樣一個可利用的中間結(jié)論” 的過程,都是高度依賴推理的。但如果一個模型已經(jīng)記住了所有的數(shù)學(xué)文獻(xiàn),它早就知道這個中間結(jié)論的存在,要意識到這個結(jié)論能用來證明目標(biāo)問題,就幾乎不需要任何推理了。
當(dāng)你向一個熟記所有文獻(xiàn)的模型提問時,你其實(shí)并沒有測試到那種 “知識儲備有限的人類解決問題時所展現(xiàn)的核心推理能力”。人類需要自己發(fā)現(xiàn)的那些已有結(jié)論,模型早就知道了。
對人類而言,很多能測試出推理能力、并與數(shù)學(xué)專業(yè)能力和研究成就高度相關(guān)的問題,對模型而言,已經(jīng)無法反映其真正的推理能力了。任何一個人類,如果能在 “前沿數(shù)學(xué)FrontierMath” 基準(zhǔn)測試中取得和模型一樣的成績,大概率會成為一名非常成功的研究者,但模型并沒有展現(xiàn)出相應(yīng)的研究能力。這就是原因所在 —— 同一個問題,對人類和對模型,測試的是完全不同的能力。
格雷格:補(bǔ)充一個你可能不知道的信息:我們深入研究了Gemini 2.5 (谷歌雙子座AI工具)深度思考模型的數(shù)學(xué)能力,還讓它手動完成了 “前沿數(shù)學(xué)” 基準(zhǔn)測試。測試中的所有問題都有三個評分維度:背景知識、執(zhí)行難度、創(chuàng)新要求。執(zhí)行難度主要看解題過程的長度,以及需要完成的繁瑣計算量;背景知識看解題所需的知識是否高深、晦澀;而創(chuàng)新要求 —— 我本以為這是三個維度中,與我們所說的推理能力最相關(guān)的一個。但結(jié)果顯示,Gemini 模型的得分與背景知識、執(zhí)行難度維度呈負(fù)相關(guān),而與創(chuàng)新要求維度完全無關(guān)。
丹尼爾:這很有意思。
格雷格:這恰好印證了你所說的現(xiàn)象。即便我們試圖讓 “前沿數(shù)學(xué)” 基準(zhǔn)測試覆蓋創(chuàng)新能力這個維度,但模型解決問題的過程,似乎并沒有體現(xiàn)出對這個維度的感知,也不會因?yàn)閱栴}的創(chuàng)新要求高而覺得更難。
丹尼爾:其他模型也呈現(xiàn)出同樣的規(guī)律嗎?Google Gemini(雙子座)模型似乎很少使用合成數(shù)據(jù),這可能導(dǎo)致它對一些偏門的專業(yè)領(lǐng)域了解較少。
格雷格:GPT-5 等其他模型也是如此。沒錯,它們確實(shí)缺失了創(chuàng)新能力這一核心維度。
丹尼爾:還有一個問題:人們試圖設(shè)計一道難題時,實(shí)際上,出題者本身都很忙,他們設(shè)計的題目,往往是自己已經(jīng)知道解法的。而一道任何人都知道解法的題,顯然可以用現(xiàn)有的方法解決。
或許出題者會想出一種新方法來解題,只是還沒寫進(jìn)論文。但這種方法究竟是真正的創(chuàng)新,還是只是對出題者而言的新方法,就不得而知了。最終這篇論文發(fā)表,新方法進(jìn)入訓(xùn)練數(shù)據(jù),這個問題也就無法再用來測試模型開發(fā)新方法的能力了。
有時候,解決一道難題的關(guān)鍵,只是需要在一篇論文里找到一個公式,代入數(shù)值計算,而理解這篇論文的專業(yè)術(shù)語,需要大量的背景知識。但模型的背景知識儲備量極大,它們能直接讀取 PDF 文獻(xiàn),然后代入數(shù)值計算。
格雷格:有時候,這類測試最終變成了測試 “模型能否讀懂 PDF 文獻(xiàn)”。
丹尼爾:沒錯。我的看法是,如果一個基準(zhǔn)測試的難度,僅限于人類幾小時內(nèi)能解決的問題,那它很快就會被模型吃透。人類幾小時能完成的工作,其實(shí)非常有限。
格雷格:參與我們 “前沿數(shù)學(xué)” 四級測試命題的一位研究者說,他對自己出的題特別滿意,因?yàn)檫@道題是他被 “絆住” 后花了兩周時間研究出來的。他沒有直接用自己會解的題,而是給自己定了一個目標(biāo) ——“用這些方法設(shè)計一道題”,然后不斷探索,最終才有了這道題。
丹尼爾:出題者投入的時間越長,題目質(zhì)量大概率也會越高。但這里還有一個陷阱:如果一個人刻意想設(shè)計一道難題,最終設(shè)計出的,往往是對他自己而言的難題。比如他會在自己不擅長的領(lǐng)域出題。
格雷格:然后就會覺得所有內(nèi)容都是新的、有趣的、難的。
丹尼爾:但對這個領(lǐng)域的專家而言,這道題可能很簡單。設(shè)計一道難題,卻不驗(yàn)證它的實(shí)際難度,最終做出的基準(zhǔn)測試,很容易就會被模型吃透。
十一、開放式問題基準(zhǔn)測試的設(shè)計思路
[01:33:05]
格雷格:接下來聊聊我們正在設(shè)計的 “開放式問題” 基準(zhǔn)測試 —— 目前還只是暫定名。這個測試的核心目標(biāo),是選取目前人類還無法解決的數(shù)學(xué)開放式問題。同時我們還受限于 “自動驗(yàn)證” 的要求:即便目前人類不知道答案,一旦人工智能給出一個答案,我們需要能用程序驗(yàn)證這個答案是否正確。設(shè)計這個測試,也是為了避開 “無法評估問題實(shí)際難度” 的痛點(diǎn)。
丹尼爾:很多開放式問題的研究,都受限于 “關(guān)注者過少”,所以這些問題的實(shí)際難度,可能并沒有看起來那么高。一個有效的辦法,是讓數(shù)學(xué)家來評估 “這道題是否難”,這樣能避免后續(xù)隨意抬高評價門檻。
我很認(rèn)可這個項(xiàng)目的一點(diǎn)是:目前很多人工智能實(shí)驗(yàn)室都投入大量資源解決某個數(shù)學(xué)問題,只是為了對外宣稱 “我們解決了這個問題”。如果這些資源能被投入到人們真正關(guān)心的問題上,會是一件好事。有些實(shí)驗(yàn)室在做真正的科學(xué)研究,但有些實(shí)驗(yàn)室的主要工作,其實(shí)只是公關(guān)。
格雷格:這個測試也能讓我們對一系列問題進(jìn)行 “預(yù)先登記”。當(dāng)某個實(shí)驗(yàn)室宣稱 “我們的模型解決了這個問題” 時,我們就能知道,這個成果的篩選有多刻意。
丹尼爾:開放人工智能曾發(fā)表過一篇論文,他們梳理了一些學(xué)術(shù)會議的論文,從中挑選問題研究,我記得他們選了十個問題,最終解決了一個。這個數(shù)據(jù)能讓我們窺見一斑。我認(rèn)為這篇論文,并不能證明人工智能的數(shù)學(xué)能力在加速提升。而且和所有這類研究成果一樣,背后都存在各種復(fù)雜的影響因素。
格雷格:沒錯。如果我們能讓數(shù)學(xué)家來評估 “這個問題是否有研究價值”,該如何量化這種評估?我們該用什么樣的標(biāo)準(zhǔn)?
丹尼爾:或許可以讓數(shù)學(xué)家給出評級,比如 “有價值”、“非常有價值”、“極具價值”,也可以讓他們分析這個問題的研究意義。有時候,一個問題有研究價值,是因?yàn)樗茄芯康?“源頭”—— 解決它能推導(dǎo)出很多有意義的結(jié)論。我理解這個基準(zhǔn)測試,主要是尋找能被驗(yàn)證的構(gòu)造性問題。
格雷格:我們并非只關(guān)注構(gòu)造性問題,但受限于 “自動驗(yàn)證” 的要求,選取的問題通常都是 “構(gòu)造一個數(shù)學(xué)對象” 這類問題。
丹尼爾:有些構(gòu)造性問題的研究,確實(shí)能產(chǎn)生實(shí)質(zhì)性的研究成果;但有些構(gòu)造性問題,只是檢驗(yàn)理解程度的 “基準(zhǔn)”。比如歐拉冪和猜想,因?yàn)楸┝λ阉鞯姆椒ㄐ胁煌ǎ鉀Q這個問題的過程,就是檢驗(yàn)研究者理解程度的過程。要解決它,你必須想出一種巧妙的搜索方法,而這也意味著你已經(jīng)理解了相關(guān)的搜索空間。
格雷格:這些作為 “理解基準(zhǔn)” 的構(gòu)造性問題,目前人類都無法解決,用它們來評估人工智能的理解能力,是否公平?
丹尼爾:這取決于問題本身。有些問題的研究,只是受限于關(guān)注者過少。很多研究者尋找的數(shù)學(xué)構(gòu)造,目前的研究水平還停留在 “有人在周末用筆記本電腦做了一次簡單的搜索”。如果人工智能能找到一種更好的構(gòu)造方法,只能說明它做了一次嘗試,而人類之前從未嘗試過。這種成果顯然有價值,但我們很難判斷,這能反映出人工智能的什么能力。
但也有一些問題,比如 M?? 單群的逆問題,我認(rèn)為如果能像曼哈頓計劃一樣集中資源研究,肯定能解決,它絕對在人類的能力范圍內(nèi),而且也確實(shí)有很多研究者嘗試過。
格雷格:我們是否應(yīng)該將 “研究價值” 和 “難度” 作為兩個獨(dú)立的評估維度?
丹尼爾:這絕對是兩個不同的維度,只是二者存在相關(guān)性,因?yàn)槿藗儠敢庋芯坑袃r值的問題,而那些有價值卻仍未被解決的問題,往往難度都很高。
格雷格:我們之前聊過抬高評價門檻的問題。有些情況是,你原本以為某個問題不會用一種平庸的方法解決,但看到人工智能的解法后發(fā)現(xiàn),其中毫無新想法,完全就是硬算出來的。它確實(shí)證明了結(jié)論,但這個成果,對預(yù)測人工智能的能力發(fā)展,似乎毫無參考價值。我們該如何提前規(guī)避這種情況?
丹尼爾:我想說明的是,如果人工智能解決的是一個并非因 “關(guān)注者過少” 而未解的開放式問題,即便證明過程只是硬算,這也依然有價值,我們不能說 “這個成果毫無意義”。硬算的能力,對數(shù)學(xué)家而言,本身就是一種重要的技能。
格雷格:如果有能力的話,數(shù)學(xué)家自己也會這么做。
丹尼爾:四色定理的證明,難道就沒人認(rèn)可嗎?確實(shí)有人質(zhì)疑,但我認(rèn)為這些質(zhì)疑是錯誤的。
數(shù)學(xué)研究中,抬高評價門檻的現(xiàn)象由來已久。18、19 世紀(jì)的很多偉大數(shù)學(xué)家,都是計算高手,而他們當(dāng)時做的很多計算工作,現(xiàn)在一個八年級的學(xué)生用圖形計算器就能完成。我們本就是工具的使用者,使用工具解決問題,無可厚非。
格雷格:用各種方法做有價值的數(shù)學(xué)研究,本就是公平的。但從能力預(yù)測的角度來看,如果我們發(fā)現(xiàn),人工智能解決某個問題的方法,和AlphaProof(阿爾法證明器)解決 2024 年國際數(shù)學(xué)奧林匹克競賽第六題的方法如出一轍 —— 都是平庸的硬算,這會讓人感到震驚。
丹尼爾:有時候,一個問題在被解決之前,你永遠(yuǎn)不知道它其實(shí)很簡單,人類數(shù)學(xué)家也會遇到這種情況。去年,我和艾倫?蘭德斯曼(Aaron Landesman)解決了一個懸置了 40 年的開放式問題,但我們沒有把成果發(fā)表在《數(shù)學(xué)年刊》上,因?yàn)槭潞罂磥恚@個解法并沒有什么研究價值。這種情況很常見。
或許我們可以這樣做:建立一套明確的標(biāo)準(zhǔn),判斷一個成果是否包含真正的新想法,也就是一套事后評估準(zhǔn)則。我們甚至可以等五年,看看有多少新的研究成果,是基于這個成果中的想法得出的。
有限域上的相關(guān)猜想,其證明引入了多項(xiàng)式方法,而這個方法后來產(chǎn)生了巨大的影響,這篇論文也發(fā)表在了《數(shù)學(xué)年刊》上,從后續(xù)的研究成果來看,這個發(fā)表決定是完全合理的。但如果只是用硬算的方法解決了國際數(shù)學(xué)奧林匹克競賽的第六題,這個解法顯然無法衍生出任何新的研究成果。
格雷格:我們一直在思考一種難度評估方法:統(tǒng)計有多少數(shù)學(xué)家為這個問題付出了努力,付出了多長時間,還可以考慮研究者的資歷。如果有 1 到 2 位青年數(shù)學(xué)家嘗試解決這個問題但失敗了,那么人工智能解決了它,對我們而言,算是多大的突破?
丹尼爾:目前還不清楚,數(shù)學(xué)領(lǐng)域究竟還有多少容易解決的問題,有可能數(shù)量非常多。人工智能目前還沒有開始解決有價值的開放式問題,這或許能從側(cè)面說明,這類問題的數(shù)量并不多。但所有問題的研究,都受限于關(guān)注者過少。如果真的有大量容易解決的問題,那么人工智能的出現(xiàn),會帶來數(shù)學(xué)研究的巨大突破,基準(zhǔn)測試也會變得很簡單 —— 隨便拿一個開放式問題給它,最終都能被解決。
另一方面,也有一些側(cè)面證據(jù)表明,并非所有問題的研究都受限于關(guān)注者過少,數(shù)學(xué)領(lǐng)域的 “低垂果實(shí)” 其實(shí)并不多。當(dāng)研究者真正投入精力研究一個問題時,要么能解決它,要么會發(fā)現(xiàn)它確實(shí)很難。
格雷格:你為什么會有這樣的感受?
丹尼爾:那些著名的未解猜想,證明過程卻非常簡短的,這樣的例子其實(shí)寥寥無幾。如果數(shù)學(xué)領(lǐng)域真的有大量容易解決卻未被解決的問題,我們應(yīng)該會經(jīng)常看到研究者發(fā)現(xiàn)并解決這類問題的案例。這種情況確實(shí)存在,但非常罕見。
通常來說,一個重要猜想的解決,并非只引入一個簡單的新想法,而是會引入多個新想法,或者依賴于該領(lǐng)域的諸多其他研究進(jìn)展。你能從證明過程中,清晰地看到解決這個問題所需的各項(xiàng)突破。
當(dāng)然,我們并非總能提前看到這些突破。有時候,你能證明一個結(jié)論,只是因?yàn)槟阈枰淖詈笠粋€中間結(jié)論,剛被其他人證明,恰好能用上;有時候,這個中間結(jié)論已經(jīng)發(fā)表在文獻(xiàn)中二十年了,只是你才發(fā)現(xiàn)。
我們每個人都有過這樣的經(jīng)歷:看到一篇新發(fā)表的論文,會想 “哦,我早就知道這個核心想法了,要是我當(dāng)時能意識到它能解決這個問題就好了”。我最喜歡的一篇論文就是如此,它的核心想法,來自我?guī)啄昵霸跀?shù)學(xué)問答網(wǎng)站MathOverflow上提的一個問題的回答,我當(dāng)時看到這個回答時,腸子都悔青了。
格雷格:對于這個開放式問題基準(zhǔn)測試,我們被一個硬性、惱人且不自然的條件束縛著 —— 自動驗(yàn)證,我們需要用計算機(jī)程序來判斷答案是否正確。這個條件的影響有多大?
丹尼爾:理論上,這并不是一個限制。任何數(shù)學(xué)構(gòu)造,排除不完備性的問題,都可以附上一個能被驗(yàn)證的證明過程。但在實(shí)際操作中,這確實(shí)是一個實(shí)實(shí)在在的限制,因?yàn)槲覀兊馁Y源有限,無法讓研究者為所有問題編寫驗(yàn)證程序。
格雷格:我們目前只能選取 “普通的計算機(jī)程序就能驗(yàn)證答案” 的問題。
丹尼爾:所以第一個限制就是,很多數(shù)學(xué)領(lǐng)域和有價值的問題,都不屬于這類可被程序驗(yàn)證的問題。比如代數(shù)幾何的很多領(lǐng)域,就沒有這類問題,數(shù)論的一些領(lǐng)域也是如此,不過計算數(shù)論領(lǐng)域有很多漂亮的可驗(yàn)證問題。
這個條件帶來的核心限制,其實(shí)是對問題研究價值的篩選。有些問題,比如反伽羅瓦問題,既需要構(gòu)造可驗(yàn)證的數(shù)學(xué)對象,也有很高的研究價值,但這類問題非常少見。大多數(shù)情況下,研究者需要構(gòu)造的是一系列無限的數(shù)學(xué)對象,而這類構(gòu)造的驗(yàn)證難度要大得多。
格雷格:我發(fā)現(xiàn)有一類問題很適合這個測試 —— 零知識證明相關(guān)問題。比如需要構(gòu)造一個無限序列,我們不需要驗(yàn)證整個序列,只需要驗(yàn)證第 297 項(xiàng)即可。
丹尼爾:這是一個非常好的思路,但很快就會遇到實(shí)際問題,除非驗(yàn)證的速度能極快。通常來說,我們最多也就驗(yàn)證前五項(xiàng)。即便是反伽羅瓦問題,我們可以提出驗(yàn)證要求,但大概率驗(yàn)證到前 3 到 4 項(xiàng)之后,就不具備實(shí)操性了。
所以這個條件帶來的限制是非常大的。我們希望這個基準(zhǔn)測試中,構(gòu)造數(shù)學(xué)對象的能力,能成為人工智能理解能力或巧妙搜索能力的一個參考指標(biāo),但往往很難判斷這一點(diǎn)。有時候,我們有證據(jù)表明人類研究者嘗試過但失敗了,所以能確定,人類目前缺失了某種能力;但有時候,人類研究者已經(jīng)用一些巧妙的思路解決了類似的問題,而這個問題卻毫無進(jìn)展。
格雷格:確實(shí)有一些問題,每一次新的構(gòu)造,都需要一個漂亮的新想法。如果人工智能能給出一個新的構(gòu)造,我們會希望背后也有一個漂亮的新想法支撐。
我之前給你發(fā)過一份問題清單,我們的目標(biāo)是讓清單中的問題覆蓋不同的難度等級。在難度較低的一端,我們擔(dān)心的是,出題的博士后當(dāng)時可能狀態(tài)不好,出的題在某些方面,難度甚至不如國際數(shù)學(xué)奧林匹克競賽的第一題。不過我們可以用統(tǒng)計學(xué)的方法規(guī)避這個問題。我也很好奇難度較高的一端 —— 數(shù)學(xué)領(lǐng)域最有價值、最難的問題,往往抽象性也更高。
丹尼爾:這可能涉及到莫拉維克(Moravec)悖論:數(shù)學(xué)問題的難度,一方面在于需要高強(qiáng)度的推理,另一方面在于需要掌握大量的專業(yè)術(shù)語,在腦海中構(gòu)建一套龐大的理論體系。
代數(shù)幾何素來以難度高著稱,這很可能只是因?yàn)槿祟惐旧聿⒉簧瞄L這個領(lǐng)域,而且從事該領(lǐng)域研究的人類研究者本就很少。
格雷格:沒錯,還是關(guān)注者過少的問題。對于我發(fā)給你的那份問題清單,你有沒有直觀的感受,哪些問題 “難度高得多,也更有研究價值”?
丹尼爾:有幾個問題給我的印象很深。比如 M??單群的逆問題,我可以明確說,如果這個問題被解決,我會非常興奮。我認(rèn)為集中資源研究的話,人類能解決這個問題,而它的解決,也會是一件大事。無論是人類還是人工智能解決了它,我都會無比興奮。
還有一些關(guān)于無理性的問題。70 年代末,阿佩里(Apéry)證明了黎曼澤塔zeta函數(shù)ζ(3)是無理數(shù),也就是所有正整數(shù)的立方的倒數(shù)和是無理數(shù),這個證明堪稱神奇。他在一次會議上公布了這個證明,當(dāng)時所有人都不敢相信,直到大家回去驗(yàn)證后,才驚嘆于證明的精妙。后來研究者們發(fā)現(xiàn),這個證明與深奧的 G-函數(shù)理論相關(guān)。
而相關(guān)的開放式問題是,尋找一系列整數(shù)或冪級數(shù),讓阿佩里的方法能應(yīng)用于其他有意義的常數(shù)。扎吉爾(Zagier)是一位非常資深的數(shù)學(xué)家,他做了大量的計算,試圖找到類似的序列,取得了一些小成果,找到了 6 到 7 個例子。
格雷格:這些例子,都不是你之前認(rèn)為最有研究價值的那些常數(shù)吧?
丹尼爾:近期,卡萊加里(Calegari)、季米特洛夫(Dimitrov)和唐云清在這個領(lǐng)域取得了新的進(jìn)展。他們沒有尋找新的序列,而是想出了新的方法,對阿佩里的通用方法進(jìn)行了漂亮的改進(jìn),讓這個方法能應(yīng)用于更廣泛的序列。我可以明確說,這個問題的難度很高,有很多研究者都為它付出了努力。
十二、數(shù)學(xué)家會相信關(guān)于猜想的啟發(fā)式論證嗎?
[01:56:35]
格雷格:我們面臨的另一個挑戰(zhàn)是,希望選取的問題都是有解的。
丹尼爾:你們想要選取的是有確定答案的問題,也就是正確的猜想。但要判斷一個猜想是否正確,本身就非常難,更不用說證明它了。
格雷格:如果一個熟悉某領(lǐng)域的數(shù)學(xué)家告訴我們,他有 80% 的把握,這個問題會朝某個方向解決,只是他自己無法構(gòu)造出相關(guān)的數(shù)學(xué)對象,你會有多相信他的判斷?
丹尼爾:比隨機(jī)猜測的準(zhǔn)確率高一點(diǎn),但高不了多少。數(shù)學(xué)家的觀點(diǎn)總是在變化。比如你清單中的一個問題:尋找秩至少為 30 的橢圓曲線。長期以來,這個領(lǐng)域的所有人都認(rèn)為,橢圓曲線的秩是無界的,但現(xiàn)在,大部分研究者認(rèn)為,橢圓曲線的秩是有界的。
格雷格:真的嗎?
丹尼爾:近期有不少啟發(fā)式的研究支持這個觀點(diǎn),不過也有一些研究者對此表示懷疑。人們對猜想正確性的判斷一直在變,比如霍奇猜想,大部分代數(shù)幾何學(xué)家認(rèn)為它是正確的,但也有很多人持反對意見。
格雷格:有些情況下,研究者已經(jīng)證明了某種數(shù)學(xué)構(gòu)造是存在的,但就是無法具體構(gòu)造出來。
丹尼爾:我其實(shí)很喜歡這類問題。比如用概率方法得出的拉姆齊數(shù)(Ramsey numbers)的界,研究者已經(jīng)證明了這個界的存在,而相關(guān)的開放式問題,就是尋找具體的構(gòu)造。我目前正在研究的一個問題,也屬于這類:塞爾(Serre)提出,需要為一些用非構(gòu)造性方法證明存在的數(shù)學(xué)對象,找到具體的構(gòu)造,而我正在做這項(xiàng)工作。構(gòu)造性的證明和非構(gòu)造性的證明,有著天壤之別,構(gòu)造性的證明能讓你獲得更多的洞見。
安森:有哪些經(jīng)典的啟發(fā)式論證,或是這類論證的典型例子,能讓研究者在沒有完整證明的情況下,改變對猜想的判斷?
丹尼爾:數(shù)論領(lǐng)域,用隨機(jī)模型研究數(shù)論對象的做法,由來已久。比如,我們可以認(rèn)為素數(shù)的分布,類似于滿足某些性質(zhì)的隨機(jī)整數(shù)集合,然后構(gòu)造一個滿足這些性質(zhì)的隨機(jī)序列,研究這個序列幾乎必然具備的性質(zhì),進(jìn)而猜測素數(shù)也具備這些性質(zhì)。
研究橢圓曲線時,我們也會先梳理出它的所有性質(zhì),構(gòu)造一個滿足這些性質(zhì)的隨機(jī)模型,再猜測橢圓曲線的性質(zhì)。一個最基礎(chǔ)的例子:某個幾何或數(shù)論問題中,出現(xiàn)了一個 n 階方陣,我們可以假設(shè)這個方陣的行為,和一個隨機(jī)的 n 階方陣一致。
梅蘭妮?馬切特?伍德(Melanie Matchett Wood)和她的合作者做了一項(xiàng)漂亮的研究,他們研究了整數(shù)隨機(jī)矩陣,并基于此對橢圓曲線及相關(guān)數(shù)論對象做出了預(yù)測。這項(xiàng)研究背后有定理支撐 —— 該定理指出,滿足 x、y、z 性質(zhì)的隨機(jī)對象,會具備某類特定性質(zhì)。
一個經(jīng)典的例子是數(shù)域的類群,我們假設(shè)它的行為,和按照某種分布生成的隨機(jī)交換群一致,進(jìn)而猜測,如果按照某種自然的順序羅列數(shù)域,那么滿足 X、Y、Z 性質(zhì)的數(shù)域的比例,和滿足這些性質(zhì)的隨機(jī)交換群的比例一致。這就是科恩 - 倫斯特拉(Cohen-Lenstra)啟發(fā)式,它也是目前數(shù)論和算術(shù)統(tǒng)計領(lǐng)域的重要研究動力。
十三:如果人工智能攻克了 “Frontier Math前沿數(shù)學(xué):開放式問題” 基準(zhǔn)測試會怎樣?
[2:01:24]
格雷格:如果人工智能徹底碾壓了這個基準(zhǔn)測試,解決了我們討論的這類問題,那我們所處的世界,會變成什么樣?
丹尼爾:我會感到無比興奮。可以想見,人工智能找到這些數(shù)學(xué)構(gòu)造的方法,至少在很大程度上,會是有研究價值的。
有一個值得思考的問題:人工智能解決這類構(gòu)造性問題的能力,與它的其他能力之間,存在怎樣的相關(guān)性?構(gòu)造性問題有明確的獎勵信號,我們可以針對性地訓(xùn)練模型,讓它專注于解決這類問題,但很難說這個獎勵信號,是否能讓模型的能力遷移到證明類問題上。當(dāng)然,證明類問題的答案,也是可以被驗(yàn)證的。
格雷格:但或許需要等驗(yàn)證的體系更加完善后,再針對證明類問題訓(xùn)練模型。
丹尼爾:對我而言,關(guān)于人工智能數(shù)學(xué)能力未來發(fā)展的一個核心問題,是模型的能力遷移性有多強(qiáng)。如果每發(fā)現(xiàn)或發(fā)明一個新的數(shù)學(xué)對象,都需要從頭訓(xùn)練一個新的模型,那么人工智能的發(fā)展,會和模型能快速掌握新對象并展開研究的情況,截然不同。
甚至可以說,模型在代數(shù)幾何領(lǐng)域的通用知識和能力,能否遷移到 “代數(shù)幾何 + 微小拓展” 的領(lǐng)域,都是一個問題。過去十年,數(shù)學(xué)家提出了十種關(guān)于 “空間” 的新定義,而人工智能面臨的問題,甚至不只是持續(xù)學(xué)習(xí) —— 即便模型能學(xué)習(xí)這些新定義,它是否能像人類一樣,具備運(yùn)用這些定義開展研究的能力,還是一個未知數(shù)。
我們現(xiàn)在討論的,是一個特殊情況:模型非常擅長構(gòu)造可驗(yàn)證的數(shù)學(xué)對象。但這種能力,與更廣泛的數(shù)學(xué)研究能力之間的相關(guān)性,仍未可知。但可以肯定的是,這種能力的出現(xiàn),會是一個劃時代的突破。
格雷格:至少在數(shù)學(xué)領(lǐng)域,絕對是劃時代的。而對于人工智能的整體能力而言,這取決于模型的能力遷移性如何。它的能力可能非常狹窄,就像我們通過不斷優(yōu)化,讓人工智能在棋牌游戲中取勝一樣。
丹尼爾:目前,AlphaEvolve(阿爾法進(jìn)化)已經(jīng)能做出一些數(shù)學(xué)構(gòu)造了,雖然它還無法完成有價值的證明,但已經(jīng)能做出有意義的構(gòu)造。
格雷格:你在推特上明確表示過,AlphaEvolve做出的構(gòu)造,研究價值有限。
丹尼爾:這些構(gòu)造的研究價值,主要在于它們是由自動化系統(tǒng)完成的。但我們可以想象,未來的迭代版本,能做出本身就具備重要獨(dú)立研究價值的構(gòu)造。
格雷格:最后一個我真正關(guān)心的問題:人工智能的這種能力,不僅能遷移到數(shù)學(xué)的其他領(lǐng)域,還能遷移到其他科學(xué)領(lǐng)域、研發(fā)領(lǐng)域嗎?如果未來人工智能能持續(xù)解決有價值的數(shù)學(xué)問題,而且并非依靠AlphaProof(阿爾法證明器)這類高度專業(yè)化的方法,這會對其他科學(xué)研究、人工智能自身的研發(fā),帶來什么影響?
丹尼爾:我的看法是,目前人工智能無法自主開展高質(zhì)量數(shù)學(xué)研究的核心障礙,和它無法完成任何有經(jīng)濟(jì)價值的工作的障礙,是一致的:有時候需要創(chuàng)新能力,需要適應(yīng)新的方法,需要學(xué)習(xí)新的知識,需要為一項(xiàng)工作投入大量的時間,而這些,都是目前的人工智能系統(tǒng)難以做到的。
我認(rèn)為,如果這些障礙被攻克,模型會成為非常優(yōu)秀的數(shù)學(xué)研究者,而攻克這些障礙,也是模型具備高水平數(shù)學(xué)研究能力的必要條件。
格雷格:有一個問題:是否存在一種特殊的要素,讓數(shù)學(xué)研究的難度獨(dú)樹一幟,以至于數(shù)學(xué)成為人工智能邁向具有社會變革意義的通用智能過程中,最后被攻克的領(lǐng)域之一?
丹尼爾:我認(rèn)為這種可能性非常小。我們很難說清,開展高質(zhì)量的數(shù)學(xué)研究,究竟需要哪些能力,這本身就是一個需要內(nèi)省的問題。但有證據(jù)表明,它需要創(chuàng)新能力,需要長期投入的毅力。
當(dāng)然,也有可能事實(shí)并非如此,如果是這樣,那么數(shù)學(xué)領(lǐng)域的發(fā)展,可能會領(lǐng)先于其他領(lǐng)域。但我認(rèn)為,數(shù)學(xué)研究并不存在什么特殊的 “獨(dú)門要素”,我的研究工作,和其他人的工作,本質(zhì)上并沒有太大區(qū)別。當(dāng)然,我會花更多的時間躺在沙發(fā)上,盯著墻,單純地思考問題,但這些工作所需的核心能力,和其他任何有經(jīng)濟(jì)價值的工作,其實(shí)都是相通的。
十四、人工智能即將推動數(shù)學(xué)研究加速發(fā)展嗎?
[02:06:53]
格雷格:還有哪些問題,是我們應(yīng)該問但還沒問的?
丹尼爾:我想再多說一點(diǎn):這一切的核心,其實(shí)是開展不同數(shù)學(xué)研究活動的邊際成本。我認(rèn)為人工智能會帶來重大影響的領(lǐng)域,是讓 “嘗試解決一個問題” 的邊際成本變得極低。
很多猜想的研究,都存在這樣的情況:你其實(shí)應(yīng)該寫一個計算機(jī)程序,做一些計算驗(yàn)證,但你只是懶得做。解決這類猜想,并不需要能力多強(qiáng)的人工智能系統(tǒng),而我們已經(jīng)看到,很多這類猜想正在被人工智能解決。我認(rèn)為這是一件意義重大的事。
格雷格:這會讓數(shù)學(xué)研究的發(fā)展速度,提升多少?
丹尼爾:我并不認(rèn)為這會帶來多大的 “加速”,數(shù)學(xué)研究本身存在一種 “成本”—— 你必須動手嘗試,而降低這種成本,本身就有重要意義,即便研究的核心瓶頸并不在此。
數(shù)學(xué)研究的核心障礙,始終是:你需要有一個好的想法。大多數(shù)人一年也就只有幾個好想法,我目前還不清楚,人工智能能在多大程度上幫助人類產(chǎn)生好想法。但有時候,研究并不需要好想法,只需要坐下來,硬算完成即可。而判斷一個問題是否需要好想法,本身就是一種非常重要的能力。
即便人工智能的能力不再提升,數(shù)學(xué)研究中的很多摩擦和阻礙,也會逐漸消失,而這,也是我認(rèn)為人工智能會帶來最多進(jìn)展的領(lǐng)域。
格雷格:也就是說,你認(rèn)為人工智能目前給數(shù)學(xué)研究帶來的影響,并非讓研究速度出現(xiàn)突破性的提升,而是消除了研究中的諸多阻礙,這是你理解人工智能對數(shù)學(xué)研究當(dāng)下價值的核心視角。
丹尼爾:說到 “加速發(fā)展”,我非常希望能找到一種方法,將這個概念量化,真正去評估:我們是否真的在經(jīng)歷數(shù)學(xué)研究的加速發(fā)展?人類歷史上,是否出現(xiàn)過這樣的加速?隨著時間的推移,數(shù)學(xué)家的人均研究產(chǎn)出,是否有所提升?即便有了這么多新工具,這個問題的答案,對我而言依然不明確。該如何量化這個問題?我們可以看引用量,但這是一個非常糟糕的參考指標(biāo),而且它還和人口數(shù)量高度相關(guān)。
格雷格:在我們結(jié)束訪談之前,未來幾個月,有哪些事是你比較期待的?
丹尼爾:八月份的時候,我還說過,“以人工智能目前的能力,還沒有解決很多稍有研究價值的猜想,這一點(diǎn)很奇怪”。而現(xiàn)在,我認(rèn)為這類猜想的解決,已經(jīng)開始出現(xiàn)了。
未來一年內(nèi),會有更多這樣的猜想被解決 —— 這些問題沒人真正深入研究過,只是研究者隨手寫下的問題,但依然有一定的研究價值,而人工智能會自主解決它們。我認(rèn)為這種情況的可能性非常大。
格雷格:未來我們肯定會有很多機(jī)會,推出緊急播客來解讀這些成果。大家可以關(guān)注丹尼爾的推特,這里絕對是了解人工智能與數(shù)學(xué)研究相關(guān)資訊的優(yōu)質(zhì)平臺。非常感謝你接受我們的訪談。
丹尼爾:也非常感謝你們的邀請,能參加這次訪談,我很開心。
格雷格:非常愉快的交流。
原文參考資料:
歐拉冪和猜想:
蘭德與帕金(Lander & Parkin,1966 年,首個反例)https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf
埃爾基斯(Elkies,1988 年,四次冪情形)https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf
埃斯諾爾特與格羅申尼希(Esnault & Groechenig,相伴理論與朗蘭茲綱領(lǐng))https://arxiv.org/abs/1707.00752
德利涅(Deligne)對韋伊猜想的證明(1974 年)http://www.numdam.org/item/PMIHES_1974__43__273_0/
澤塔ζ函數(shù)值的無理性:
阿佩里(Apéry)的證明(1978-1979 年)http://www.numdam.org/item/AST_1979__61__11_0/
范德普滕(Van der Poorten)的闡釋https://doi.org/10.1007/BF03028234
扎吉爾(Zagier)的計算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf
卡萊加里 - 季米特洛夫 - 唐云清(Calegari-Dimitrov-Tang)的近期進(jìn)展https://arxiv.org/abs/2408.15403
數(shù)論中的隨機(jī)模型:
梅蘭妮?馬切特?伍德(Melanie Matchett Wood)關(guān)于隨機(jī)矩陣的研究https://doi.org/10.1353/ajm.2019.0008
科恩 - 倫斯特拉(Cohen-Lenstra)啟發(fā)式https://doi.org/10.1007/BFb0099440
提及的千禧年大獎難題:
黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/
霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/
貝赫和斯維訥通 - 戴爾(BSD)猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/
納維 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/
前沿數(shù)學(xué):開放式問題基準(zhǔn)測試 https://epoch.ai/frontiermath/open-problems
參考資料
https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time
小樂數(shù)學(xué)科普近期文章
·開放 · 友好 · 多元 · 普適 · 守拙·![]()
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點(diǎn)贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點(diǎn)擊zzllrr小樂
公眾號主頁
右上角
置頂加星★
數(shù)學(xué)科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.