<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      專訪數(shù)學(xué)家Daniel Litt(丹尼爾?利特):AI人工智能的數(shù)學(xué)能力或長期處于不均衡發(fā)展?fàn)顟B(tài)(下)

      0
      分享至

      置頂zzllrr小樂公眾號(主頁右上角)數(shù)學(xué)科普不迷路!


      接上篇:

      訪談背景簡介:

      丹尼爾?利特(Daniel Litt)是多倫多大學(xué)數(shù)學(xué)系教授。他一直密切關(guān)注人工智能在推動數(shù)學(xué)發(fā)現(xiàn)領(lǐng)域的發(fā)展進(jìn)程,對此態(tài)度時而審慎懷疑,時而滿懷期待。

      本期Epoch.ai與其探討的話題包括:當(dāng)下的模型能解決的最難數(shù)學(xué)問題究竟是什么;是否有確鑿證據(jù)表明人工智能正推動數(shù)學(xué)研究提速;以及人工智能能否攻克千禧年大獎難題。

      他們還探討如何評估數(shù)學(xué)研究的進(jìn)展,其中包括Epoch.ai全新推出的「FrontierMath前沿數(shù)學(xué):開放式問題」基準(zhǔn)測試 —— 該測試以數(shù)學(xué)領(lǐng)域具有研究價值的未解問題為依據(jù),對人工智能模型的能力進(jìn)行評估。

      詳情參閱:

      訪談人簡介:


      丹尼爾·利特(Daniel Litt是多倫多大學(xué)數(shù)學(xué)助理教授。他獲得斯坦福大學(xué)博士學(xué)位,研究重點(diǎn)是代數(shù)幾何與數(shù)論之間的相互作用。


      格雷格?伯納姆(Greg Burnham是 Epoch AI 的研究員。在此之前,他曾在Elemental Cognition和Bridgewater Associates工作。他擁有普林斯頓大學(xué)數(shù)學(xué)學(xué)士學(xué)位。


      安森(Anson Ho是 Epoch AI 的研究員。他致力于幫助對人工智能未來發(fā)展及其社會影響進(jìn)行更嚴(yán)謹(jǐn)?shù)睦斫狻?/p>

      時間節(jié)點(diǎn)目錄:

      (采訪時間和內(nèi)容較長,分成十四小節(jié),上下兩篇。本篇為下篇,涉及后七小節(jié))

      00:00:00 一、如今人工智能能解決的最難數(shù)學(xué)問題是什么?

      00:16:08 二、當(dāng)下的人工智能模型對數(shù)學(xué)研究的助力有多大?

      00:23:36 三、垃圾論文、大語言模型生成的證明與審稿危機(jī)

      00:27:21 四、人工智能實(shí)現(xiàn)數(shù)學(xué)問題的大規(guī)模篩選

      00:33:49 五、人工智能何時能發(fā)展到足以在頂級數(shù)學(xué)期刊發(fā)表成果的水平?

      00:42:15 六、智能的價值回報體現(xiàn)在何處?

      00:59:50 七、人工智能能否攻克千禧年大獎難題?

      01:11:54 八、數(shù)學(xué)領(lǐng)域還存在大量易解的「低垂果實(shí)」嗎?

      01:18:47 九、丹尼爾如何調(diào)整職業(yè)發(fā)展,以適應(yīng)人工智能的發(fā)展進(jìn)程?

      01:25:28 十、人工智能數(shù)學(xué)基準(zhǔn)測試,實(shí)際在評估什么能力?

      01:33:05 十一、開放式問題基準(zhǔn)測試的設(shè)計思路

      01:56:35 十二、數(shù)學(xué)家會相信關(guān)于數(shù)學(xué)猜想的啟發(fā)式論證嗎?

      02:01:24 十三、若人工智能攻克「FrontierMath前沿數(shù)學(xué):開放式問題」基準(zhǔn)測試,會帶來什么影響?

      02:06:53 十四、人工智能是否即將推動數(shù)學(xué)研究邁入加速發(fā)展階段?

      作者:epoch.ai 2026-1-29

      譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-1-31

      訪談實(shí)錄(下):

      八、數(shù)學(xué)領(lǐng)域還有很多容易解決的問題嗎?

      [01:11:54]

      安森:你在推特上提到過,解決一個數(shù)學(xué)問題的含金量,取決于前人在這個問題上付出了多少努力。我們是否有可能梳理這些問題,量化一下前人的付出?

      丹尼爾:可以去看提出這些問題的論文,以及這篇論文的引用量。不過對于那些已經(jīng)被解決的問題,我其實(shí)并不清楚具體數(shù)據(jù)。比如第 124 號難題的高難度版本目前仍未解決,提出這個問題的論文只有 14 次引用。對于一篇 1996 年的數(shù)學(xué)論文來說,這個引用量并不算高。

      格雷格:但 14 次引用也并非毫無意義。

      丹尼爾:1996 年發(fā)表的數(shù)學(xué)論文里,有很多引用量為零。而且這 14 次引用,大概率并非都是針對這個難題本身 —— 這篇論文里提出了很多問題。

      格雷格:你知道有多少人在研究p曲率猜想(p-curvature conjecture)嗎?

      丹尼爾:非常少。這也是我一直想要攻克的難題,我為它投入了大量精力。目前還在積極研究這個猜想的人,我估計我都認(rèn)識,人數(shù)應(yīng)該不到 20 個。從歷史來看,80 年代、90 年代和 21 世紀(jì)初,這個領(lǐng)域的研究熱度更高,后來研究者們陷入了瓶頸,熱度也就降了下來。或許現(xiàn)在相關(guān)領(lǐng)域出現(xiàn)了一些新的思路。

      任何一個連專業(yè)術(shù)語都沒多少人理解的問題,關(guān)注者自然會很少。目前能完全理解 p 曲率猜想所有術(shù)語的人,可能也就幾千個。

      格雷格:是否存在一種選擇效應(yīng),讓一些問題變成了 “研究者覺得研究它很沒面子” 的問題?

      丹尼爾:比如考拉茲猜想(3n+1猜想),它還很容易吸引一些非專業(yè)的業(yè)余研究者。很多問題,專家的看法都是 “我們目前還沒有合適的方法解決它”,這就難免會讓人產(chǎn)生一種 “你憑什么覺得自己能解決” 的質(zhì)疑。(詳情參閱 )

      對于那些著名的重大難題,是否有很多研究者在悄悄嘗試,只是沒有公布成果?或許每個人都會偶爾思考這些著名難題,包括那些在相關(guān)領(lǐng)域發(fā)表過論文的知名學(xué)者。但 “嘗試解決一個問題” 到底意味著什么?很多時候,人們只是想著 “要是能解決這個問題就好了”,然后就沒有任何實(shí)際行動了。

      格雷格:當(dāng)你覺得 “或許我有一個值得一試的想法” 時,是什么感受?

      丹尼爾:有時候會在半夜醒來,突然想到一個絕妙的主意。我思考問題的方式主要有兩種:要么從一個想法出發(fā),慢慢推演;要么先掌握一種通過其他途徑想到的新方法,再思考 “這個方法能解決哪些問題”,從中挖掘價值,這是一種機(jī)會主義的研究思路。

      有時候我也會定下明確的目標(biāo),比如解決某個問題、證明某個猜想 —— 更準(zhǔn)確地說,是先嘗試?yán)斫饽硞€數(shù)學(xué)對象,再通過證明一個有意義的結(jié)論,來檢驗(yàn)自己的理解程度。我會找一個最簡單的例子,一個用現(xiàn)有方法無法解決的例子,先嘗試攻克它,在這個過程中開發(fā)新的方法,再看看這種新方法能走多遠(yuǎn)。

      格雷格:從數(shù)據(jù)分析的角度來看,如果把引用量作為評估指標(biāo),是否需要進(jìn)行一些非線性的修正?

      丹尼爾:引用量的參考價值可能被高估了 —— 有很多論文引用了黎曼猜想的相關(guān)研究,但其實(shí)并沒有為解決黎曼猜想做出任何實(shí)質(zhì)性的貢獻(xiàn)。

      格雷格:那這樣一來,引用量這個指標(biāo)就沒什么意義了。

      丹尼爾:我認(rèn)為用這種方式評估數(shù)學(xué)問題的難度,其實(shí)非常不靠譜。

      安森:還存在垃圾論文的問題。

      丹尼爾:還有大量論文聲稱證明了黎曼猜想,這顯然讓相關(guān)研究的評估變得更難。計算機(jī)科學(xué)領(lǐng)域也有很多論文引用了 P 與 NP 問題的相關(guān)內(nèi)容,但它們真的推動了這個問題的解決嗎?

      九、丹尼爾如何適應(yīng)人工智能發(fā)展,調(diào)整自己的職業(yè)發(fā)展規(guī)劃

      [01:18:47]

      格雷格:在我們深入聊評估方法之前,想問一下,為了在人工智能時代站穩(wěn)腳跟、謀求發(fā)展,你已經(jīng)做出了哪些調(diào)整,或者有哪些規(guī)劃?

      丹尼爾:我正在做一些事,因?yàn)槲翌A(yù)判人工智能的能力會不斷提升。目前有很多研究者在做數(shù)學(xué)形式化的工作,比如用Lean或其他證明驗(yàn)證軟件將數(shù)學(xué)內(nèi)容形式化,但我并沒有參與這項(xiàng)工作,因?yàn)槲翌A(yù)計未來幾年,能讓人憑直覺完成形式化的工具會有大幅改進(jìn)。

      格雷格:憑直覺完成形式化 —— 我再跟你確認(rèn)一下這個概念。

      丹尼爾:當(dāng)然,也有一部分原因是我并非這個領(lǐng)域的專家,我只是簡單嘗試過。而且我并不打算因?yàn)轭A(yù)判人工智能能力會提升,就改變自己研究的問題方向,或是使用的研究方法。

      究其根本,我認(rèn)為自己的工作核心不是證明定理,而是理解數(shù)學(xué)對象。證明定理,只是檢驗(yàn)理解程度的一個標(biāo)準(zhǔn)。很多定理或猜想,都是研究的 “終點(diǎn)” 而非 “源頭”—— 也就是說,如果你能開發(fā)出一種方法證明這個定理,說明你已經(jīng)理解了相關(guān)的數(shù)學(xué)內(nèi)容,但研究的真正價值,在于這份理解本身。

      這或許也能解釋,為什么訓(xùn)練人工智能開展高質(zhì)量數(shù)學(xué)研究如此困難:我們發(fā)表的論文,大多沒能傳達(dá)出數(shù)學(xué)研究的真正價值 —— 研究的核心,是讓人類對某個學(xué)科的理解更進(jìn)一步。

      格雷格:你腦海中形成這份理解時的那些想法,并不會出現(xiàn)在論文里。

      丹尼爾:研究者會努力把自己的直覺寫進(jìn)論文,但這向來是個難題。如果我能直接告訴學(xué)生 “你應(yīng)該這樣理解這個數(shù)學(xué)對象”—— 我確實(shí)會這么說,但這并不能傳遞任何有價值的信息。這只是給了他們一個線索,需要他們自己去研究這個數(shù)學(xué)對象,才能慢慢領(lǐng)悟,而這份直覺本身,無法直接傳遞。除了一些高度凝練的表述或隱晦的提示,論文的文字里根本沒有這份直覺的痕跡。

      格雷格:我能想象到這種情況:你發(fā)表了一篇論文,標(biāo)題是 “某猜想的證明”,但你構(gòu)建相關(guān)理論的過程曲折得多,而論文里根本沒有留下多少能讓人工智能學(xué)習(xí)的線索。

      丹尼爾:很多研究都是這樣的:證明一個結(jié)論時,你通常會有一個非常清晰的核心思路,之后會遇到各種各樣的障礙,可能是因?yàn)槟悴焕斫庾C明過程中的某個中間對象。你會想辦法繞開這些障礙,最終寫出來的論證過程看起來會非常晦澀。當(dāng)然,你會試圖在論文里提示 “這才是我真正的研究思路”,但這種提示的效果往往不盡如人意。

      那這和人工智能對我個人規(guī)劃的影響有什么關(guān)系呢?人工智能無法替我理解數(shù)學(xué)對象。正因?yàn)橹庇X的傳遞如此困難,即便有一個模型在各方面能力都超過我,它可能也只能在很小的程度上幫助我理解這些數(shù)學(xué)對象,甚至可能毫無幫助。

      格雷格:也就是說,核心的研究工作,終究還是要靠自己。

      丹尼爾:我看到你在推特上引用了一位哲學(xué)家的話,說數(shù)學(xué)家的社會角色,是成為數(shù)學(xué)理解的 “載體”。我特別喜歡這個說法 —— 太貼切了。我很好奇,你是否會為這種角色感到困擾?如果未來人工智能能比人類更快地解決任何數(shù)學(xué)問題,徹底主導(dǎo)人類的數(shù)學(xué)研究,你會感到困擾嗎?你還會繼續(xù)研究數(shù)學(xué)嗎?

      丹尼爾:做數(shù)學(xué)研究的一大樂趣,就是證明一個結(jié)論時的那種成就感。這種成就感,未必只有解決未解難題才能獲得。或許會少了一些虛榮心的滿足,但這份核心的情感體驗(yàn)依然存在。

      對我而言,研究數(shù)學(xué)的真正目標(biāo),是理解這個世界。如果未來社會的需求,正如佩利所說,是讓數(shù)學(xué)家成為人類數(shù)學(xué)理解的 “載體”,讓我們通過研討會,向大家解讀人工智能證明的最新重大成果,只要社會愿意支持這項(xiàng)工作,我會非常樂意。

      格雷格:就像在后稀缺的烏托邦社會(post-scarcity utopia)里,這種工作依然有價值。

      丹尼爾:當(dāng)然。而且我認(rèn)為,我們離那個時代還很遠(yuǎn)。

      格雷格:但只要我們還是現(xiàn)在的自己,就依然會想要做這份工作。

      丹尼爾:這里存在一個社會問題:如果人工智能模型在數(shù)學(xué)研究的所有領(lǐng)域都比人類更有優(yōu)勢,或者公眾認(rèn)為它們更有優(yōu)勢 —— 我認(rèn)為后者的可能性更大 —— 社會還會愿意支持?jǐn)?shù)學(xué)家的研究工作嗎?這是一個懸而未決的問題,但我希望答案是肯定的。

      格雷格:目前來看,公眾普遍認(rèn)為數(shù)學(xué)研究大多最終會產(chǎn)生實(shí)際價值。

      丹尼爾:數(shù)學(xué)之所以能產(chǎn)生實(shí)際價值,一個重要原因是有人類專家的存在,以及數(shù)學(xué)研究培養(yǎng)出的人力資本。即便是研究最抽象、最純粹數(shù)學(xué)的人,他們作為數(shù)學(xué)理解的 “載體”,本身就具有價值。無論未來的人工智能模型能力多強(qiáng)、創(chuàng)新能力多高,讓人類成為數(shù)學(xué)理解的載體依然有價值,即便在數(shù)學(xué)研究領(lǐng)域,人工智能已經(jīng)完全超越了人類。

      十、人工智能數(shù)學(xué)基準(zhǔn)測試,究竟在評估什么?

      [01:25:28]

      格雷格:我們想繼續(xù)完善數(shù)學(xué)基準(zhǔn)測試的體系,尤其是 “前沿數(shù)學(xué)” 基準(zhǔn)測試。但目前來看,這個測試的評估維度,并沒有涵蓋所有重要的能力。你認(rèn)為其中最核心的缺失是什么?

      丹尼爾:我先說說我對基準(zhǔn)測試評估內(nèi)容的理解。這類測試試圖評估的能力包括:是否理解專業(yè)術(shù)語的含義?是否掌握已有的研究成果?是否熟悉現(xiàn)有的研究方法?能否應(yīng)用這些方法?還有一定的推理能力和創(chuàng)新能力?

      但在我看來,這些基準(zhǔn)測試最終主要評估的,還是知識儲備。人類解決問題時,知識儲備通常是有限的,所以我們會怎么做?可能先有一個思路,研究一段時間后,發(fā)現(xiàn) “需要把這個結(jié)論或結(jié)果作為中間步驟”,然后再嘗試證明這個中間結(jié)論,或者去查閱相關(guān)資料。

      證明中間結(jié)論的過程,甚至發(fā)現(xiàn) “存在這樣一個可利用的中間結(jié)論” 的過程,都是高度依賴推理的。但如果一個模型已經(jīng)記住了所有的數(shù)學(xué)文獻(xiàn),它早就知道這個中間結(jié)論的存在,要意識到這個結(jié)論能用來證明目標(biāo)問題,就幾乎不需要任何推理了。

      當(dāng)你向一個熟記所有文獻(xiàn)的模型提問時,你其實(shí)并沒有測試到那種 “知識儲備有限的人類解決問題時所展現(xiàn)的核心推理能力”。人類需要自己發(fā)現(xiàn)的那些已有結(jié)論,模型早就知道了。

      對人類而言,很多能測試出推理能力、并與數(shù)學(xué)專業(yè)能力和研究成就高度相關(guān)的問題,對模型而言,已經(jīng)無法反映其真正的推理能力了。任何一個人類,如果能在 “前沿數(shù)學(xué)FrontierMath” 基準(zhǔn)測試中取得和模型一樣的成績,大概率會成為一名非常成功的研究者,但模型并沒有展現(xiàn)出相應(yīng)的研究能力。這就是原因所在 —— 同一個問題,對人類和對模型,測試的是完全不同的能力。

      格雷格:補(bǔ)充一個你可能不知道的信息:我們深入研究了Gemini 2.5 (谷歌雙子座AI工具)深度思考模型的數(shù)學(xué)能力,還讓它手動完成了 “前沿數(shù)學(xué)” 基準(zhǔn)測試。測試中的所有問題都有三個評分維度:背景知識、執(zhí)行難度、創(chuàng)新要求。執(zhí)行難度主要看解題過程的長度,以及需要完成的繁瑣計算量;背景知識看解題所需的知識是否高深、晦澀;而創(chuàng)新要求 —— 我本以為這是三個維度中,與我們所說的推理能力最相關(guān)的一個。但結(jié)果顯示,Gemini 模型的得分與背景知識、執(zhí)行難度維度呈負(fù)相關(guān),而與創(chuàng)新要求維度完全無關(guān)。

      丹尼爾:這很有意思。

      格雷格:這恰好印證了你所說的現(xiàn)象。即便我們試圖讓 “前沿數(shù)學(xué)” 基準(zhǔn)測試覆蓋創(chuàng)新能力這個維度,但模型解決問題的過程,似乎并沒有體現(xiàn)出對這個維度的感知,也不會因?yàn)閱栴}的創(chuàng)新要求高而覺得更難。

      丹尼爾:其他模型也呈現(xiàn)出同樣的規(guī)律嗎?Google Gemini(雙子座)模型似乎很少使用合成數(shù)據(jù),這可能導(dǎo)致它對一些偏門的專業(yè)領(lǐng)域了解較少。

      格雷格:GPT-5 等其他模型也是如此。沒錯,它們確實(shí)缺失了創(chuàng)新能力這一核心維度。

      丹尼爾:還有一個問題:人們試圖設(shè)計一道難題時,實(shí)際上,出題者本身都很忙,他們設(shè)計的題目,往往是自己已經(jīng)知道解法的。而一道任何人都知道解法的題,顯然可以用現(xiàn)有的方法解決。

      或許出題者會想出一種新方法來解題,只是還沒寫進(jìn)論文。但這種方法究竟是真正的創(chuàng)新,還是只是對出題者而言的新方法,就不得而知了。最終這篇論文發(fā)表,新方法進(jìn)入訓(xùn)練數(shù)據(jù),這個問題也就無法再用來測試模型開發(fā)新方法的能力了。

      有時候,解決一道難題的關(guān)鍵,只是需要在一篇論文里找到一個公式,代入數(shù)值計算,而理解這篇論文的專業(yè)術(shù)語,需要大量的背景知識。但模型的背景知識儲備量極大,它們能直接讀取 PDF 文獻(xiàn),然后代入數(shù)值計算。

      格雷格:有時候,這類測試最終變成了測試 “模型能否讀懂 PDF 文獻(xiàn)”。

      丹尼爾:沒錯。我的看法是,如果一個基準(zhǔn)測試的難度,僅限于人類幾小時內(nèi)能解決的問題,那它很快就會被模型吃透。人類幾小時能完成的工作,其實(shí)非常有限。

      格雷格:參與我們 “前沿數(shù)學(xué)” 四級測試命題的一位研究者說,他對自己出的題特別滿意,因?yàn)檫@道題是他被 “絆住” 后花了兩周時間研究出來的。他沒有直接用自己會解的題,而是給自己定了一個目標(biāo) ——“用這些方法設(shè)計一道題”,然后不斷探索,最終才有了這道題。

      丹尼爾:出題者投入的時間越長,題目質(zhì)量大概率也會越高。但這里還有一個陷阱:如果一個人刻意想設(shè)計一道難題,最終設(shè)計出的,往往是對他自己而言的難題。比如他會在自己不擅長的領(lǐng)域出題。

      格雷格:然后就會覺得所有內(nèi)容都是新的、有趣的、難的。

      丹尼爾:但對這個領(lǐng)域的專家而言,這道題可能很簡單。設(shè)計一道難題,卻不驗(yàn)證它的實(shí)際難度,最終做出的基準(zhǔn)測試,很容易就會被模型吃透。

      十一、開放式問題基準(zhǔn)測試的設(shè)計思路

      [01:33:05]

      格雷格:接下來聊聊我們正在設(shè)計的 “開放式問題” 基準(zhǔn)測試 —— 目前還只是暫定名。這個測試的核心目標(biāo),是選取目前人類還無法解決的數(shù)學(xué)開放式問題。同時我們還受限于 “自動驗(yàn)證” 的要求:即便目前人類不知道答案,一旦人工智能給出一個答案,我們需要能用程序驗(yàn)證這個答案是否正確。設(shè)計這個測試,也是為了避開 “無法評估問題實(shí)際難度” 的痛點(diǎn)。

      丹尼爾:很多開放式問題的研究,都受限于 “關(guān)注者過少”,所以這些問題的實(shí)際難度,可能并沒有看起來那么高。一個有效的辦法,是讓數(shù)學(xué)家來評估 “這道題是否難”,這樣能避免后續(xù)隨意抬高評價門檻。

      我很認(rèn)可這個項(xiàng)目的一點(diǎn)是:目前很多人工智能實(shí)驗(yàn)室都投入大量資源解決某個數(shù)學(xué)問題,只是為了對外宣稱 “我們解決了這個問題”。如果這些資源能被投入到人們真正關(guān)心的問題上,會是一件好事。有些實(shí)驗(yàn)室在做真正的科學(xué)研究,但有些實(shí)驗(yàn)室的主要工作,其實(shí)只是公關(guān)。

      格雷格:這個測試也能讓我們對一系列問題進(jìn)行 “預(yù)先登記”。當(dāng)某個實(shí)驗(yàn)室宣稱 “我們的模型解決了這個問題” 時,我們就能知道,這個成果的篩選有多刻意。

      丹尼爾:開放人工智能曾發(fā)表過一篇論文,他們梳理了一些學(xué)術(shù)會議的論文,從中挑選問題研究,我記得他們選了十個問題,最終解決了一個。這個數(shù)據(jù)能讓我們窺見一斑。我認(rèn)為這篇論文,并不能證明人工智能的數(shù)學(xué)能力在加速提升。而且和所有這類研究成果一樣,背后都存在各種復(fù)雜的影響因素。

      格雷格:沒錯。如果我們能讓數(shù)學(xué)家來評估 “這個問題是否有研究價值”,該如何量化這種評估?我們該用什么樣的標(biāo)準(zhǔn)?

      丹尼爾:或許可以讓數(shù)學(xué)家給出評級,比如 “有價值”、“非常有價值”、“極具價值”,也可以讓他們分析這個問題的研究意義。有時候,一個問題有研究價值,是因?yàn)樗茄芯康?“源頭”—— 解決它能推導(dǎo)出很多有意義的結(jié)論。我理解這個基準(zhǔn)測試,主要是尋找能被驗(yàn)證的構(gòu)造性問題。

      格雷格:我們并非只關(guān)注構(gòu)造性問題,但受限于 “自動驗(yàn)證” 的要求,選取的問題通常都是 “構(gòu)造一個數(shù)學(xué)對象” 這類問題。

      丹尼爾:有些構(gòu)造性問題的研究,確實(shí)能產(chǎn)生實(shí)質(zhì)性的研究成果;但有些構(gòu)造性問題,只是檢驗(yàn)理解程度的 “基準(zhǔn)”。比如歐拉冪和猜想,因?yàn)楸┝λ阉鞯姆椒ㄐ胁煌ǎ鉀Q這個問題的過程,就是檢驗(yàn)研究者理解程度的過程。要解決它,你必須想出一種巧妙的搜索方法,而這也意味著你已經(jīng)理解了相關(guān)的搜索空間。

      格雷格:這些作為 “理解基準(zhǔn)” 的構(gòu)造性問題,目前人類都無法解決,用它們來評估人工智能的理解能力,是否公平?

      丹尼爾:這取決于問題本身。有些問題的研究,只是受限于關(guān)注者過少。很多研究者尋找的數(shù)學(xué)構(gòu)造,目前的研究水平還停留在 “有人在周末用筆記本電腦做了一次簡單的搜索”。如果人工智能能找到一種更好的構(gòu)造方法,只能說明它做了一次嘗試,而人類之前從未嘗試過。這種成果顯然有價值,但我們很難判斷,這能反映出人工智能的什么能力。

      但也有一些問題,比如 M?? 單群的逆問題,我認(rèn)為如果能像曼哈頓計劃一樣集中資源研究,肯定能解決,它絕對在人類的能力范圍內(nèi),而且也確實(shí)有很多研究者嘗試過。

      格雷格:我們是否應(yīng)該將 “研究價值” 和 “難度” 作為兩個獨(dú)立的評估維度?

      丹尼爾:這絕對是兩個不同的維度,只是二者存在相關(guān)性,因?yàn)槿藗儠敢庋芯坑袃r值的問題,而那些有價值卻仍未被解決的問題,往往難度都很高。

      格雷格:我們之前聊過抬高評價門檻的問題。有些情況是,你原本以為某個問題不會用一種平庸的方法解決,但看到人工智能的解法后發(fā)現(xiàn),其中毫無新想法,完全就是硬算出來的。它確實(shí)證明了結(jié)論,但這個成果,對預(yù)測人工智能的能力發(fā)展,似乎毫無參考價值。我們該如何提前規(guī)避這種情況?

      丹尼爾:我想說明的是,如果人工智能解決的是一個并非因 “關(guān)注者過少” 而未解的開放式問題,即便證明過程只是硬算,這也依然有價值,我們不能說 “這個成果毫無意義”。硬算的能力,對數(shù)學(xué)家而言,本身就是一種重要的技能。

      格雷格:如果有能力的話,數(shù)學(xué)家自己也會這么做。

      丹尼爾:四色定理的證明,難道就沒人認(rèn)可嗎?確實(shí)有人質(zhì)疑,但我認(rèn)為這些質(zhì)疑是錯誤的。

      數(shù)學(xué)研究中,抬高評價門檻的現(xiàn)象由來已久。18、19 世紀(jì)的很多偉大數(shù)學(xué)家,都是計算高手,而他們當(dāng)時做的很多計算工作,現(xiàn)在一個八年級的學(xué)生用圖形計算器就能完成。我們本就是工具的使用者,使用工具解決問題,無可厚非。

      格雷格:用各種方法做有價值的數(shù)學(xué)研究,本就是公平的。但從能力預(yù)測的角度來看,如果我們發(fā)現(xiàn),人工智能解決某個問題的方法,和AlphaProof(阿爾法證明器)解決 2024 年國際數(shù)學(xué)奧林匹克競賽第六題的方法如出一轍 —— 都是平庸的硬算,這會讓人感到震驚。

      丹尼爾:有時候,一個問題在被解決之前,你永遠(yuǎn)不知道它其實(shí)很簡單,人類數(shù)學(xué)家也會遇到這種情況。去年,我和艾倫?蘭德斯曼(Aaron Landesman)解決了一個懸置了 40 年的開放式問題,但我們沒有把成果發(fā)表在《數(shù)學(xué)年刊》上,因?yàn)槭潞罂磥恚@個解法并沒有什么研究價值。這種情況很常見。

      或許我們可以這樣做:建立一套明確的標(biāo)準(zhǔn),判斷一個成果是否包含真正的新想法,也就是一套事后評估準(zhǔn)則。我們甚至可以等五年,看看有多少新的研究成果,是基于這個成果中的想法得出的。

      有限域上的相關(guān)猜想,其證明引入了多項(xiàng)式方法,而這個方法后來產(chǎn)生了巨大的影響,這篇論文也發(fā)表在了《數(shù)學(xué)年刊》上,從后續(xù)的研究成果來看,這個發(fā)表決定是完全合理的。但如果只是用硬算的方法解決了國際數(shù)學(xué)奧林匹克競賽的第六題,這個解法顯然無法衍生出任何新的研究成果。

      格雷格:我們一直在思考一種難度評估方法:統(tǒng)計有多少數(shù)學(xué)家為這個問題付出了努力,付出了多長時間,還可以考慮研究者的資歷。如果有 1 到 2 位青年數(shù)學(xué)家嘗試解決這個問題但失敗了,那么人工智能解決了它,對我們而言,算是多大的突破?

      丹尼爾:目前還不清楚,數(shù)學(xué)領(lǐng)域究竟還有多少容易解決的問題,有可能數(shù)量非常多。人工智能目前還沒有開始解決有價值的開放式問題,這或許能從側(cè)面說明,這類問題的數(shù)量并不多。但所有問題的研究,都受限于關(guān)注者過少。如果真的有大量容易解決的問題,那么人工智能的出現(xiàn),會帶來數(shù)學(xué)研究的巨大突破,基準(zhǔn)測試也會變得很簡單 —— 隨便拿一個開放式問題給它,最終都能被解決。

      另一方面,也有一些側(cè)面證據(jù)表明,并非所有問題的研究都受限于關(guān)注者過少,數(shù)學(xué)領(lǐng)域的 “低垂果實(shí)” 其實(shí)并不多。當(dāng)研究者真正投入精力研究一個問題時,要么能解決它,要么會發(fā)現(xiàn)它確實(shí)很難。

      格雷格:你為什么會有這樣的感受?

      丹尼爾:那些著名的未解猜想,證明過程卻非常簡短的,這樣的例子其實(shí)寥寥無幾。如果數(shù)學(xué)領(lǐng)域真的有大量容易解決卻未被解決的問題,我們應(yīng)該會經(jīng)常看到研究者發(fā)現(xiàn)并解決這類問題的案例。這種情況確實(shí)存在,但非常罕見。

      通常來說,一個重要猜想的解決,并非只引入一個簡單的新想法,而是會引入多個新想法,或者依賴于該領(lǐng)域的諸多其他研究進(jìn)展。你能從證明過程中,清晰地看到解決這個問題所需的各項(xiàng)突破。

      當(dāng)然,我們并非總能提前看到這些突破。有時候,你能證明一個結(jié)論,只是因?yàn)槟阈枰淖詈笠粋€中間結(jié)論,剛被其他人證明,恰好能用上;有時候,這個中間結(jié)論已經(jīng)發(fā)表在文獻(xiàn)中二十年了,只是你才發(fā)現(xiàn)。

      我們每個人都有過這樣的經(jīng)歷:看到一篇新發(fā)表的論文,會想 “哦,我早就知道這個核心想法了,要是我當(dāng)時能意識到它能解決這個問題就好了”。我最喜歡的一篇論文就是如此,它的核心想法,來自我?guī)啄昵霸跀?shù)學(xué)問答網(wǎng)站MathOverflow上提的一個問題的回答,我當(dāng)時看到這個回答時,腸子都悔青了。

      格雷格:對于這個開放式問題基準(zhǔn)測試,我們被一個硬性、惱人且不自然的條件束縛著 —— 自動驗(yàn)證,我們需要用計算機(jī)程序來判斷答案是否正確。這個條件的影響有多大?

      丹尼爾:理論上,這并不是一個限制。任何數(shù)學(xué)構(gòu)造,排除不完備性的問題,都可以附上一個能被驗(yàn)證的證明過程。但在實(shí)際操作中,這確實(shí)是一個實(shí)實(shí)在在的限制,因?yàn)槲覀兊馁Y源有限,無法讓研究者為所有問題編寫驗(yàn)證程序。

      格雷格:我們目前只能選取 “普通的計算機(jī)程序就能驗(yàn)證答案” 的問題。

      丹尼爾:所以第一個限制就是,很多數(shù)學(xué)領(lǐng)域和有價值的問題,都不屬于這類可被程序驗(yàn)證的問題。比如代數(shù)幾何的很多領(lǐng)域,就沒有這類問題,數(shù)論的一些領(lǐng)域也是如此,不過計算數(shù)論領(lǐng)域有很多漂亮的可驗(yàn)證問題。

      這個條件帶來的核心限制,其實(shí)是對問題研究價值的篩選。有些問題,比如反伽羅瓦問題,既需要構(gòu)造可驗(yàn)證的數(shù)學(xué)對象,也有很高的研究價值,但這類問題非常少見。大多數(shù)情況下,研究者需要構(gòu)造的是一系列無限的數(shù)學(xué)對象,而這類構(gòu)造的驗(yàn)證難度要大得多。

      格雷格:我發(fā)現(xiàn)有一類問題很適合這個測試 —— 零知識證明相關(guān)問題。比如需要構(gòu)造一個無限序列,我們不需要驗(yàn)證整個序列,只需要驗(yàn)證第 297 項(xiàng)即可。

      丹尼爾:這是一個非常好的思路,但很快就會遇到實(shí)際問題,除非驗(yàn)證的速度能極快。通常來說,我們最多也就驗(yàn)證前五項(xiàng)。即便是反伽羅瓦問題,我們可以提出驗(yàn)證要求,但大概率驗(yàn)證到前 3 到 4 項(xiàng)之后,就不具備實(shí)操性了。

      所以這個條件帶來的限制是非常大的。我們希望這個基準(zhǔn)測試中,構(gòu)造數(shù)學(xué)對象的能力,能成為人工智能理解能力或巧妙搜索能力的一個參考指標(biāo),但往往很難判斷這一點(diǎn)。有時候,我們有證據(jù)表明人類研究者嘗試過但失敗了,所以能確定,人類目前缺失了某種能力;但有時候,人類研究者已經(jīng)用一些巧妙的思路解決了類似的問題,而這個問題卻毫無進(jìn)展。

      格雷格:確實(shí)有一些問題,每一次新的構(gòu)造,都需要一個漂亮的新想法。如果人工智能能給出一個新的構(gòu)造,我們會希望背后也有一個漂亮的新想法支撐。

      我之前給你發(fā)過一份問題清單,我們的目標(biāo)是讓清單中的問題覆蓋不同的難度等級。在難度較低的一端,我們擔(dān)心的是,出題的博士后當(dāng)時可能狀態(tài)不好,出的題在某些方面,難度甚至不如國際數(shù)學(xué)奧林匹克競賽的第一題。不過我們可以用統(tǒng)計學(xué)的方法規(guī)避這個問題。我也很好奇難度較高的一端 —— 數(shù)學(xué)領(lǐng)域最有價值、最難的問題,往往抽象性也更高。

      丹尼爾:這可能涉及到莫拉維克(Moravec)悖論:數(shù)學(xué)問題的難度,一方面在于需要高強(qiáng)度的推理,另一方面在于需要掌握大量的專業(yè)術(shù)語,在腦海中構(gòu)建一套龐大的理論體系。

      代數(shù)幾何素來以難度高著稱,這很可能只是因?yàn)槿祟惐旧聿⒉簧瞄L這個領(lǐng)域,而且從事該領(lǐng)域研究的人類研究者本就很少。

      格雷格:沒錯,還是關(guān)注者過少的問題。對于我發(fā)給你的那份問題清單,你有沒有直觀的感受,哪些問題 “難度高得多,也更有研究價值”?

      丹尼爾:有幾個問題給我的印象很深。比如 M??單群的逆問題,我可以明確說,如果這個問題被解決,我會非常興奮。我認(rèn)為集中資源研究的話,人類能解決這個問題,而它的解決,也會是一件大事。無論是人類還是人工智能解決了它,我都會無比興奮。

      還有一些關(guān)于無理性的問題。70 年代末,阿佩里(Apéry)證明了黎曼澤塔zeta函數(shù)ζ(3)是無理數(shù),也就是所有正整數(shù)的立方的倒數(shù)和是無理數(shù),這個證明堪稱神奇。他在一次會議上公布了這個證明,當(dāng)時所有人都不敢相信,直到大家回去驗(yàn)證后,才驚嘆于證明的精妙。后來研究者們發(fā)現(xiàn),這個證明與深奧的 G-函數(shù)理論相關(guān)。

      而相關(guān)的開放式問題是,尋找一系列整數(shù)或冪級數(shù),讓阿佩里的方法能應(yīng)用于其他有意義的常數(shù)。扎吉爾(Zagier)是一位非常資深的數(shù)學(xué)家,他做了大量的計算,試圖找到類似的序列,取得了一些小成果,找到了 6 到 7 個例子。

      格雷格:這些例子,都不是你之前認(rèn)為最有研究價值的那些常數(shù)吧?

      丹尼爾:近期,卡萊加里(Calegari)、季米特洛夫(Dimitrov)和唐云清在這個領(lǐng)域取得了新的進(jìn)展。他們沒有尋找新的序列,而是想出了新的方法,對阿佩里的通用方法進(jìn)行了漂亮的改進(jìn),讓這個方法能應(yīng)用于更廣泛的序列。我可以明確說,這個問題的難度很高,有很多研究者都為它付出了努力。

      十二、數(shù)學(xué)家會相信關(guān)于猜想的啟發(fā)式論證嗎?

      [01:56:35]

      格雷格:我們面臨的另一個挑戰(zhàn)是,希望選取的問題都是有解的。

      丹尼爾:你們想要選取的是有確定答案的問題,也就是正確的猜想。但要判斷一個猜想是否正確,本身就非常難,更不用說證明它了。

      格雷格:如果一個熟悉某領(lǐng)域的數(shù)學(xué)家告訴我們,他有 80% 的把握,這個問題會朝某個方向解決,只是他自己無法構(gòu)造出相關(guān)的數(shù)學(xué)對象,你會有多相信他的判斷?

      丹尼爾:比隨機(jī)猜測的準(zhǔn)確率高一點(diǎn),但高不了多少。數(shù)學(xué)家的觀點(diǎn)總是在變化。比如你清單中的一個問題:尋找秩至少為 30 的橢圓曲線。長期以來,這個領(lǐng)域的所有人都認(rèn)為,橢圓曲線的秩是無界的,但現(xiàn)在,大部分研究者認(rèn)為,橢圓曲線的秩是有界的。

      格雷格:真的嗎?

      丹尼爾:近期有不少啟發(fā)式的研究支持這個觀點(diǎn),不過也有一些研究者對此表示懷疑。人們對猜想正確性的判斷一直在變,比如霍奇猜想,大部分代數(shù)幾何學(xué)家認(rèn)為它是正確的,但也有很多人持反對意見。

      格雷格:有些情況下,研究者已經(jīng)證明了某種數(shù)學(xué)構(gòu)造是存在的,但就是無法具體構(gòu)造出來。

      丹尼爾:我其實(shí)很喜歡這類問題。比如用概率方法得出的拉姆齊數(shù)(Ramsey numbers)的界,研究者已經(jīng)證明了這個界的存在,而相關(guān)的開放式問題,就是尋找具體的構(gòu)造。我目前正在研究的一個問題,也屬于這類:塞爾(Serre)提出,需要為一些用非構(gòu)造性方法證明存在的數(shù)學(xué)對象,找到具體的構(gòu)造,而我正在做這項(xiàng)工作。構(gòu)造性的證明和非構(gòu)造性的證明,有著天壤之別,構(gòu)造性的證明能讓你獲得更多的洞見。

      安森:有哪些經(jīng)典的啟發(fā)式論證,或是這類論證的典型例子,能讓研究者在沒有完整證明的情況下,改變對猜想的判斷?

      丹尼爾:數(shù)論領(lǐng)域,用隨機(jī)模型研究數(shù)論對象的做法,由來已久。比如,我們可以認(rèn)為素數(shù)的分布,類似于滿足某些性質(zhì)的隨機(jī)整數(shù)集合,然后構(gòu)造一個滿足這些性質(zhì)的隨機(jī)序列,研究這個序列幾乎必然具備的性質(zhì),進(jìn)而猜測素數(shù)也具備這些性質(zhì)。

      研究橢圓曲線時,我們也會先梳理出它的所有性質(zhì),構(gòu)造一個滿足這些性質(zhì)的隨機(jī)模型,再猜測橢圓曲線的性質(zhì)。一個最基礎(chǔ)的例子:某個幾何或數(shù)論問題中,出現(xiàn)了一個 n 階方陣,我們可以假設(shè)這個方陣的行為,和一個隨機(jī)的 n 階方陣一致。

      梅蘭妮?馬切特?伍德(Melanie Matchett Wood)和她的合作者做了一項(xiàng)漂亮的研究,他們研究了整數(shù)隨機(jī)矩陣,并基于此對橢圓曲線及相關(guān)數(shù)論對象做出了預(yù)測。這項(xiàng)研究背后有定理支撐 —— 該定理指出,滿足 x、y、z 性質(zhì)的隨機(jī)對象,會具備某類特定性質(zhì)。

      一個經(jīng)典的例子是數(shù)域的類群,我們假設(shè)它的行為,和按照某種分布生成的隨機(jī)交換群一致,進(jìn)而猜測,如果按照某種自然的順序羅列數(shù)域,那么滿足 X、Y、Z 性質(zhì)的數(shù)域的比例,和滿足這些性質(zhì)的隨機(jī)交換群的比例一致。這就是科恩 - 倫斯特拉(Cohen-Lenstra)啟發(fā)式,它也是目前數(shù)論和算術(shù)統(tǒng)計領(lǐng)域的重要研究動力。

      十三:如果人工智能攻克了 “Frontier Math前沿數(shù)學(xué):開放式問題” 基準(zhǔn)測試會怎樣?

      [2:01:24]

      格雷格:如果人工智能徹底碾壓了這個基準(zhǔn)測試,解決了我們討論的這類問題,那我們所處的世界,會變成什么樣?

      丹尼爾:我會感到無比興奮。可以想見,人工智能找到這些數(shù)學(xué)構(gòu)造的方法,至少在很大程度上,會是有研究價值的。

      有一個值得思考的問題:人工智能解決這類構(gòu)造性問題的能力,與它的其他能力之間,存在怎樣的相關(guān)性?構(gòu)造性問題有明確的獎勵信號,我們可以針對性地訓(xùn)練模型,讓它專注于解決這類問題,但很難說這個獎勵信號,是否能讓模型的能力遷移到證明類問題上。當(dāng)然,證明類問題的答案,也是可以被驗(yàn)證的。

      格雷格:但或許需要等驗(yàn)證的體系更加完善后,再針對證明類問題訓(xùn)練模型。

      丹尼爾:對我而言,關(guān)于人工智能數(shù)學(xué)能力未來發(fā)展的一個核心問題,是模型的能力遷移性有多強(qiáng)。如果每發(fā)現(xiàn)或發(fā)明一個新的數(shù)學(xué)對象,都需要從頭訓(xùn)練一個新的模型,那么人工智能的發(fā)展,會和模型能快速掌握新對象并展開研究的情況,截然不同。

      甚至可以說,模型在代數(shù)幾何領(lǐng)域的通用知識和能力,能否遷移到 “代數(shù)幾何 + 微小拓展” 的領(lǐng)域,都是一個問題。過去十年,數(shù)學(xué)家提出了十種關(guān)于 “空間” 的新定義,而人工智能面臨的問題,甚至不只是持續(xù)學(xué)習(xí) —— 即便模型能學(xué)習(xí)這些新定義,它是否能像人類一樣,具備運(yùn)用這些定義開展研究的能力,還是一個未知數(shù)。

      我們現(xiàn)在討論的,是一個特殊情況:模型非常擅長構(gòu)造可驗(yàn)證的數(shù)學(xué)對象。但這種能力,與更廣泛的數(shù)學(xué)研究能力之間的相關(guān)性,仍未可知。但可以肯定的是,這種能力的出現(xiàn),會是一個劃時代的突破。

      格雷格:至少在數(shù)學(xué)領(lǐng)域,絕對是劃時代的。而對于人工智能的整體能力而言,這取決于模型的能力遷移性如何。它的能力可能非常狹窄,就像我們通過不斷優(yōu)化,讓人工智能在棋牌游戲中取勝一樣。

      丹尼爾:目前,AlphaEvolve(阿爾法進(jìn)化)已經(jīng)能做出一些數(shù)學(xué)構(gòu)造了,雖然它還無法完成有價值的證明,但已經(jīng)能做出有意義的構(gòu)造。

      格雷格:你在推特上明確表示過,AlphaEvolve做出的構(gòu)造,研究價值有限。

      丹尼爾:這些構(gòu)造的研究價值,主要在于它們是由自動化系統(tǒng)完成的。但我們可以想象,未來的迭代版本,能做出本身就具備重要獨(dú)立研究價值的構(gòu)造。

      格雷格:最后一個我真正關(guān)心的問題:人工智能的這種能力,不僅能遷移到數(shù)學(xué)的其他領(lǐng)域,還能遷移到其他科學(xué)領(lǐng)域、研發(fā)領(lǐng)域嗎?如果未來人工智能能持續(xù)解決有價值的數(shù)學(xué)問題,而且并非依靠AlphaProof(阿爾法證明器)這類高度專業(yè)化的方法,這會對其他科學(xué)研究、人工智能自身的研發(fā),帶來什么影響?

      丹尼爾:我的看法是,目前人工智能無法自主開展高質(zhì)量數(shù)學(xué)研究的核心障礙,和它無法完成任何有經(jīng)濟(jì)價值的工作的障礙,是一致的:有時候需要創(chuàng)新能力,需要適應(yīng)新的方法,需要學(xué)習(xí)新的知識,需要為一項(xiàng)工作投入大量的時間,而這些,都是目前的人工智能系統(tǒng)難以做到的。

      我認(rèn)為,如果這些障礙被攻克,模型會成為非常優(yōu)秀的數(shù)學(xué)研究者,而攻克這些障礙,也是模型具備高水平數(shù)學(xué)研究能力的必要條件。

      格雷格:有一個問題:是否存在一種特殊的要素,讓數(shù)學(xué)研究的難度獨(dú)樹一幟,以至于數(shù)學(xué)成為人工智能邁向具有社會變革意義的通用智能過程中,最后被攻克的領(lǐng)域之一?

      丹尼爾:我認(rèn)為這種可能性非常小。我們很難說清,開展高質(zhì)量的數(shù)學(xué)研究,究竟需要哪些能力,這本身就是一個需要內(nèi)省的問題。但有證據(jù)表明,它需要創(chuàng)新能力,需要長期投入的毅力。

      當(dāng)然,也有可能事實(shí)并非如此,如果是這樣,那么數(shù)學(xué)領(lǐng)域的發(fā)展,可能會領(lǐng)先于其他領(lǐng)域。但我認(rèn)為,數(shù)學(xué)研究并不存在什么特殊的 “獨(dú)門要素”,我的研究工作,和其他人的工作,本質(zhì)上并沒有太大區(qū)別。當(dāng)然,我會花更多的時間躺在沙發(fā)上,盯著墻,單純地思考問題,但這些工作所需的核心能力,和其他任何有經(jīng)濟(jì)價值的工作,其實(shí)都是相通的。

      十四、人工智能即將推動數(shù)學(xué)研究加速發(fā)展嗎?

      [02:06:53]

      格雷格:還有哪些問題,是我們應(yīng)該問但還沒問的?

      丹尼爾:我想再多說一點(diǎn):這一切的核心,其實(shí)是開展不同數(shù)學(xué)研究活動的邊際成本。我認(rèn)為人工智能會帶來重大影響的領(lǐng)域,是讓 “嘗試解決一個問題” 的邊際成本變得極低。

      很多猜想的研究,都存在這樣的情況:你其實(shí)應(yīng)該寫一個計算機(jī)程序,做一些計算驗(yàn)證,但你只是懶得做。解決這類猜想,并不需要能力多強(qiáng)的人工智能系統(tǒng),而我們已經(jīng)看到,很多這類猜想正在被人工智能解決。我認(rèn)為這是一件意義重大的事。

      格雷格:這會讓數(shù)學(xué)研究的發(fā)展速度,提升多少?

      丹尼爾:我并不認(rèn)為這會帶來多大的 “加速”,數(shù)學(xué)研究本身存在一種 “成本”—— 你必須動手嘗試,而降低這種成本,本身就有重要意義,即便研究的核心瓶頸并不在此。

      數(shù)學(xué)研究的核心障礙,始終是:你需要有一個好的想法。大多數(shù)人一年也就只有幾個好想法,我目前還不清楚,人工智能能在多大程度上幫助人類產(chǎn)生好想法。但有時候,研究并不需要好想法,只需要坐下來,硬算完成即可。而判斷一個問題是否需要好想法,本身就是一種非常重要的能力。

      即便人工智能的能力不再提升,數(shù)學(xué)研究中的很多摩擦和阻礙,也會逐漸消失,而這,也是我認(rèn)為人工智能會帶來最多進(jìn)展的領(lǐng)域。

      格雷格:也就是說,你認(rèn)為人工智能目前給數(shù)學(xué)研究帶來的影響,并非讓研究速度出現(xiàn)突破性的提升,而是消除了研究中的諸多阻礙,這是你理解人工智能對數(shù)學(xué)研究當(dāng)下價值的核心視角。

      丹尼爾:說到 “加速發(fā)展”,我非常希望能找到一種方法,將這個概念量化,真正去評估:我們是否真的在經(jīng)歷數(shù)學(xué)研究的加速發(fā)展?人類歷史上,是否出現(xiàn)過這樣的加速?隨著時間的推移,數(shù)學(xué)家的人均研究產(chǎn)出,是否有所提升?即便有了這么多新工具,這個問題的答案,對我而言依然不明確。該如何量化這個問題?我們可以看引用量,但這是一個非常糟糕的參考指標(biāo),而且它還和人口數(shù)量高度相關(guān)。

      格雷格:在我們結(jié)束訪談之前,未來幾個月,有哪些事是你比較期待的?

      丹尼爾:八月份的時候,我還說過,“以人工智能目前的能力,還沒有解決很多稍有研究價值的猜想,這一點(diǎn)很奇怪”。而現(xiàn)在,我認(rèn)為這類猜想的解決,已經(jīng)開始出現(xiàn)了。

      未來一年內(nèi),會有更多這樣的猜想被解決 —— 這些問題沒人真正深入研究過,只是研究者隨手寫下的問題,但依然有一定的研究價值,而人工智能會自主解決它們。我認(rèn)為這種情況的可能性非常大。

      格雷格:未來我們肯定會有很多機(jī)會,推出緊急播客來解讀這些成果。大家可以關(guān)注丹尼爾的推特,這里絕對是了解人工智能與數(shù)學(xué)研究相關(guān)資訊的優(yōu)質(zhì)平臺。非常感謝你接受我們的訪談。

      丹尼爾:也非常感謝你們的邀請,能參加這次訪談,我很開心。

      格雷格:非常愉快的交流。

      原文參考資料:

      歐拉冪和猜想:

      蘭德與帕金(Lander & Parkin,1966 年,首個反例)https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf

      埃爾基斯(Elkies,1988 年,四次冪情形)https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf

      埃斯諾爾特與格羅申尼希(Esnault & Groechenig,相伴理論與朗蘭茲綱領(lǐng))https://arxiv.org/abs/1707.00752

      德利涅(Deligne)對韋伊猜想的證明(1974 年)http://www.numdam.org/item/PMIHES_1974__43__273_0/

      澤塔ζ函數(shù)值的無理性:

      阿佩里(Apéry)的證明(1978-1979 年)http://www.numdam.org/item/AST_1979__61__11_0/

      范德普滕(Van der Poorten)的闡釋https://doi.org/10.1007/BF03028234

      扎吉爾(Zagier)的計算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf

      卡萊加里 - 季米特洛夫 - 唐云清(Calegari-Dimitrov-Tang)的近期進(jìn)展https://arxiv.org/abs/2408.15403

      數(shù)論中的隨機(jī)模型:

      梅蘭妮?馬切特?伍德(Melanie Matchett Wood)關(guān)于隨機(jī)矩陣的研究https://doi.org/10.1353/ajm.2019.0008

      科恩 - 倫斯特拉(Cohen-Lenstra)啟發(fā)式https://doi.org/10.1007/BFb0099440

      提及的千禧年大獎難題:

      黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/

      霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/

      貝赫和斯維訥通 - 戴爾(BSD)猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/

      納維 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/

      前沿數(shù)學(xué):開放式問題基準(zhǔn)測試 https://epoch.ai/frontiermath/open-problems

      參考資料

      https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time

      小樂數(shù)學(xué)科普近期文章

      ·開放 · 友好 · 多元 · 普適 · 守拙·

      讓數(shù)學(xué)

      更加

      易學(xué)易練

      易教易研

      易賞易玩

      易見易得

      易傳易及

      歡迎評論、點(diǎn)贊、在看、在聽

      收藏、分享、轉(zhuǎn)載、投稿

      查看原始文章出處

      點(diǎn)擊zzllrr小樂

      公眾號主頁

      右上角

      置頂加星

      數(shù)學(xué)科普不迷路!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

      哈梅內(nèi)伊的最后一課:給所有掌權(quán)者的八條警示

      迷世書童H9527
      2026-03-01 16:03:12
      重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

      重大進(jìn)展!伊朗作出“前所未有”承諾:同意永遠(yuǎn)不擁有可制造核武器的核材料,將實(shí)現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

      每日經(jīng)濟(jì)新聞
      2026-02-28 10:40:45
      伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

      伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

      軍機(jī)Talk
      2026-03-02 09:50:33
      實(shí)錘水貨!熱刺6500萬歐標(biāo)王21場僅貢獻(xiàn)1球,真是拉胯至極!

      實(shí)錘水貨!熱刺6500萬歐標(biāo)王21場僅貢獻(xiàn)1球,真是拉胯至極!

      田先生籃球
      2026-03-02 15:19:00
      研究警告:越來越多家庭因吃它中毒!冰箱里這類肉別超3個月!

      研究警告:越來越多家庭因吃它中毒!冰箱里這類肉別超3個月!

      全球軍事記
      2026-02-28 10:12:38
      爆:工信部副部長,“空降”通信央企董事長!

      爆:工信部副部長,“空降”通信央企董事長!

      通信頭條
      2026-03-02 21:06:39
      內(nèi)卷之風(fēng)吹到水果罐頭!有廠家設(shè)計玻璃把手并贈濾網(wǎng),可當(dāng)茶杯用

      內(nèi)卷之風(fēng)吹到水果罐頭!有廠家設(shè)計玻璃把手并贈濾網(wǎng),可當(dāng)茶杯用

      火山詩話
      2026-03-03 06:00:32
      10球慘案!巴西1:4+0:6遭阿根廷雙殺,安切洛蒂帥位承壓

      10球慘案!巴西1:4+0:6遭阿根廷雙殺,安切洛蒂帥位承壓

      阿晞體育
      2026-03-02 20:47:14
      伊朗前總統(tǒng)內(nèi)賈德親信稱其平安

      伊朗前總統(tǒng)內(nèi)賈德親信稱其平安

      界面新聞
      2026-03-02 11:52:29
      蘋果發(fā)布新款 iPad Air,內(nèi)在變了!

      蘋果發(fā)布新款 iPad Air,內(nèi)在變了!

      花果科技
      2026-03-02 23:15:38
      蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      抽象派大師
      2026-03-03 03:37:08
      美專家急喊中國停手,自己壟斷技術(shù)60年卻不讓中國碰

      美專家急喊中國停手,自己壟斷技術(shù)60年卻不讓中國碰

      書寫傳奇
      2026-03-02 23:28:24
      請假2小時被開除后續(xù):女孩改口道歉,官方介入,店主或麻煩大

      請假2小時被開除后續(xù):女孩改口道歉,官方介入,店主或麻煩大

      社會日日鮮
      2026-03-02 20:25:30
      8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

      8歲男孩確診結(jié)腸癌:他吃的不是零食,是命

      消化石醫(yī)生
      2026-02-27 07:02:22
      上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

      上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

      靜若梨花
      2026-03-01 16:25:46
      國家動真格了!不到48小時,4大名人禁言被封,沒有一個值得同情

      國家動真格了!不到48小時,4大名人禁言被封,沒有一個值得同情

      社會日日鮮
      2026-03-03 05:19:50
      馬斯克變性女兒亮相米蘭時裝周,姿勢怪異男相明顯,堪稱辣眼睛

      馬斯克變性女兒亮相米蘭時裝周,姿勢怪異男相明顯,堪稱辣眼睛

      電影偵探社
      2026-03-01 16:36:05
      蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

      蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

      談史論天地
      2026-02-28 13:35:18
      2026元宵遇罕見紅月!老祖宗傳下4大禁忌,別不當(dāng)回事!

      2026元宵遇罕見紅月!老祖宗傳下4大禁忌,別不當(dāng)回事!

      老特有話說
      2026-02-27 16:55:35
      熬了800多天,從660萬降到345.8萬!深圳一業(yè)主賣房經(jīng)歷引關(guān)注

      熬了800多天,從660萬降到345.8萬!深圳一業(yè)主賣房經(jīng)歷引關(guān)注

      火山詩話
      2026-03-02 06:08:24
      2026-03-03 07:04:49
      小樂數(shù)學(xué)科普 incentive-icons
      小樂數(shù)學(xué)科普
      zzllrr小樂,小樂數(shù)學(xué)科普,讓前沿數(shù)學(xué)流行起來~
      251文章數(shù) 7關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果中國官網(wǎng)上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運(yùn)

      體育要聞

      “想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經(jīng)要聞

      油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

      態(tài)度原創(chuàng)

      本地
      健康
      時尚
      旅游
      公開課

      本地新聞

      津南好·四時總相宜

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      今年春天一定要擁有的4件衣服,太好看了!

      旅游要聞

      尋禮曲阜感受年味(新春走基層)

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版