網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

論數(shù)學(xué)超級智能

2026-02-11 22:29:47　來源: CreateAMind

上海舉報

分享至

論數(shù)學(xué)超級智能

On mathematical superintelligence

https://kylersiegel.xyz/essay_intro_only.pdf

摘要

在本文中，我們考慮了人工智能具備超人類數(shù)學(xué)推理能力的近未來可能性，并嘗試詳細(xì)闡述其對數(shù)學(xué)研究事業(yè)的一些影響。我們發(fā)現(xiàn)，將我們所設(shè)想的未來劃分為三個不同的"時代"是有用的。在時代I（可以說已經(jīng)在進(jìn)行中），人工智能成為人類數(shù)學(xué)家的強(qiáng)大生產(chǎn)力助推器，有可能迎來一個發(fā)現(xiàn)和創(chuàng)造性實(shí)現(xiàn)的新黃金時代，盡管有許多陷阱必須小心規(guī)避。在時代II，人工智能開始逐步承擔(dān)越來越多的技術(shù)性繁重工作，而人類數(shù)學(xué)家則從事高級提示工程（或"氛圍數(shù)學(xué)"），人機(jī)結(jié)合的系統(tǒng)總體上比單獨(dú)的人類或人工智能更有效。在時代III，人工智能達(dá)到一種主導(dǎo)地位，使得人類數(shù)學(xué)家無法再對數(shù)學(xué)發(fā)現(xiàn)過程做出實(shí)質(zhì)性貢獻(xiàn)，視角轉(zhuǎn)而朝著欣賞、批判、個人充實(shí)等方向轉(zhuǎn)變。我們以詳細(xì)說明在當(dāng)前時刻進(jìn)行這一思想實(shí)驗(yàn)的背景和動機(jī)開始本文，并以一些關(guān)于數(shù)學(xué)家如何積極影響其事業(yè)未來的反思作為結(jié)尾。為了保持范圍可控且集中，我們選擇避免（盡管這有些不自然）討論超人類人工智能更廣泛的社會或存在性影響。

1 引言

1.1 序曲

我們從2014年11月在斯坦福大學(xué)舉行的2015年突破獎小組討論的一段簡短摘錄開始，這次討論在杰出獲獎?wù)進(jìn)axim Kontsevich、Yuri Milner、陶哲軒、Richard Taylor和主持人Yuri Milnor之間展開。

2015年突破獎小組討論摘錄（高度意譯）：

Yuri Milner：你們中有人能想象計(jì)算機(jī)在數(shù)學(xué)上超越人類嗎，就像它們在象棋上做到的那樣，在一百年或者也許一千年后？

Terry Tao：嗯，計(jì)算機(jī)可以像一個非常強(qiáng)大的搜索引擎那樣運(yùn)作，但人類仍將主導(dǎo)全局，我相當(dāng)確定。

Maxim Kontsevich：實(shí)際上，我認(rèn)為創(chuàng)造人工智能并沒有那么難。我覺得我們很快就會擁有它（小組發(fā)出緊張的笑聲）。

Yuri Milner：你在這里有點(diǎn)唱反調(diào)，說它會這么快發(fā)生。是什么讓你如此樂觀？

Maxim Kontsevich：實(shí)際上是悲觀（更多緊張的笑聲）。我自己稍微思考過這個問題，我沒有看到任何根本性的困難。

Yuri Milner：那你為什么不直接研究那個呢？

Maxim Kontsevich：我認(rèn)為那是不道德的（更多緊張的笑聲）。

Richard Taylor：但是計(jì)算機(jī)下象棋的方式不就是一個大規(guī)模的組合檢查嗎？如果看到計(jì)算機(jī)在我們有生之年贏得菲爾茲獎，我會非常驚訝。

Terry Tao：嗯，我認(rèn)為計(jì)算機(jī)可能僅僅通過暴力搜索就能發(fā)現(xiàn)數(shù)學(xué)兩個領(lǐng)域之間的聯(lián)系，然后使用計(jì)算機(jī)的人實(shí)際上可以將其充實(shí)完善，也許還能獲得獎牌。

Yuri Milner：那么雅各布，你對馬克西姆所說的感到害怕嗎？

Jacob Lurie：我不太擔(dān)心……

1.2 本文是關(guān)于什么的？

簡而言之，我們在此的目標(biāo)是記錄一些關(guān)于數(shù)學(xué)研究未來的想法和推測，鑒于人工智能最近迅速展開的進(jìn)展。

1.3 "數(shù)學(xué)研究"是什么意思？

要準(zhǔn)確表述什么是數(shù)學(xué)研究，甚至向沒有親身參與過的人傳達(dá)它在實(shí)踐中的樣子，可能有點(diǎn)棘手。非常粗略地說，我們所想的僅僅是那些通常由"研究數(shù)學(xué)家"進(jìn)行的活動，他們主要存在于世界各地的大學(xué)中，擔(dān)任教授、博士后和研究生（有時是本科生或更年輕的學(xué)生），并花費(fèi)大量時間嘗試做以下事情：

? 證明新定理，或?yàn)榕f定理提供新的見解 ? 發(fā)現(xiàn)新的引人注目的數(shù)學(xué)對象（例如定義、公式、算法等） ? 在重要問題上取得進(jìn)展（即使是適度的），或開辟新的有前景的方向 ? 通過各種渠道傳播這些工作的成果（例如期刊文章和預(yù)印本服務(wù)器、會議和研討會報告、教科書、博客文章等）。

我們不會試圖在這里給出更精確的定義，部分是因?yàn)檫@會讓我們離題太遠(yuǎn)，值得在其他地方進(jìn)行更深思熟慮的處理，主要是因?yàn)闉榱藗鬟_(dá)我們的主要觀點(diǎn)，這并不需要。事實(shí)上，我們預(yù)計(jì)這里涉及的許多問題在很大程度上與其他科學(xué)研究領(lǐng)域以及更廣泛的人類體驗(yàn)相關(guān)，但為了具體性和保持范圍可控（并且更接近作者的經(jīng)驗(yàn)領(lǐng)域），我們將嘗試主要維持這一較窄的焦點(diǎn)。

1.4 數(shù)學(xué)研究是否有其特殊之處？

如上所述，本文所探討的諸多問題具有相當(dāng)?shù)膹V泛性，很可能適用于在快速進(jìn)步的人工智能影響下的各類人類活動。就此而言，我們鼓勵讀者將本文視為一種混合型的案例研究／思想實(shí)驗(yàn)。話雖如此，仍值得思考：就人工智能而言，數(shù)學(xué)研究是否存在某些獨(dú)特方面，使其區(qū)別于其他活動？以下是數(shù)學(xué)研究的幾個似乎值得強(qiáng)調(diào)的突出特征：

(1) 嚴(yán)謹(jǐn)性（rigor）：具備達(dá)到極高嚴(yán)謹(jǐn)程度的潛力，既包括傳統(tǒng)數(shù)學(xué)意義上的嚴(yán)謹(jǐn)，也包括現(xiàn)代意義上的形式化驗(yàn)證（參見§2.1g）；

(2) 低門檻（entry）：原則上無需依賴任何強(qiáng)大的物理、財務(wù)或社會資源（例如硬件或?qū)嶒?yàn)室設(shè)備、專有數(shù)據(jù)集等）；

(3) 安全性（safety）：不存在明顯的直接安全風(fēng)險（例如傷害性事故、實(shí)驗(yàn)室泄漏、環(huán)境破壞等）；

(4) 純粹性（purity）：在一種智識上潔凈的環(huán)境中進(jìn)行，免受紛繁復(fù)雜的現(xiàn)實(shí)世界干擾（例如社會動態(tài)、人類心理、不可預(yù)測的政治局勢、天氣模式等）。

以下我們對這些特征的意義作幾點(diǎn)初步評論。

關(guān)于(1)，人們自然會思考：嚴(yán)謹(jǐn)性是否可能成為緩解當(dāng)代隨機(jī)性人工智能系統(tǒng)（如大型語言模型）在可靠性與可信度方面棘手問題的有用工具。

關(guān)于(2)，需補(bǔ)充說明的是，這種看似較低的進(jìn)入門檻或許僅在表層成立，因?yàn)槔缫粋€人所受教育的環(huán)境通常被認(rèn)為對成功至關(guān)重要，更不用說能夠?qū)r間與精力專注于抽象研究所需的各種財務(wù)與社會前提條件。此外，如果計(jì)算能力及其他資源成為推動數(shù)學(xué)進(jìn)步的核心因素（參見§2.2i），情況可能會發(fā)生劇變。

關(guān)于(3)，我們注意到，表面上缺乏安全顧慮可能變得相當(dāng)重要——倘若這些顧慮在其他領(lǐng)域成為主要摩擦來源，并伴隨各種相關(guān)的下游效應(yīng)，例如官僚主義的繁文縟節(jié)。需說明的是，我們在此回避圍繞先進(jìn)人工智能發(fā)展所產(chǎn)生的任何大規(guī)模一般性安全問題，因?yàn)檫@些已超出本文范圍（參見§1.9）。

最后，關(guān)于(4)，我們指出，數(shù)學(xué)研究對當(dāng)前人工智能開發(fā)者而言可能尤其具有吸引力，部分原因在于它天然提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)，以及清晰客觀的正確性標(biāo)準(zhǔn)（盡管在更長的時間尺度上衡量進(jìn)展可能要主觀或模糊得多）。

1.5 為何此時撰寫這一主題？

撰寫本文時的主要相關(guān)背景是：大型語言模型（如 ChatGPT、Gemini、Claude、DeepSeek 等）的數(shù)學(xué)能力在過去幾年中迅速提升，人們對這些系統(tǒng)及其能力的認(rèn)知亦隨之顯著增強(qiáng)。事實(shí)上，在 2022 年底 ChatGPT 發(fā)布之前，極少有數(shù)學(xué)家在數(shù)學(xué)研究的語境下關(guān)注、感興趣或擔(dān)憂人工智能。如今，不到三年時間，大多數(shù)數(shù)學(xué)家都已或多或少接觸過這些系統(tǒng)，并開始更認(rèn)真地對待它們的數(shù)學(xué)能力。盡管如此，關(guān)于這些系統(tǒng)究竟已取得多大進(jìn)展、在何種程度上展現(xiàn)出“真正的理解”、以及未來幾年可能進(jìn)一步發(fā)展到何種地步等問題，學(xué)界觀點(diǎn)仍存在顯著的分歧。

在探討這種觀點(diǎn)分歧之前，讓我們通過列舉幾項(xiàng)與數(shù)學(xué)研究尤為相關(guān)的新近發(fā)展來進(jìn)一步鋪墊背景：

? 推理型語言模型的問世，始于 OpenAI 于 2024 年推出的 o1 模型，隨后 OpenAI 的 o3、DeepSeek 的 R1 等模型相繼推出。這些模型在推理階段通過調(diào)用額外的時間與計(jì)算資源進(jìn)行“思考”，專為解決數(shù)學(xué)問題等多步驟推理任務(wù)而設(shè)計(jì)；

? 至少有兩個分別由 Google DeepMind 與 OpenAI 開發(fā)的 AI 模型，在 2025 年國際數(shù)學(xué)奧林匹克競賽（IMO）中取得了金牌分?jǐn)?shù)（參見 [CS25]），均解答出六道題中的五道，成績超過除 26 名人類高中生參賽者之外的所有選手（注：Google 的“Deep Think”數(shù)學(xué)模型目前已面向每月 250 美元的 Google AI Ultra 計(jì)劃訂閱用戶開放）；

? 高階數(shù)學(xué) AI 基準(zhǔn)測試的推出，例如 [Gla+24; Stu25; Sch+25]。以 FrontierMath Tier IV 為例，該基準(zhǔn)包含由專業(yè)數(shù)學(xué)家在其專長領(lǐng)域撰寫的、涉及研究級概念的極具挑戰(zhàn)性的問題；截至 2025 年 10 月，48 道題中已有 9 道曾被至少一個 AI 模型解答（另見 [Aso25]）；

? 關(guān)于數(shù)學(xué)研究未來的討論持續(xù)升溫，形式包括文章（如 [Ven; He24; Har24; Cep; Avi25; Sev24; Hen25]）與研討會（如 [UCI25; Lor25; KIAS25; Sim25; ICML25; Aug25; JMM25]），更不用說大量錄制講座、社交媒體帖子等；

? 近期預(yù)印本逐漸涌現(xiàn)，例如 [Van25; DMN25; AM25; JR25; IX25]，其作者將部分或全部核心思想歸功于 ChatGPT 或其他 AI 模型（或與之的交互）；

? Google DeepMind 推出 AlphaEvolve [Nov+25; Geo+25]（目前已出現(xiàn)若干開源衍生版本，如 [Sha25; LIC25]），該系統(tǒng)將進(jìn)化算法與大型語言模型相結(jié)合，在算法空間中進(jìn)行優(yōu)化，在一系列構(gòu)造性數(shù)學(xué)問題上取得了新的最先進(jìn)成果（例如 4×4 矩陣乘法、圓堆積問題、“接吻數(shù)”問題等）；

? Lean 證明助手及其數(shù)學(xué)庫 mathlib 日益普及，同時存在多種持續(xù)進(jìn)行的嘗試，旨在將自然語言證明自動形式化為 Lean 代碼，或?qū)?Lean 證明“去形式化”還原為自然語言（參見 [Aze+23; Yan+23; Pol+22; Dee24]）；

? 越來越多的研究者運(yùn)用人工智能技術(shù)在純數(shù)學(xué)中生成新猜想或構(gòu)造（參見 [He+25; Dav+21; Cha+24; ACH24; Vel+24]）；

? DeepMind 近期宣布與五家頂尖數(shù)學(xué)研究機(jī)構(gòu)建立合作伙伴關(guān)系，以加速人工智能在數(shù)學(xué)研究中的發(fā)展 [KR25]，同時已知或傳聞中正有持續(xù)努力試圖攻克納維–斯托克斯方程等重大數(shù)學(xué)難題（參見 [Ans25]）。

對于密切關(guān)注這些動態(tài)的人而言，上述發(fā)展立即引發(fā)了一系列緊迫問題，包括：

? 人工智能在數(shù)學(xué)研究中的現(xiàn)狀究竟如何？它仍只是一種精巧的“客廳戲法”，抑或我們正見證一場真正變革的開端？面對層出不窮、快速迭代的各類模型，人們應(yīng)如何追蹤并區(qū)分炒作與現(xiàn)實(shí)？數(shù)學(xué)家在多大程度上已將這些工具整合進(jìn)其工作流程？

? 著眼于最近的里程碑或可合理推斷的近期未來，它們對今后數(shù)年的數(shù)學(xué)研究有何意涵？塵埃落定之后，研究圖景將發(fā)生劇變，抑或除增添若干精巧工具外基本維持原狀？是否仍有可能選擇退出，繼續(xù)從事數(shù)年前那種“老派”的數(shù)學(xué)研究？若該領(lǐng)域真被徹底革新，結(jié)果將是利大于弊，還是弊大于利？

? 我們能否對未來一至三年作出明確預(yù)測？AI 系統(tǒng)的數(shù)學(xué)能力是否會遭遇瓶頸并面臨收益遞減，抑或我們應(yīng)為更極端的發(fā)展做好準(zhǔn)備？我們是否有望在不太遙遠(yuǎn)的未來見證“數(shù)學(xué)超智能”的出現(xiàn)？若然，那將引領(lǐng)我們走向何方？

? 為何對于上述問題的答案，學(xué)界似乎鮮有共識？

1.6 什么是“數(shù)學(xué)超智能”？

在本文中，我們使用“數(shù)學(xué)（人工）超智能”（mathematical (artificial) superintelligence, MASI）這一術(shù)語，指代（某種意義上模糊地）任何能夠以實(shí)質(zhì)性且明確優(yōu)于人類的方式執(zhí)行數(shù)學(xué)（包括研究）所有方面的機(jī)器。需注意，我們不會在人類水平智能與超人類水平智能之間做過多區(qū)分，因?yàn)橐坏┤斯ぶ悄苓_(dá)到人類水平，很可能在不久后通過（若無其他因素干擾）處理能力的常規(guī)漸進(jìn)式提升而超越人類。然而，如后文將強(qiáng)調(diào)的，以下兩點(diǎn)存在重大且關(guān)鍵的區(qū)別：

(i) 無AI輔助時優(yōu)于人類數(shù)學(xué)家的人工智能；(ii) 即使在AI輔助下仍達(dá)到人類數(shù)學(xué)家水平的人工智能。

這兩者可分別稱為類型(i) 和類型(ii)數(shù)學(xué)超智能，并可概括為：

(i) 人類 < 無AI輔助的人工智能 < 人類+AI(ii) 人類 < 人工智能 = 人類+AI

粗略而言，在本文的敘事框架中，類型(i)數(shù)學(xué)超智能出現(xiàn)于下文所述的第二階段（見§3），類型(ii)則出現(xiàn)于第三階段（見§4）。初步而言，類型(i) MASI的存在意味著人工智能已成為數(shù)學(xué)家的關(guān)鍵工具，但人類仍在推動或有意義地貢獻(xiàn)數(shù)學(xué)研究；而類型(ii) MASI則意味著人類數(shù)學(xué)家已基本或完全過時。

同樣重要的是需認(rèn)識到：從類型(i)到類型(ii)數(shù)學(xué)超智能的過渡可能出人意料地漫長，即使人工智能持續(xù)以穩(wěn)定或指數(shù)級速度進(jìn)步。這是因?yàn)橹灰斯ぶ悄芘c人類智能的運(yùn)作方式存在本質(zhì)差異，人類仍可能以積極且非平凡的方式對其形成補(bǔ)充。在此情況下，人類數(shù)學(xué)家將自然聚焦于那些尚未被人工智能嚴(yán)格涵蓋的活動領(lǐng)域。就主觀體驗(yàn)而言，尚不清楚這片人類效用的剩余區(qū)域會像即將被海水淹沒的小島，還是會成為一片足夠廣闊的大陸，足以讓無數(shù)人類數(shù)學(xué)家持續(xù) productive 地占據(jù)其心智疆域。

1.7 數(shù)學(xué)家目前對這些問題持何種立場？

盡管數(shù)學(xué)家對上述問題的立場似乎呈現(xiàn)出廣泛光譜，但我們可以將其簡化為幾種寬泛的類型：

? 未參與者（the unengaged）：尚未密切關(guān)注數(shù)學(xué)人工智能的發(fā)展，原因可能是漠不關(guān)心、缺乏了解，或僅僅是時間與心智帶寬不足；

? 懷疑論者（the skeptic）：認(rèn)為關(guān)于當(dāng)前或未來AI能力的多數(shù)激進(jìn)主張純屬炒作，且AI在可預(yù)見的未來不會對數(shù)學(xué)研究產(chǎn)生戲劇性影響；

? 技術(shù)樂觀主義者（the techno-optimist）：對利用日益改進(jìn)的AI工具來極大增強(qiáng)其研究與生產(chǎn)力感到極為興奮，并熱衷于迅速將這些工具整合進(jìn)工作流程；

? 悲觀預(yù)言者（the doomsayer）：預(yù)期數(shù)學(xué)超智能已不遠(yuǎn)，且很可能使人類數(shù)學(xué)家基本過時。

當(dāng)然，這些類別并非完全互斥。例如，存在“持懷疑態(tài)度的悲觀預(yù)言者”——他們認(rèn)為當(dāng)前氛圍中炒作過度，但仍預(yù)期核心AI模型將持續(xù)改進(jìn)并產(chǎn)生深遠(yuǎn)影響。順便一提，至少就本文目的而言，我們應(yīng)聚焦于核心前沿AI模型的能力，盡量避免讓印象被潛在可疑的AI相關(guān)噪音所干擾（例如作者本地市場上售賣的AI篩選西瓜）。

公平地說，至少直到相當(dāng)近期，大多數(shù)數(shù)學(xué)家對AI影響數(shù)學(xué)研究的預(yù)測都頗為保守，即通常介于“未參與”與“懷疑”之間的某種組合，或許略帶謹(jǐn)慎的樂觀。特別是，對于未來幾年甚至幾十年內(nèi)出現(xiàn)超人類水平的數(shù)學(xué)人工智能這一前景，通常會被直接否定。同樣合理的是，倘若幾年前詢問大多數(shù)數(shù)學(xué)家，他們很可能會嚴(yán)重低估今日前沿AI模型的能力。

事實(shí)上，在§1.1所述的專題討論中，除康采維奇（Kontsevich）（他顯然是此處的異類）外，大多數(shù)與談?wù)邔⑾冗M(jìn)AI想象為一種擅長計(jì)算與搜索的蠻力機(jī)械式機(jī)器，但不具備自身創(chuàng)造力，更遑論取代人類在數(shù)學(xué)研究中的主導(dǎo)地位。即使在今天，數(shù)學(xué)家的典型立場仍是（或明或暗地）劃出一條AI永不可逾越的界線，例如：AI無法展現(xiàn)真正的理解、無法定義新的數(shù)學(xué)對象、或無法自主設(shè)計(jì)富有創(chuàng)造力的研究方向。自然，隨著最新技術(shù)進(jìn)步，許多此類界線已被周期性地重新劃定。

值得反思的是：為何數(shù)學(xué)家未能對其自身領(lǐng)域內(nèi)AI的進(jìn)步作出更激進(jìn)的預(yù)測？當(dāng)然，部分原因或許僅歸于在試圖過濾炒作的同時實(shí)時跟進(jìn)迅猛發(fā)展的固有困難。另有一種普遍假說（不限于數(shù)學(xué)領(lǐng)域）認(rèn)為：人類難以直覺把握指數(shù)級增長，往往高估技術(shù)的短期進(jìn)展卻低估其長期影響。當(dāng)然，這一論點(diǎn)頗具爭議——其極端支持者（如雷·庫茲韋爾 [Kur05]）預(yù)言即將到來的“技術(shù)奇點(diǎn)”，而另一些人則將其斥為科幻小說或逃避當(dāng)下緊迫世俗問題的借口。

與其涉入這一超出本文范圍的普遍議題，不如列舉幾種更特定于數(shù)學(xué)家的、常見的輕蔑態(tài)度，這些態(tài)度可能助長了前述的保守主義：

(1) 過于機(jī)械：將AI視為本質(zhì)上僅是遵循人類設(shè)計(jì)算法的蠻力機(jī)器，或許擅長計(jì)算或結(jié)構(gòu)化模式匹配，但無法展現(xiàn)真正的創(chuàng)造力或理解力；

(2) 過于冷僻：（略帶憤世嫉俗地認(rèn)為）數(shù)學(xué)研究過于冷僻，AI開發(fā)者不屑投入精力；

(3) 過于不可靠：指出AI模型表現(xiàn)不佳或不可靠的實(shí)例，并以此作為整個前提根本錯誤的證據(jù)；

(4) 通用智能前提：預(yù)設(shè)擅長高等數(shù)學(xué)的AI必然具備廣泛的通用智能，而此類智能的存在將引發(fā)社會的深刻變革，以至于思慮數(shù)學(xué)研究這類小眾領(lǐng)域的命運(yùn)顯得荒謬。

讓我們依次審視這些情緒，并論證為何從我們當(dāng)前的視角看，它們至少部分顯得短視。

首先，(1) 似乎已與大型語言模型（LLMs）等現(xiàn)代隨機(jī)性AI范式根本相悖——這類模型若說有何特點(diǎn)，恰恰是具有互補(bǔ)性的缺陷。事實(shí)上，由于它們是通過訓(xùn)練（或“生長”）而非編程形成，其行為具有不可預(yù)測性，其能力與短板常令設(shè)計(jì)者本人亦感意外。誠然，人類大腦在無需數(shù)據(jù)中心的情況下執(zhí)行抽象數(shù)學(xué)思維并生成新洞見的能力無疑非凡而神秘，但如今已難以堅(jiān)持認(rèn)為這一過程的結(jié)果在根本上無法由計(jì)算機(jī)實(shí)現(xiàn)。

關(guān)于(2)，事實(shí)上許多AI開發(fā)者當(dāng)前正表現(xiàn)出濃厚興趣，致力于培育其模型的數(shù)學(xué)推理能力與問題解決實(shí)力，甚至咨詢專業(yè)數(shù)學(xué)家予以協(xié)助（參見 [Ans25; KR25]）。這或許部分源于存在具挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)作為衡量迭代進(jìn)展的具體指標(biāo)，以及在突破這些基準(zhǔn)后隨之而來的“炫耀資本”（更不用說吸引投資和/或付費(fèi)訂閱者的潛力）。也可能是因?yàn)椤?.4所列的其他特殊特征，或僅僅是某些當(dāng)前AI開發(fā)者的個人品味與興趣使然。

至于(3)，此類論點(diǎn)有滑向一廂情愿或否認(rèn)主義的危險。大型語言模型顯然可能存在奇特而令人驚訝的失效模式，但這并不先驗(yàn)地否定其成功模式——尤其在數(shù)學(xué)領(lǐng)域，創(chuàng)造性思想的價值往往遠(yuǎn)超精確性。此外，在展望未來數(shù)年時，當(dāng)前模型的特定怪癖或弱點(diǎn)應(yīng)不如其進(jìn)步速率與可預(yù)見的未來軌跡來得相關(guān)。當(dāng)然，總體評估AI模型的推理能力并設(shè)計(jì)穩(wěn)健基準(zhǔn)本就極為困難，且基于不同用例、子領(lǐng)域、模型訪問權(quán)限等，個體體驗(yàn)可能存在巨大差異。

最后，盡管(4)看似合理（若略帶些許傲慢），但它同樣無法保證成立，原因與§1.4所列特征相關(guān)。誠然，若無極為強(qiáng)大的通用機(jī)器，數(shù)學(xué)或許無法被“解決”；但同樣可能的是，阻礙AI在其他領(lǐng)域發(fā)展、部署與采納的某些主要摩擦源，對數(shù)學(xué)研究而言相關(guān)性較低。例如，其他科學(xué)領(lǐng)域的進(jìn)展可能因安全顧慮與法規(guī)、實(shí)驗(yàn)室設(shè)備限制、自然過程的根本時間約束、許可問題等而放緩。類似地，在技術(shù)行業(yè)，人們可能因根深蒂固的習(xí)慣、隱私擔(dān)憂、品味問題等而緩慢采納新產(chǎn)品。許多領(lǐng)域（如法律、醫(yī)學(xué)或房地產(chǎn)）亦存在由強(qiáng)大工會、行業(yè)協(xié)會或壟斷勢力強(qiáng)制實(shí)施的人為準(zhǔn)入壁壘。因此，出于諸多實(shí)際原因，數(shù)學(xué)研究完全可能比科學(xué)與技術(shù)的其他部分更早、更徹底地被人工智能革命化。當(dāng)然，盡管大多數(shù)數(shù)學(xué)家可能樂見其領(lǐng)域飛躍式前進(jìn)，變得更具內(nèi)在吸引力與外部實(shí)用性，但反面效應(yīng)可能是：人類數(shù)學(xué)家比其他領(lǐng)域的同行更早過時。

1.8 本文的目標(biāo)是什么？

上文我們已嘗試論證：數(shù)學(xué)家群體對于人工智能在數(shù)學(xué)研究中的未來存在令人驚訝的共識缺失，且普遍存在一種令人擔(dān)憂的保守傾向——或至少缺乏對短期內(nèi)可能出現(xiàn)更具變革性結(jié)果的嚴(yán)肅討論。風(fēng)險在于，這些傾向可能阻礙學(xué)界采取審慎而協(xié)調(diào)一致的行動。特別是，盡管資深數(shù)學(xué)家或許尚有余裕實(shí)時應(yīng)對各類發(fā)展，但新一代數(shù)學(xué)家的招募與培養(yǎng)卻需要深思熟慮的長期規(guī)劃。此外，若缺乏審慎的規(guī)劃與姿態(tài)，默認(rèn)情況下，AI開發(fā)者及其他強(qiáng)勢行動者對數(shù)學(xué)研究的最終影響，可能并不完全契合數(shù)學(xué)研究共同體自身所期望的結(jié)果。

基于上述考量，我們的主要目標(biāo)是進(jìn)一步激發(fā)關(guān)于數(shù)學(xué)研究即將面臨的未來的嚴(yán)肅討論，并提供一個可能的框架以識別各種機(jī)遇與風(fēng)險。相較于其他近期類似主題的著述（如 [Ven; He24; Har24; Cep; Avi25; Sev24]），我們力求聚焦于可預(yù)見未來中可能出現(xiàn)的具體實(shí)踐性問題，而將關(guān)于意義或目的等更具哲學(xué)性的議題留待他處探討。盡管我們明示的主題是數(shù)學(xué)研究的未來及其主要利益相關(guān)者的意涵，我們?nèi)孕柚厣辏捍颂幪岢龅闹T多問題很可能在該語境之外亦引發(fā)廣泛共鳴。

1.9 本文不涉及的內(nèi)容

首先，我們不對人工智能在數(shù)學(xué)推理（或更廣泛意義上）的發(fā)展時間線作出任何精確的定量預(yù)測。我們認(rèn)為此類預(yù)測是一項(xiàng)值得更多關(guān)注的重要實(shí)踐，但已超出本文范圍（參見 [Kok+25] 中近期一則頗具爭議且廣為傳播的示例）。特別是，我們將對數(shù)學(xué)人工超智能是否及何時出現(xiàn)保持相當(dāng)不可知的立場，而將不同可能結(jié)果的概率賦值留給讀者自行判斷。

我們亦僅用相對較少的篇幅專門討論數(shù)學(xué)教育及其在人工智能影響下可能發(fā)生的轉(zhuǎn)型。該主題顯然與數(shù)學(xué)研究緊密交織，但其本身已足夠宏大，值得在其他地方進(jìn)行獨(dú)立探討。

或許更為明顯的是，我們亦將回避在思考人工超智能時不可避免會觸及的“大問題”，例如：

? 超智能將在何種條件下出現(xiàn)？是否會經(jīng)歷“奇點(diǎn)”（即在極短時間內(nèi)迅猛爆發(fā)），抑或?qū)⒃诟L時間跨度內(nèi)逐步展開？它將與哪些實(shí)體（個人、企業(yè)、國家）保持一致，抑或根本無此一致性？是否將持續(xù)存在多個實(shí)體間的激烈競爭，抑或某一實(shí)體將取得明顯主導(dǎo)地位？

? 最前沿模型是否需要龐大的計(jì)算能力（例如整個巨型數(shù)據(jù)中心）方能運(yùn)行，抑或較小規(guī)模模型仍將具有一定相關(guān)性？哪些人將能夠訪問這些模型及其帶來的益處？

? 超智能將如何影響世界權(quán)力結(jié)構(gòu)與經(jīng)濟(jì)？對就業(yè)與職業(yè)有何影響？財富分配？醫(yī)學(xué)與人類健康？技術(shù)？人類繁榮？存在意義？

特別是，在§4中，我們基于一種樸素的假設(shè)展開討論：即在不太遙遠(yuǎn)的未來某個時刻，我們將擁有與人類創(chuàng)造者相當(dāng)程度對齊的超智能系統(tǒng)（或至少尚未滅絕全人類）。因此，我們的討論范圍人為地收窄，若讀者預(yù)期社會與人類存在的所有層面都將發(fā)生重大劇變，此種聚焦或許顯得輕率；然而我們認(rèn)為，在更受限定的視野下進(jìn)行思考仍具一定價值。

最后，我們不對本文的原創(chuàng)性作任何特別主張。近期已有許多其他數(shù)學(xué)家就類似主題撰文或發(fā)表演講，包括上文所引及無疑更多的未引文獻(xiàn)。我們預(yù)計(jì)此處提出的大多數(shù)乃至全部問題與觀點(diǎn)，都已在其他地方以某種形式被思考過，或許僅我們的整體綜合略具新意。

1.10 本文的結(jié)構(gòu)

為幫助梳理討論脈絡(luò)，我們將推測性未來劃分為三個連續(xù)的"階段"（epochs），具體如下：

第一階段（§2）：AI 提升生產(chǎn)力
第二階段（§3）：類型(i)超智能
第三階段（§4）：類型(ii)超智能

當(dāng)然，這些階段在現(xiàn)實(shí)中可能存在模糊界限，數(shù)學(xué)研究的某些方面可能以不同速率跨階段推進(jìn)。此外，早期階段首次提出的問題往往會在后續(xù)階段（通常以更強(qiáng)形式）繼續(xù)適用。

現(xiàn)簡要預(yù)覽下文內(nèi)容。首先，在§2的第一階段中，我們將枚舉人工智能作為強(qiáng)大新型生產(chǎn)力工具所涉及的各類機(jī)遇與風(fēng)險。積極方面包括快速教育與文獻(xiàn)檢索、編碼實(shí)驗(yàn)與計(jì)算的新可能性、嚴(yán)謹(jǐn)性新標(biāo)準(zhǔn)、子領(lǐng)域間意外聯(lián)系等；消極方面則涉及內(nèi)容過載、質(zhì)量控制問題、過度依賴、公平性削弱等。

其次，在§3的第二階段中，我們將探討一種更精密的人工智能形式——它能承擔(dān)數(shù)學(xué)研究中大量技術(shù)性繁重工作，例如將粗略表述的引理轉(zhuǎn)化為精確公式、提供嚴(yán)謹(jǐn)證明，甚至僅憑高級用戶指導(dǎo)即可生成完整論文。在此階段，我們設(shè)想人類數(shù)學(xué)家仍基于個人品味、宏觀構(gòu)想及互補(bǔ)優(yōu)勢主導(dǎo)研究進(jìn)程，盡管AI在技術(shù)流程上已大幅超越人類，并在創(chuàng)意過程中發(fā)揮日益自主的作用。我們將著重剖析人類數(shù)學(xué)家在此新微妙平衡中的角色。

最后，在§4中，我們抵達(dá)一個數(shù)學(xué)人工智能水平——它能實(shí)現(xiàn)幾乎完全自主的長期數(shù)學(xué)研究，且?guī)缀鯚o需人類數(shù)學(xué)家的指導(dǎo)。我們將探討在這一后MASI時代，數(shù)學(xué)作為一門學(xué)科將呈現(xiàn)何種面貌：數(shù)學(xué)是否會更趨近人文科學(xué)，抑或主要作為休閑活動或個人修養(yǎng)存在？關(guān)鍵問題在于：即使人類不再實(shí)質(zhì)性參與發(fā)現(xiàn)過程，人類仍能否從共享的數(shù)學(xué)洞見寶庫中顯著獲益？

總體而言，§2、§3、§4所呈現(xiàn)的圖景大致如下：短期內(nèi)，我們預(yù)期數(shù)學(xué)將迎來一個"黃金時代"——前提是能妥善化解各類潛在陷阱。此時代將呈現(xiàn)生產(chǎn)力加速提升、數(shù)學(xué)發(fā)現(xiàn)大量涌現(xiàn)（包括重大公開問題的解決與新方向的萌發(fā)）。與此同時，數(shù)學(xué)家將日益專注于更高抽象層次，最終將大多數(shù)技術(shù)細(xì)節(jié)交予機(jī)器處理。隨著人工智能持續(xù)進(jìn)步，這一黃金時代將逐漸（或突然）轉(zhuǎn)向新秩序：人類數(shù)學(xué)家將更多承擔(dān)管理或監(jiān)督角色。最終，當(dāng)人類數(shù)學(xué)家對研究過程的貢獻(xiàn)價值遞減時，他們將需要重新協(xié)商與數(shù)學(xué)的全新關(guān)系。

需注意，隨著討論從近期邁向中長期未來，我們的敘述不可避免地更具推測性。但我們?nèi)哉J(rèn)為嚴(yán)肅思考這些更具推測性的發(fā)展是富有成效的——既因它們可能需要周密規(guī)劃，也因它們可能比普遍預(yù)期來得更快。

我們在§5中以初步展望收尾，探討如何積極影響未來或至少為之規(guī)劃。如前文所述，本文提出的問題遠(yuǎn)多于能明確解答的問題。

1.11 AI 使用聲明

盡管本文主體以"老式方法"撰寫（即未使用人工智能），但作者確實(shí)使用了某些AI工具（主要為ChatGPT，以及通過Cursor使用的Claude Sonnet）用于以下事項(xiàng)：

編譯相關(guān)參考文獻(xiàn)列表并格式化為BibTeX條目
查詢或匯總簡單事實(shí)或新聞事件（例如特定AI模型的發(fā)布時間線）
檢查拼寫語法問題并指出別扭或歧義表述等。

原文鏈接：https://kylersiegel.xyz/essay_intro_only.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.