論數(shù)學(xué)超級智能
On mathematical superintelligence
https://kylersiegel.xyz/essay_intro_only.pdf
![]()
![]()
![]()
摘要
在本文中,我們考慮了人工智能具備超人類數(shù)學(xué)推理能力的近未來可能性,并嘗試詳細(xì)闡述其對數(shù)學(xué)研究事業(yè)的一些影響。我們發(fā)現(xiàn),將我們所設(shè)想的未來劃分為三個不同的"時代"是有用的。在時代I(可以說已經(jīng)在進(jìn)行中),人工智能成為人類數(shù)學(xué)家的強(qiáng)大生產(chǎn)力助推器,有可能迎來一個發(fā)現(xiàn)和創(chuàng)造性實(shí)現(xiàn)的新黃金時代,盡管有許多陷阱必須小心規(guī)避。在時代II,人工智能開始逐步承擔(dān)越來越多的技術(shù)性繁重工作,而人類數(shù)學(xué)家則從事高級提示工程(或"氛圍數(shù)學(xué)"),人機(jī)結(jié)合的系統(tǒng)總體上比單獨(dú)的人類或人工智能更有效。在時代III,人工智能達(dá)到一種主導(dǎo)地位,使得人類數(shù)學(xué)家無法再對數(shù)學(xué)發(fā)現(xiàn)過程做出實(shí)質(zhì)性貢獻(xiàn),視角轉(zhuǎn)而朝著欣賞、批判、個人充實(shí)等方向轉(zhuǎn)變。我們以詳細(xì)說明在當(dāng)前時刻進(jìn)行這一思想實(shí)驗(yàn)的背景和動機(jī)開始本文,并以一些關(guān)于數(shù)學(xué)家如何積極影響其事業(yè)未來的反思作為結(jié)尾。為了保持范圍可控且集中,我們選擇避免(盡管這有些不自然)討論超人類人工智能更廣泛的社會或存在性影響。
1 引言
1.1 序曲
我們從2014年11月在斯坦福大學(xué)舉行的2015年突破獎小組討論的一段簡短摘錄開始,這次討論在杰出獲獎?wù)進(jìn)axim Kontsevich、Yuri Milner、陶哲軒、Richard Taylor和主持人Yuri Milnor之間展開。
2015年突破獎小組討論摘錄(高度意譯):
Yuri Milner:你們中有人能想象計(jì)算機(jī)在數(shù)學(xué)上超越人類嗎,就像它們在象棋上做到的那樣,在一百年或者也許一千年后?
Terry Tao:嗯,計(jì)算機(jī)可以像一個非常強(qiáng)大的搜索引擎那樣運(yùn)作,但人類仍將主導(dǎo)全局,我相當(dāng)確定。
Maxim Kontsevich:實(shí)際上,我認(rèn)為創(chuàng)造人工智能并沒有那么難。我覺得我們很快就會擁有它(小組發(fā)出緊張的笑聲)。
Yuri Milner:你在這里有點(diǎn)唱反調(diào),說它會這么快發(fā)生。是什么讓你如此樂觀?
Maxim Kontsevich:實(shí)際上是悲觀(更多緊張的笑聲)。我自己稍微思考過這個問題,我沒有看到任何根本性的困難。
Yuri Milner:那你為什么不直接研究那個呢?
Maxim Kontsevich:我認(rèn)為那是不道德的(更多緊張的笑聲)。
Richard Taylor:但是計(jì)算機(jī)下象棋的方式不就是一個大規(guī)模的組合檢查嗎?如果看到計(jì)算機(jī)在我們有生之年贏得菲爾茲獎,我會非常驚訝。
Terry Tao:嗯,我認(rèn)為計(jì)算機(jī)可能僅僅通過暴力搜索就能發(fā)現(xiàn)數(shù)學(xué)兩個領(lǐng)域之間的聯(lián)系,然后使用計(jì)算機(jī)的人實(shí)際上可以將其充實(shí)完善,也許還能獲得獎牌。
Yuri Milner:那么雅各布,你對馬克西姆所說的感到害怕嗎?
Jacob Lurie:我不太擔(dān)心……
1.2 本文是關(guān)于什么的?
簡而言之,我們在此的目標(biāo)是記錄一些關(guān)于數(shù)學(xué)研究未來的想法和推測,鑒于人工智能最近迅速展開的進(jìn)展。
1.3 "數(shù)學(xué)研究"是什么意思?
要準(zhǔn)確表述什么是數(shù)學(xué)研究,甚至向沒有親身參與過的人傳達(dá)它在實(shí)踐中的樣子,可能有點(diǎn)棘手。非常粗略地說,我們所想的僅僅是那些通常由"研究數(shù)學(xué)家"進(jìn)行的活動,他們主要存在于世界各地的大學(xué)中,擔(dān)任教授、博士后和研究生(有時是本科生或更年輕的學(xué)生),并花費(fèi)大量時間嘗試做以下事情:
? 證明新定理,或?yàn)榕f定理提供新的見解 ? 發(fā)現(xiàn)新的引人注目的數(shù)學(xué)對象(例如定義、公式、算法等) ? 在重要問題上取得進(jìn)展(即使是適度的),或開辟新的有前景的方向 ? 通過各種渠道傳播這些工作的成果(例如期刊文章和預(yù)印本服務(wù)器、會議和研討會報告、教科書、博客文章等)。
我們不會試圖在這里給出更精確的定義,部分是因?yàn)檫@會讓我們離題太遠(yuǎn),值得在其他地方進(jìn)行更深思熟慮的處理,主要是因?yàn)闉榱藗鬟_(dá)我們的主要觀點(diǎn),這并不需要。事實(shí)上,我們預(yù)計(jì)這里涉及的許多問題在很大程度上與其他科學(xué)研究領(lǐng)域以及更廣泛的人類體驗(yàn)相關(guān),但為了具體性和保持范圍可控(并且更接近作者的經(jīng)驗(yàn)領(lǐng)域),我們將嘗試主要維持這一較窄的焦點(diǎn)。
1.4 數(shù)學(xué)研究是否有其特殊之處?
如上所述,本文所探討的諸多問題具有相當(dāng)?shù)膹V泛性,很可能適用于在快速進(jìn)步的人工智能影響下的各類人類活動。就此而言,我們鼓勵讀者將本文視為一種混合型的案例研究/思想實(shí)驗(yàn)。話雖如此,仍值得思考:就人工智能而言,數(shù)學(xué)研究是否存在某些獨(dú)特方面,使其區(qū)別于其他活動?以下是數(shù)學(xué)研究的幾個似乎值得強(qiáng)調(diào)的突出特征:
(1) 嚴(yán)謹(jǐn)性(rigor):具備達(dá)到極高嚴(yán)謹(jǐn)程度的潛力,既包括傳統(tǒng)數(shù)學(xué)意義上的嚴(yán)謹(jǐn),也包括現(xiàn)代意義上的形式化驗(yàn)證(參見§2.1g);
(2) 低門檻(entry):原則上無需依賴任何強(qiáng)大的物理、財務(wù)或社會資源(例如硬件或?qū)嶒?yàn)室設(shè)備、專有數(shù)據(jù)集等);
(3) 安全性(safety):不存在明顯的直接安全風(fēng)險(例如傷害性事故、實(shí)驗(yàn)室泄漏、環(huán)境破壞等);
(4) 純粹性(purity):在一種智識上潔凈的環(huán)境中進(jìn)行,免受紛繁復(fù)雜的現(xiàn)實(shí)世界干擾(例如社會動態(tài)、人類心理、不可預(yù)測的政治局勢、天氣模式等)。
以下我們對這些特征的意義作幾點(diǎn)初步評論。
關(guān)于(1),人們自然會思考:嚴(yán)謹(jǐn)性是否可能成為緩解當(dāng)代隨機(jī)性人工智能系統(tǒng)(如大型語言模型)在可靠性與可信度方面棘手問題的有用工具。
關(guān)于(2),需補(bǔ)充說明的是,這種看似較低的進(jìn)入門檻或許僅在表層成立,因?yàn)槔缫粋€人所受教育的環(huán)境通常被認(rèn)為對成功至關(guān)重要,更不用說能夠?qū)r間與精力專注于抽象研究所需的各種財務(wù)與社會前提條件。此外,如果計(jì)算能力及其他資源成為推動數(shù)學(xué)進(jìn)步的核心因素(參見§2.2i),情況可能會發(fā)生劇變。
關(guān)于(3),我們注意到,表面上缺乏安全顧慮可能變得相當(dāng)重要——倘若這些顧慮在其他領(lǐng)域成為主要摩擦來源,并伴隨各種相關(guān)的下游效應(yīng),例如官僚主義的繁文縟節(jié)。需說明的是,我們在此回避圍繞先進(jìn)人工智能發(fā)展所產(chǎn)生的任何大規(guī)模一般性安全問題,因?yàn)檫@些已超出本文范圍(參見§1.9)。
最后,關(guān)于(4),我們指出,數(shù)學(xué)研究對當(dāng)前人工智能開發(fā)者而言可能尤其具有吸引力,部分原因在于它天然提供了高質(zhì)量的訓(xùn)練數(shù)據(jù),以及清晰客觀的正確性標(biāo)準(zhǔn)(盡管在更長的時間尺度上衡量進(jìn)展可能要主觀或模糊得多)。
1.5 為何此時撰寫這一主題?
撰寫本文時的主要相關(guān)背景是:大型語言模型(如 ChatGPT、Gemini、Claude、DeepSeek 等)的數(shù)學(xué)能力在過去幾年中迅速提升,人們對這些系統(tǒng)及其能力的認(rèn)知亦隨之顯著增強(qiáng)。事實(shí)上,在 2022 年底 ChatGPT 發(fā)布之前,極少有數(shù)學(xué)家在數(shù)學(xué)研究的語境下關(guān)注、感興趣或擔(dān)憂人工智能。如今,不到三年時間,大多數(shù)數(shù)學(xué)家都已或多或少接觸過這些系統(tǒng),并開始更認(rèn)真地對待它們的數(shù)學(xué)能力。盡管如此,關(guān)于這些系統(tǒng)究竟已取得多大進(jìn)展、在何種程度上展現(xiàn)出“真正的理解”、以及未來幾年可能進(jìn)一步發(fā)展到何種地步等問題,學(xué)界觀點(diǎn)仍存在顯著的分歧。
在探討這種觀點(diǎn)分歧之前,讓我們通過列舉幾項(xiàng)與數(shù)學(xué)研究尤為相關(guān)的新近發(fā)展來進(jìn)一步鋪墊背景:
? 推理型語言模型的問世,始于 OpenAI 于 2024 年推出的 o1 模型,隨后 OpenAI 的 o3、DeepSeek 的 R1 等模型相繼推出。這些模型在推理階段通過調(diào)用額外的時間與計(jì)算資源進(jìn)行“思考”,專為解決數(shù)學(xué)問題等多步驟推理任務(wù)而設(shè)計(jì);
? 至少有兩個分別由 Google DeepMind 與 OpenAI 開發(fā)的 AI 模型,在 2025 年國際數(shù)學(xué)奧林匹克競賽(IMO)中取得了金牌分?jǐn)?shù)(參見 [CS25]),均解答出六道題中的五道,成績超過除 26 名人類高中生參賽者之外的所有選手(注:Google 的“Deep Think”數(shù)學(xué)模型目前已面向每月 250 美元的 Google AI Ultra 計(jì)劃訂閱用戶開放);
? 高階數(shù)學(xué) AI 基準(zhǔn)測試的推出,例如 [Gla+24; Stu25; Sch+25]。以 FrontierMath Tier IV 為例,該基準(zhǔn)包含由專業(yè)數(shù)學(xué)家在其專長領(lǐng)域撰寫的、涉及研究級概念的極具挑戰(zhàn)性的問題;截至 2025 年 10 月,48 道題中已有 9 道曾被至少一個 AI 模型解答(另見 [Aso25]);
? 關(guān)于數(shù)學(xué)研究未來的討論持續(xù)升溫,形式包括文章(如 [Ven; He24; Har24; Cep; Avi25; Sev24; Hen25])與研討會(如 [UCI25; Lor25; KIAS25; Sim25; ICML25; Aug25; JMM25]),更不用說大量錄制講座、社交媒體帖子等;
? 近期預(yù)印本逐漸涌現(xiàn),例如 [Van25; DMN25; AM25; JR25; IX25],其作者將部分或全部核心思想歸功于 ChatGPT 或其他 AI 模型(或與之的交互);
? Google DeepMind 推出 AlphaEvolve [Nov+25; Geo+25](目前已出現(xiàn)若干開源衍生版本,如 [Sha25; LIC25]),該系統(tǒng)將進(jìn)化算法與大型語言模型相結(jié)合,在算法空間中進(jìn)行優(yōu)化,在一系列構(gòu)造性數(shù)學(xué)問題上取得了新的最先進(jìn)成果(例如 4×4 矩陣乘法、圓堆積問題、“接吻數(shù)”問題等);
? Lean 證明助手及其數(shù)學(xué)庫 mathlib 日益普及,同時存在多種持續(xù)進(jìn)行的嘗試,旨在將自然語言證明自動形式化為 Lean 代碼,或?qū)?Lean 證明“去形式化”還原為自然語言(參見 [Aze+23; Yan+23; Pol+22; Dee24]);
? 越來越多的研究者運(yùn)用人工智能技術(shù)在純數(shù)學(xué)中生成新猜想或構(gòu)造(參見 [He+25; Dav+21; Cha+24; ACH24; Vel+24]);
? DeepMind 近期宣布與五家頂尖數(shù)學(xué)研究機(jī)構(gòu)建立合作伙伴關(guān)系,以加速人工智能在數(shù)學(xué)研究中的發(fā)展 [KR25],同時已知或傳聞中正有持續(xù)努力試圖攻克納維–斯托克斯方程等重大數(shù)學(xué)難題(參見 [Ans25])。
對于密切關(guān)注這些動態(tài)的人而言,上述發(fā)展立即引發(fā)了一系列緊迫問題,包括:
? 人工智能在數(shù)學(xué)研究中的現(xiàn)狀究竟如何?它仍只是一種精巧的“客廳戲法”,抑或我們正見證一場真正變革的開端?面對層出不窮、快速迭代的各類模型,人們應(yīng)如何追蹤并區(qū)分炒作與現(xiàn)實(shí)?數(shù)學(xué)家在多大程度上已將這些工具整合進(jìn)其工作流程?
? 著眼于最近的里程碑或可合理推斷的近期未來,它們對今后數(shù)年的數(shù)學(xué)研究有何意涵?塵埃落定之后,研究圖景將發(fā)生劇變,抑或除增添若干精巧工具外基本維持原狀?是否仍有可能選擇退出,繼續(xù)從事數(shù)年前那種“老派”的數(shù)學(xué)研究?若該領(lǐng)域真被徹底革新,結(jié)果將是利大于弊,還是弊大于利?
? 我們能否對未來一至三年作出明確預(yù)測?AI 系統(tǒng)的數(shù)學(xué)能力是否會遭遇瓶頸并面臨收益遞減,抑或我們應(yīng)為更極端的發(fā)展做好準(zhǔn)備?我們是否有望在不太遙遠(yuǎn)的未來見證“數(shù)學(xué)超智能”的出現(xiàn)?若然,那將引領(lǐng)我們走向何方?
? 為何對于上述問題的答案,學(xué)界似乎鮮有共識?
1.6 什么是“數(shù)學(xué)超智能”?
在本文中,我們使用“數(shù)學(xué)(人工)超智能”(mathematical (artificial) superintelligence, MASI)這一術(shù)語,指代(某種意義上模糊地)任何能夠以實(shí)質(zhì)性且明確優(yōu)于人類的方式執(zhí)行數(shù)學(xué)(包括研究)所有方面的機(jī)器。需注意,我們不會在人類水平智能與超人類水平智能之間做過多區(qū)分,因?yàn)橐坏┤斯ぶ悄苓_(dá)到人類水平,很可能在不久后通過(若無其他因素干擾)處理能力的常規(guī)漸進(jìn)式提升而超越人類。然而,如后文將強(qiáng)調(diào)的,以下兩點(diǎn)存在重大且關(guān)鍵的區(qū)別:
(i) 無AI輔助時優(yōu)于人類數(shù)學(xué)家的人工智能;(ii) 即使在AI輔助下仍達(dá)到人類數(shù)學(xué)家水平的人工智能。
這兩者可分別稱為類型(i) 和類型(ii)數(shù)學(xué)超智能,并可概括為:
(i) 人類 < 無AI輔助的人工智能 < 人類+AI(ii) 人類 < 人工智能 = 人類+AI
粗略而言,在本文的敘事框架中,類型(i)數(shù)學(xué)超智能出現(xiàn)于下文所述的第二階段(見§3),類型(ii)則出現(xiàn)于第三階段(見§4)。初步而言,類型(i) MASI的存在意味著人工智能已成為數(shù)學(xué)家的關(guān)鍵工具,但人類仍在推動或有意義地貢獻(xiàn)數(shù)學(xué)研究;而類型(ii) MASI則意味著人類數(shù)學(xué)家已基本或完全過時。
同樣重要的是需認(rèn)識到:從類型(i)到類型(ii)數(shù)學(xué)超智能的過渡可能出人意料地漫長,即使人工智能持續(xù)以穩(wěn)定或指數(shù)級速度進(jìn)步。這是因?yàn)橹灰斯ぶ悄芘c人類智能的運(yùn)作方式存在本質(zhì)差異,人類仍可能以積極且非平凡的方式對其形成補(bǔ)充。在此情況下,人類數(shù)學(xué)家將自然聚焦于那些尚未被人工智能嚴(yán)格涵蓋的活動領(lǐng)域。就主觀體驗(yàn)而言,尚不清楚這片人類效用的剩余區(qū)域會像即將被海水淹沒的小島,還是會成為一片足夠廣闊的大陸,足以讓無數(shù)人類數(shù)學(xué)家持續(xù) productive 地占據(jù)其心智疆域。
1.7 數(shù)學(xué)家目前對這些問題持何種立場?
盡管數(shù)學(xué)家對上述問題的立場似乎呈現(xiàn)出廣泛光譜,但我們可以將其簡化為幾種寬泛的類型:
? 未參與者(the unengaged):尚未密切關(guān)注數(shù)學(xué)人工智能的發(fā)展,原因可能是漠不關(guān)心、缺乏了解,或僅僅是時間與心智帶寬不足;
? 懷疑論者(the skeptic):認(rèn)為關(guān)于當(dāng)前或未來AI能力的多數(shù)激進(jìn)主張純屬炒作,且AI在可預(yù)見的未來不會對數(shù)學(xué)研究產(chǎn)生戲劇性影響;
? 技術(shù)樂觀主義者(the techno-optimist):對利用日益改進(jìn)的AI工具來極大增強(qiáng)其研究與生產(chǎn)力感到極為興奮,并熱衷于迅速將這些工具整合進(jìn)工作流程;
? 悲觀預(yù)言者(the doomsayer):預(yù)期數(shù)學(xué)超智能已不遠(yuǎn),且很可能使人類數(shù)學(xué)家基本過時。
當(dāng)然,這些類別并非完全互斥。例如,存在“持懷疑態(tài)度的悲觀預(yù)言者”——他們認(rèn)為當(dāng)前氛圍中炒作過度,但仍預(yù)期核心AI模型將持續(xù)改進(jìn)并產(chǎn)生深遠(yuǎn)影響。順便一提,至少就本文目的而言,我們應(yīng)聚焦于核心前沿AI模型的能力,盡量避免讓印象被潛在可疑的AI相關(guān)噪音所干擾(例如作者本地市場上售賣的AI篩選西瓜)。
公平地說,至少直到相當(dāng)近期,大多數(shù)數(shù)學(xué)家對AI影響數(shù)學(xué)研究的預(yù)測都頗為保守,即通常介于“未參與”與“懷疑”之間的某種組合,或許略帶謹(jǐn)慎的樂觀。特別是,對于未來幾年甚至幾十年內(nèi)出現(xiàn)超人類水平的數(shù)學(xué)人工智能這一前景,通常會被直接否定。同樣合理的是,倘若幾年前詢問大多數(shù)數(shù)學(xué)家,他們很可能會嚴(yán)重低估今日前沿AI模型的能力。
事實(shí)上,在§1.1所述的專題討論中,除康采維奇(Kontsevich)(他顯然是此處的異類)外,大多數(shù)與談?wù)邔⑾冗M(jìn)AI想象為一種擅長計(jì)算與搜索的蠻力機(jī)械式機(jī)器,但不具備自身創(chuàng)造力,更遑論取代人類在數(shù)學(xué)研究中的主導(dǎo)地位。即使在今天,數(shù)學(xué)家的典型立場仍是(或明或暗地)劃出一條AI永不可逾越的界線,例如:AI無法展現(xiàn)真正的理解、無法定義新的數(shù)學(xué)對象、或無法自主設(shè)計(jì)富有創(chuàng)造力的研究方向。自然,隨著最新技術(shù)進(jìn)步,許多此類界線已被周期性地重新劃定。
值得反思的是:為何數(shù)學(xué)家未能對其自身領(lǐng)域內(nèi)AI的進(jìn)步作出更激進(jìn)的預(yù)測?當(dāng)然,部分原因或許僅歸于在試圖過濾炒作的同時實(shí)時跟進(jìn)迅猛發(fā)展的固有困難。另有一種普遍假說(不限于數(shù)學(xué)領(lǐng)域)認(rèn)為:人類難以直覺把握指數(shù)級增長,往往高估技術(shù)的短期進(jìn)展卻低估其長期影響。當(dāng)然,這一論點(diǎn)頗具爭議——其極端支持者(如雷·庫茲韋爾 [Kur05])預(yù)言即將到來的“技術(shù)奇點(diǎn)”,而另一些人則將其斥為科幻小說或逃避當(dāng)下緊迫世俗問題的借口。
與其涉入這一超出本文范圍的普遍議題,不如列舉幾種更特定于數(shù)學(xué)家的、常見的輕蔑態(tài)度,這些態(tài)度可能助長了前述的保守主義:
(1) 過于機(jī)械:將AI視為本質(zhì)上僅是遵循人類設(shè)計(jì)算法的蠻力機(jī)器,或許擅長計(jì)算或結(jié)構(gòu)化模式匹配,但無法展現(xiàn)真正的創(chuàng)造力或理解力;
(2) 過于冷僻:(略帶憤世嫉俗地認(rèn)為)數(shù)學(xué)研究過于冷僻,AI開發(fā)者不屑投入精力;
(3) 過于不可靠:指出AI模型表現(xiàn)不佳或不可靠的實(shí)例,并以此作為整個前提根本錯誤的證據(jù);
(4) 通用智能前提:預(yù)設(shè)擅長高等數(shù)學(xué)的AI必然具備廣泛的通用智能,而此類智能的存在將引發(fā)社會的深刻變革,以至于思慮數(shù)學(xué)研究這類小眾領(lǐng)域的命運(yùn)顯得荒謬。
讓我們依次審視這些情緒,并論證為何從我們當(dāng)前的視角看,它們至少部分顯得短視。
首先,(1) 似乎已與大型語言模型(LLMs)等現(xiàn)代隨機(jī)性AI范式根本相悖——這類模型若說有何特點(diǎn),恰恰是具有互補(bǔ)性的缺陷。事實(shí)上,由于它們是通過訓(xùn)練(或“生長”)而非編程形成,其行為具有不可預(yù)測性,其能力與短板常令設(shè)計(jì)者本人亦感意外。誠然,人類大腦在無需數(shù)據(jù)中心的情況下執(zhí)行抽象數(shù)學(xué)思維并生成新洞見的能力無疑非凡而神秘,但如今已難以堅(jiān)持認(rèn)為這一過程的結(jié)果在根本上無法由計(jì)算機(jī)實(shí)現(xiàn)。
關(guān)于(2),事實(shí)上許多AI開發(fā)者當(dāng)前正表現(xiàn)出濃厚興趣,致力于培育其模型的數(shù)學(xué)推理能力與問題解決實(shí)力,甚至咨詢專業(yè)數(shù)學(xué)家予以協(xié)助(參見 [Ans25; KR25])。這或許部分源于存在具挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)作為衡量迭代進(jìn)展的具體指標(biāo),以及在突破這些基準(zhǔn)后隨之而來的“炫耀資本”(更不用說吸引投資和/或付費(fèi)訂閱者的潛力)。也可能是因?yàn)椤?.4所列的其他特殊特征,或僅僅是某些當(dāng)前AI開發(fā)者的個人品味與興趣使然。
至于(3),此類論點(diǎn)有滑向一廂情愿或否認(rèn)主義的危險。大型語言模型顯然可能存在奇特而令人驚訝的失效模式,但這并不先驗(yàn)地否定其成功模式——尤其在數(shù)學(xué)領(lǐng)域,創(chuàng)造性思想的價值往往遠(yuǎn)超精確性。此外,在展望未來數(shù)年時,當(dāng)前模型的特定怪癖或弱點(diǎn)應(yīng)不如其進(jìn)步速率與可預(yù)見的未來軌跡來得相關(guān)。當(dāng)然,總體評估AI模型的推理能力并設(shè)計(jì)穩(wěn)健基準(zhǔn)本就極為困難,且基于不同用例、子領(lǐng)域、模型訪問權(quán)限等,個體體驗(yàn)可能存在巨大差異。
最后,盡管(4)看似合理(若略帶些許傲慢),但它同樣無法保證成立,原因與§1.4所列特征相關(guān)。誠然,若無極為強(qiáng)大的通用機(jī)器,數(shù)學(xué)或許無法被“解決”;但同樣可能的是,阻礙AI在其他領(lǐng)域發(fā)展、部署與采納的某些主要摩擦源,對數(shù)學(xué)研究而言相關(guān)性較低。例如,其他科學(xué)領(lǐng)域的進(jìn)展可能因安全顧慮與法規(guī)、實(shí)驗(yàn)室設(shè)備限制、自然過程的根本時間約束、許可問題等而放緩。類似地,在技術(shù)行業(yè),人們可能因根深蒂固的習(xí)慣、隱私擔(dān)憂、品味問題等而緩慢采納新產(chǎn)品。許多領(lǐng)域(如法律、醫(yī)學(xué)或房地產(chǎn))亦存在由強(qiáng)大工會、行業(yè)協(xié)會或壟斷勢力強(qiáng)制實(shí)施的人為準(zhǔn)入壁壘。因此,出于諸多實(shí)際原因,數(shù)學(xué)研究完全可能比科學(xué)與技術(shù)的其他部分更早、更徹底地被人工智能革命化。當(dāng)然,盡管大多數(shù)數(shù)學(xué)家可能樂見其領(lǐng)域飛躍式前進(jìn),變得更具內(nèi)在吸引力與外部實(shí)用性,但反面效應(yīng)可能是:人類數(shù)學(xué)家比其他領(lǐng)域的同行更早過時。
1.8 本文的目標(biāo)是什么?
上文我們已嘗試論證:數(shù)學(xué)家群體對于人工智能在數(shù)學(xué)研究中的未來存在令人驚訝的共識缺失,且普遍存在一種令人擔(dān)憂的保守傾向——或至少缺乏對短期內(nèi)可能出現(xiàn)更具變革性結(jié)果的嚴(yán)肅討論。風(fēng)險在于,這些傾向可能阻礙學(xué)界采取審慎而協(xié)調(diào)一致的行動。特別是,盡管資深數(shù)學(xué)家或許尚有余裕實(shí)時應(yīng)對各類發(fā)展,但新一代數(shù)學(xué)家的招募與培養(yǎng)卻需要深思熟慮的長期規(guī)劃。此外,若缺乏審慎的規(guī)劃與姿態(tài),默認(rèn)情況下,AI開發(fā)者及其他強(qiáng)勢行動者對數(shù)學(xué)研究的最終影響,可能并不完全契合數(shù)學(xué)研究共同體自身所期望的結(jié)果。
基于上述考量,我們的主要目標(biāo)是進(jìn)一步激發(fā)關(guān)于數(shù)學(xué)研究即將面臨的未來的嚴(yán)肅討論,并提供一個可能的框架以識別各種機(jī)遇與風(fēng)險。相較于其他近期類似主題的著述(如 [Ven; He24; Har24; Cep; Avi25; Sev24]),我們力求聚焦于可預(yù)見未來中可能出現(xiàn)的具體實(shí)踐性問題,而將關(guān)于意義或目的等更具哲學(xué)性的議題留待他處探討。盡管我們明示的主題是數(shù)學(xué)研究的未來及其主要利益相關(guān)者的意涵,我們?nèi)孕柚厣辏捍颂幪岢龅闹T多問題很可能在該語境之外亦引發(fā)廣泛共鳴。
1.9 本文不涉及的內(nèi)容
首先,我們不對人工智能在數(shù)學(xué)推理(或更廣泛意義上)的發(fā)展時間線作出任何精確的定量預(yù)測。我們認(rèn)為此類預(yù)測是一項(xiàng)值得更多關(guān)注的重要實(shí)踐,但已超出本文范圍(參見 [Kok+25] 中近期一則頗具爭議且廣為傳播的示例)。特別是,我們將對數(shù)學(xué)人工超智能是否及何時出現(xiàn)保持相當(dāng)不可知的立場,而將不同可能結(jié)果的概率賦值留給讀者自行判斷。
我們亦僅用相對較少的篇幅專門討論數(shù)學(xué)教育及其在人工智能影響下可能發(fā)生的轉(zhuǎn)型。該主題顯然與數(shù)學(xué)研究緊密交織,但其本身已足夠宏大,值得在其他地方進(jìn)行獨(dú)立探討。
或許更為明顯的是,我們亦將回避在思考人工超智能時不可避免會觸及的“大問題”,例如:
? 超智能將在何種條件下出現(xiàn)?是否會經(jīng)歷“奇點(diǎn)”(即在極短時間內(nèi)迅猛爆發(fā)),抑或?qū)⒃诟L時間跨度內(nèi)逐步展開?它將與哪些實(shí)體(個人、企業(yè)、國家)保持一致,抑或根本無此一致性?是否將持續(xù)存在多個實(shí)體間的激烈競爭,抑或某一實(shí)體將取得明顯主導(dǎo)地位?
? 最前沿模型是否需要龐大的計(jì)算能力(例如整個巨型數(shù)據(jù)中心)方能運(yùn)行,抑或較小規(guī)模模型仍將具有一定相關(guān)性?哪些人將能夠訪問這些模型及其帶來的益處?
? 超智能將如何影響世界權(quán)力結(jié)構(gòu)與經(jīng)濟(jì)?對就業(yè)與職業(yè)有何影響?財富分配?醫(yī)學(xué)與人類健康?技術(shù)?人類繁榮?存在意義?
特別是,在§4中,我們基于一種樸素的假設(shè)展開討論:即在不太遙遠(yuǎn)的未來某個時刻,我們將擁有與人類創(chuàng)造者相當(dāng)程度對齊的超智能系統(tǒng)(或至少尚未滅絕全人類)。因此,我們的討論范圍人為地收窄,若讀者預(yù)期社會與人類存在的所有層面都將發(fā)生重大劇變,此種聚焦或許顯得輕率;然而我們認(rèn)為,在更受限定的視野下進(jìn)行思考仍具一定價值。
最后,我們不對本文的原創(chuàng)性作任何特別主張。近期已有許多其他數(shù)學(xué)家就類似主題撰文或發(fā)表演講,包括上文所引及無疑更多的未引文獻(xiàn)。我們預(yù)計(jì)此處提出的大多數(shù)乃至全部問題與觀點(diǎn),都已在其他地方以某種形式被思考過,或許僅我們的整體綜合略具新意。
1.10 本文的結(jié)構(gòu)
為幫助梳理討論脈絡(luò),我們將推測性未來劃分為三個連續(xù)的"階段"(epochs),具體如下:
- 第一階段(§2):AI 提升生產(chǎn)力
- 第二階段(§3):類型(i)超智能
- 第三階段(§4):類型(ii)超智能
當(dāng)然,這些階段在現(xiàn)實(shí)中可能存在模糊界限,數(shù)學(xué)研究的某些方面可能以不同速率跨階段推進(jìn)。此外,早期階段首次提出的問題往往會在后續(xù)階段(通常以更強(qiáng)形式)繼續(xù)適用。
現(xiàn)簡要預(yù)覽下文內(nèi)容。首先,在§2的第一階段中,我們將枚舉人工智能作為強(qiáng)大新型生產(chǎn)力工具所涉及的各類機(jī)遇與風(fēng)險。積極方面包括快速教育與文獻(xiàn)檢索、編碼實(shí)驗(yàn)與計(jì)算的新可能性、嚴(yán)謹(jǐn)性新標(biāo)準(zhǔn)、子領(lǐng)域間意外聯(lián)系等;消極方面則涉及內(nèi)容過載、質(zhì)量控制問題、過度依賴、公平性削弱等。
其次,在§3的第二階段中,我們將探討一種更精密的人工智能形式——它能承擔(dān)數(shù)學(xué)研究中大量技術(shù)性繁重工作,例如將粗略表述的引理轉(zhuǎn)化為精確公式、提供嚴(yán)謹(jǐn)證明,甚至僅憑高級用戶指導(dǎo)即可生成完整論文。在此階段,我們設(shè)想人類數(shù)學(xué)家仍基于個人品味、宏觀構(gòu)想及互補(bǔ)優(yōu)勢主導(dǎo)研究進(jìn)程,盡管AI在技術(shù)流程上已大幅超越人類,并在創(chuàng)意過程中發(fā)揮日益自主的作用。我們將著重剖析人類數(shù)學(xué)家在此新微妙平衡中的角色。
最后,在§4中,我們抵達(dá)一個數(shù)學(xué)人工智能水平——它能實(shí)現(xiàn)幾乎完全自主的長期數(shù)學(xué)研究,且?guī)缀鯚o需人類數(shù)學(xué)家的指導(dǎo)。我們將探討在這一后MASI時代,數(shù)學(xué)作為一門學(xué)科將呈現(xiàn)何種面貌:數(shù)學(xué)是否會更趨近人文科學(xué),抑或主要作為休閑活動或個人修養(yǎng)存在?關(guān)鍵問題在于:即使人類不再實(shí)質(zhì)性參與發(fā)現(xiàn)過程,人類仍能否從共享的數(shù)學(xué)洞見寶庫中顯著獲益?
總體而言,§2、§3、§4所呈現(xiàn)的圖景大致如下:短期內(nèi),我們預(yù)期數(shù)學(xué)將迎來一個"黃金時代"——前提是能妥善化解各類潛在陷阱。此時代將呈現(xiàn)生產(chǎn)力加速提升、數(shù)學(xué)發(fā)現(xiàn)大量涌現(xiàn)(包括重大公開問題的解決與新方向的萌發(fā))。與此同時,數(shù)學(xué)家將日益專注于更高抽象層次,最終將大多數(shù)技術(shù)細(xì)節(jié)交予機(jī)器處理。隨著人工智能持續(xù)進(jìn)步,這一黃金時代將逐漸(或突然)轉(zhuǎn)向新秩序:人類數(shù)學(xué)家將更多承擔(dān)管理或監(jiān)督角色。最終,當(dāng)人類數(shù)學(xué)家對研究過程的貢獻(xiàn)價值遞減時,他們將需要重新協(xié)商與數(shù)學(xué)的全新關(guān)系。
需注意,隨著討論從近期邁向中長期未來,我們的敘述不可避免地更具推測性。但我們?nèi)哉J(rèn)為嚴(yán)肅思考這些更具推測性的發(fā)展是富有成效的——既因它們可能需要周密規(guī)劃,也因它們可能比普遍預(yù)期來得更快。
我們在§5中以初步展望收尾,探討如何積極影響未來或至少為之規(guī)劃。如前文所述,本文提出的問題遠(yuǎn)多于能明確解答的問題。
1.11 AI 使用聲明
盡管本文主體以"老式方法"撰寫(即未使用人工智能),但作者確實(shí)使用了某些AI工具(主要為ChatGPT,以及通過Cursor使用的Claude Sonnet)用于以下事項(xiàng):
- 編譯相關(guān)參考文獻(xiàn)列表并格式化為BibTeX條目
- 查詢或匯總簡單事實(shí)或新聞事件(例如特定AI模型的發(fā)布時間線)
- 檢查拼寫語法問題并指出別扭或歧義表述等。
原文鏈接:https://kylersiegel.xyz/essay_intro_only.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.