網易首頁 > 網易號 > 正文申請入駐

FrontierMath（前沿數學未解難題集）簡介：基于開放未解數學難題開展AI人工智能基準測試（Benchmarking）

2026-01-29 00:05:42　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數學科普不迷路！

FrontierMath簡介：對AI人工智能在數學家尚未解決的研究問題上進行基準測試。

本研究工作由施密特科學基金會（Schmidt Sciences）資助。

作者：epoch.ai（跨學科非營利研究機構，base美國舊金山）2026-1-28

譯者：zzllrr小樂（數學科普公眾號）2026-1-29

AI人工智能的數學能力發展迅速且成果顯著。2024年年中時，高中數學題對人工智能系統來說仍是一項挑戰 https://epoch.ai/benchmarks/math-level-5 。到2025年底，人工智能系統已經能夠攻克那些專為頂尖人類專家設計的超高難度題目 https://epoch.ai/frontiermath/about 。在撰寫本文時，人工智能系統似乎很快就能解決人類從未破解的數學難題。

事實上，這一趨勢已經初現端倪。例如，人工智能系統已經解決了數道此前懸而未決的埃爾德什（Erd?s）問題 https://github.com/teorth/erdosproblems/wiki/AI-contributions-to-Erd%C5%91s-problems 。但這些成果的意義很難界定。這些問題在數學領域是否具有重要意義？此前人類為解決這些問題付出了多少努力？這些成果能否體現人工智能能力的新突破？

今天，我們發布了全新基準測試的試點版本——前沿數學（FrontierMath）開放性問題 https://epoch.ai/frontiermath/open-problems 。我們希望通過這個基準測試，為相關問題的解答提供思路。該基準測試的題目均為專業數學家努力攻關卻未能解決的前沿數學開放性問題。為了實現大規模評估，入選的題目都滿足一個條件，即相關的解決方案可以通過編程方式進行驗證。

據我們目前所知，在本基準測試發布之時，這些問題還沒有被人類或AI人工智能系統破解。如果有人工智能系統能夠解開其中任意一道題，都將是人類知識邊界的一次重大突破。此外，我們還能衡量這一突破的重要程度：參與題目的數學家已經對這些問題的重要性進行了評級，其意義從“具有一定趣味性的成果”到“重大突破”不等。

本次試點版本共包含14道題目，具體內容如下：

1. 針對每道題的重要性與難度撰寫的說明文檔

2. 可用于測試人工智能系統的精準提示詞——你也可以親自嘗試！

3. 人工智能系統求解這些問題的初步嘗試結果

https://epoch.ai/data/open_problems_data.zip

在未來幾個月里，我們還會不斷擴充題目數量，同時也在積極委托數學家提供新的題目。如果你有興趣參與題目貢獻，可以查看我們的問題提交表單。 https://docs.google.com/forms/d/e/1FAIpQLSckGHMY4ofgKfvf39Ue8fDZAbXJqN9pTcf5oLP3f3y-chE0Bg/viewform

關于驗證程序，也就是用于評估候選解決方案的程序，我們將通過付費模式開放使用權限。我們采用這種模式，是為了籌集資金以進一步擴充基準測試的題目庫。題目設計需要投入大量人力，而且每破解一道題，基準測試中的題目數量就會減少一道。因此，我們希望有意使用驗證程序的機構能與我們合作，為題目庫的擴充提供資金支持。我們承諾將平等開放驗證程序的使用權限，不會向任何實體授予獨家使用權。如有需求，可發送郵件咨詢。

一、例題展示

（順序與上表有異，每題均可查看詳情）

1、組合數學——具有一定趣味性的成果

設B?為含n個頂點的三角書圖（triangular book graph）。對于給定的n，構造一個圖，以此證明拉姆齊數R(B???, B?) > 4n-2。

找到R(B???, B?)的通用構造方法，將對計算圖論學者具有重要意義。這一構造方法或將有助于證明其他拉姆齊數R(B?, B?)的取值范圍，甚至可能適用于推導其他通用拉姆齊數。

上界R(B???, B?) ≤4n-1 于1978 年建立，最近的研究表明，對于無窮族n以及所有n≤21 ，該上界都是緊的。鑒于這些結果，對于所有n，上界很可能都是緊的。

本問題的目標是證明這一點，即找到一個算法，給定n，生成一個見證R(B ? ?? , B ? ) > 4n-2的圖。

威廉·J·韋斯利（William J. Wesley）

加州大學圣地亞哥分校塞韋爾客座助理教授

https://epoch.ai/frontiermath/open-problems/ramsey-book-graphs

https://epoch.ai/files/open-problems/ramsey-book-graphs.pdf

2、代數幾何——堅實成果

在特征為3的代數閉域上，構造一族顯式的正規射影KLT（Kawamata log terminal，雄二郎對數終端）德·佩佐（del Pezzo）曲面X，要求這類曲面的皮卡（Picard）數為1，且具有任意多個（例如7個以上）奇點。

在特征為3的情況下完成這一構造，將揭示一種新的小特征現象，同時也將對理解正特征下法諾簇（Fano varieties）和極小模型綱領（MMP）的整體研究進程產生重要影響。

Del Pezzo 曲面是代數簇雙有理分類中的基礎構建模塊。對于具有“溫和”（KLT）奇點的 Del Pezzo 曲面，這些奇點的性質已經相當清楚——除了一個空白。

粗略地說：

在特征為零的情況下，可能的奇點受到高度限制，并且已完全分類。
在特征 2 中，可以有任意多個奇點。
在特征 >3 中，至多可以有四個奇點。
但就特征 3 而言，所有已知的構造至多只有 7 個奇點，而且尚不清楚這是否是最可能的奇點數量。

出題人認為特征 3 也可能存在任意多個奇點。本題的目標是通過構造來證明這一點。出題人給人工智能系統提供了幾種通用形式，并認為構造很可能符合其中一種形式。

保羅·卡西尼（Paolo Cascini）

倫敦大學學院數學教授

https://epoch.ai/frontiermath/open-problems/klt-del-pezzo-surface

https://epoch.ai/files/open-problems/klt-del-pezzo-surface.pdf

3、數論——重大突破級成果

尋找一個系數在整數環?內的23次多項式，使其在有理數域?上的分裂域的伽羅瓦群為馬蒂厄群（Mathieu group）M??。

反伽羅瓦問題是數論領域最基礎的開放性問題之一，核心是構造具有指定對稱性的多項式。上述問題是該難題中目前尚未解決的最小維度情形，其獨特之處在于，馬蒂厄（Mathieu）群M??是最后一個尚未找到對應多項式構造方法的散在單群（sporadic simple groups）。

換言之，逆（反）伽羅瓦問題詢問每個有限群是否都是有理數擴張的伽羅瓦群。在任何特定情況下，這都等于找到一個具有規定對稱性的多項式。該問題的目標是找到一個伽羅瓦群為馬蒂厄群M??的多項式。這是一個特別有趣的例子，因為它是最后一個已知此類多項式的散在單群。雖然不能保證一定存在這樣的多項式，但數學家通常期望它存在。

丹尼爾·利特（Daniel Litt）

多倫多大學數學助理教授

https://epoch.ai/frontiermath/open-problems/inverse-galois

4、拓撲學——突破性成果

設計一個算法，該算法以一個紐結作為輸入，能夠判定該紐結的解結數是否等于1。

這一問題是低維拓撲學的核心問題之一，它探討的是將一個紐結簡化為平凡紐結的難易程度。該問題的解決將成為紐結理論領域的一項重大成果。

紐結的解結數（unknotting number）是一個經典的不變量。它被定義為將紐結的圖轉化為解結后的圖所需的最小交叉變換次數。本問題旨在設計一種算法，用于判斷一個圖是否描繪了一個解結數為 1 的紐結。

這個問題是低維拓撲學中的一個基本問題，如果能得到解決，將是一項重大成果。該問題在復雜度方面處于一個有趣的節點：雖然存在多項式時間算法可以判斷一個紐結的解結數是否為零，但判斷一個紐結的解結數這一一般性問題是 NP 難的——甚至目前尚不清楚其是否可判定。問題提出者樂觀地認為，解結數等于 1 的情況至少是可判定的，而且對于中等規模的圖來說，計算量也是可以承受的。

我們并未嘗試進行完整的理論驗證，而是在一個隱藏的、已知解結次數的紐結挑戰集上測試所提出的算法。雖然我們希望在這個挑戰集上的完美表現能夠表明概念上的突破，但人工智能系統也可能拼湊出許多臨時方法并取得成功。如果出現這種情況，我們可以通過生成更具挑戰性的示例來解決這個問題。

喬爾·哈斯（Joel Hass）

加州大學戴維斯分校數學系教授

https://epoch.ai/frontiermath/open-problems/unknotting-number

https://epoch.ai/files/open-problems/unknotting-number.pdf

5、數論——突破性成果

將 Apéry（阿佩里）對ζ(3)無理性的證明應用于其他常數。

1979 年，阿佩里證明了 ζ(3) 是無理數。該證明的核心在于利用一個特殊的遞推關系，如下所示。當以兩種不同的方式初始化時，該遞推關系可以得到一對級數，這兩個級數可以配置為“快速”收斂于 ζ(3) 。這種快速收斂足以證明 ζ(3) 是無理數。

n3u? = (34n3 - 51n2 + 27n - 5) u??? - (n-1)3u???

本問題的目的是找到類似的遞推關系和初始值，以便證明其他“著名”常數的無理性。

https://epoch.ai/frontiermath/open-problems/apery-irrationality

6、組合數學——中等有趣的成果

超圖上的拉姆齊式問題：構造盡可能大的超圖，使其不具有某種易于檢查但難以發現的性質。

這個問題是關于改進序列H(n)的值的下界，該序列出現在研究如下定義的無窮級數集合的同時收斂性時。如果存在某個D?V和 P?H ，使得|D|=n 且 D中的每個元素都恰好包含在P的一個元素中，則稱超圖(V, H) 包含大小為 n的劃分。 H(n)是最大的 k∈? ，使得存在一個超圖(V, H) ，其中|V| =k 沒有孤立頂點，并且不包含大小大于n 的劃分。人們認為，目前已知的H(n)的最佳下界即使在漸近意義上也是次優的，并且可以通過尋找新的超圖構造來改進它們。本問題的目標就是找到這樣一種構造。

威爾·布萊恩（Will Brian）

北卡羅來納大學夏洛特分校數學助理教授

https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

https://epoch.ai/files/open-problems/ramsey-hypergraphs.pdf

7、數論——堅實成果

算術掛谷猜想：通過構造特定組合對象改進已知上界。

集合??中的 Kakeya（掛谷）集是一個有界集合，它在每個方向上都包含一條單位線段。這樣的集合可以具有零測度，但 Kakeya 猜想認為它們總是具有 (Minkowski閔可夫斯基和 Hausdorff豪斯多夫) 維數d。對于 d≥4 ，該猜想仍未解決。

一個相關的猜想是算術 Kakeya 猜想，它可以表述為：實數α具有性質AK(·) 。顯然，性質AK(2) 成立。算術 Kakeya 猜想是性質AK(1)成立，并且已知性質AK(1) 蘊含 Kakeya掛谷猜想。目前最先進的結果是性質 AK(γ )，其中γ ≈1.675是多項式x3-4x+2 的最大根。

由于 Katz 和陶哲軒的工作，我們可以通過構造某些有限的組合對象，證明AK(α) 對于特定的α 值成立。這種方法是目前最先進的結果的基礎。本問題的目標是在此基礎上進行改進，即找到一個α，能夠證明對于α < γ，AK(α)成立的組合對象。已知該方法存在局限性：它不適用于 α < 3/2 。因此，本問題無法證明完整的 Kakeya 掛谷猜想。

托馬斯·F·布魯姆（Thomas Bloom）

曼徹斯特大學皇家學會研究員

https://epoch.ai/frontiermath/open-problems/arithmetic-kakeya

https://epoch.ai/files/open-problems/arithmetic-kakeya.pdf

參閱

8、組合數學——堅實成果

布爾函數的次數與敏感度：改進次數 (degree) 優于敏感度 (sensitivity) 的上界指數。

給定一個布爾函數f ，已知f 的靈敏度，記為s(f) ，至少是其次數（記為deg(f））的平方根，并且這個界限是緊的。

上限不太明確。已知s(f) ≤deg2(f），最近的研究，通過一個小于1的常數（≈0.83）將其改進。此外，還有 s(f) = deg^{log(6) / log(3)}(f) 的顯式構造。這里的指數約為1.63 。

本問題的目標是找到一種新的構造方法，以改進這個界限。

https://epoch.ai/frontiermath/open-problems/degree-sensitivity-boolean

https://epoch.ai/files/open-problems/degree-sensitivity-boolean.pdf

9、代數幾何——堅實成果

代數的顯式形變：找出從曲線代數到單項式代數的顯式形變。

對阿廷代數形變（deformation）的研究是點的希爾伯特概型（Hilbert scheme）Hilb?(??) 的幾何的核心。曲線分量CHilb??(??)扮演著特殊的角色：它參數化了在??內部局部同構于Spec(k[t]/t?) 的子概型。

已知每個這樣的理想都是相同維數的曲線理想的形變，但證明本質上是非構造性的。這類構造在各種應用中都很有用。本問題旨在為特定的單項式代數提供一個顯式的形變。作者期望，解決此問題將指向構造此類形變的一般策略，而這才是本問題的真正目標。

格爾蓋利·貝爾齊（Gergely Berczi）

奧胡斯大學副教授

https://epoch.ai/frontiermath/open-problems/explicit-deformations

https://epoch.ai/files/open-problems/explicit-deformations.pdf

10、組合數學——堅實成果

大型斯坦納系：構造一個 (n,q,r)-斯坦納系，其中 n>q>r>5, r<10, 且 n<200。

斯坦納系（Steiner system）是高度對稱的組合對象，在實驗設計和糾錯碼領域有著廣泛的應用。自 19 世紀中期以來，人們一直在積極研究斯坦納系。

正式定義很簡單：給定一個大小為 n 的集合S ，一個 (n,q,r)-Steiner 系是 S 的大小為q的子集的集合，使得S的每個大小為r的子集都恰好包含在一個大小為q的子集中。

或許令人驚訝的是，盡管 2014 年證明的定理表明存在許多包含r>5 的斯坦納系實例，但目前尚未發現此類實例。雖然不能保證存在包含 n<200 且5

庫納爾·馬爾瓦哈（Kunal Marwaha）

芝加哥大學量子計算專業的博士研究生

https://epoch.ai/frontiermath/open-problems/large-steiner-systems

https://epoch.ai/files/open-problems/large-steiner-systems.pdf

11、數論——突破性成果

素數分解（質因數分解）：改進 GNFS（通用數域篩法）指數中的常數因子。

目前最著名的經典大整數因式分解算法是通用數域篩法（GNFS）。它的時間復雜度是待分解數字位數的指數級增長。雖然已知存在多項式時間量子算法可以用于整數因式分解，但尚不清楚是否存在多項式時間經典算法。然而，GNFS 算法很可能存在顯著的改進空間。

本問題的目標是找到這樣的改進。我們通過在計算資源有限（例如，在筆記本電腦上運行）的情況下，對挑戰整數進行測試，以數值方式驗證解決方案。挑戰的選擇旨在確保成功的唯一途徑是找到至少與 GNFS 運行時指數常數因子顯著改進相當的改進方案。

這將是計算數論領域的一項重大突破。

https://epoch.ai/frontiermath/open-problems/prime-factorization

12、數論——堅實成果

2-進絕對伽羅瓦群：給出 2-進數域的絕對伽羅瓦群作為profinite群（投射有限群）的展示。

域K的絕對伽羅瓦群是所有有限伽羅瓦群Gal(E/K) 的投射極限。它包含了所有有限擴張的信息，研究有理域?的伽羅瓦群是代數數論中的一個核心問題。研究這個群的一種方法是研究 p-adic（p進）域 ?? 的類似伽羅瓦群。在這種情況下，對于 p>2 ，存在Gal(???? / ??) 的顯式表示。對p=2 ，我們有??的某些擴張的絕對伽羅瓦群的描述，但對于??本身卻沒有。找到這樣的描述將填補我們對伽羅瓦群顯式理解的空白，并且對于給定伽羅瓦群的 p-adic 域的計數將具有重要意義。

戴維·羅（David Roe）

MIT 首席研究科學家

https://epoch.ai/frontiermath/open-problems/q2-absolute-galois

https://epoch.ai/files/open-problems/q2-absolute-galois.pdf

13、組合數學——重大進展

拉伸的 LR（Littlewood-Richardson）系數：找出劃分（即分拆），其拉伸 LR 系數表示為多項式時，具有負系數。

Littlewood-Richardson (LR，利特爾伍德-理查德森) 系數是代數組合學中的核心量，出現在幾個相互關聯的領域中。它們由劃分λ，μ，ν 索引，記為 c_{λμ}^ν。拉伸 LR 系數是底層劃分的整數縮放的 LR 系數，記為 c_{tλ, tμ}^{tν}。

已知拉伸 LR 系數是關于t 的多項式。有人猜想該多項式的系數為正，但出題人預期此猜想不成立。本題旨在找到一個反例。

https://epoch.ai/frontiermath/open-problems/stretched-lr-coefficients

https://epoch.ai/files/open-problems/stretched-lr-coefficients.pdf

14、拓撲/幾何——重大進展

辛球堆積：找出辛球 (symplectic balls) 到單個目標球的顯式嵌入，占據目標球除 ? 外的所有體積。

在四維空間中，已知當k≥10 時，可以用半徑相同的 k 個辛球完全填充一個辛球。這里的“完全填充”指的是，對于任意小的?>0 ，可以找到一個辛同構（symplectomorphism），使得這些球的像占據目標球除?以外的所有體積。然而，這個證明并不明確。找到這些嵌入的顯式構造仍然是一個重要的開放性問題。

凱勒·西格爾（Kyler Siegel）

南加州大學數學系助理教授

https://epoch.ai/frontiermath/open-problems/symplectic-ball-packing

https://epoch.ai/files/open-problems/symplectic-ball-packing.pdf

二、題目特點：兼具數學意義、多樣性與高難度

本基準測試的題目均由專業數學家提供。他們基于自己的研究方向，篩選出那些自己也渴望得到答案的問題。同時，這些數學家還會對題解的學術價值進行評級，等級從“分支領域內具有一定趣味性的成果”到“突破性成果”不等。我們的目標是讓不同等級的題目在測試集中保持均衡分布。

我們的核心目標是篩選出那些本身對數學家具有重要意義的問題。我們不會為了刻意增加AI人工智能的解題難度而設計題目。與那些為測試量身定制的題目不同，這些題目都是數學研究領域的核心問題【注1】。我們希望知道人工智能系統是否能夠解決這些問題，如果可以，那自然是一項重大突破。

需要強調的是，至少對于人類而言，這些題目難度極高。提供題目的數學家會根據嘗試過解題的人數對題目進行評級，嘗試解題的數學家數量范圍從2-4人到50-100人不等。

此外，數學家還會預估人類解答這些題目的時間。具體來說，就是假設最有能力解決該問題的數學家全職投入研究，要達到50%的解題概率所需的時間。預估結果從1-4周到3-10年不等。【注2】也就是說，人類解答這些題目的門檻非常高。

這些題目覆蓋了多個數學分支領域。本次試點測試集的題目偏向組合數學和數論，原因是我們在這兩個領域找到了更多適合自動驗證的問題。在擴充題目庫的過程中，我們將致力于保持題目所屬領域的多樣性。

三、前沿數學（FrontierMath）開放性問題測試集構成

按解題學術價值等級（解決方案的顯著性、名氣值）、預估解題時間、嘗試解題的數學家數量、所屬數學領域來看分布：

四、解決方案可實現自動驗證

評估AI人工智能針對未解決數學問題給出的解決方案，是一項重大的后勤挑戰。數學研究成果通常以自然語言論文的形式呈現。即便對于人類來說，評估這類論文也需要投入大量精力，且容易出現錯誤。雖然人工智能系統在評估自然語言數學內容方面已經取得了一定進展，但對于高水平的數學研究成果，我們還無法完全信賴其評估的準確性?！咀?】

我們的解決思路是，篩選出這類問題：即便目前尚未找到答案，但候選解決方案可以通過在普通計算機上運行的簡易程序進行驗證。這類可驗證的問題的存在并非顯而易見，但我們確實找到了不少。

例如，部分題目要求構造一個具有特定性質的具體數學對象。其中一道題目就要求找到一個滿足特定條件的多項式?！咀?】驗證一個給定的多項式是否符合要求的過程很快，但想要找到這樣的多項式，卻超出了包括高度優化的大規模搜索在內的所有已知方法的能力范圍。這道題的研究價值在于，要構造出目標對象，似乎必須借助創新性的概念方法。

在另一些情況下，題目要求構造一個適用于所有正整數的通用方法。我們無法對所有正整數的情況進行驗證，但可以要求解題者提供一個算法。該算法以任意整數為輸入，輸出對應情況下的構造方案。我們可以在一個測試整數集上驗證該算法的有效性。這個測試集包含一些目前尚無構造方案的整數，且數值足夠大，足以讓暴力搜索方法難以奏效。如果算法在測試集上表現良好，就有充分的理由相信該算法是一個通用解決方案。

這種方法也存在局限性，它限制了我們選題的范圍。我們的理想狀態是從所有未解決的數學問題中隨機抽樣，但自動驗證的要求不可避免地帶來了選題偏差?；鶞蕼y試中的題目往往具有較強的具象性，可能不需要涉及“理論構建”這類較抽象的數學研究工作。即便如此，令我們驚喜的是，數學家們能夠輕松提供大量既符合自動驗證條件，又具有重要數學意義的多樣化題目?！咀?】

五、部分基準測試題目可能無解

本基準測試存在一個固有風險，即部分題目可能并不存在符合題述要求的解。這種情況主要分為兩種：一是目標數學對象根本不存在；二是目標數學對象確實存在，但其規模超出了驗證程序的處理能力，無法被驗證程序判定為有效解。

我們認為，這類情況并不會影響對基準測試整體結果的解讀。成功解題顯然具有重要意義。而在某一難度等級下未能解開所有題目，同樣具有研究價值。隨著題目庫規模擴大到超越當前試點版本，這一結果的參考意義將更加顯著。因此，我們鼓勵這樣解讀測試結果：“我們已經觀察到多個人工智能解決具有一定趣味性的數學開放性問題的案例，但尚未出現能夠實現重大突破的案例?！?/p>

盡管存在上述風險，我們仍盡力確保入選的題目大概率存在解。對于部分題目，我們有啟發性的理由相信符合要求的解是存在的。對于所有題目，我們至少沒有發現任何能夠證明其無解的證據?！咀?】

我們設定的目標是，提供題目的數學家對題目的可解性評估概率至少達到80%。【注7】但實際情況是，數學家在給出50%-80%的概率評估時，往往會強調其判斷存在高度不確定性。

六、已解決的題目將被移出基準測試

一旦某道題目被破解，無論是被人類還是AI人工智能，相關成果都會被公開發表?！咀?】這樣一來，后續的人工智能系統在面對這道題時，只需檢索已有文獻就能找到答案。因此，我們會將已解決的題目移出基準測試。

這種“先解先得”的模式雖然并不常見，但我們認為，這并不會削弱前沿數學開放性問題基準測試的整體價值。該基準測試的目的并非給出一個評分，用于比較不同模型解決開放性問題的能力。它的核心價值在于，判斷AI人工智能系統是否具備解決特定難度和重要性級別的數學問題的能力。

七、該基準測試有助于追蹤AI的“研究品位”

該基準測試最直接的目標，是探究人工智能是否能夠解決未解決的數學問題。同時，我們認為它還有助于追蹤一些較難量化的能力，例如“研究判斷力”，也就是AI人工智能系統在選擇研究方向、識別關鍵規律等方面的能力。

這類能力對于理論數學研究似乎至關重要。在理論數學領域，找到正確的研究思路往往是最困難的環節。如果人工智能系統能夠解決那些人類傾注大量心血仍未攻克的數學難題，那就意味著它可能正在逐步形成超越人類的通用研究判斷力。

當然，這并非必然結果?；蛟S和國際象棋或圍棋一樣，數學的形式化本質恰好讓它成為人工智能系統相對容易突破的領域。也有可能人工智能系統會以一種我們認為不夠優雅的方式解決這些問題?！咀?】即便如此，我們仍很高興能將這一基準測試納入工具庫，用于追蹤這些難以量化的人工智能能力。

八、期待各方積極嘗試用AI求解這些問題

我們的核心目標是摸清AI人工智能數學能力的邊界。但目前，我們尚未找到激發人工智能在基準測試中展現最佳性能的最優方法。

到目前為止，我們僅嘗試了一種簡單方法：在網頁應用中直接向GPT-5.2 Pro和Gemini 3 Deep Think模型輸入提示詞?！咀?0】相關測試結果可在各題目的詳情頁面查看。在這種測試模式下，這些模型通常能夠解決一些“熱身題”。這些題目是已有答案的開放性問題變體。這表明模型能夠理解題目要求，并且熟悉相關主題領域。同時，這也有助于測試驗證程序的有效性。

但當面對真正的開放性問題時，這些模型的表現就不盡如人意了。有時，它們執著于使用優化算法，而非可能更有效的概念性方法。還有些時候，它們會識別出題目是開放性問題，然后直接放棄求解。

要解決這些問題，顯然需要模型具備更強的“思考”能力。目前的AI人工智能模型已經能夠進行規劃、執行、修正和迭代等操作。但要攻克這些難題，它們可能需要更多的時間和計算資源。如何為模型創造這樣的條件，本身就是一個開放性的研究問題?！咀?1】

我們正在開發一個框架，以支持人工智能系統對這些問題進行更深入的求解嘗試。同時，我們也期待其他機構和研究者積極參與。如有任何疑問，可發送郵件至math@epoch.ai聯系我們。

附錄：關于未來AI人工智能解題成果的注意事項

該基準測試本質上是對一系列數學問題的研究價值進行預先登記。即便如此，如果這些問題最終以某些特定方式被解決，我們就需要給出一些相應的說明。在此，我們也對這些注意事項進行預先登記，以避免后續出現“隨意調整評判標準”的爭議。【注12】

1. 人機協作

人類與AI人工智能系統之間已經出現了富有成效的數學協作。一種典型的協作模式是，人工智能系統負責生成示例，人類研究者則基于這些示例歸納出完整的解決方案。事實上，借助計算機搜索有用示例的方法，早在基于大語言模型的人工智能系統出現之前就已經存在。對于這類協作產生的解題成果，我們需要評估人機雙方的分工情況。人工智能系統在概念性工作中承擔的職責越多，就越能體現其能力的進步。

2. 已有研究成果的借鑒

AI人工智能系統的數學知識廣度可能已經超過了頂尖人類數學家。有可能某個已有的研究成果已經為解決某道題奠定了大部分基礎，只是嘗試解題的數學家此前并未關注到這一成果。對于那些知名度較高的問題，這種情況發生的概率較低。但無論如何，如果人工智能的解決方案嚴重依賴已有研究成果，其體現的能力進步幅度就會大打折扣。當然，如果人工智能系統能夠以創新性的方式應用已有成果，那就無需附加任何說明——因為這正是數學研究的常見模式。

3. 傳統計算資源的運用

如果AI人工智能系統提出一種經過優化的并行搜索算法，而某家AI人工智能公司投入相當于一臺超級計算機運行一個月的計算資源來執行該搜索，那么即便問題被解決，其背后所體現的數學洞察力也可能低于預期。雖然我們在選題時，已經盡量排除了僅靠暴力搜索就能解決的問題，但我們無法對此做出絕對保證。畢竟，大多數數學問題都未曾得到過如此大規模的工業級計算資源的支持。

4. 驗證程序的設計缺陷

驗證程序可能會判定某個AI人工智能解決方案有效，但該方案實際上并未達成提供題目的數學家期望驗證程序識別的概念性突破。在簡單情況下，這類缺陷只是程序漏洞。而在更復雜的情況下，可能是因為題解的驗證難度超出了數學家最初的預期。對于這類情況，我們會進行公開報告，并在可能的情況下修復驗證程序。

5. 樣本偏差

我們必須正視自動驗證要求帶來的樣本偏差問題。拋開上述所有注意事項不談，在該基準測試中取得進展，本質上就等同于解決了具有重要意義的數學開放性問題。但也有可能，AI人工智能系統在解決這類適合自動驗證的、具有重要意義的數學開放性問題方面，具有獨特的優勢。如果事實果真如此，那么該基準測試中取得的進展，可能無法很好地推廣到數學的其他領域。

1. 也就是說，該基準測試具有較高的結構效度。

2. 數學家們普遍強調，這些預估解題時間很可能并不準確，甚至可能毫無參考價值。但我們認為，預估時間的巨大跨度至少能為我們提供一些信息。

3. 有關人工智能系統評估自然語言數學證明的研究，可參考相關文獻。

4. 即尋找一個伽羅瓦群為馬蒂厄群M??的多項式。數學家們曾嘗試構造這樣的多項式，但均未成功，但他們仍然相信這樣的多項式是存在的。

5. 另一種可行的方法是采用完全形式化的方案，最有可能的是要求人工智能系統在Lean語言中實現解決方案。我們最終沒有選擇這種方法，原因有三，且都與Lean平臺仍在發展階段這一現狀有關。

首先，許多數學分支的理論基礎尚未在Lean中完成形式化。

其次，即便題目的描述可以形式化，解題所需的部分概念也可能無法在Lean中實現。

第三，與其他編程范式相比，Lean的實際應用檢驗還不夠充分。特別是，該語言中可能還存在不少難以察覺的漏洞，而人工智能模型有可能會利用這些漏洞。目前，我們更傾向于使用簡單的專用驗證程序。盡管從長遠來看，Lean或其他形式化系統可能會成為更實用、更具可擴展性的解決方案。

6. 我們明確排除了這類問題：要求尋找某個猜想的反例，而數學家們普遍認為該猜想是正確的。例如，找到一個無法表示為兩個素數之和的偶數，就可以推翻哥德巴赫猜想。至少在反例數值不是特別巨大的情況下，驗證這樣的反例是很容易的。但如果數學家們對哥德巴赫猜想的判斷是正確的，那么這樣的反例就不存在。人工智能系統找不到這樣的反例，并不能說明任何問題。

7. 這其中也考慮了為實現自動驗證而對解題方案規模施加的限制。例如，不僅要證明某類數學對象存在，還要證明存在一個規模足夠小、能夠被驗證程序處理的此類對象。

8. 事實上，任何機構購買驗證程序的使用權限時，都需要遵守一個條件：如果通過驗證程序取得了解題成果，必須通知我們（Epoch）和提供該題目的數學家。解題成果的發表權歸該機構、數學家與我們（Epoch）共同所有。需要說明的是，提供題目的數學家在其研究工作中，仍然可以自由地研究自己貢獻的題目，不受任何限制。

9. 當然，這并不會否定這些解決方案的有效性。畢竟，“美即是真，真即是美”，不是嗎？

10. 在網頁應用中直接輸入簡單提示詞，往往就能激發模型的最佳性能。例如Gemini 2.5 Deep Think和GPT-5.2 Pro模型就屬于這種情況。

11. 在AlphaEvolve項目中，研究人員使用了一個有趣的提示詞，讓模型“相信自己”。說不定這種方法真的有效呢！

12. 借用道格拉斯·亞當斯的話來說：我們就愛調整評判標準，就愛聽它被打破時發出的呼嘯聲。

參考資料

https://epoch.ai/frontiermath/open-problems/about

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂加星★

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.