MATHEMATICAL EXPLORATION AND DISCOVERY AT SCALE
規模化數學探索與發現
https://arxiv.org/pdf/2511.02864
![]()
![]()
摘要
AlphaEvolve(見[224])是一種通用進化式編碼智能體,它將大語言模型的生成能力與自動化評估相結合,構成迭代式進化框架,可針對具有挑戰性的科學與實際問題提出、測試并精煉算法解。本文將 AlphaEvolve 展示為一種自主發現新穎數學構造并推進對長期開放問題理解的工具。
為展現其廣度,我們考察了涵蓋數學分析、組合數學、幾何學與數論的 67 個問題。該系統在多數情形下重新發現了已知最優解,并在若干問題上找到了改進解。某些情況下,AlphaEvolve 還能將有限輸入值的結果推廣為適用于所有輸入值的通用公式。此外,我們能夠將該方法與 Deep Think [149] 和 AlphaProof [148] 相結合,構建更廣泛的框架:其中額外的證明輔助與推理系統可提供自動化證明生成及更深入的數學洞見。
這些結果表明,大語言模型引導的進化搜索能夠自主發現與人類直覺互補的數學構造,有時可匹配甚至超越已知最優結果,凸顯了數學家與人工智能系統之間產生全新交互方式的潛力。我們將 AlphaEvolve 呈現為一種強大的數學發現工具,能夠探索廣闊搜索空間以規模化求解復雜優化問題,且通常顯著降低了對前期準備與計算時間的要求。
- 引言
數學發現的格局已被能夠自主探索數學空間并生成新穎構造的計算工具從根本上改變 [56, 120, 242, 291]。AlphaEvolve(見 [224])代表了這一演進中的重要一步,它表明:當大語言模型與進化計算及嚴格的自動化評估相結合時,能夠大規模地發現顯式數學構造,其性能可匹配甚至超越長期存在的數學問題的已知最優界。
AlphaEvolve 并非適用于所有類型數學問題的通用求解器;其主要設計目標是攻克那些關鍵目標在于構造滿足優良定量性質(例如以較好數值常數滿足特定不等式)的復雜數學對象的問題。在本后續論文中,我們報告了在廣泛此類問題上測試 AlphaEvolve 性能的實驗結果,主要集中于分析學、組合數學與幾何學領域。在許多情形下,AlphaEvolve 提供的構造不僅具有數值性質,還可由人類數學家、Deep Think 等其他工具、甚至 AlphaEvolve 自身進行解釋與推廣。AlphaEvolve 并未能在所有情形下匹配或超越先前結果,且其部分單項改進很可能亦可通過人類專家采用更傳統的計算或理論方法實現。然而,與這些方法不同,我們發現 AlphaEvolve 可輕松擴展以同時研究大批量問題類別,且無需針對每個新問題進行大量專家監督。這表明進化計算方法能夠以互補于傳統技術的方式系統探索數學對象空間,從而有助于回答關于計算搜索與數學存在性證明之間關系的問題。
我們還觀察到,在許多情形下,除可擴展性外,為使 AlphaEvolve 輸出與文獻相當的結果,相較于傳統數學研究方式,所需額外開銷極小:平均而言,使用 AlphaEvolve 設置一個問題的常規準備時間僅需數小時。我們預計,在缺乏先驗知識、信息或代碼的情況下,等效的傳統設置通常將耗費顯著更長時間。這促使我們提出“規模化構造性數學”(constructive mathematics at scale)這一術語。
AlphaEvolve 有效性的關鍵數學洞見在于其能夠同時在多個抽象層次上運作。該系統不僅能優化數學構造的具體參數,還能優化發現此類構造的算法策略。這種元層次進化代表了一種新型遞歸形式,其中優化過程本身成為優化對象。例如,AlphaEvolve 可能演化出使用啟發式集合、SAT 求解器、無收斂保證的二階方法或其組合的程序。這種分層方法在 AlphaEvolve 處理復雜數學問題(由用戶提出)時尤為明顯:系統常為優化過程的不同階段發現專用搜索啟發式。早期啟發式擅長從隨機或簡單初始狀態實現大幅改進,而后期啟發式則聚焦于近優構型的精細調優。這種涌現的專門化映射了人類數學家所采用的直觀方法。
1.1 與 [224] 的比較。白皮書 [224] 首次介紹了 AlphaEvolve 并強調了其廣泛的通用適用性(包括數學領域)及部分結果細節。在本后續論文中,我們從廣度、難度與重要性角度擴展了所考察數學問題的列表,并首次給出全部問題的完整細節。以下問題未按特定順序排列。出于篇幅限制,我們不試圖詳盡梳理所列各問題的歷史,而將讀者引向各問題所提供的參考文獻以深入探討已知結果。
隨本文一同發布的還有一個包含部分實驗與問題擴展細節的在線問題倉庫。盡管進化過程中的隨機性可能使復現更具挑戰,我們預期憑借所給信息與足夠實驗次數,結果可完全復現。
1.2 人工智能與數學發現。人工智能作為數學發現中的變革性力量的興起,標志著我們應對某些最具挑戰性數學問題方式的范式轉變。近期突破 [87, 165, 97, 77, 296, 6, 271, 295] 已證明人工智能輔助數學家的能力。AlphaGeometry 在標準時限內解決了 30 道奧林匹克幾何題中的 25 道 [287]。AlphaProof 與 AlphaGeometry 2 [148] 在 2024 年國際數學奧林匹克競賽中取得銀牌成績,隨后先進的 Gemini Deep Think 框架在 2025 年國際數學奧林匹克競賽中斬獲金牌 [149]。OpenAI 的模型亦取得金牌成績,參見 [297]。超越競賽表現,人工智能已開始做出真正的數學發現,例如 FunSearch [242] 發現了關于帽子集(cap set)問題的新解及更高效的裝箱算法(另見 [100]);PatternBoost [56] 推翻了一個長達 30 年的猜想(另見 [291]);以及早期先驅如 Graffiti [119] 生成猜想。人工智能協助數學家的其他實例還包括 [70, 283, 302, 301],涉及尋找數學命題的形式化與非形式化證明。
盡管 AlphaEvolve 更側重于探索與發現,我們已能將其與其他系統進行流水線式集成,從而不僅實現探索,還能將發現結果與數學上嚴格的證明及其形式化相結合。
1.3 進化算法以尋找構造。AlphaEvolve 的核心是一種復雜的搜索算法。為理解其設計,從一個熟悉的概念入手會有所幫助:局部搜索。為求解諸如“尋找一個含 50 個頂點、不含三角形與四元環且邊數最多的圖”之類的問題,標準做法是從一個隨機圖出發,迭代地進行小幅修改(例如添加或刪除一條邊),以提升其得分(本例中為邊數,但對任何三角形或四元環施加懲罰)。我們持續“爬山”直至無法進一步改進。
從 FunSearch [242](見表 1 的直接對比)及其重新實現 [100] 繼承的第一個關鍵思想是:不在圖的空間中執行此類局部搜索,而是在生成圖的 Python 程序空間中進行。我們從一個簡單程序出發,然后利用大語言模型(LLM)生成大量相似但略有差異的程序(“變異”)。通過運行每個程序并評估其生成的圖來對其進行評分。人們自然會疑惑這種方法為何有益:一次 LLM 調用通常遠比添加一條邊或評估一個圖昂貴得多,因此我們探索的候選解數量往往比標準局部搜索方法少數千甚至數百萬倍。
![]()
許多“優美”的數學對象(如前述問題的最優解 Hoffman-Singleton 圖 [142])可用簡短、優雅的代碼進行描述。此外,即使某個問題僅存在一個最優構造,也可能有多種不同而自然的程序生成它。相反,無數作為局部最優解的“丑陋”圖可能并不對應任何簡單程序。在程序空間中搜索可作為一種強大的簡潔性與結構性先驗,幫助我們避開混亂的局部極大值,導向優雅且往往最優的解。即使最優解本身無法通過簡單程序描述,而最佳發現途徑是啟發式方法,我們發現 AlphaEvolve 在此類任務上同樣表現出色。
然而,對于評分函數計算成本低廉的問題,傳統方法純粹的暴力計算優勢仍難以克服。我們對此提出的解決方案如下:AlphaEvolve 不再進化直接生成構造的程序,而是進化用于搜索構造的程序。這便是我們所稱的 AlphaEvolve“搜索模式”(search mode),也是我們在所有以尋找優良構造為目標、且不關注其可解釋性與可推廣性的問題上采用的標準模式。
AlphaEvolve 種群中的每個程序均為一種搜索啟發式。它被賦予固定時間預算(例如 100 秒),任務是在該時限內找到盡可能優良的構造。該啟發式的評分即為其找到的最佳對象的評分。這解決了速度差異問題:一次緩慢的 LLM 調用生成新搜索啟發式后,可觸發大規模廉價計算——該啟發式可自主探索數百萬候選構造。
我們強調,搜索無需每次都從零開始。新啟發式將根據其改進迄今最佳構造的能力進行評估。因此,我們實際進化的是一個“改進器”(improver)函數種群。這形成了動態自適應的搜索過程:初期可能偏好執行廣泛探索性搜索的啟發式;隨著逼近優良解,執行巧妙問題特定精調的啟發式可能占據主導。最終結果通常是一系列專用啟發式的序列,當串聯使用時可產生前沿構造。其代價可能是搜索過程可解釋性的潛在損失,但其所發現的最終對象仍是我們可研究的明確定義的數學實體。
這一補充機制對更困難的問題尤為有用——單一搜索函數可能無法獨立發現優良解。
1.4 從示例泛化到公式:泛化模式。除在固定問題規模(例如 n = 11 的堆積問題)上表現優異的上述搜索模式外,我們還嘗試了更具雄心的“泛化模式”(generalizer mode)。在此模式下,我們要求 AlphaEvolve 編寫一個可對任意給定 n n 求解該問題的程序,并根據其在一系列 n n 值上的表現進行評估。期望是:通過觀察自身為小規模 n n生成的(往往是最優的)解,AlphaEvolve 能夠識別模式并將其泛化為適用于所有 n n 的構造。
該模式更具挑戰性,但也產出了我們最激動人心的部分成果。例如,AlphaEvolve 為 Nikodym 問題(見問題 6.1)提出的構造啟發了第三作者撰寫的新論文 [281]。另一方面,使用搜索模式時,進化出的程序往往難以解釋;但最終構造本身仍可被分析——在算術 Kakeya 問題(問題 6.30)中,這些構造亦啟發了第三作者的另一篇論文 [282]。
1.5 構建多AI工具流水線。更引人注目的是,針對有限域 Kakeya 問題(參見問題 6.1),AlphaEvolve 發現了一個有趣的通用構造。當我們將該程序化解輸入名為 Deep Think [149] 的智能體時,它成功推導出其正確性證明及規模的閉式公式。隨后,該證明借助另一AI工具 AlphaProof [148] 在 Lean 證明輔助系統中完成了完全形式化。這一工作流——結合模式發現(AlphaEvolve)、符號化證明生成(Deep Think)與形式驗證(AlphaProof)——為專用AI系統如何集成提供了具體范例。它預示了一種潛在的未來方法論:多種AI工具的組合可協助實現從經驗觀察到的模式(由模型提出)到形式化驗證數學結果的全過程,全程自動化或半自動化。
1.6 局限性。我們亦需指出,盡管 AlphaEvolve 擅長處理可清晰表述為光滑評分函數優化、且適合“爬山法”的問題,但在其他情形下有時會陷入困境。特別是,我們遇到若干實例中 AlphaEvolve 未能達到最優或接近最優結果,下文將一并報告這些案例。總體而言,我們發現 AlphaEvolve 在大規模應用于廣泛松散關聯的問題組合時最為有效,例如各類堆積問題,或 Sendov 猜想及其變體。
第 6 節將詳述通過該方法發現的新數學結果,以及所有 AlphaEvolve 未能找到先前已知最優構造的案例。我們希望本工作不僅能為這些具體問題提供新見解,亦能激勵其他科學家探索如何將此類工具適配于各自研究領域。
- AlphaEvolve 概述與使用方法
如 [224] 所介紹,AlphaEvolve 建立了一個將大語言模型創造力與自動化評估器相結合的框架。其中部分描述與用法已在該文獻中呈現,為保證本文自洽性,我們在此予以討論。AlphaEvolve 的核心是一個進化系統,該系統維護一個程序種群,每個程序編碼了給定問題的潛在解。該種群通過模擬自然選擇的迭代循環持續改進。
進化過程包含兩個主要組件:
(1) 生成器(LLM):該組件負責引入變異。它選取當前種群中表現較優的部分程序并對其進行“變異”,以生成新的候選解。該過程可在多個 CPU 上并行化。借助大語言模型,這些變異并非隨機的字符翻轉,而是基于父代程序邏輯與人類用戶提供的專家建議、具有語法意識的智能代碼修改。
(2) 評估器(通常由用戶提供):此即“適應度函數”。它是一段確定性代碼,接收種群中的一個程序,運行該程序,并根據其表現賦予數值評分。對于數學構造問題,該評分可反映構造滿足特定性質的程度(例如圖的邊數,或堆積的密度)。
過程始于若干簡單初始程序。每一代中,部分高分程序被選中并輸入大語言模型,以生成潛在更優的后代。這些后代隨后被評估、打分,其中得分較高者將構成未來程序的基礎。這種生成與選擇的循環使種群隨時間“進化”,趨向于產生質量日益提升的解的程序。需注意,由于每個評估器具有固定時間預算,評估器消耗的總 CPU 小時數與實驗中大語言模型調用總次數成正比。關于更多細節及數學問題之外的應用,讀者可參閱 [224]。Nagda 等人 [221] 應用 AlphaEvolve 為度量旅行商問題與 MAX-k-CUT 等問題建立了新的近似難度結果。AlphaEvolve 發布后,其他利用大語言模型進行科學發現的開源框架實現亦相繼開發,例如 OpenEvolve [257]、ShinkaEvolve [190] 與 DeepEvolve [202]。
應用于數學領域時,該框架在尋找具有極值性質的構造方面尤為強大。如引言所述,我們主要采用其搜索模式:被進化的程序并非直接構造,其本身即是啟發式搜索算法。評估器為這些進化出的啟發式賦予固定時間預算,并根據其在該時限內能找到的最佳構造質量進行評分。該方法將大語言模型昂貴而富有創造力的能力導向高效搜索策略的設計,這些策略隨后可被廉價且大規模地執行。這使 AlphaEvolve 能夠有效導航廣闊而復雜的數學景觀,發現本文詳述的各類新穎構造。
- 元分析與消融研究
為更深入理解 AlphaEvolve 的行為特性與敏感性,我們開展了一系列元分析與消融研究。這些實驗旨在回答該方法的若干實踐性問題:計算資源如何影響搜索效果?底層大語言模型扮演何種角色?典型成本為何?為保持一致性,許多實驗以自相關不等式問題(問題 6.2)作為測試平臺,因其提供了一個簡潔且評估迅速的目標函數。
3.1 發現速度與評估成本的權衡。任何 AlphaEvolve 運行中的關鍵參數是所用并行計算量(例如 CPU 線程數)。直觀而言,并行度越高,發現速度應越快。我們通過以不同線程數(從 2 到 20)運行問題 6.2 對此進行探究。
我們的發現(見圖 1)雖存在一定噪聲,但似乎符合這一預期權衡。增加并行線程數顯著加快了發現時間:使用 20 個線程的運行始終比 2 個線程更快地超越前沿界。然而,這種速度提升伴隨著更高的總成本。由于每個線程半獨立運行并各自調用大語言模型生成新啟發式,線程數翻倍大致使大語言模型查詢速率翻倍。盡管線程間相互通信并基于彼此的最佳構造進行改進,但更快達成結果需要更大總量的大語言模型調用。最優策略取決于研究者優先級:若追求快速探索,高并行度效果顯著;若旨在最小化直接成本,則較少線程長時間運行更為經濟。
![]()
3.2 模型選擇的作用:大型模型與廉價模型。AlphaEvolve 的性能從根本上依賴于用于生成代碼變異的大語言模型。我們對比了高性能大語言模型與規模小得多、成本低廉的模型(輸入 token 價格相差約 15 倍,輸出 token 約 30 倍)的有效性。
我們觀察到,能力更強的大語言模型傾向于產生更高質量的建議(見圖 2),常以更少進化步數達成更優評分。然而,最有效策略并非總是獨占使用最強模型。對于這一簡單的自相關問題,最具成本效益的超越文獻界策略是在多次運行中使用最廉價模型,其總大語言模型成本極低:僅數美元。但對于更困難的 Nikodym 集問題(見問題 6.1),廉價模型無法生成最精巧的構造。
![]()
我們還觀察到,僅使用高端模型的實驗有時表現不如偶爾混用廉價模型的運行。一種解釋是:不同模型可能提出截然不同的方法;盡管較差模型通常建議質量較低,但它確實增加了多樣性。這表明在進化過程中注入一定程度的隨機性或“樸素創造力”可能存在潛在收益。我們推測,對于需要更深刻數學洞見的問題,更智能大語言模型的價值將更為凸顯;但對于許多優化景觀,來自廉價模型的多樣性是一種強大且經濟的工具。
- 結論
我們對 AlphaEvolve 的探索得出了若干關鍵洞見,總結如下。我們發現,驗證器(verifier)的選擇是顯著影響系統性能與發現結果質量的關鍵組件。例如,優化器有時會傾向于更穩定(平凡)的解,而這正是我們希望避免的。設計巧妙的驗證器以規避此類行為,是發現新結果的關鍵。
類似地,在某些情形下,采用連續型(而非離散型)損失函數被證明是引導進化搜索過程更有效的策略。例如,對于問題 6.54,我們本可將評分函數設計為任意給定構型中相接觸圓柱的數量(若構型非法則為 ? ∞ ?∞);但通過采用依賴于距離的連續評分函數,我們實現了更成功且更快速的優化過程。
實驗過程中,我們還觀察到一種“作弊現象”:系統會發現漏洞或利用問題設置中的瑕疵(例如通過離散版本近似全局約束如正性時產生的泄漏型驗證器、對廉價模型的不可靠大語言模型查詢等),而非尋找真正解。這凸顯了精心設計魯棒評估環境的必要性。
另一重要組件是提示中給予的建議及提示者的經驗。我們發現,隨著使用次數增加,我們越來越善于掌握如何向 AlphaEvolve 提供有效提示。例如,采用搜索模式提示相較于直接尋找構造,前者產生了更高效的程序與更優結果。此外,當使用者是所嘗試問題的領域專家時,AlphaEvolve 的表現始終顯著優于非專家使用者:我們發現,提示中給予 AlphaEvolve 的建議對最終構造質量具有顯著影響。在提示中提供富有洞見的專家建議幾乎總能帶來顯著更優的結果——事實上,AlphaEvolve 總是試圖在保留原始建議精髓的前提下,最大限度地榨取該建議的價值。我們強調,總體而言,最佳結果往往源于人類專業知識與 AlphaEvolve 計算能力的結合。
一個促進發現廣泛適用算法的有趣發現是:當系統被提供更受約束的輸入集或特征集時,泛化能力反而提升。“數據量大”并不必然意味著泛化性能更優。當我們尋求能跨廣泛參數范圍泛化的可解釋程序時,我們通過僅向 AlphaEvolve 展示小規模 n n 值下的先前最優解來限制其可訪問數據量(參見問題 6.29、6.65、6.1)。這種“少即是多”的方法似乎有助于更基礎性思想的涌現。
展望未來,提升系統自主性的重要一步將是使 AlphaEvolve 能夠自主選擇超參數,動態調整其搜索策略。
當系統在同一實驗中針對相關問題或問題實例族進行訓練時,結果亦顯著改善。例如,在探索幾何問題時,同時處理不同點數 n n 與維度 d d 的構型極為有效。對特定 ( n , d ) 對表現良好的搜索啟發式,很可能為其他情形提供堅實基礎,引導系統趨向更具普適性的原理。
我們發現,AlphaEvolve 擅長發現那些本已處于當前數學能力范圍內、但因尋找適用于特定問題的標準思想恰當組合所需時間與精力過大而尚未被發現的構造。另一方面,對于需要真正新穎、深刻洞見才能取得進展的問題,AlphaEvolve 可能并非合適工具。
未來,我們設想類似 AlphaEvolve 的工具可用于系統評估大批量數學界或猜想的難度。這可能導致一種新型分類方法,使研究者能夠半自動地標記某些不等式為"AlphaEvolve-難解",表明其對基于 AlphaEvolve 方法的抵抗性;反之,其他問題則可被標記為適合通過理論與計算機輔助技術進一步攻關,從而更有效地引導未來研究方向。
- 未來工作
AlphaEvolve 中的數學進展代表了邁向自動化數學發現的重要一步,盡管仍有許多廣闊的研究方向有待探索。鑒于人機交互的特性,我們設想未來可進一步將計算機輔助證明整合至 AlphaEvolve 的輸出中,從而實現 AlphaEvolve 首先發現候選解,繼而自動生成例如 Lean 代碼形式的計算機輔助證明以驗證該解,全程自動化。本工作中,我們已通過一個從發現到形式化的完整流水線示例證明,此類情形在罕見情況下已然可行;該流水線結合人類專業知識后產生了更深入的洞見與更強的結果。本文僅代表這一尚在進行中的長期目標的第一步,我們期望在此方向上進一步探索。本文所劃定的邊界純粹受限于人類時間與論文篇幅,而非我們的計算能力。具體而言,對于部分問題,我們相信(正在進行及未來的)進一步探索可能帶來更豐富、更優的結果。
- AlphaEvolve 測試的數學問題
在我們的實驗中,我們從數學文獻中選取了 67 個問題(包括已解決與未解決的),其中大多數可重新表述為對某個數值量(可能依賴于一個或多個參數,少數情況下為多維而非標量值)獲取上界和/或下界。這些數值量中的許多可表達為某個評分函數在某集合(可能是有限集、有限維或無限維)上的上確界或下確界。
盡管上下界均具研究價值,但在許多情形下僅其中一類界適合采用 AlphaEvolve 方法處理,因其本質是用于發現有趣數學構造的工具——即嘗試優化評分函數的實例,而非證明對所有可能實例均成立的界。當評分函數的定義域為無限維(例如函數空間)時,在應用 AlphaEvolve 前需額外施加限制或投影至有限維空間(例如通過離散化或正則化)。
在許多情形下,AlphaEvolve 能夠匹配(或近乎匹配)現有界(其中部分已知或被猜想為緊界),且常能提供極值構造的可解釋性描述;在若干情形下甚至超越了前沿結果。在其他情形下,AlphaEvolve 甚至未能達到文獻中的已知界,但我們仍致力于在此記錄實驗的正反兩方面結果,以更準確地呈現 AlphaEvolve 作為工具的優勢與局限。我們的目標是分享所有嘗試過的問題結果——包括僅短暫嘗試的問題——以誠實地呈現哪些方法有效、哪些無效。
在 AlphaEvolve 超越前沿結果的情形中,很可能通過進一步工作——例如采用提示與設置更優的 AlphaEvolve 版本、由理論考量或傳統數值方法引導的定制化方法,或二者的混合策略——可帶來進一步改進;這在 [224] 中先前公布的若干 AlphaEvolve 結果中已然發生。我們希望此處報告的結果能通過多種方法激發這些問題的進一步進展。
![]()
![]()
![]()
![]()
![]()
原文鏈接:https://arxiv.org/pdf/2511.02864
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.