網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

BFS-Prover：面向大語言模型自動定理證明的可擴展最佳優(yōu)先樹搜索

2026-01-23 19:45:58　來源: CreateAMind

上海舉報

分享至

BFS-Prover：面向大語言模型自動定理證明的可擴展最佳優(yōu)先樹搜索

BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving

https://arxiv.org/pdf/2502.03438

摘要：

近期大語言模型（LLMs）的進展激發(fā)了利用 Lean4 進行自動定理證明的廣泛興趣，其中高效的樹搜索方法對于應(yīng)對底層龐大的證明搜索空間至關(guān)重要。盡管現(xiàn)有方法主要依賴價值函數(shù)和/或蒙特卡洛樹搜索（MCTS），但更簡單的方法（如最佳優(yōu)先樹搜索，BFS）的潛力尚未得到充分探索。本文研究了 BFS 是否能在大規(guī)模定理證明任務(wù)中實現(xiàn)具有競爭力的性能。

我們提出了 BFS-Prover，一個可擴展的專家迭代框架，包含三項關(guān)鍵創(chuàng)新：
第一，在每輪專家迭代中實施策略性數(shù)據(jù)過濾，排除那些通過束搜索節(jié)點擴展即可解決的問題，從而聚焦于更具挑戰(zhàn)性的案例；
第二，通過對狀態(tài)-策略對（state-tactic pairs）應(yīng)用直接偏好優(yōu)化（DPO），提升 BFS 的樣本效率——這些狀態(tài)-策略對利用編譯器錯誤反饋自動標注，從而優(yōu)化 LLM 的策略，使其優(yōu)先選擇更有成效的擴展；
第三，在 BFS 中引入長度歸一化，以鼓勵探索更深的證明路徑。

BFS-Prover 在 MiniF2F 測試集上取得了 72.95% 的當前最優(yōu)成績，挑戰(zhàn)了復(fù)雜樹搜索方法必不可少的普遍認知，表明在適當擴展下，BFS 同樣能實現(xiàn)具有競爭力的性能。為促進該領(lǐng)域的進一步研究與發(fā)展，我們已在 https://huggingface.co/ByteDance-Seed/BFS-Prover-V1-7B 開源我們的模型。

1 引言

形式化語言中的自動定理證明（ATP）近期已成為評估大語言模型（LLMs）推理能力的關(guān)鍵基準。通過將數(shù)學(xué)問題編碼到如 Lean4 等形式系統(tǒng)中，ATP 能夠為復(fù)雜的數(shù)學(xué)命題生成機器可驗證的證明，從而確保邏輯正確性（Moura 和 Ullrich，2021；Polu 與 Sutskever，2020）。盡管 LLMs 在自然語言數(shù)學(xué)和推理任務(wù)中取得了顯著成功（Lewkowycz 等，2022；OpenAI，2023），但在形式化語言中的定理證明仍面臨獨特挑戰(zhàn)（Yang 等，2024b；Wu 等，2022；He 等，2024；Wang 等，2023，2024；Lin 等，2024；Xin 等，2024a）。與非形式化推理不同，形式系統(tǒng)要求嚴格遵守語法和語義，并且必須在高度受限的形式框架內(nèi)生成有效步驟。此外，ATP 中的動作（策略，tactic）空間極為龐大——每個證明狀態(tài)都可能引出大量潛在策略，使得有效證明的搜索過程在計算上非常昂貴（Polu 等，2022）。

樹搜索算法是 ATP 的基礎(chǔ)，使策略模型能夠高效地在龐大而復(fù)雜的證明空間中導(dǎo)航（Polu 與 Sutskever，2020）。在這些方法中，蒙特卡洛樹搜索（MCTS）（Coulom，2006）因其能利用價值函數(shù)（評判模型）或內(nèi)在獎勵在探索與利用之間取得平衡而廣受歡迎（Browne 等，2012；Silver 等，2016）。MCTS 在 AlphaZero 類框架中已展現(xiàn)出卓越成效，例如在國際象棋和圍棋等游戲中（Silver 等，2017），這些游戲的狀態(tài)空間雖大，但終止狀態(tài)定義明確。然而，將 MCTS 和/或價值函數(shù)應(yīng)用于 ATP 時會遇到特殊困難。與游戲具有清晰的勝負條件不同，證明搜索缺乏此類明確的終止狀態(tài)：一次證明嘗試理論上可以無限進行下去，直到找到證明或反例為止，這使得評估中間進展變得極具挑戰(zhàn)性（Han 等，2021；Lample 等，2022）。此外，ATP 涉及更大且更動態(tài)的分支因子、稀疏且延遲的反饋，以及開放式推理過程。這些差異凸顯了 ATP 的獨特需求，也表明有必要對搜索方法進行專門適配，以應(yīng)對其中的復(fù)雜性。

最佳優(yōu)先樹搜索（BFS）（Pearl，1984）提供了一種比 MCTS 更簡單、更輕量的替代方案，其通過當前節(jié)點到根節(jié)點路徑上累積的對數(shù)概率來優(yōu)先擴展節(jié)點。盡管其簡潔性和計算效率頗具吸引力，但現(xiàn)有文獻通常認為 BFS 在定理證明中表現(xiàn)欠佳（Wu 等，2024a；Li 等，2024b；Xin 等，2024b），主要基于以下假設(shè)：

缺乏高效探索能力：BFS 優(yōu)先選擇高概率路徑，容易忽略那些概率較低但有效的解。由于缺乏諸如置信上限（UCB）或價值函數(shù)等探索機制，它難以在利用有希望的節(jié)點與探索多樣化路徑之間取得平衡。
對深度推理路徑存在偏見：BFS 依賴累積對數(shù)概率，本質(zhì)上會懲罰較長路徑，因為更深的擴展往往累積更低的得分。這種偏見使其在處理需要深度證明的定理時效果較差——這類定理的中間狀態(tài)可能看似無望，卻是最終找到解的關(guān)鍵所在。

1.1 本文貢獻
本文挑戰(zhàn)了當前普遍認為 BFS 本質(zhì)上不適用于大規(guī)模自動定理證明（ATP）的觀點。我們提出了 BFS-Prover 系統(tǒng)，通過有針對性的擴展策略，將 BFS 轉(zhuǎn)變?yōu)橐环N簡潔而強大的算法。我們的主要貢獻如下：

帶自過濾機制的專家迭代：我們構(gòu)建了一個專家迭代（Anthony 等，2017）框架，在每輪迭代中策略性地過濾掉那些可通過束搜索（beam search）（Steinbiss 等，1994）節(jié)點擴展即可解決的問題。這種過濾至關(guān)重要，因為它引導(dǎo)訓(xùn)練數(shù)據(jù)的積累聚焦于更困難的定理。隨著專家迭代的推進，策略大語言模型（LLM）持續(xù)改進，通過 BFS 學(xué)習(xí)到更多樣化的策略和更深的證明路徑。
基于編譯器反饋的直接偏好優(yōu)化（DPO）：我們利用 DPO（Rafailov 等，2024）來優(yōu)化策略 LLM，所用的偏好對是在樹搜索過程中自然生成的。對于給定的證明狀態(tài)，每個偏好對包含一個正向策略（位于正確證明路徑上）和一個負向策略（導(dǎo)致 Lean 編譯器報錯）。DPO 使策略分布更加銳化，使其能夠避免無效策略，從而提升 BFS 的樣本效率。
用于深度探索的長度歸一化：我們在 BFS 中引入了一種長度歸一化的評分函數(shù)，以緩解其對深度推理路徑的固有偏見。通過對路徑長度歸一化對數(shù)概率，BFS 能更有效地探索更深的證明路徑，從而解決那些需要長策略鏈的定理。
在 MiniF2F 上的實證結(jié)果：BFS-Prover 在 MiniF2F 測試集上取得了 72.95% 的累積得分，超越了文獻中所有當前最先進的定理證明系統(tǒng)，包括 DeepSeek-Prover-V1.5（Xin 等，2024b）、InternLM2.5-StepProver（Wu 等，2024a）和 HunyuanProver（Li 等，2024b）。這一結(jié)果表明，BFS-Prover 能在保持輕量級設(shè)計（無需 MCTS 和價值函數(shù)的復(fù)雜機制）的同時，在自動定理證明任務(wù)中達到具有競爭力的性能水平。

論文結(jié)構(gòu)安排：本文其余部分組織如下。第 2 節(jié)概述 BFS-Prover 系統(tǒng)，詳細說明專家迭代框架、數(shù)據(jù)過濾機制、用于策略優(yōu)化的 DPO 方法，以及 BFS 中的長度歸一化。第 3 節(jié)描述在 MiniF2F 基準上的實際實現(xiàn)細節(jié)與實驗結(jié)果，并與主流證明系統(tǒng)進行對比。第 4 節(jié)總結(jié)全文。

2 BFS-Prover 系統(tǒng)

本節(jié)詳細說明 BFS-Prover 系統(tǒng)的設(shè)計；圖 1 為系統(tǒng)示意圖。

2.1 Lean4 環(huán)境與策略大語言模型

我們采用 LeanDojo（Yang 等，2024c）作為 Lean4 與 BFS-Prover 集成的交互式 Python 接口。它將 Lean4 轉(zhuǎn)化為類似 Gym 的環(huán)境（Brockman，2016），便于策略大語言模型（LLM）與形式化證明助手之間的交互。具體而言，LeanDojo 通過在 Lean4 編譯器中執(zhí)行策略 LLM 生成的策略（tactic）來管理狀態(tài)轉(zhuǎn)移。如果某策略無法執(zhí)行，LeanDojo 會捕獲并返回相應(yīng)的錯誤信息，為 DPO 提供關(guān)鍵反饋，用于優(yōu)化策略 LLM。

2.2 長度歸一化的最佳優(yōu)先樹搜索

BFS-Prover 采用一種最佳優(yōu)先樹搜索（BFS）的變體，以在龐大的狀態(tài)-策略空間中進行證明搜索。該 BFS 引擎維護一個證明節(jié)點（即狀態(tài)）的優(yōu)先隊列，其中每個節(jié)點（狀態(tài)）的優(yōu)先級由一種長度歸一化的評分啟發(fā)函數(shù)定義：

該評分機制結(jié)合可調(diào)節(jié)的節(jié)點擴展寬度，使 BFS 能夠在證明空間中動態(tài)分配計算資源，在探索與利用之間取得平衡。例如，增大 α 值和/或減小擴展寬度會使搜索系統(tǒng)傾向于探索更深的路徑，從而促進發(fā)現(xiàn)那些可能需要長策略鏈的復(fù)雜證明。

在每次節(jié)點擴展步驟中，策略大語言模型（LLM）通過某種采樣機制生成一組策略（tactics），這些策略對應(yīng)于證明樹中的邊。LeanDojo 隨后在 Lean4 編譯器中執(zhí)行這些采樣的策略，并返回執(zhí)行結(jié)果。對于每個策略的應(yīng)用，可能出現(xiàn)三種結(jié)果：(1) 如果該策略產(chǎn)生一個有效的證明狀態(tài)，則創(chuàng)建一個常規(guī)樹節(jié)點并加入節(jié)點隊列；(2) 如果該策略完成了整個證明，則創(chuàng)建一個“證明完成”節(jié)點并返回該證明；(3) 否則，生成一個終止性錯誤節(jié)點，表示該路徑無效。

2.3 專家迭代
BFS-Prover 采用一個專家迭代（expert iteration）流程，以迭代方式增強策略大語言模型（LLM）在復(fù)雜證明空間中導(dǎo)航的能力。給定一個包含未解決 Lean4 形式化命題的語料庫，每輪專家迭代包含以下步驟：

束搜索過濾（Beam Search Filtering）：識別出那些可通過 BFS 配合束搜索節(jié)點擴展即可證明的形式化命題。這些命題隨后從語料庫中移除，其對應(yīng)的證明數(shù)據(jù)——盡管是新生成的——被有意不加入累積的訓(xùn)練數(shù)據(jù)集中。束搜索具有確定性，能可靠地選擇當前策略 LLM 生成的置信度最高的策略。因此，能通過該方法解決的證明被視為相對簡單，因為它們與當前 BFS-Prover 系統(tǒng)的優(yōu)勢高度一致。通過策略性地濾除這些較簡單的證明，訓(xùn)練數(shù)據(jù)語料庫在迭代過程中不斷被更具挑戰(zhàn)性和多樣性的樣例所豐富。這種迭代式精煉確保策略 LLM 在后續(xù)迭代中逐步接觸越來越復(fù)雜的推理模式，從而提升其解決更難定理的能力。
數(shù)據(jù)收集（Data Collection）：隨后，我們對語料庫中剩余未證明的形式化命題執(zhí)行帶有溫度采樣的 BFS 擴展以搜索證明。任務(wù)完成后，系統(tǒng)收集所有在成功證明路徑上遇到的有效（證明狀態(tài)，策略）對，并將其加入累積的訓(xùn)練數(shù)據(jù)集。相應(yīng)已被證明的命題則從語料庫中移除。此外，導(dǎo)致 Lean 編譯器報錯的無效策略也被記錄下來，作為策略內(nèi)（on-policy）的負樣本，用于支持 DPO 的優(yōu)化。
監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）：在每次數(shù)據(jù)收集階段之后，使用基礎(chǔ)模型在全部累積的訓(xùn)練數(shù)據(jù)語料庫上進行 SFT，訓(xùn)練出一個新的策略 LLM。該語料庫包含此前所有專家迭代輪次中生成的（證明狀態(tài)，策略）對。

這一專家迭代流程使策略 LLM 能夠持續(xù)提升其生成有效策略的能力，同時隨著訓(xùn)練數(shù)據(jù)語料庫的增長，逐步適應(yīng)更具挑戰(zhàn)性的證明場景。

3 實踐實現(xiàn)與基準測試結(jié)果

本節(jié)討論 BFS-Prover 系統(tǒng)的實際實現(xiàn)細節(jié)，并展示其在 MiniF2F 測試集上的基準測試結(jié)果。所有實驗均使用 Lean 4.7.0。

3.1 模型、數(shù)據(jù)與訓(xùn)練設(shè)置

基礎(chǔ)模型與初始訓(xùn)練數(shù)據(jù)：為便于說明，我們在 BFS-Prover 中采用 Qwen2.5-Math-7B（Yang 等，2024a）作為策略大語言模型（LLM）微調(diào)的基礎(chǔ)模型。為合理初始化專家迭代過程，我們利用 LeanDojo（Yang 等，2024c）從 Mathlib（Moura 和 Ullrich，2021）中提取的證明數(shù)據(jù)，作為冷啟動（cold-start）數(shù)據(jù)集。隨著專家迭代的推進，我們進一步整合來自 Lean-Github（Wu 等，2024b）——一個匯集 GitHub 上 Lean4 倉庫的數(shù)據(jù)集——以及 Lean-Workbook（Ying 等，2024）——專注于奧數(shù)級別代數(shù)與分析的數(shù)據(jù)集——的狀態(tài)-策略（state-tactic）數(shù)據(jù)。這些數(shù)據(jù)集覆蓋了廣泛的數(shù)學(xué)主題和形式化推理任務(wù)，為策略模型提供了生成有效策略和導(dǎo)航證明所需的基礎(chǔ)能力。

形式化命題語料庫：為構(gòu)建專家迭代所用的數(shù)據(jù)語料庫，我們使用內(nèi)部工具對 NuminaMath-CoT 數(shù)據(jù)集（Li 等，2024a）進行自動形式化（autoformalization）。我們還補充了來自 Mathlib 的未證明定理以及 Lean-Workbook 中的形式化命題。最終形成的語料庫包含約 90 萬條無證明的形式化數(shù)學(xué)命題，為專家迭代提供了全面而堅實的基礎(chǔ)。

專家迭代中的 BFS 配置。我們在整個專家迭代過程中將長度歸一化參數(shù) α 設(shè)為 0.0，以盡量減少歸納偏置。在束搜索過濾階段，我們使用束寬（beam width）為 32，以識別容易求解的定理。在隨后的數(shù)據(jù)收集階段，我們采用基于溫度的采樣策略，溫度設(shè)為 1.0，核采樣（nucleus sampling）參數(shù)為 1.0，并設(shè)置采樣寬度（sampling width）為 2、4 或 8，以探索多樣化的證明路徑。

3.2 分布式最佳優(yōu)先搜索基礎(chǔ)設(shè)施

為實現(xiàn)高效的大規(guī)模并行證明搜索，我們基于 Ray 構(gòu)建了一個分布式系統(tǒng)，在多臺機器上進行分布式定理證明。每臺機器配備 8 塊 A100 80GB GPU 和 128 個 CPU 核心。目標定理被均勻分配到各臺機器上，每臺機器運行一個獨立的證明流水線。該系統(tǒng)由三個主要組件構(gòu)成：

基于 GPU 的策略 LLM 池：每臺本地機器部署 8 個 7B 策略 LLM 實例，每個實例由一個專用 A100 GPU 上運行的異步 vLLM 引擎驅(qū)動。這些實例組成一個共享池，用于處理并發(fā)的策略生成請求。
基于 CPU 的證明器池：每臺機器運行 96 個并發(fā)的證明器實例，其余 CPU 核心保留用于常規(guī)系統(tǒng)操作。每個證明器實例對其分配到的定理獨立執(zhí)行 BFS 搜索。為實現(xiàn)均衡的 GPU 利用率，各證明器根據(jù)其索引對 8 取模的結(jié)果，以輪詢（round-robin）方式將請求分發(fā)到不同的策略 LLM 實例上。每個證明器與其分配的策略 LLM 和 LeanDojo 環(huán)境進行異步交互。
異步交互機制：整個分布式搜索系統(tǒng)利用 asyncio 管理證明器與策略 LLM 之間的高并發(fā)工作流。策略 LLM 池和證明器池均以 Ray Actor 的形式實現(xiàn)，通過 Ray 運行時系統(tǒng)實現(xiàn)動態(tài)資源管理。為確保系統(tǒng)響應(yīng)性，我們對策略執(zhí)行（通過 LeanDojo）和模型推理（通過 vLLM）均設(shè)置了超時閾值。

該分布式基礎(chǔ)設(shè)施設(shè)計通過在機器間高效分配定理任務(wù)，實現(xiàn)了接近線性的擴展能力；同時在單機內(nèi)部最大化硬件利用率，且無需承擔(dān)跨機器通信開銷。

3.3 專家迭代中的分布偏移

在本小節(jié)中，我們討論并展示在專家迭代過程中，證明層面和策略層面如何出現(xiàn)分布偏移（distribution shift），從而揭示 BFS-Prover 在定理證明能力上的逐步提升。

證明層面。評估一個證明系統(tǒng)（如 BFS-Prover）有效性的一個關(guān)鍵指標，是其發(fā)現(xiàn)深度證明的能力。我們將“證明長度”定義為系統(tǒng)完成一個證明所使用的策略（tactic）數(shù)量。我們觀察到，在每輪專家迭代中，證明長度的分布通常呈現(xiàn)高斯分布或高斯混合分布，這反映了形式化命題語料庫中定理復(fù)雜度的多樣性。有趣的是，隨著專家迭代的推進，平均證明長度趨于增加，表明隨著策略大語言模型（LLM）能力的提升，BFS 能夠發(fā)現(xiàn)越來越深、更具挑戰(zhàn)性的證明；參見圖 2 的示意圖。這一現(xiàn)象凸顯了專家迭代框架的有效性以及 BFS 的可擴展性——即通過迭代式策略優(yōu)化和搜索能力的增強，逐步應(yīng)對更復(fù)雜的證明任務(wù)。

策略層面。除了在證明層面的演化之外，我們在專家迭代過程中也觀察到策略層面有趣的分布偏移；參見圖 3。值得注意的是，BFS-Prover 系統(tǒng)中的策略 LLM 在整個訓(xùn)練過程中維持著多樣化的策略長度分布，并未坍縮為單一狹窄分布——后者是強化學(xué)習(xí)中常見的失敗模式，即模型傾向于收斂于少數(shù)高獎勵動作（Sutton，2018）。相反，我們觀察到一種溫和但有意義的分布轉(zhuǎn)移：從極簡策略（1–10 個 token）向更常用、更實用的策略模式（11–50 個 token）過渡。這種轉(zhuǎn)移表明，通過專家迭代，BFS-Prover 中的策略 LLM 學(xué)會生成更復(fù)雜的策略，同時仍保留根據(jù)情境靈活使用簡單策略的能力。保持策略多樣性對于有效定理證明至關(guān)重要，因為不同的證明狀態(tài)需要不同復(fù)雜度的策略，從簡單的項重寫到復(fù)雜的代數(shù)操作不等。

3.4 MiniF2F 上的結(jié)果

本小節(jié)討論 BFS-Prover 在 MiniF2F 測試基準（Zheng 等，2021）上的表現(xiàn)。MiniF2F 是一個被廣泛認可的用于評估形式化數(shù)學(xué)系統(tǒng)性能的數(shù)據(jù)集，包含一系列多樣化的、源自數(shù)學(xué)競賽級別的形式化問題。用于評估的策略大語言模型（LLM）檢查點，是通過對 BFS-Prover 專家迭代流程中前 10 輪累積的所有狀態(tài)-策略對進行監(jiān)督微調(diào)（SFT）獲得的，并在此基礎(chǔ)上額外進行了一輪 DPO 優(yōu)化，所用的 Lean 編譯器錯誤信號如第 2.3 節(jié)所述。

3.4.1 與當前最先進方法的比較

我們現(xiàn)在將本文開發(fā)的 BFS-Prover 與文獻中的主流定理證明系統(tǒng)進行比較，包括 DeepSeek-Prover-V1.5（Xin 等，2024b）、InternLM2.5-StepProver（Wu 等，2024a）和 HunyuanProver（Li 等，2024b）。

3.4.2 BFS 的縮放規(guī)律與 DPO 負信號的優(yōu)勢

最后，我們通過考察 BFS-Prover 在 MiniF2F 測試基準上的性能如何隨證明搜索遍數(shù)（passes）的增加而提升，來研究其搜索時間的縮放規(guī)律，并評估利用 DPO 從負信號中學(xué)習(xí)對系統(tǒng)性能提升所帶來的優(yōu)勢。我們總共執(zhí)行了 pass@4096 實驗，并在 pass@64、pass@128、pass@256、pass@1024 和 pass@2048 等中間節(jié)點評估性能。每個中間遍數(shù)的置信區(qū)間通過多次采樣 pass@64 的運行結(jié)果計算得出。實驗結(jié)果如圖 4 所示，其中橫軸采用對數(shù)刻度，陰影區(qū)域表示最小-最大范圍（即置信區(qū)間）。

以下是我們對形式化定理證明中 BFS 縮放特性的若干觀察。此處，SFT 指在專家迭代流程中累積的所有狀態(tài)-策略對上進行的監(jiān)督微調(diào)；SFT+DPO 則指在 SFT 模型基礎(chǔ)上，額外應(yīng)用一輪 DPO 優(yōu)化，所用的策略內(nèi)負樣本來自 Lean4 編譯器反饋（如第 2.3 節(jié)所述）。兩種方法均采用相同的 BFS 參數(shù)配置：采樣溫度為 1.1，擴展寬度為 2，長度歸一化因子 α = 0.5 。

SFT 與 SFT+DPO 兩種訓(xùn)練方法均表現(xiàn)出對數(shù)縮放規(guī)律：隨著證明搜索遍數(shù)的增加，性能提升逐漸放緩。具體而言，當遍數(shù)從 64 增至 2048 時，SFT 的得分從 64.58% 提升至 70.38%，而 SFT+DPO 從 64.98% 提升至 70.83%。這表明即使計算預(yù)算翻倍，性能增益也呈現(xiàn)持續(xù)但遞減的趨勢。
SFT+DPO 方法始終優(yōu)于 SFT 基線，證明了引入來自 Lean4 編譯器錯誤的負反饋的有效性。這種優(yōu)化使模型能更好地區(qū)分成功與失敗的證明策略，從而提升證明搜索效率和成功率。
從最小-最大范圍來看，兩種方法的性能波動幅度相近（約 3–4%）。這表明，盡管 DPO 提高了整體成功率，但其在證明搜索中的穩(wěn)定性與 SFT 基線相當。

4 結(jié)論與討論

本工作表明，最佳優(yōu)先搜索（BFS）能夠高效擴展，并在自動定理證明（ATP）中取得當前最優(yōu)的性能。我們的結(jié)果挑戰(zhàn)了傳統(tǒng)觀點——即在大規(guī)模形式化定理證明中，必須依賴蒙特卡洛樹搜索（MCTS）和/或價值函數(shù)等更復(fù)雜的搜索方法。通過開發(fā) BFS-Prover，我們論證了：一個經(jīng)過精心設(shè)計的 BFS 系統(tǒng)，若結(jié)合專家迭代框架，并融入策略性數(shù)據(jù)過濾、直接偏好優(yōu)化（DPO）和長度歸一化等機制，不僅能在性能上超越現(xiàn)有方法，還能保持計算上的簡潔性。我們在 MiniF2F 基準上取得 72.95% 的當前最優(yōu)得分，實證驗證了該方法的可擴展性。

BFS-Prover 的成功對 ATP 領(lǐng)域具有若干重要啟示。首先，它表明算法的簡潔性若輔以周密的擴展策略，完全可以勝過更復(fù)雜的方案。這一發(fā)現(xiàn)提示未來 ATP 研究或許應(yīng)更多關(guān)注對簡單方法的精煉與擴展，而非一味追求日益復(fù)雜的架構(gòu)。其次，我們觀察到 BFS 性能隨計算資源增加而呈現(xiàn)對數(shù)縮放規(guī)律，這說明盡管增加計算量總能帶來一定提升，但僅靠擴大搜索規(guī)模可能存在根本性局限。這一觀察激勵未來研究探索能夠?qū)崿F(xiàn)優(yōu)于對數(shù)縮放（better-than-logarithmic scaling）的新方法。

局限性

盡管 BFS-Prover 系統(tǒng)在自動定理證明中展現(xiàn)出強大的性能，但仍存在若干局限性，尤其體現(xiàn)在模型規(guī)模方面。我們當前的實現(xiàn)依賴于一個相對較小的 70 億參數(shù)（7B）策略模型，這可能會限制系統(tǒng)學(xué)習(xí)和運用更復(fù)雜數(shù)學(xué)推理模式的能力。雖然更大的模型（例如 32B 或 70B 參數(shù)）有可能捕捉更深刻的數(shù)學(xué)洞見并生成更精細的策略，但它們在樹搜索場景下會帶來顯著的計算挑戰(zhàn)，無論是在訓(xùn)練還是推理階段。

這種權(quán)衡在實踐中尤為明顯：更大的模型通常需要更多的 GPU 顯存，并具有更長的推理延遲，這會顯著減少在固定時間預(yù)算內(nèi)可探索的狀態(tài)數(shù)量。此外，復(fù)雜的數(shù)學(xué)證明可能生成非常冗長的狀態(tài)描述，這些描述可能超出 7B 模型的實際上下文窗口長度，從而導(dǎo)致模型遺漏生成恰當策略所必需的關(guān)鍵信息。

原文： https://arxiv.org/pdf/2502.03438

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.