<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      BFS-Prover:面向大語言模型自動定理證明的可擴展最佳優(yōu)先樹搜索

      0
      分享至

      BFS-Prover:面向大語言模型自動定理證明的可擴展最佳優(yōu)先樹搜索

      BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving

      https://arxiv.org/pdf/2502.03438


      摘要:

      近期大語言模型(LLMs)的進展激發(fā)了利用 Lean4 進行自動定理證明的廣泛興趣,其中高效的樹搜索方法對于應(yīng)對底層龐大的證明搜索空間至關(guān)重要。盡管現(xiàn)有方法主要依賴價值函數(shù)和/或蒙特卡洛樹搜索(MCTS),但更簡單的方法(如最佳優(yōu)先樹搜索,BFS)的潛力尚未得到充分探索。本文研究了 BFS 是否能在大規(guī)模定理證明任務(wù)中實現(xiàn)具有競爭力的性能。

      我們提出了 BFS-Prover,一個可擴展的專家迭代框架,包含三項關(guān)鍵創(chuàng)新:
      第一,在每輪專家迭代中實施策略性數(shù)據(jù)過濾,排除那些通過束搜索節(jié)點擴展即可解決的問題,從而聚焦于更具挑戰(zhàn)性的案例;
      第二,通過對狀態(tài)-策略對(state-tactic pairs)應(yīng)用直接偏好優(yōu)化(DPO),提升 BFS 的樣本效率——這些狀態(tài)-策略對利用編譯器錯誤反饋自動標注,從而優(yōu)化 LLM 的策略,使其優(yōu)先選擇更有成效的擴展;
      第三,在 BFS 中引入長度歸一化,以鼓勵探索更深的證明路徑。

      BFS-Prover 在 MiniF2F 測試集上取得了 72.95% 的當前最優(yōu)成績,挑戰(zhàn)了復(fù)雜樹搜索方法必不可少的普遍認知,表明在適當擴展下,BFS 同樣能實現(xiàn)具有競爭力的性能。為促進該領(lǐng)域的進一步研究與發(fā)展,我們已在 https://huggingface.co/ByteDance-Seed/BFS-Prover-V1-7B 開源我們的模型。

      1 引言

      形式化語言中的自動定理證明(ATP)近期已成為評估大語言模型(LLMs)推理能力的關(guān)鍵基準。通過將數(shù)學(xué)問題編碼到如 Lean4 等形式系統(tǒng)中,ATP 能夠為復(fù)雜的數(shù)學(xué)命題生成機器可驗證的證明,從而確保邏輯正確性(Moura 和 Ullrich,2021;Polu 與 Sutskever,2020)。盡管 LLMs 在自然語言數(shù)學(xué)和推理任務(wù)中取得了顯著成功(Lewkowycz 等,2022;OpenAI,2023),但在形式化語言中的定理證明仍面臨獨特挑戰(zhàn)(Yang 等,2024b;Wu 等,2022;He 等,2024;Wang 等,2023,2024;Lin 等,2024;Xin 等,2024a)。與非形式化推理不同,形式系統(tǒng)要求嚴格遵守語法和語義,并且必須在高度受限的形式框架內(nèi)生成有效步驟。此外,ATP 中的動作(策略,tactic)空間極為龐大——每個證明狀態(tài)都可能引出大量潛在策略,使得有效證明的搜索過程在計算上非常昂貴(Polu 等,2022)。

      樹搜索算法是 ATP 的基礎(chǔ),使策略模型能夠高效地在龐大而復(fù)雜的證明空間中導(dǎo)航(Polu 與 Sutskever,2020)。在這些方法中,蒙特卡洛樹搜索(MCTS)(Coulom,2006)因其能利用價值函數(shù)(評判模型)或內(nèi)在獎勵在探索與利用之間取得平衡而廣受歡迎(Browne 等,2012;Silver 等,2016)。MCTS 在 AlphaZero 類框架中已展現(xiàn)出卓越成效,例如在國際象棋和圍棋等游戲中(Silver 等,2017),這些游戲的狀態(tài)空間雖大,但終止狀態(tài)定義明確。然而,將 MCTS 和/或價值函數(shù)應(yīng)用于 ATP 時會遇到特殊困難。與游戲具有清晰的勝負條件不同,證明搜索缺乏此類明確的終止狀態(tài):一次證明嘗試理論上可以無限進行下去,直到找到證明或反例為止,這使得評估中間進展變得極具挑戰(zhàn)性(Han 等,2021;Lample 等,2022)。此外,ATP 涉及更大且更動態(tài)的分支因子、稀疏且延遲的反饋,以及開放式推理過程。這些差異凸顯了 ATP 的獨特需求,也表明有必要對搜索方法進行專門適配,以應(yīng)對其中的復(fù)雜性。

      最佳優(yōu)先樹搜索(BFS)(Pearl,1984)提供了一種比 MCTS 更簡單、更輕量的替代方案,其通過當前節(jié)點到根節(jié)點路徑上累積的對數(shù)概率來優(yōu)先擴展節(jié)點。盡管其簡潔性和計算效率頗具吸引力,但現(xiàn)有文獻通常認為 BFS 在定理證明中表現(xiàn)欠佳(Wu 等,2024a;Li 等,2024b;Xin 等,2024b),主要基于以下假設(shè):

      • 缺乏高效探索能力:BFS 優(yōu)先選擇高概率路徑,容易忽略那些概率較低但有效的解。由于缺乏諸如置信上限(UCB)或價值函數(shù)等探索機制,它難以在利用有希望的節(jié)點與探索多樣化路徑之間取得平衡。
      • 對深度推理路徑存在偏見:BFS 依賴累積對數(shù)概率,本質(zhì)上會懲罰較長路徑,因為更深的擴展往往累積更低的得分。這種偏見使其在處理需要深度證明的定理時效果較差——這類定理的中間狀態(tài)可能看似無望,卻是最終找到解的關(guān)鍵所在。

      1.1 本文貢獻
      本文挑戰(zhàn)了當前普遍認為 BFS 本質(zhì)上不適用于大規(guī)模自動定理證明(ATP)的觀點。我們提出了 BFS-Prover 系統(tǒng),通過有針對性的擴展策略,將 BFS 轉(zhuǎn)變?yōu)橐环N簡潔而強大的算法。我們的主要貢獻如下:

      • 帶自過濾機制的專家迭代:我們構(gòu)建了一個專家迭代(Anthony 等,2017)框架,在每輪迭代中策略性地過濾掉那些可通過束搜索(beam search)(Steinbiss 等,1994)節(jié)點擴展即可解決的問題。這種過濾至關(guān)重要,因為它引導(dǎo)訓(xùn)練數(shù)據(jù)的積累聚焦于更困難的定理。隨著專家迭代的推進,策略大語言模型(LLM)持續(xù)改進,通過 BFS 學(xué)習(xí)到更多樣化的策略和更深的證明路徑。
      • 基于編譯器反饋的直接偏好優(yōu)化(DPO):我們利用 DPO(Rafailov 等,2024)來優(yōu)化策略 LLM,所用的偏好對是在樹搜索過程中自然生成的。對于給定的證明狀態(tài),每個偏好對包含一個正向策略(位于正確證明路徑上)和一個負向策略(導(dǎo)致 Lean 編譯器報錯)。DPO 使策略分布更加銳化,使其能夠避免無效策略,從而提升 BFS 的樣本效率。
      • 用于深度探索的長度歸一化:我們在 BFS 中引入了一種長度歸一化的評分函數(shù),以緩解其對深度推理路徑的固有偏見。通過對路徑長度歸一化對數(shù)概率,BFS 能更有效地探索更深的證明路徑,從而解決那些需要長策略鏈的定理。
      • 在 MiniF2F 上的實證結(jié)果:BFS-Prover 在 MiniF2F 測試集上取得了 72.95% 的累積得分,超越了文獻中所有當前最先進的定理證明系統(tǒng),包括 DeepSeek-Prover-V1.5(Xin 等,2024b)、InternLM2.5-StepProver(Wu 等,2024a)和 HunyuanProver(Li 等,2024b)。這一結(jié)果表明,BFS-Prover 能在保持輕量級設(shè)計(無需 MCTS 和價值函數(shù)的復(fù)雜機制)的同時,在自動定理證明任務(wù)中達到具有競爭力的性能水平。

      論文結(jié)構(gòu)安排:本文其余部分組織如下。第 2 節(jié)概述 BFS-Prover 系統(tǒng),詳細說明專家迭代框架、數(shù)據(jù)過濾機制、用于策略優(yōu)化的 DPO 方法,以及 BFS 中的長度歸一化。第 3 節(jié)描述在 MiniF2F 基準上的實際實現(xiàn)細節(jié)與實驗結(jié)果,并與主流證明系統(tǒng)進行對比。第 4 節(jié)總結(jié)全文。

      2 BFS-Prover 系統(tǒng)

      本節(jié)詳細說明 BFS-Prover 系統(tǒng)的設(shè)計;圖 1 為系統(tǒng)示意圖。


      2.1 Lean4 環(huán)境與策略大語言模型

      我們采用 LeanDojo(Yang 等,2024c)作為 Lean4 與 BFS-Prover 集成的交互式 Python 接口。它將 Lean4 轉(zhuǎn)化為類似 Gym 的環(huán)境(Brockman,2016),便于策略大語言模型(LLM)與形式化證明助手之間的交互。具體而言,LeanDojo 通過在 Lean4 編譯器中執(zhí)行策略 LLM 生成的策略(tactic)來管理狀態(tài)轉(zhuǎn)移。如果某策略無法執(zhí)行,LeanDojo 會捕獲并返回相應(yīng)的錯誤信息,為 DPO 提供關(guān)鍵反饋,用于優(yōu)化策略 LLM。

      2.2 長度歸一化的最佳優(yōu)先樹搜索

      BFS-Prover 采用一種最佳優(yōu)先樹搜索(BFS)的變體,以在龐大的狀態(tài)-策略空間中進行證明搜索。該 BFS 引擎維護一個證明節(jié)點(即狀態(tài))的優(yōu)先隊列,其中每個節(jié)點(狀態(tài))的優(yōu)先級由一種長度歸一化的評分啟發(fā)函數(shù)定義:



      該評分機制結(jié)合可調(diào)節(jié)的節(jié)點擴展寬度,使 BFS 能夠在證明空間中動態(tài)分配計算資源,在探索與利用之間取得平衡。例如,增大 α 值和/或減小擴展寬度會使搜索系統(tǒng)傾向于探索更深的路徑,從而促進發(fā)現(xiàn)那些可能需要長策略鏈的復(fù)雜證明。

      在每次節(jié)點擴展步驟中,策略大語言模型(LLM)通過某種采樣機制生成一組策略(tactics),這些策略對應(yīng)于證明樹中的邊。LeanDojo 隨后在 Lean4 編譯器中執(zhí)行這些采樣的策略,并返回執(zhí)行結(jié)果。對于每個策略的應(yīng)用,可能出現(xiàn)三種結(jié)果:(1) 如果該策略產(chǎn)生一個有效的證明狀態(tài),則創(chuàng)建一個常規(guī)樹節(jié)點并加入節(jié)點隊列;(2) 如果該策略完成了整個證明,則創(chuàng)建一個“證明完成”節(jié)點并返回該證明;(3) 否則,生成一個終止性錯誤節(jié)點,表示該路徑無效。

      2.3 專家迭代
      BFS-Prover 采用一個專家迭代(expert iteration)流程,以迭代方式增強策略大語言模型(LLM)在復(fù)雜證明空間中導(dǎo)航的能力。給定一個包含未解決 Lean4 形式化命題的語料庫,每輪專家迭代包含以下步驟:

      1. 束搜索過濾(Beam Search Filtering):識別出那些可通過 BFS 配合束搜索節(jié)點擴展即可證明的形式化命題。這些命題隨后從語料庫中移除,其對應(yīng)的證明數(shù)據(jù)——盡管是新生成的——被有意不加入累積的訓(xùn)練數(shù)據(jù)集中。束搜索具有確定性,能可靠地選擇當前策略 LLM 生成的置信度最高的策略。因此,能通過該方法解決的證明被視為相對簡單,因為它們與當前 BFS-Prover 系統(tǒng)的優(yōu)勢高度一致。通過策略性地濾除這些較簡單的證明,訓(xùn)練數(shù)據(jù)語料庫在迭代過程中不斷被更具挑戰(zhàn)性和多樣性的樣例所豐富。這種迭代式精煉確保策略 LLM 在后續(xù)迭代中逐步接觸越來越復(fù)雜的推理模式,從而提升其解決更難定理的能力。
      2. 數(shù)據(jù)收集(Data Collection):隨后,我們對語料庫中剩余未證明的形式化命題執(zhí)行帶有溫度采樣的 BFS 擴展以搜索證明。任務(wù)完成后,系統(tǒng)收集所有在成功證明路徑上遇到的有效(證明狀態(tài),策略)對,并將其加入累積的訓(xùn)練數(shù)據(jù)集。相應(yīng)已被證明的命題則從語料庫中移除。此外,導(dǎo)致 Lean 編譯器報錯的無效策略也被記錄下來,作為策略內(nèi)(on-policy)的負樣本,用于支持 DPO 的優(yōu)化。
      3. 監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT):在每次數(shù)據(jù)收集階段之后,使用基礎(chǔ)模型在全部累積的訓(xùn)練數(shù)據(jù)語料庫上進行 SFT,訓(xùn)練出一個新的策略 LLM。該語料庫包含此前所有專家迭代輪次中生成的(證明狀態(tài),策略)對。




      這一專家迭代流程使策略 LLM 能夠持續(xù)提升其生成有效策略的能力,同時隨著訓(xùn)練數(shù)據(jù)語料庫的增長,逐步適應(yīng)更具挑戰(zhàn)性的證明場景。

      3 實踐實現(xiàn)與基準測試結(jié)果

      本節(jié)討論 BFS-Prover 系統(tǒng)的實際實現(xiàn)細節(jié),并展示其在 MiniF2F 測試集上的基準測試結(jié)果。所有實驗均使用 Lean 4.7.0。

      3.1 模型、數(shù)據(jù)與訓(xùn)練設(shè)置

      基礎(chǔ)模型與初始訓(xùn)練數(shù)據(jù):為便于說明,我們在 BFS-Prover 中采用 Qwen2.5-Math-7B(Yang 等,2024a)作為策略大語言模型(LLM)微調(diào)的基礎(chǔ)模型。為合理初始化專家迭代過程,我們利用 LeanDojo(Yang 等,2024c)從 Mathlib(Moura 和 Ullrich,2021)中提取的證明數(shù)據(jù),作為冷啟動(cold-start)數(shù)據(jù)集。隨著專家迭代的推進,我們進一步整合來自 Lean-Github(Wu 等,2024b)——一個匯集 GitHub 上 Lean4 倉庫的數(shù)據(jù)集——以及 Lean-Workbook(Ying 等,2024)——專注于奧數(shù)級別代數(shù)與分析的數(shù)據(jù)集——的狀態(tài)-策略(state-tactic)數(shù)據(jù)。這些數(shù)據(jù)集覆蓋了廣泛的數(shù)學(xué)主題和形式化推理任務(wù),為策略模型提供了生成有效策略和導(dǎo)航證明所需的基礎(chǔ)能力。

      形式化命題語料庫:為構(gòu)建專家迭代所用的數(shù)據(jù)語料庫,我們使用內(nèi)部工具對 NuminaMath-CoT 數(shù)據(jù)集(Li 等,2024a)進行自動形式化(autoformalization)。我們還補充了來自 Mathlib 的未證明定理以及 Lean-Workbook 中的形式化命題。最終形成的語料庫包含約 90 萬條無證明的形式化數(shù)學(xué)命題,為專家迭代提供了全面而堅實的基礎(chǔ)。


      專家迭代中的 BFS 配置。我們在整個專家迭代過程中將長度歸一化參數(shù) α 設(shè)為 0.0,以盡量減少歸納偏置。在束搜索過濾階段,我們使用束寬(beam width)為 32,以識別容易求解的定理。在隨后的數(shù)據(jù)收集階段,我們采用基于溫度的采樣策略,溫度設(shè)為 1.0,核采樣(nucleus sampling)參數(shù)為 1.0,并設(shè)置采樣寬度(sampling width)為 2、4 或 8,以探索多樣化的證明路徑。

      3.2 分布式最佳優(yōu)先搜索基礎(chǔ)設(shè)施

      為實現(xiàn)高效的大規(guī)模并行證明搜索,我們基于 Ray 構(gòu)建了一個分布式系統(tǒng),在多臺機器上進行分布式定理證明。每臺機器配備 8 塊 A100 80GB GPU 和 128 個 CPU 核心。目標定理被均勻分配到各臺機器上,每臺機器運行一個獨立的證明流水線。該系統(tǒng)由三個主要組件構(gòu)成:

      • 基于 GPU 的策略 LLM 池:每臺本地機器部署 8 個 7B 策略 LLM 實例,每個實例由一個專用 A100 GPU 上運行的異步 vLLM 引擎驅(qū)動。這些實例組成一個共享池,用于處理并發(fā)的策略生成請求。
      • 基于 CPU 的證明器池:每臺機器運行 96 個并發(fā)的證明器實例,其余 CPU 核心保留用于常規(guī)系統(tǒng)操作。每個證明器實例對其分配到的定理獨立執(zhí)行 BFS 搜索。為實現(xiàn)均衡的 GPU 利用率,各證明器根據(jù)其索引對 8 取模的結(jié)果,以輪詢(round-robin)方式將請求分發(fā)到不同的策略 LLM 實例上。每個證明器與其分配的策略 LLM 和 LeanDojo 環(huán)境進行異步交互。
      • 異步交互機制:整個分布式搜索系統(tǒng)利用 asyncio 管理證明器與策略 LLM 之間的高并發(fā)工作流。策略 LLM 池和證明器池均以 Ray Actor 的形式實現(xiàn),通過 Ray 運行時系統(tǒng)實現(xiàn)動態(tài)資源管理。為確保系統(tǒng)響應(yīng)性,我們對策略執(zhí)行(通過 LeanDojo)和模型推理(通過 vLLM)均設(shè)置了超時閾值。

      該分布式基礎(chǔ)設(shè)施設(shè)計通過在機器間高效分配定理任務(wù),實現(xiàn)了接近線性的擴展能力;同時在單機內(nèi)部最大化硬件利用率,且無需承擔(dān)跨機器通信開銷。

      3.3 專家迭代中的分布偏移

      在本小節(jié)中,我們討論并展示在專家迭代過程中,證明層面和策略層面如何出現(xiàn)分布偏移(distribution shift),從而揭示 BFS-Prover 在定理證明能力上的逐步提升。

      證明層面。評估一個證明系統(tǒng)(如 BFS-Prover)有效性的一個關(guān)鍵指標,是其發(fā)現(xiàn)深度證明的能力。我們將“證明長度”定義為系統(tǒng)完成一個證明所使用的策略(tactic)數(shù)量。我們觀察到,在每輪專家迭代中,證明長度的分布通常呈現(xiàn)高斯分布或高斯混合分布,這反映了形式化命題語料庫中定理復(fù)雜度的多樣性。有趣的是,隨著專家迭代的推進,平均證明長度趨于增加,表明隨著策略大語言模型(LLM)能力的提升,BFS 能夠發(fā)現(xiàn)越來越深、更具挑戰(zhàn)性的證明;參見圖 2 的示意圖。這一現(xiàn)象凸顯了專家迭代框架的有效性以及 BFS 的可擴展性——即通過迭代式策略優(yōu)化和搜索能力的增強,逐步應(yīng)對更復(fù)雜的證明任務(wù)。


      策略層面。除了在證明層面的演化之外,我們在專家迭代過程中也觀察到策略層面有趣的分布偏移;參見圖 3。值得注意的是,BFS-Prover 系統(tǒng)中的策略 LLM 在整個訓(xùn)練過程中維持著多樣化的策略長度分布,并未坍縮為單一狹窄分布——后者是強化學(xué)習(xí)中常見的失敗模式,即模型傾向于收斂于少數(shù)高獎勵動作(Sutton,2018)。相反,我們觀察到一種溫和但有意義的分布轉(zhuǎn)移:從極簡策略(1–10 個 token)向更常用、更實用的策略模式(11–50 個 token)過渡。這種轉(zhuǎn)移表明,通過專家迭代,BFS-Prover 中的策略 LLM 學(xué)會生成更復(fù)雜的策略,同時仍保留根據(jù)情境靈活使用簡單策略的能力。保持策略多樣性對于有效定理證明至關(guān)重要,因為不同的證明狀態(tài)需要不同復(fù)雜度的策略,從簡單的項重寫到復(fù)雜的代數(shù)操作不等。


      3.4 MiniF2F 上的結(jié)果

      本小節(jié)討論 BFS-Prover 在 MiniF2F 測試基準(Zheng 等,2021)上的表現(xiàn)。MiniF2F 是一個被廣泛認可的用于評估形式化數(shù)學(xué)系統(tǒng)性能的數(shù)據(jù)集,包含一系列多樣化的、源自數(shù)學(xué)競賽級別的形式化問題。用于評估的策略大語言模型(LLM)檢查點,是通過對 BFS-Prover 專家迭代流程中前 10 輪累積的所有狀態(tài)-策略對進行監(jiān)督微調(diào)(SFT)獲得的,并在此基礎(chǔ)上額外進行了一輪 DPO 優(yōu)化,所用的 Lean 編譯器錯誤信號如第 2.3 節(jié)所述。

      3.4.1 與當前最先進方法的比較

      我們現(xiàn)在將本文開發(fā)的 BFS-Prover 與文獻中的主流定理證明系統(tǒng)進行比較,包括 DeepSeek-Prover-V1.5(Xin 等,2024b)、InternLM2.5-StepProver(Wu 等,2024a)和 HunyuanProver(Li 等,2024b)。



      3.4.2 BFS 的縮放規(guī)律與 DPO 負信號的優(yōu)勢

      最后,我們通過考察 BFS-Prover 在 MiniF2F 測試基準上的性能如何隨證明搜索遍數(shù)(passes)的增加而提升,來研究其搜索時間的縮放規(guī)律,并評估利用 DPO 從負信號中學(xué)習(xí)對系統(tǒng)性能提升所帶來的優(yōu)勢。我們總共執(zhí)行了 pass@4096 實驗,并在 pass@64、pass@128、pass@256、pass@1024 和 pass@2048 等中間節(jié)點評估性能。每個中間遍數(shù)的置信區(qū)間通過多次采樣 pass@64 的運行結(jié)果計算得出。實驗結(jié)果如圖 4 所示,其中橫軸采用對數(shù)刻度,陰影區(qū)域表示最小-最大范圍(即置信區(qū)間)。


      以下是我們對形式化定理證明中 BFS 縮放特性的若干觀察。此處,SFT 指在專家迭代流程中累積的所有狀態(tài)-策略對上進行的監(jiān)督微調(diào);SFT+DPO 則指在 SFT 模型基礎(chǔ)上,額外應(yīng)用一輪 DPO 優(yōu)化,所用的策略內(nèi)負樣本來自 Lean4 編譯器反饋(如第 2.3 節(jié)所述)。兩種方法均采用相同的 BFS 參數(shù)配置:采樣溫度為 1.1,擴展寬度為 2,長度歸一化因子 α = 0.5 。

      • SFT 與 SFT+DPO 兩種訓(xùn)練方法均表現(xiàn)出對數(shù)縮放規(guī)律:隨著證明搜索遍數(shù)的增加,性能提升逐漸放緩。具體而言,當遍數(shù)從 64 增至 2048 時,SFT 的得分從 64.58% 提升至 70.38%,而 SFT+DPO 從 64.98% 提升至 70.83%。這表明即使計算預(yù)算翻倍,性能增益也呈現(xiàn)持續(xù)但遞減的趨勢。
      • SFT+DPO 方法始終優(yōu)于 SFT 基線,證明了引入來自 Lean4 編譯器錯誤的負反饋的有效性。這種優(yōu)化使模型能更好地區(qū)分成功與失敗的證明策略,從而提升證明搜索效率和成功率。
      • 從最小-最大范圍來看,兩種方法的性能波動幅度相近(約 3–4%)。這表明,盡管 DPO 提高了整體成功率,但其在證明搜索中的穩(wěn)定性與 SFT 基線相當。

      4 結(jié)論與討論

      本工作表明,最佳優(yōu)先搜索(BFS)能夠高效擴展,并在自動定理證明(ATP)中取得當前最優(yōu)的性能。我們的結(jié)果挑戰(zhàn)了傳統(tǒng)觀點——即在大規(guī)模形式化定理證明中,必須依賴蒙特卡洛樹搜索(MCTS)和/或價值函數(shù)等更復(fù)雜的搜索方法。通過開發(fā) BFS-Prover,我們論證了:一個經(jīng)過精心設(shè)計的 BFS 系統(tǒng),若結(jié)合專家迭代框架,并融入策略性數(shù)據(jù)過濾、直接偏好優(yōu)化(DPO)和長度歸一化等機制,不僅能在性能上超越現(xiàn)有方法,還能保持計算上的簡潔性。我們在 MiniF2F 基準上取得 72.95% 的當前最優(yōu)得分,實證驗證了該方法的可擴展性。

      BFS-Prover 的成功對 ATP 領(lǐng)域具有若干重要啟示。首先,它表明算法的簡潔性若輔以周密的擴展策略,完全可以勝過更復(fù)雜的方案。這一發(fā)現(xiàn)提示未來 ATP 研究或許應(yīng)更多關(guān)注對簡單方法的精煉與擴展,而非一味追求日益復(fù)雜的架構(gòu)。其次,我們觀察到 BFS 性能隨計算資源增加而呈現(xiàn)對數(shù)縮放規(guī)律,這說明盡管增加計算量總能帶來一定提升,但僅靠擴大搜索規(guī)模可能存在根本性局限。這一觀察激勵未來研究探索能夠?qū)崿F(xiàn)優(yōu)于對數(shù)縮放(better-than-logarithmic scaling)的新方法。

      局限性

      盡管 BFS-Prover 系統(tǒng)在自動定理證明中展現(xiàn)出強大的性能,但仍存在若干局限性,尤其體現(xiàn)在模型規(guī)模方面。我們當前的實現(xiàn)依賴于一個相對較小的 70 億參數(shù)(7B)策略模型,這可能會限制系統(tǒng)學(xué)習(xí)和運用更復(fù)雜數(shù)學(xué)推理模式的能力。雖然更大的模型(例如 32B 或 70B 參數(shù))有可能捕捉更深刻的數(shù)學(xué)洞見并生成更精細的策略,但它們在樹搜索場景下會帶來顯著的計算挑戰(zhàn),無論是在訓(xùn)練還是推理階段。

      這種權(quán)衡在實踐中尤為明顯:更大的模型通常需要更多的 GPU 顯存,并具有更長的推理延遲,這會顯著減少在固定時間預(yù)算內(nèi)可探索的狀態(tài)數(shù)量。此外,復(fù)雜的數(shù)學(xué)證明可能生成非常冗長的狀態(tài)描述,這些描述可能超出 7B 模型的實際上下文窗口長度,從而導(dǎo)致模型遺漏生成恰當策略所必需的關(guān)鍵信息。

      原文: https://arxiv.org/pdf/2502.03438

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      你火鍋里的肥牛,可能根本就沒見過牛

      你火鍋里的肥牛,可能根本就沒見過牛

      富貴說
      2026-02-23 17:59:39
      魅族手機要結(jié)束了,但也早就結(jié)束了。

      魅族手機要結(jié)束了,但也早就結(jié)束了。

      差評XPIN
      2026-02-26 00:05:12
      跌成白菜價,也沒人買?14億人輸給3億美國人,電視到底怎么了?

      跌成白菜價,也沒人買?14億人輸給3億美國人,電視到底怎么了?

      百科密碼
      2026-02-23 16:49:28
      吃自助餐遇到的人有多離譜?網(wǎng)友:浪費糧食的下輩子吃不上熱菜

      吃自助餐遇到的人有多離譜?網(wǎng)友:浪費糧食的下輩子吃不上熱菜

      解讀熱點事件
      2026-02-25 15:07:10
      世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

      世界第一女巨人來自中國安徽,穿78碼的鞋子,一頓飯吃六碗炒面

      不寫散文詩
      2026-02-25 21:02:18
      8人上雙+37次助攻,殘陣勇士狂勝21分!控制變量法讓追夢徹底露餡

      8人上雙+37次助攻,殘陣勇士狂勝21分!控制變量法讓追夢徹底露餡

      鍋子籃球
      2026-02-26 11:37:44
      別再尬演白月光了!臉腫皮松,嘟嘴裝嫩,是迷倒男人該有的皮囊?

      別再尬演白月光了!臉腫皮松,嘟嘴裝嫩,是迷倒男人該有的皮囊?

      不似少年游
      2026-02-24 19:46:25
      孩子第一天就轟動學(xué)校是啥感覺?網(wǎng)友:這孩子以后能成大事

      孩子第一天就轟動學(xué)校是啥感覺?網(wǎng)友:這孩子以后能成大事

      解讀熱點事件
      2026-02-25 15:32:21
      國家能源集團杜善周,被查!

      國家能源集團杜善周,被查!

      新浪財經(jīng)
      2026-02-25 23:02:13
      中領(lǐng)館:18-65歲在俄長期居留男性,須同意在俄軍事單位等至少服役1年

      中領(lǐng)館:18-65歲在俄長期居留男性,須同意在俄軍事單位等至少服役1年

      揚子晚報
      2026-02-26 07:44:37
      親密度總停在99%,想談個戀愛怎么就那么難?上海多名單身男子有苦難言:太丟臉了

      親密度總停在99%,想談個戀愛怎么就那么難?上海多名單身男子有苦難言:太丟臉了

      環(huán)球網(wǎng)資訊
      2026-02-26 07:26:27
      斯諾克賽程:決出8強,趙心童領(lǐng)銜,中國5人出戰(zhàn),3場冠軍交鋒!

      斯諾克賽程:決出8強,趙心童領(lǐng)銜,中國5人出戰(zhàn),3場冠軍交鋒!

      劉姚堯的文字城堡
      2026-02-26 09:01:35
      震驚!網(wǎng)傳一親媽把剛上大學(xué)的兒子弄成“老賴”,以杜絕孩子貸款

      震驚!網(wǎng)傳一親媽把剛上大學(xué)的兒子弄成“老賴”,以杜絕孩子貸款

      火山詩話
      2026-02-25 21:50:47
      92年,張震將軍請邱會作在國防大學(xué)餐廳吃飯,秘書勸阻:不吃為好

      92年,張震將軍請邱會作在國防大學(xué)餐廳吃飯,秘書勸阻:不吃為好

      雍親王府
      2026-02-26 09:55:05
      【新春走基層】“搭積木”闖三大難關(guān) 4650米“生命禁區(qū)”綻放“太陽花”

      【新春走基層】“搭積木”闖三大難關(guān) 4650米“生命禁區(qū)”綻放“太陽花”

      閃電新聞
      2026-02-25 08:48:33
      巴厘島遭遇暴雨,近5米長蟒蛇從居民區(qū)游過,當?shù)厝A僑:白天晚上均在下雨,現(xiàn)在天氣稍微轉(zhuǎn)好

      巴厘島遭遇暴雨,近5米長蟒蛇從居民區(qū)游過,當?shù)厝A僑:白天晚上均在下雨,現(xiàn)在天氣稍微轉(zhuǎn)好

      大象新聞
      2026-02-25 23:41:02
      碧桂園7000億項目爛尾

      碧桂園7000億項目爛尾

      地產(chǎn)微資訊
      2026-02-23 21:46:01
      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規(guī)則全變了

      開油車的笑了,開電車的慌了?2026油電新政實錘,稅費規(guī)則全變了

      蜉蝣說
      2026-02-25 09:20:25
      別再吹天生混血臉了,谷愛凌那一頭標志性的金發(fā)藏不住天然的黑發(fā)

      別再吹天生混血臉了,谷愛凌那一頭標志性的金發(fā)藏不住天然的黑發(fā)

      西樓知趣雜談
      2026-02-24 16:14:33
      小米狂出六款新車!雷軍徹底失控了

      小米狂出六款新車!雷軍徹底失控了

      李東陽朋友圈
      2026-02-25 13:03:08
      2026-02-26 14:04:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      賴清德改口稱“大陸”被指釋出善意 國民黨發(fā)言人表態(tài)

      頭條要聞

      賴清德改口稱“大陸”被指釋出善意 國民黨發(fā)言人表態(tài)

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經(jīng)要聞

      短劇市場風(fēng)云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態(tài)度原創(chuàng)

      本地
      游戲
      家居
      教育
      公開課

      本地新聞

      津南好·四時總相宜

      PS港服三月會免來了!怪獵崛起 史萊姆牧場2等

      家居要聞

      歸隱于都市 慢享自由

      教育要聞

      高考倒計時100天,英語50分左右,還有逆襲機會嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版