網易首頁 > 網易號 > 正文申請入駐

全球首個，最接近原版DeepSeek開源復現來了！深夜突襲，再加冕！

2025-05-08 23:33:59　來源: 互聯網思想

廣東舉報

分享至

全球首個，最接近原版DeepSeek開源復現來了！R1四個月狂飆26倍

【導讀】近日，來自SGLang、英偉達等機構的聯合團隊發了一篇萬字技術報告：短短4個月，他們就讓DeepSeek-R1在H100上的性能提升了26倍，吞吐量已非常接近DeepSeek官博數據！

DeepSeek的含金量還在上升。

就在最近，Hugging Face聯創、首席科學家Thomas Wolf表示——

DeepSeek的出現，是開源AI領域的ChatGPT時刻！

用他的話說，「正如ChatGPT讓全世界認識到AI的存在，DeepSeek則讓全世界意識到，原來還有著這樣一個充滿活力的開源社區。」

DeepSeek-R1的性能已經媲美甚至超越美國最頂尖的閉源AI模型，對于全球AI圈來說，這件事的意義都極其深遠。

與此同時，來自SGLang、英偉達等機構的數十人聯合團隊，也在DeepSeek上整了個大活。

在短短4個月內，他們利用最新的SGLang推理優化，直接讓DeepSeek-R1在H100上的性能提升了26倍！

這是怎么做到的？

團隊發布了長篇博文，詳細展示了這一過程。

文章地址：https://lmsys.org/blog/2025-05-05-large-scale-ep/

在96塊H100 GPU上優化部署DeepSeek

要知道，DeepSeek模型因為龐大的參數，以及多頭潛注意力（MLA）和專家混合機制（MoE）等獨特架構，如果想要大規模部署，就必須使用更先進的系統。

為此，團隊先是對SGLang進行了全面升級，完整支持了PD分離、大規模EP、DeepEP、DeepGEMM及EPLB等功能。

然后憑借這些新特性，成功地在12個節點共96塊GPU的集群上，復現了DeepSeek的推理系統。

最終，在處理2000個token的輸入序列時，實現了每個節點每秒52.3k輸入token和22.3k輸出token的吞吐量。

方案運行在Atlas Cloud的12個節點上，每個節點均配備8塊H100 GPU

團隊表示，這應該是首個吞吐量接近DeepSeek官方數據的開源實現。

在本地環境下部署此方案，成本可降至0.20美元/1M輸出token，約為DeepSeek Chat API官方定價的五分之一。

相較于使用相同資源的原始張量并行策略，此優化方案可將輸出吞吐量提升高達5倍。

接下來，團隊深入探討了他們的并行設計、優化方法以及最終成果。

并行設計

高效的并行化設計，對于控制DeepSeek架構的計算復雜度和內存需求至關重要。

針對以下關鍵組件，團隊都給出了優化方案：注意力層、稠密前饋網絡（FFN)、稀疏FFN以及語言模型（LM）的頭部。

每個組件都采用了專門設計的并行化策略，以提升可擴展性、內存效率和整體性能。

注意力層

DeepSeek采用了多頭潛注意力機制（MLA)，從而能夠有效地對輸入序列中的復雜依賴關系進行建模。

為了優化這一機制，團隊實現了DP attention，這是一種數據并行策略，目的是消除跨設備的KV緩存冗余，從而顯著降低內存開銷。

在SGLang v0.4版本中引入的該方法，現已擴展至支持混合數據并行和張量并行，為高效處理小批量數據提供了更大的靈活性。

稠密FFN

即便DeepSeek-V3僅使用了三個稠密FFN層，其計算過程仍然可能顯著增加峰值內存占用，若不加以謹慎管理，極易導致系統崩潰。

為了解決這個問題，團隊選擇采用數據并行（DP）策略，而非張量并行（TP)，主要是考慮到DP的以下優勢。

· 更強的可擴展性

當中間層維度為18,432時，較高的TP度（例如TP32）會導致數據被低效地分割成小單元片段（例如576個單元），而這些單元無法被128整除。

128，就是現代GPU（如H100）常見的對齊邊界。

這種未對齊的情況，會嚴重阻礙計算效率和內存利用率。

相比之下，DP能夠避免數據碎片化，從而提供更具可擴展性的解決方案，確保跨設備的工作負載均衡分配。

· 優化的內存效率

傳統觀念認為，TP可以隨著worker size的增加而降低內存使用量，但這種優勢在DP attention的應用場景下會逐漸減弱。

在純TP設置中，單層Transformer模型的內存需求與DP size的關系如下：

其中，是每個設備（DP rank）上隱藏狀態的大小，是模型參數的數量，k是一個系數，表示來自CUDA Graph復制的額外內存開銷。

通過假設DP=TP，當時，此內存的使用函數達到最小值。

DeepSeek-V3使用18,432的中間大小。在prefill階段，CUDA Graph通常被禁用，因此k=0。

但是，每個設備的token大小很容易超過2,048，導致最佳TP大小為3或更小。

在解碼階段，一個實際的配置可能使用每個設備128個token，并設置k=3。在這種情況下，內存最佳的TP大小為6。

在這兩個階段，較低的TP度可以最大限度地減少每個設備的內存使用量。

因此，與僅依賴TP相比，DP可以提供更節省內存的擴展方法。

·最小化的通信開銷

在純TP模式下，每個FFN層都需要執行兩次all-reduce操作，從而導致巨大的通信開銷。

通過采用DP策略，團隊將該過程優化為：在先前的attention層之后執行一次reduce-scatter操作，并在下一個attention層之前執行一次all-gather操作，從而將通信成本降低50%。

更進一步，如果attention計算也采用純DP模式，那么設備間的通信將被完全消除，進而顯著提升整體效率。

DP稠密FFN與DP attention的集成方案如下圖左側所示。用戶可以通過設置--moe-dense-tp-size=1來啟用。

稀疏FFN

在DeepSeek-V3的MoE架構中，稀疏FFN需要處理大量的專家權重，進而造成顯著的內存瓶頸。

為了緩解這一問題，團隊采用了專家并行（EP）策略，將專家權重分散到多個設備上。

這種方法能夠有效地擴展內存容量，不過，它在維持高性能的同時，也帶來了一些新的挑戰，比如不規則的全互聯通信以及工作負載不均衡等。

團隊利用DeepEP框架實現的EP方案

LM頭

LM頭（LM Head）負責計算大型詞匯表上的輸出概率，這是一項資源稠密型的操作，傳統方案是采用詞匯表并行技術，從TP組中聚合token logits。

為了進一步提升可擴展性和效率，團隊采用了數據并行（DP）策略，與處理稠密FFN的方法保持一致。

這種做法不僅可以降低內存開銷，還能簡化跨設備的通信過程，從而提供了更加精簡的解決方案。

預填充和解碼分離

LLM的推理過程主要包含兩個不同的階段：預填充（prefill）和解碼（decode)。

預填充階段屬于計算密集型，需要處理完整的輸入序列；而解碼階段則屬于內存密集型，主要負責管理用于生成token的KV緩存。

傳統方案通常在一個統一的引擎中處理這兩個階段，然而，這種預填充和解碼batch的混合調度方式會引入效率問題。

為了解決這些挑戰，團隊在SGLang中引入了預填充和解碼（PD）分離技術。

如下圖所示，SGLang會通過預填充服務器和解碼服務器的協同工作，實現兩個階段的交錯執行。

接收到輸入請求后，系統的工作流程如下：

預填充服務器和解碼服務器通過握手配對，各自作為本地發送者和接收者。
解碼服務器預先分配KV緩存，并通知預填充服務器啟動模型前向傳遞，計算KV緩存。
完成計算后，數據將被傳輸至解碼服務器，由該服務器負責進行迭代式的token生成。

這種分離機制確保了每個階段都能在最佳狀態下運行，從而最大限度地利用GPU資源。

并且，為了進一步提升性能，團隊的實現方案還包含以下特性。

非阻塞傳輸：數據發送和接收操作在后臺線程中執行，從而保證調度器的事件循環不會被中斷。
基于RDMA的傳輸：遠程直接內存訪問（RDMA）技術利用隊列對（Queue Pairs）進行連接管理，并利用分散-聚集元素（Scatter-Gather Elements, SGE）實現非連續內存塊的高效傳輸。
靈活的API集成：SGLang提供了高度可定制的API，能夠與Mooncake和NIXL等高性能RDMA庫無縫集成，從而簡化了數據傳輸流程。

大規模專家并行性

基于DeepEP的專家并行

由DeepSeek團隊開發的DeepEP提供了一系列優化過的通信內核，可以有效降低延遲并提升吞吐量，高效地將token路由到多個GPU上。

DeepEP有兩種專門設計的調度模式，以滿足不同的工作負載需求。

標準調度模式（Normal Dispatch）：主要針對處理較長的輸入序列進行優化，例如預填充階段，其首要目標是最大化計算吞吐量。但會生成與CUDA Graph不兼容的符號形狀，從而降低其在解碼階段的效率，因為在解碼階段，內核啟動開銷會成為一個顯著的瓶頸。
低延遲調度模式（Low-Latency Dispatch）：專門為解碼階段生成輸出token而設計，其核心目標是最小化延遲，從而確保實時性能。盡管它支持CUDA Graph，但需要預先分配固定大小的內存。如果實際內存需求超過了預分配的容量，則會觸發運行時錯誤。

在SGLang中，DeepEP的集成提供了一種自動模式，能夠根據當前的工作負載，動態地在上述兩種調度模式之間進行選擇。

與此同時，通過利用PD分離技術，使得在DP attention機制下，預填充階段能夠采用標準調度模式（Normal Dispatch)，而解碼階段則能夠采用低延遲調度模式（Low-Latency Dispatch)。

這種集成方式能夠根據每個階段的具體需求來調整調度模式，從而優化資源利用率，并提升整體性能。

DeepGEMM集成

由DeepSeek團隊開發的DeepGEMM，則被用于優化MoE模型中的計算過程。

DeepGEMM提供了兩個經過專門設計的函數，用于處理與MoE相關的矩陣乘法運算（分組GEMM），每個函數都針對推理過程的不同階段進行了定制。

分組GEMM（連續布局）：這種內核專門為動態輸入形狀而設計，使其成為MoE推理預填充階段的理想選擇。它可以處理來自不同專家的輸入數據，這些數據以連續的方式連接在一起，從而靈活地處理各種輸入尺寸的變化。
分組GEMM（掩碼布局）：這種內核假定輸入形狀是固定的，并使用掩碼張量來僅計算輸入的有效部分。由于它與CUDA Graph兼容（可優化內核啟動過程），因此特別適合于需要顯著降低開銷的解碼階段。

DeepGEMM與DeepEP的調度模式可以實現無縫集成：

對于與預填充階段的標準調度模式配合使用的連續布局內核，需要執行一個額外的步驟。團隊參考了LightLLM項目，并實現了一個自定義的Triton內核來實現高效的置換。確保了從標準調度模式輸出的數據能夠被正確地重新排列，從而實現與連續GEMM內核的平滑集成。
掩碼布局內核與DeepEP的低延遲調度模式能夠實現無縫對接，因為兩者都針對解碼階段進行了專門優化，并且都支持CUDA Graph。

SGLang集成了DeepGEMM，用于在張量并行模式下進行MoE計算。通過在SGLang中設置環境變量SGL_ENABLE_JIT_DEEPGEMM為1，即可激活該內核，從而為非MoE操作提供更高的計算效率。

雙batch重疊

在多節點環境下，有限的通信帶寬可能會顯著增加整體延遲。

為了應對這一挑戰，團隊遵循DeepSeek的系統設計理念，實現了雙batch重疊（TBO）技術。

TBO將單個batch拆分為兩個micro-batch，從而允許計算和通信過程相互重疊，同時，通過將有效batch大小減半，也降低了峰值內存的使用量。

為了創建更易于維護和重用的代碼庫，團隊采用了一個由操作和yield點構成的抽象層。

這種方法可以讓用戶像處理單個micro-batch一樣編寫代碼，同時通過策略性地插入yield點來暫停執行，從而允許其他micro-batch繼續進行。

如此一來，不僅消除了代碼重復，減少了對變量后綴的需求，并且還能有效地管理某些執行在層末尾完成而其他執行尚未完成的情況。

此外，抽象層還能輕松地適應不同的重疊區域選擇，或者未來的增強功能，例如三batch重疊，而只需要進行極少的代碼修改。

operations = [

self._forward_attn,YieldOperation(),# Pause execution for other micro-batchesself._forward_dispatch,self._forward_mlp,YieldOperation(),# Another pause pointself._forward_combine,]# Process a single micro-batch without duplicating codedef _forward_attn(self, state):state.hidden_states = self.self_attn(state.hidden_states, ...)

團隊優化了預填充階段的啟動順序，以避免通過DeepEP中的調度操作阻塞CPU，即使用的是其異步模式。

具體來說：

在GPU從其他rank接收到元數據，從而能夠正確分配大小合適的張量之前，調度操作會阻塞CPU。
不正確的實施方式會導致在此期間計算流處于空閑狀態，因為沒有計算任務被提交給GPU。

為了實現優化，團隊優先將計算任務提交給GPU，然后再啟動可能導致CPU阻塞的通信操作。這樣可以確保GPU在通信期間保持活躍狀態。

如下圖所示，通過采用正確的啟動順序，TBO可以避免由CPU阻塞操作引起的性能瓶頸。

專家并行負載均衡器

為了解決由專家并行（EP）引起的各個GPU工作負載分布不均勻的問題，DeepSeek開發了專家并行負載均衡器（Expert Parallelism Load Balancer, EPLB)。

EPLB以專家分布的統計信息作為輸入，計算出專家的最佳排列方式，從而最大限度地減少不平衡現象。

用戶可以分配冗余專家（例如，增加32個專家），這些冗余專家與原有的256個專家組合在一起，形成一個包含288個專家的資源池。

借助這個資源池，EPLB能夠策略性地放置或復制專家——例如，多次復制最常用的專家，或者將使用頻率適中的專家與在單個GPU上很少使用的專家組合在一起。

除了平衡工作負載之外，EPLB還在并行設計方面提供了更大的靈活性。如果使用最初的256個專家，并行規模只能被限制為2的冪次方。而EPLB通過使用288個專家，能夠實現更多樣化的配置，例如將并行規模設置為12或72。

在下圖中，團隊展示了系統規模和EPLB算法對不平衡問題的影響。

他們將GPU的平衡度，定義為GPU中MoE層的平均計算時間與最大計算時間之比，并使用GPU處理的token數量來估計其計算時間。

從圖中可以看出，當系統隨著節點數量的增加而擴展時，GPU的利用率會降低，而啟用EPLB則可以顯著提高了GPU的利用率。

EPLB在實際服務中的應用

為了使EPLB能夠有效發揮作用，輸入數據的分布必須與實際服務的工作負載高度吻合。通過以下兩種策略，可以增強這種吻合度：

增加batch大小：更大的batch可以減少專家使用過程中的隨機波動，從而提高負載均衡的效果。這一目標可以通過擴展集群規模或者采用多token預測（MTP）等技術來實現。
定期進行重新平衡：定期更新專家的排列方式可以利用時間局部性原理，但這需要高效地重新加載專家模型。因此，需要盡可能降低專家模型重新加載操作的成本。

即使采用了EPLB，一定程度的不平衡現象仍然難以避免，未來仍需進一步優化。

重新平衡的具體實施方案

SGLang通過三個階段的重新平衡操作，來確保既高效又不會造成中斷，進而在權重更新期間維持系統的性能。

系統加載階段：可以選擇從磁盤預加載權重數據到主內存中，以加快重新平衡的速度；也可以選擇將權重數據保存在磁盤上，并使用內存映射（memory mapping, mmap）技術，從而減少內存的占用量。
重新平衡準備階段：所需的權重數據會在后臺異步傳輸到設備內存中，利用空閑的DMA硬件引擎，從而避免中斷正在進行的GPU操作。
重新平衡執行階段：通過設備到設備的數據復制來更新權重數據。還可以通過物理內存重綁定等技術來進一步優化這一步驟。

評估

為了突出使用的先進優化技術帶來的吞吐量提升，團隊使用DeepSeek-V3模型，在一個包含12個節點的集群上，對 SGLang 的不同配置進行了端到端性能評估。

他們比較了以下四種不同的配置：

SGLang（采用TP16x6）
SGLang（采用PD分離）
SGLang（采用PD分離和模擬MTP）
DeepSeek的結果

為了適應不同的工作負載需求，團隊分別獨立地評估了預填充階段和解碼階段的性能。

評估結果總結如下：

· 預填充階段：在4個節點的配置下，對于prompt長度分別為1K、2K和4K的情況，系統所實現的單節點吞吐量分別為每秒57,674、54,543和50,302個token。

如下圖所示，與TP16基線相比，這種配置實現了高達3.3倍的性能提升。

在假設工作負載完全平衡的前提下，此系統的吞吐量與DeepSeek官方數據之間的差距在5.6%以內。

· 解碼階段：在9個節點的配置下進行評估，對于2K的輸入，系統實現的單節點吞吐量為22,282個token/秒，這意味著與TP16基線相比，性能提升了5.2倍。

在模擬MTP條件下，對于4K的輸入，系統仍然能夠保持每節點17,373個token/秒的高吞吐量，僅比DeepSeek官方性能分析數據低6.6%。

接著，團隊將SGLang的性能與DeepSeek的推理系統進行對比，力求使實驗設置盡可能貼近DeepSeek的生產環境。

對于預填充階段，團隊測試了一個場景，在該場景中，每個設備處理16,384個token，輸入長度為4,096。

考慮到DeepSeek的專家分布存在不確定性，他們評估了兩種情況：一種是采用默認的專家分布，另一種是模擬理想狀態下的EPLB，并將后者的結果作為性能上限。

評估結果如下所示：

DeepSeek的性能分析數據顯示，其所報告的吞吐量大約是其生產環境的兩倍。

在默認的專家不平衡情況下，SGLang的性能比DeepSeek的性能分析數據慢20%；而在模擬的理想EPLB情況下，這個差距縮小到了6%。

對于解碼階段，結果如下所示：

在使用DeepSeek一半數量的節點的情況下，搭載模擬MTP的SGLang僅比DeepSeek的性能分析數據略慢。

在更高的batch大小設置下（256個序列，2,000個輸入長度），SGLang實現了每節點每秒22,282個token的處理速度，充分展現了其強大的可擴展性。

下圖詳細分析了預填充階段各個內核的執行時間。

如下圖所示，SGLang的解碼內核分析結果與DeepSeek的結果非常接近：

可以看出，SGLang的解碼性能在很大程度上與DeepSeek的性能相一致。

因此，下一步的工作重點，就是預填充階段的優化了。

局限性與未來工作

總的來說，項目在吞吐量上有著顯著的提升，但仍然存在一些局限性以及需要增強的領域：

延遲優化：目前因為專注于提升吞吐量，導致首token時間（TTFT）達到2-5秒，token間延遲（ITL）大約100毫秒。之后還需要進一步優化，來滿足實時使用場景的需求。
序列長度約束：由于使用了96個GPU，因此序列長度被限制在較短的范圍內。擴展GPU資源將支持更長的序列，這對于特定應用至關重要。
多token預測（MTP）集成：SGLang支持MTP，但缺乏與DP注意力的完全集成，降低了混合并行配置的效率。
專家并行負載均衡（EPLB）分布：本次實驗使用了專家并行負載均衡器（EPLB）的同分布數據，這可能無法反映真實場景中的數據變動。之后還需要研究出現分布偏移時的性能表現。
靈活的張量并行（TP）規模：對于DeepSeek-V3而言，稠密FFN的內存最優TP規模較小，但大于1。目前SGLang僅支持純TP或DP，導致內存利用率不高。之后還需要支持更靈活的TP選項。
Blackwell支持：目前的實現僅支持NVIDIA Hopper架構。團隊正在努力將兼容性擴展到下一代Blackwell架構。

參考資料：

https://lmsys.org/blog/2025-05-05-large-scale-ep/

深夜突襲，

DeepSeek-Prover-V2加冕數學王者！

671B數學推理逆天狂飆

【導讀】就在剛剛，DeepSeek-Prover-V2技術報告也來了！34頁論文揭秘了模型的訓練核心——遞歸+強化學習，讓數學推理大提升。有人盛贊：DeepSeek已找到通往AGI的正確路徑！

就在剛剛，DeepSeek-Prover-V2正式發布。

此次DeepSeek-Prover-V2提供了兩種模型尺寸：7B和671B參數。

DeepSeek-Prover-V2-671B：在DeepSeek-V3-Base基礎上訓練，推理性能最強。

DeepSeek-Prover-V2-7B：基于DeepSeek-Prover-V1.5-Base構建，上下文長度擴展至高達32Ktoken。

Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

GitHub：https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

同時，技術報告也放出了。

論文鏈接：https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf

昨天，DeepSeek突然在Hugging Face上開源了671B模型，果然很快就有后續了。

數學證明大提升

此次DeepSeek-Prover-V2的訓練核心，就是靠「遞歸+強化學習」。

首先，DeepSeek-V3會拆解復雜定理，生成一系列子目標和推理思路。隨后，GRPO算法就會從多種候選方案中自動學習如何選出最優解。

對于這次放出的技術，網友盛贊說，這將導致超越人類的數字AI，極大地推動AI研究。

方法可以總結如下：

· 優化算法，以實現更快、更智能的模型

· 揭示AI「黑盒」行為的洞見

· 設計更好的架構，無需無盡的試錯

· 加速數據分析，以實現更快的突破

因此，這就導致我們通向AGI，產生超級智能。幾年內，AI就將產生人類無法理解的高級數學。

具體來說，DeepSeek-Prover-V2專門用于Lean 4中的形式化定理證明。

其中，初始化數據是通過DeepSeek-V3驅動的遞歸定理證明流程來收集的。

冷啟動訓練過程中，會首先提示DeepSeek-V3將復雜問題分解為一系列子目標，然后將已解決子目標的證明合成為思維鏈過程，并結合DeepSeek-V3的逐步推理，為強化學習提供了一個初始冷啟動。

通過這個過程，非正式和正式的數學推理就能集成到一個統一的模型中。

總結來說，亮點如下。

· 生成冷啟動推理數據：遞歸證明搜索方法

為構建冷啟動數據集，團隊開發了一個簡單而有效的遞歸定理證明流程，利用 DeepSeek-V3作為統一工具，進行子目標分解和形式化。

DeepSeek-V3會被提示，將定理分解為高層次的證明草圖。同時，在Lean 4中形式化這些證明步驟，從而產生一系列子目標。

首先使用一個較小的 7B 模型來處理每個子目標的證明搜索，以此降低計算負擔。

一旦具有挑戰性的問題的分解步驟得到解決，就將完整的逐步形式化證明與DeepSeek-V3產生的相應思維鏈過程相結合，從而生成冷啟動推理數據。

· 基于合成冷啟動數據的強化學習

團隊精心挑選了一個具有挑戰性的問題子集——它們無法通過7B prover以端到端的方式解決，但分解后的所有子目標都已成功解決。

通過整合所有子目標的證明，團隊為原始問題構建了一個完整的形式化證明。

然后，將此證明附加到DeepSeek-V3的思維鏈中，該思維鏈概述了相應的引理分解，從而將非正式推理與后續形式化過程有機結合。

在合成冷啟動數據上微調prover模型后，團隊執行了強化學習階段，以進一步增強其連接非正式推理與形式化證明構建的能力。

根據推理模型的標準訓練目標，采用二元正確/不正確反饋作為主要的獎勵監督形式。

最終，模型DeepSeek-Prover-V2-671B在神經定理證明方面實現了當前最優的性能，在MiniF2F-test上達到了88.9%的通過率，并解決了PutnamBench中658個問題中的49個。

DeepSeek-Prover-V2為miniF2F數據集生成的證明：https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/minif2f-solutions.zip

· 針對AIME與教科書題目的形式化數據集ProverBench

ProverBench是一個包含325道題目的基準數據集。

其中，15道題目源自最近AIME競賽（AIME 24&25）中的數論和代數題目，提供了極具挑戰性的高中競賽級別題目。

剩余的310道題目則來自精選的教科書例題和教學教程，構建了一個多樣化的、具有教學意義的形式化數學題目集合。

因此，這項基準更全面地評估高中競賽和本科階段的數學水平。

DeepSeek-Prover-V2

在論文中，團隊構建了用于子目標分解的推理模型，利用合成的冷啟動數據和大規模強化學習技術來提升其性能。

通過子目標分解實現遞歸式證明搜索

將復雜定理的證明過程拆解為一系列較小的引理，作為中間步驟，是人類數學家普遍采用的一種高效策略。

近年來，分層式方法在神經定理證明領域得到了廣泛應用。它的核心思路是借助現代大型語言模型（LLM）擅長的非形式化推理能力，來提升定理證明搜索的效率。

這部分包括3階段：從自然語言推理到形式化證明草圖、子目標的遞歸求解、基于子目標的定理證明中的課程學習。

首先提示DeepSeek-V3，同時生成自然語言形式的證明草圖，并將其形式化為Lean語言中的定理陳述，其中對于尚未證明的部分使用sorry占位。

接著，7B證明模型用于遞歸地求解被分解出的各個子目標。通過組合這些子目標的證明內容，團隊可以構建出原始復雜問題的完整形式化證明。

冷啟動數據收集流程概覽

DeepSeek利用子目標來擴展可用于模型訓練的形式化定理范圍。

他們生成了兩種類型的子目標定理：一種包含前序子目標作為前提條件（對應圖 3(b)），另一種則不包含前提條件（對應圖 3(a)）。

這兩種類型的子目標都被納入到專家迭代階段，形成一個漸進式的課程體系，引導證明模型逐步掌握解決精選難題的方法。

這一流程的核心思想與AlphaProof 在測試階段采用的強化學習策略類似：生成目標問題的多種變體，提升模型解決高難度的IMO級別問題的能力。

將分解后的子目標轉化為一系列引理（lemma）陳述

首先執行步驟 (a)：將原始目標狀態替換為當前子目標。

接著進行步驟 (b)：將之前的子目標作為前提條件納入當前引理中。

類型 (b) 的陳述用于遞歸求解復雜問題，而類型 (a) 和 (b) 的陳述都被納入課程學習流程中，用于訓練模型逐步掌握推理能力。

最后，將這個組合后的正式證明附加到 DeepSeek-V3最初生成的「思維鏈」之上，形成高質量的冷啟動訓練數據，用于支持形式化數學推理的學習。

統一非形式化推理與形式化證明

算法框架包括兩個階段，分別依賴兩個互補模型：用于引理分解的 DeepSeek-V3，以及用于補全具體形式化證明細節的7B證明模型。

這種方法巧妙地融合了高層次的自然語言推理和低層次的精確證明過程，為構建可用于訓練的形式化推理數據提供了重要基礎。

· 用合成數據實現冷啟動

在研究過程中，DeepSeek挑選出一些特別難解決的問題。

這些問題很棘手，即便用7B證明模型，也沒辦法從頭到尾直接解決。

不過有意思的是，把這些問題拆解成一個個小目標后，每個小目標都能被成功證明。就像拼拼圖一樣，把這些小目標的證明過程按順序組合起來，就能得到原始難題的完整證明，而且這個證明是非常嚴謹、規范的形式化證明。

接著，DeepSeek把這個完整的證明，添加到 DeepSeek-V3 生成的「思維鏈」里。

這里的「思維鏈」就像是解題的思路草稿，詳細記錄了把難題分解成小目標的過程。

這樣一來，DeepSeek就得到了一份特殊的證明樣本，它既有像日常思考那樣的非形式化推理過程，又有嚴謹的形式化證明步驟，兩者完美結合。

通過這種方式，團隊成功收集到了幾百條高質量的數據。

它們非常重要，是訓練 DeepSeek-Prover-V2模型的基礎。

這里方法的核心是把日常語言描述的證明過程，直接轉化成有邏輯結構的形式化框架。

· 用強化學習提升推理能力

用冷啟動合成數據對證明模型進行初步優化后，就進入了強化學習階段。

強化學習階段目的是讓模型更好地把日常語言的推理過程，轉化成嚴謹的形式化證明。

在這個過程中，按照標準的推理模型訓練要求，用「正確」或「錯誤」這兩種簡單的反饋，作為主要的獎勵監督信號。也就是說，如果模型給出的證明是對的，就獎勵它；如果錯了，就不給獎勵。

但訓練有個問題：模型生成的證明結構，經常和「思維鏈」里分解問題的思路對不上。

為了解決這個問題，在訓練剛開始的時候，團隊就加入了一種新的獎勵機制，專門用來懲罰那些和分解結構不一致的輸出結果。

在實際訓練中，這個保證結構一致的方法效果非常好，大大提高了證明的準確率。尤其是在證明那些需要很多步驟、特別復雜的定理時，優勢更加明顯。

訓練細節

DeepSeek-Prover-V2的訓練采用了兩階段策略，建立了兩種互補的證明生成模式：

高效率非思維鏈（non-CoT）模式：優化用于快速生成Lean形式化代碼，重點在于輸出簡潔、高效的證明，不包含顯式的中間推理步驟
高精度思維鏈（CoT）模式：注重系統化表達推理過程，逐步構建邏輯清晰的中間步驟，最后生成完整的形式化證明

這兩個生成模式的設計延續了DeepSeek-Prover-V1.5的思路，區別在于不同的提示模板。

在第一階段中，團隊結合課程學習框架和專家迭代機制，訓練non-CoT證明模型，并通過子目標分解遞歸地合成復雜問題的證明。

由于non-CoT模式推理速度快、驗證成本低，因此非常適合快速迭代與數據采集。

在此基礎上，第二階段引入了冷啟動的思維鏈數據，這些數據整合了DeepSeek-V3的高級數學推理能力與合成的形式化證明。

CoT模式隨后進入強化學習階段，以進一步提升模型在推理和形式化構造之間的銜接能力。

專家迭代（Expert Iteration）

DeepSeek-Prover-V2的non-CoT模型訓練采用了「專家迭代」方法，這是目前形式化定理證明系統中廣泛使用的訓練范式。

論文鏈接：https://arxiv.org/abs/2009.03393

每輪訓練中，當前性能最好的模型會嘗試解決前幾輪未成功證明的難題。

成功的證明結果經Lean系統驗證后被加入監督微調（SFT）數據集中，用于訓練下一代更強的模型。

這個過程不僅讓模型持續從初始演示數據中學習，還能提煉自身的成功推理路徑，不斷優化解決難題的能力。

DeepSeek-Prover-V2整體訓練流程與V1和V1.5保持一致，只在訓練問題的分布上做了兩處改進：

加入更多來自自動形式化和開源數據集的題目，擴大訓練覆蓋范圍
加入基于子目標分解生成的題目，尤其針對MiniF2F基準數據集中驗證集的高難度問題

監督微調（Supervised Fine-tuning）

團隊在DeepSeek-V3-Base-671B的基礎上進行微調，學習率設置為常數5e-6，最大上下文長度為16,384 token。

訓練數據來自兩個來源：

non-CoT數據：由專家迭代生成，強調高效生成Lean代碼，但不包含推理過程
冷啟動CoT數據：來自DeepSeek-V3的高階數學推理，通過形式化草圖展現清晰的推理路徑

non-CoT數據強化模型在Lean生態中的形式驗證能力，而CoT數據則更強調將數學直覺轉化為結構化形式證明的過程。

強化學習（Reinforcement Learning）

DeepSeek采用了Group Relative Policy Optimization（GRPO）作為強化學習算法。

GRPO不需要單獨的價值評估模型，而是通過對每道題采樣多個候選證明，并基于相對獎勵進行策略優化。

訓練時，我們使用二元獎勵機制Lean驗證成功則得分1，失敗則為0。

為了確保訓練有效性，團隊精心挑選了具有挑戰性但又可解的題目作為訓練提示。

在每輪訓練中，隨機選取256道不同題目，每道題生成32個候選證明，最大序列長度為32,768 token。

蒸餾與小模型訓練（Distillation）

團隊將DeepSeek-Prover-V1.5-Base-7B的最大上下文長度從4,096擴展到32,768 token，并利用在671B模型強化學習階段采集的rollout數據對模型進行微調。

在CoT模式之外，團隊還加入了專家迭代期間采集的non-CoT數據，旨在讓小模型具備成本更低的證明能力，能夠快速輸出精煉的形式化結果。

此外，團隊也在7B小模型上執行與671B模型相同的強化學習流程。

實驗結果

MiniF2F基準測試結果

MiniF2F包含488個形式化的題目，來源包括AIME、AMC和IMO等競賽，以及MATH數據集，涵蓋了初等數學的核心領域，如代數、數論和歸納法。

這些題目被分為兩個大小相等的子集，即miniF2F-valid和miniF2F-test，每個子集包含244道題目，并且在各個學科領域具有相同的分布。

如表1所示，實驗結果表明，DeepSeek-Prover-V2-671B在miniF2F-test基準上取得了SOTA性能，當采用CoT生成策略時，僅用32個樣本便達到了前所未有的82.4%的準確率。

值得注意的是，參數效率更高的DeepSeek-Prover-V2-7B也展現出了很強的競爭力，超越了現有文獻中的所有開源定理證明器。

他們還發現了一個明顯的規律：隨著樣本預算從1增加到8192，7B和671B模型之間的性能差距顯著擴大，更大規模的模型展現出更高的樣本效率和更快的性能提升。

· 子目標引導的課程學習在難題證明中的應用

表2詳細展示了DeepSeek-Prover-V2在miniF2F基準測試中的解題情況，其在驗證集和測試集上分別取得了91.0%和88.9%的高通過率。

值得注意的是，團隊提出了子目標引導的課程學習框架，將通用模型DeepSeek-V3與輕量級專用7B prover相結合，在miniF2F-valid上實現了90.2%的成功率，與DeepSeekProver-V2-671B的性能幾乎持平。

這些發現表明，SOTA的通用LLM不僅能進行自然語言理解，還能有效支持復雜的形式推理任務。

通過巧妙的子目標分解，模型便可將難題分解為一系列可處理的步驟，從而有效連接非正式推理與形式化證明構建。

· CoT vs. non-CoT

表1的實驗結果表明，在形式化數學推理中，CoT推理模式相比non-CoT模式具有顯著的性能優勢。

這進一步驗證了CoT提示的有效性，它鼓勵將復雜問題分解為中間步驟，并證實了推理時擴展在形式化定理證明領域依然適用。

作為補充，表3提供了DeepSeek-Prover-V2在不同推理模式下生成的token數量的統計信息。

正如預期的那樣，CoT模式會生成明顯更長的輸出，反映了其復雜的推理過程。

有趣的是，在non-CoT設置下，671B模型生成的平均輸出長度比7B模型更長。

更仔細的分析表明，盡管non-CoT模式下沒有顯式推理提示，但較大規模的模型通常會在證明代碼中插入簡短的自然語言注釋，這些注釋類似于隱式推理步驟。

這表明，即使沒有顯式的CoT提示，高容量模型也可能在內部和外部隱式地執行中間推理。

本科水平基準測試結果

· ProofNet

ProofNet包含371道使用Lean 3編寫的題目，這些題目選自一系列流行的本科純數學教材，涵蓋了實分析、復分析、線性代數、抽象代數和拓撲等主題。

表4的結果顯示，相比于non-CoT設置，采用CoT推理時DeepSeek-Prover-V2的通過率得到了顯著提升。

盡管訓練數據主要源自高中數學，但該模型在更高級的大學數學問題上展現出了強大的泛化能力，代表著強大的形式推理能力。

· PutnamBench

PutnamBench基準測試集包含了1962年至2023年普特南數學競賽中的數學題。

它是美國和加拿大極負盛名的年度本科生數學競賽，涵蓋分析、線性代數、抽象代數、組合數學、概率論和集合論等多個大學領域的知識。

如表4所示，DeepSeek-Prover-V2-671B在PutnamBench中展現了增強的推理能力，解決了49道題目，并顯著優于其non-CoT版本。

這說明，CoT推理方法已經可以有效處理極有挑戰性的大學數學問題。

·RL實現的技能發現：7B勝過671B！

此外，團隊意外地發現：DeepSeek-Prover-V2-7B在PutnamBench數據集上采用non-CoT生成模式時，也表現出了卓越的性能。

更令人稱奇的是，這個較小的7B模型成功解決了DeepSeek-Prover-V2-671B仍未能解決的13道題！

這是為什么？

仔細分析模型的輸出后，團隊從中發現了一種獨特的推理模式——

7B模型經常使用Cardinal.toNat和Cardinal.natCast_inj來處理涉及有限基數的問題，而671B模型生成的輸出中明顯缺少這種處理方式。

似乎就是這種技術，讓7B能有效解決需要精細操作基數值的問題。

組合問題測試結果

CombiBench是一個綜合性的基準測試集，其中包含了100道用Lean 4形式化表示的組合競賽題，配有自然語言描述。

團隊采用with-solution設置，此時正確的答案已嵌入在Lean代碼中，因此評估可以完全集中在證明過程的生成上。

對其中77道題進行評估后，模型成功解決了12道。

結果表明，盡管該Prover模型主要在數論和代數領域進行訓練，但在組合問題上也展現出了良好的泛化潛力，即使這些問題相當難。

ProverBench數據集

為了增強現有基準，團隊構建了一個包含325道題目的基準數據集。

其中，15道題目來自AIME 24和25中的數論和代數題目，屬于極難的高中競賽級別題目。剩余的310道題目則來自精選的教科書例題和教學教程。

這就能更全面評估高中競賽和本科階段的數學水平。

· AIME題目形式化

美國數學邀請賽AIME 24&25中的題目，已成為評估LLM推理能力的常用基準。

為了彌合模型在形式化和非形式化數學推理能力評估上的差異，我們整理并形式化了AIME 24&25中的部分題目，并排除了幾何、組合和計數問題，因為它們在Lean中的表示較復雜。

最終，團隊選擇了15道題目，涵蓋了初等數論和代數中競賽級別的知識點。

結果顯示，DeepSeek-V3-0324成功解決了15道題中的8道題。

而DeepSeek-Prover-V2-671B在已知正確答案的前提下，能夠為15道題目中的6道構建出有效的形式化證明。

這種表明，非形式化數學推理與形式化定理證明的性能差距正在顯著縮小，高級語言模型在語言理解和形式邏輯的嚴謹性上正日益接近。

· 教科書題目形式化

除了AIME 24&25之外，團隊還從高中競賽和本科課程教材中挑出題目來擴充基準測試集。

最終，他們形式化了310道題，難度范圍很廣，覆蓋了競賽級別的初等數學到本科常見的高級主題。

如表6所示，結果表明，采用CoT推理的DeepSeek-Prover-V2-671B始終優于所有基線模型，與在其他基準測試中的表現一致。

在論文最后，團隊表示，未來的工作將著重于將范例擴展到類似AlphaProof的系統。

最終目標，就是解決代表自動定理證明領域前沿的IMO級數學難題！

快速開始

我們可以直接使用Hugging Face的Transformers庫進行模型推理。

以下是如何生成miniF2F數據集中問題證明的一個簡單示例：

from transformers import AutoModelForCausalLM, Autotokenizer
import torch
torch.manual_seed(30)
model_id = "DeepSeek-Prover-V2-7B"  # or DeepSeek-Prover-V2-671B
tokenizer = Autotokenizer.from_pretrained(model_id)
formal_statement = """
import Mathlib
import Aesop
set_option maxHeartbeats 0
open BigOperators Real Nat Topology Rat
/-- What is the positive difference between $120\%$ of 30 and $130\%$ of 20? Show that it is 10.-/
theorem mathd_algebra_10 : abs ((120 : ?) / 100 * 30 - 130 / 100 * 20) = 10 := by
  sorry
""".strip()
prompt = """
Complete the following Lean 4 code:
```lean4
{}
```
Before producing the Lean 4 code to formally prove the given theorem, provide a detailed proof plan outlining the main proof steps and strategies.
The plan should highlight key ideas, intermediate lemmas, and proof structures that will guide the construction of the final formal proof.
""".strip()
chat = [
  {"role": "user", "content": prompt.format(formal_statement)},
]
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
inputs = tokenizer.apply_chat_template(chat, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
import time
start = time.time()
outputs = model.generate(inputs, max_new_token=8192)
print(tokenizer.batch_decode(outputs))
print(time.time() - start)

參考資料：

https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

來源：新智元

為偉大思想而生！

AI+時代，互聯網思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.