網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4登頂了！梁文鋒把四大技術秘方公開

2026-04-24 19:01:13　來源: 智東西

北京舉報

分享至

智東西
作者楊京麗
編輯李水青

智東西4月24日報道，今天，DeepSeek-V4剛開源就迅速登頂了Hugging Face開源模型榜，相關技術報告也大方披露，覆蓋華為昇騰與英偉達芯片適配、模型架構升級、預訓練和后訓練環節優化等豐富的技術細節，非常值得仔細品讀。

DeepSeek-V4最顯著的提升，除了在推理、知識、代碼能力上全線抬升，整體表現比肩GPT-5.4、Claude Opus 4.6等頂級閉源模型；還在于該模型首次將“百萬上下文”作為默認能力開放，在此設置下單token推理FLOPs相比DeepSeek-V3.2暴降73%，KV cache僅為其10%，大幅降低使用成本。

基礎設施方面，DeepSeek-V4從訓練到推理的全鏈路，已經完整適配了華為昇騰NPU，其自研的細粒度專家并行方案“MegaMoE”，能夠在NVIDIA GPU和華為昇騰NPU上實現1.50-1.73倍的加速。

DeepSeek-V4的訓練過程相比前代模型有一些差異化。預訓練中，DeepSeek-V4引入了“樣本級注意力掩碼”機制，語料總規模超過32萬億tokens，涵蓋數學內容、代碼、網頁文本、長文檔等多種高質量類別。后訓練中，DeepSeek-V4則將原先的混合強化學習階段替換為“基于策略的蒸餾”，確保訓練更為可控。

開源地址：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

報告地址：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

一、基礎設施再創新，全鏈路高效適配華為昇騰

DeepSeek-V4在基礎設施方面提升較為明顯，采用專家混合（MoE）技術，可通過專家并行化（EP）實現加速。

然而，EP需要復雜的節點間通信機制，并對互連帶寬和延遲提出較高要求。為緩解EP中的通信瓶頸，并在降低互連帶寬需求的同時，提升端到端性能，DeepSeek提出了一種細粒度EP方案“MegaMoE”：將通信與計算功能整合為單一流水線內，實現通信與計算的重疊執行。

DeepSeek-V4在英偉達GPU和華為昇騰NPU平臺上驗證了細粒度專家并行（EP）方案。與性能較強的非融合基線相比，該方案在通用推理任務中實現了約1.50-1.73倍的加速，在延遲敏感的場景中最高可達1.96倍。相關CUDA實現已開源，名為MegaMoE2，作為DeepGEMM的一個組件提供。

將專家調度（Dispatch）與Linear-1重疊，將Linear-2與Combine重疊。EP方案通過將專家拆分并按波次調，實現了更細粒度的重疊。

在實際應用中，復雜的模型架構原本會生成數百個細粒度的Torch ATen運算符。為此，DeepSeek采用TileLang開發了一組融合內核，用以替代其中絕大多數運算符，把碎片化的小kernel融成大塊，調用開銷從百微秒壓到1微秒以內，還引入Z3形式化求解器做優化驗證。做到比特級可復現，同一token不管在batch哪里都得到同樣結果，同一模型每次運行完全一致，這對大模型調試是保命設計。

DeepSeek將FP4（MXFP4）量化應用于兩個關鍵部分：第一是MoE專家權重，這部分是GPU顯存占用的主要來源之一；第二是CSA中索引器的Query-Key（QK）路徑，在該路徑中，QK激活值的緩存、加載以及乘法計算全部在FP4精度下完成，從而在長上下文場景中加速注意力分數的計算。

訓練框架建立在為DeepSeek-V3開發的可擴展且高效的基礎設施之上。在訓練DeepSeek-V4時，DeepSeek繼承了這一基礎，同時引入了多項關鍵創新，適配其新的架構組件——包括Muon優化器、mHC，以及混合注意力機制，并在此過程中保持高效的訓練效率與穩定性。

二、架構升級，突破長文本計算效率瓶頸

推理模型興起后，業內建立了一種新的“測試時擴展”范式，顯著推動了大型語言模型的性能提升。然而，這種擴展范式從根本上受限于傳統注意力機制，難以處理超長上下文和復雜推理過程。

同時，從復雜智能體工作流到大規?？缥臋n分析，長時序任務的出現，也使得高效支持超長上下文成為未來發展的關鍵需求。盡管近年來一些開源工作（如DeepSeek、MiniMax、Qwen等）已經推動了模型能力的整體提升，但在處理超長序列方面的核心架構低效問題仍然存在。

DeepSeek-V4為解決這個瓶頸，它通過一系列架構創新，讓模型在處理超長上下文時的計算效率大幅提升，從而真正把上下文長度推進到“百萬token”這個量級。

總體而言，DeepSeek-V4系列沿用了Transformer架構和多Token預測模塊，并在DeepSeek-V3基礎上引入了項關鍵改進：

（1）采用混合注意力架構，將壓縮稀疏注意力（CSA）與高壓縮注意力（HCA）結合，以提升長上下文處理效率；

（2）引入流形約束超連接（mHC），增強傳統殘差連接；

（3）使用Muon優化器，實現更快的收斂速度和更高的訓練穩定性。

具體做法上，DeepSeek-V4保留了MoE結構和多token預測策略，重點改造了注意力機制：提出一種“混合注意力”，即把兩種不同的壓縮方式結合起來，一種是先壓縮再做稀疏注意力，另一種是更激進地壓縮但仍保持稠密計算，這樣在保證信息利用的同時大幅減少計算和存儲開銷。此外，它還改進了殘差連接，增強模型表達能力，并引入新的優化器Muon，讓訓練更快更穩定。

除了模型結構本身，DeepSeek對整個訓練和推理系統做了大量工程優化，比如把MoE的計算、通信和內存訪問融合在一起執行，用專門的語言優化內核，實現可復現的計算過程，以及通過低精度（FP4）來減少資源消耗。在推理階段，還設計了更復雜的KV cache存儲方式，甚至可以部分放到磁盤上，從而支持極長上下文而不爆內存。

三、預訓練：基礎模型提升明顯，Flash模型就已超V3.2

預訓練過程主要基于DeepSeek-V3的數據，同時為構建一個更多樣化、高質量且有效上下文更長的訓練語料庫，DeepSeek持續優化數據構建流程。與DeepSeek-V3不同的是，V4在預訓練過程中引入了“樣本級注意力掩碼”（sample-level attention masking）機制。

對于來自網頁的數據，DeepSeek-V4采用過濾策略，去除批量自動生成和模板化內容，從而降低模型崩潰的風險。數學和編程語料仍然是訓練數據的核心組成部分，同時DeepSeek在中期訓練階段引入了智能體數據，進一步提升DeepSeek-V4系列的代碼能力。

在多語言數據方面，DeepSeek-V4構建了更大規模的語料庫，從而增強模型對不同文化中“長尾知識”的理解能力。此外，DeepSeek-V4特別強調長文檔數據的構建，優先收集科學論文、技術報告等材料。

綜合上述各類數據，預訓練語料總規模超過32萬億tokens，涵蓋數學內容、代碼、網頁文本、長文檔等多種高質量類別。

對于基礎模型的評估，DeepSeek-V4覆蓋四個關鍵維度的基準測試，包括世界知識、語言理解與推理、代碼與數學，以及長上下文處理。

DeepSeek-V3.2、DeepSeek-V4-Flash和DeepSeek-V4-Pro的基礎模型在統一的內部框架下進行了評測，獲得以下結果。

盡管DeepSeek-V4-Flash-Base的激活參數量和總參數量都明顯更小，但它在大量基準測試中超過了DeepSeek-V3.2-Base，該優勢在世界知識任務和長上下文場景中尤其明顯。結果表明，DeepSeek-V4-Flash-Base在更緊湊的參數預算下，也能取得更強性能，在大多數評測中有效超過規模更大的DeepSeek-V3.2-Base。

此外，DeepSeek-V4-Pro-Base能力躍升更為明顯，幾乎全面領先DeepSeek-V3.2-Base和DeepSeek-V4-Flash-Base，在基準測試上刷新了DeepSeek基礎模型的性能上限。它在知識密集型評測和長上下文理解能力取得了顯著提升。在大多數推理和代碼基準上，DeepSeek-V4-Pro-Base也超過了前兩個模型。可以說，DeepSeek-V4-Pro-Base在知識、推理、代碼和長上下文能力等多個方面全面超越了前代模型。

四、后訓練：基于策略蒸餾，跨輪次保留推理歷史

在完成預訓練之后，DeepSeek還進行了后訓練，最終得到DeepSeek-V4系列模型。雖然整體訓練流程在很大程度上沿用了DeepSeek-V3.2的方案，但在方法上做出了一項關鍵替換：原先的混合強化學習（RL）階段被完全替換為“基于策略的蒸餾”（On-Policy Distillation，OPD）。

具體做法是，先對每個目標領域各自訓練一個獨立的專家模型。每位專家都經歷相同的流程：先用高質量領域數據做監督微調打底，再用GRPO算法做領域強化學習，這一步會得到十多位各有所長的“偏科高手”。

真正的合并動作發生在第二階段。DeepSeek-V3.2的做法是把各類數據混在一起做RL，容易互相影響，而V4則換成讓統一的學生模型自己采樣答題，過程中由這十多位專家老師在完整詞表的logit層面打分對齊，用reverse KL損失把學生拉向老師。這種方式保證模型在每個領域的專長都能被完整保留。另外一個關鍵改動是DeepSeek-V4堅持做全詞表蒸餾，進而梯度更穩，訓練曲線更可控，但工程難度更高。

依托DeepSeek-V4系列的一百萬 token上下文窗口，DeepSeek進一步優化機制，以最大化智能體環境中交錯思考的效果。

在工具調用場景中，所有推理內容都會在整個對話過程中被完整保留。不同于DeepSeek-V3.2會在每一輪新用戶輸入到來時丟棄思考軌跡，DeepSeek-V4系列會跨越所有輪次保留完整的推理歷史，讓模型能夠在長周期智能體任務中維持連貫、持續累積的思考鏈條。

在一般對話場景中，DeepSeek-V4仍然保留原有策略：當新的用戶消息到來時，會丟棄上一輪的推理內容，從而保持上下文簡潔。

與DeepSeek-V3.2一樣，那些通過用戶消息來模擬工具交互的智能體框架（例如 Terminus）可能不會觸發工具調用上下文路徑，因此也可能無法受益于增強后的推理持久化機制。對于這類架構，DeepSeek仍然建議使用非思考模型。

五、知識、推理、代碼三線抬升，開源模型逼近閉源上限

評測結果上看，DeepSeek-V4-Pro-Max相比其他開源模型也略有領先，部分能力逼近閉源模型。

在知識能力和推理能力上，DeepSeek-V4-Pro-Max相比其他開源模型略有領先，但仍遜于閉源模型Gemini 3.1-Pro。推理能力上，DeepSeek-V4-Pro-Max優于GPT-5.2和Gemini-3.0-Pro，落后于GPT-5.4和Gemini-3.1-Pro；DeepSeek-V4-Flash-Max與GPT-5.2和Gemini-3.0-Pro能力近似，在復雜推理任務中展現出很高的性價比。

Agent能力方面，DeepSeek-V4-Pro-Max與Kimi-K2.6和GLM-5.1等領先開源模型表現相當，但略遜于最前沿的閉源模型。長上下文能力方面，DeepSeek-V4-Pro-Max在合成任務和真實應用場景中均表現強勁，在學術基準測試中甚至超過了Gemini-3.1-Pro。

在DeepSeek-V4-Pro與DeepSeek-V4-Flash的對比中，由于參數規模較小，DeepSeek-V4-Flash-Max在知識類評測中的表現略低。但在給予更多推理token時，在推理任務中的表現可以接近DeepSeek-V4-Pro-Max。在智能體評測中DeepSeek-V4-Flash-Max在部分基準上可以達到與DeepSeek-V4-Pro-Max相當的水平，但在更復雜、高難度任務中仍略遜一籌。

結語：高效支持百萬級token上下文，后續需簡化架構

DeepSeek-V4系列預覽版突破了超長上下文處理中的效率瓶頸，其通過融合CSA與HCA的混合注意力架構，并結合系統級基礎設施優化，使模型能夠更高效地支持百萬token級上下文，為測試時擴展、長時序任務和在線學習等方向提供了基礎。

從評測結果看，DeepSeek-V4-Pro-Max在開源模型中表現突出，在知識、推理和智能體任務上均取得較強結果，部分能力接近前沿閉源模型。DeepSeek-V4-Flash-Max則在較低成本下實現了較強推理能力，體現出較高性價比。

不過，DeepSeek-V4的架構也較為復雜，部分穩定性方法如Anticipatory Routing和SwiGLU Clamping的機理仍有待進一步理解。后續工作預計將集中在簡化架構、提升訓練穩定性、探索更多稀疏化方向、降低長上下文推理延遲、增強多輪智能體與多模態能力，以及持續改進數據構建與合成策略等方面。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.