![]()
智東西
作者 楊京麗
編輯 李水青
智東西4月24日?qǐng)?bào)道,今天,DeepSeek-V4剛開(kāi)源就迅速登頂了Hugging Face開(kāi)源模型榜,相關(guān)技術(shù)報(bào)告也大方披露,覆蓋華為昇騰與英偉達(dá)芯片適配、模型架構(gòu)升級(jí)、預(yù)訓(xùn)練和后訓(xùn)練環(huán)節(jié)優(yōu)化等豐富的技術(shù)細(xì)節(jié),非常值得仔細(xì)品讀。
![]()
DeepSeek-V4最顯著的提升,除了在推理、知識(shí)、代碼能力上全線(xiàn)抬升,整體表現(xiàn)比肩GPT-5.4、Claude Opus 4.6等頂級(jí)閉源模型;還在于該模型首次將“百萬(wàn)上下文”作為默認(rèn)能力開(kāi)放,在此設(shè)置下單token推理FLOPs相比DeepSeek-V3.2暴降73%,KV cache僅為其10%,大幅降低使用成本。
基礎(chǔ)設(shè)施方面,DeepSeek-V4從訓(xùn)練到推理的全鏈路,已經(jīng)完整適配了華為昇騰NPU,其自研的細(xì)粒度專(zhuān)家并行方案“MegaMoE”,能夠在NVIDIA GPU和華為昇騰NPU上實(shí)現(xiàn)1.50-1.73倍的加速。
DeepSeek-V4的訓(xùn)練過(guò)程相比前代模型有一些差異化。預(yù)訓(xùn)練中,DeepSeek-V4引入了“樣本級(jí)注意力掩碼”機(jī)制,語(yǔ)料總規(guī)模超過(guò)32萬(wàn)億tokens,涵蓋數(shù)學(xué)內(nèi)容、代碼、網(wǎng)頁(yè)文本、長(zhǎng)文檔等多種高質(zhì)量類(lèi)別。后訓(xùn)練中,DeepSeek-V4則將原先的混合強(qiáng)化學(xué)習(xí)階段替換為“基于策略的蒸餾”,確保訓(xùn)練更為可控。
![]()
開(kāi)源地址:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
報(bào)告地址:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
一、基礎(chǔ)設(shè)施再創(chuàng)新,全鏈路高效適配華為昇騰
DeepSeek-V4在基礎(chǔ)設(shè)施方面提升較為明顯,采用專(zhuān)家混合(MoE)技術(shù),可通過(guò)專(zhuān)家并行化(EP)實(shí)現(xiàn)加速。
然而,EP需要復(fù)雜的節(jié)點(diǎn)間通信機(jī)制,并對(duì)互連帶寬和延遲提出較高要求。為緩解EP中的通信瓶頸,并在降低互連帶寬需求的同時(shí),提升端到端性能,DeepSeek提出了一種細(xì)粒度EP方案“MegaMoE”:將通信與計(jì)算功能整合為單一流水線(xiàn)內(nèi),實(shí)現(xiàn)通信與計(jì)算的重疊執(zhí)行。
DeepSeek-V4在英偉達(dá)GPU和華為昇騰NPU平臺(tái)上驗(yàn)證了細(xì)粒度專(zhuān)家并行(EP)方案。與性能較強(qiáng)的非融合基線(xiàn)相比,該方案在通用推理任務(wù)中實(shí)現(xiàn)了約1.50-1.73倍的加速,在延遲敏感的場(chǎng)景中最高可達(dá)1.96倍。相關(guān)CUDA實(shí)現(xiàn)已開(kāi)源,名為MegaMoE2,作為DeepGEMM的一個(gè)組件提供。
![]()
將專(zhuān)家調(diào)度(Dispatch)與Linear-1重疊,將Linear-2與Combine重疊。EP方案通過(guò)將專(zhuān)家拆分并按波次調(diào),實(shí)現(xiàn)了更細(xì)粒度的重疊。
在實(shí)際應(yīng)用中,復(fù)雜的模型架構(gòu)原本會(huì)生成數(shù)百個(gè)細(xì)粒度的Torch ATen運(yùn)算符。為此,DeepSeek采用TileLang開(kāi)發(fā)了一組融合內(nèi)核,用以替代其中絕大多數(shù)運(yùn)算符,把碎片化的小kernel融成大塊,調(diào)用開(kāi)銷(xiāo)從百微秒壓到1微秒以?xún)?nèi),還引入Z3形式化求解器做優(yōu)化驗(yàn)證。做到比特級(jí)可復(fù)現(xiàn),同一token不管在batch哪里都得到同樣結(jié)果,同一模型每次運(yùn)行完全一致,這對(duì)大模型調(diào)試是保命設(shè)計(jì)。
DeepSeek將FP4(MXFP4)量化應(yīng)用于兩個(gè)關(guān)鍵部分:第一是MoE專(zhuān)家權(quán)重,這部分是GPU顯存占用的主要來(lái)源之一;第二是CSA中索引器的Query-Key(QK)路徑,在該路徑中,QK激活值的緩存、加載以及乘法計(jì)算全部在FP4精度下完成,從而在長(zhǎng)上下文場(chǎng)景中加速注意力分?jǐn)?shù)的計(jì)算。
訓(xùn)練框架建立在為DeepSeek-V3開(kāi)發(fā)的可擴(kuò)展且高效的基礎(chǔ)設(shè)施之上。在訓(xùn)練DeepSeek-V4時(shí),DeepSeek繼承了這一基礎(chǔ),同時(shí)引入了多項(xiàng)關(guān)鍵創(chuàng)新,適配其新的架構(gòu)組件——包括Muon優(yōu)化器、mHC,以及混合注意力機(jī)制,并在此過(guò)程中保持高效的訓(xùn)練效率與穩(wěn)定性。
![]()
二、架構(gòu)升級(jí),突破長(zhǎng)文本計(jì)算效率瓶頸
推理模型興起后,業(yè)內(nèi)建立了一種新的“測(cè)試時(shí)擴(kuò)展”范式,顯著推動(dòng)了大型語(yǔ)言模型的性能提升。然而,這種擴(kuò)展范式從根本上受限于傳統(tǒng)注意力機(jī)制,難以處理超長(zhǎng)上下文和復(fù)雜推理過(guò)程。
同時(shí),從復(fù)雜智能體工作流到大規(guī)模跨文檔分析,長(zhǎng)時(shí)序任務(wù)的出現(xiàn),也使得高效支持超長(zhǎng)上下文成為未來(lái)發(fā)展的關(guān)鍵需求。盡管近年來(lái)一些開(kāi)源工作(如DeepSeek、MiniMax、Qwen等)已經(jīng)推動(dòng)了模型能力的整體提升,但在處理超長(zhǎng)序列方面的核心架構(gòu)低效問(wèn)題仍然存在。
DeepSeek-V4為解決這個(gè)瓶頸,它通過(guò)一系列架構(gòu)創(chuàng)新,讓模型在處理超長(zhǎng)上下文時(shí)的計(jì)算效率大幅提升,從而真正把上下文長(zhǎng)度推進(jìn)到“百萬(wàn)token”這個(gè)量級(jí)。
總體而言,DeepSeek-V4系列沿用了Transformer架構(gòu)和多Token預(yù)測(cè)模塊,并在DeepSeek-V3基礎(chǔ)上引入了項(xiàng)關(guān)鍵改進(jìn):
(1)采用混合注意力架構(gòu),將壓縮稀疏注意力(CSA)與高壓縮注意力(HCA)結(jié)合,以提升長(zhǎng)上下文處理效率;
(2)引入流形約束超連接(mHC),增強(qiáng)傳統(tǒng)殘差連接;
(3)使用Muon優(yōu)化器,實(shí)現(xiàn)更快的收斂速度和更高的訓(xùn)練穩(wěn)定性。
![]()
具體做法上,DeepSeek-V4保留了MoE結(jié)構(gòu)和多token預(yù)測(cè)策略,重點(diǎn)改造了注意力機(jī)制:提出一種“混合注意力”,即把兩種不同的壓縮方式結(jié)合起來(lái),一種是先壓縮再做稀疏注意力,另一種是更激進(jìn)地壓縮但仍保持稠密計(jì)算,這樣在保證信息利用的同時(shí)大幅減少計(jì)算和存儲(chǔ)開(kāi)銷(xiāo)。此外,它還改進(jìn)了殘差連接,增強(qiáng)模型表達(dá)能力,并引入新的優(yōu)化器Muon,讓訓(xùn)練更快更穩(wěn)定。
除了模型結(jié)構(gòu)本身,DeepSeek對(duì)整個(gè)訓(xùn)練和推理系統(tǒng)做了大量工程優(yōu)化,比如把MoE的計(jì)算、通信和內(nèi)存訪(fǎng)問(wèn)融合在一起執(zhí)行,用專(zhuān)門(mén)的語(yǔ)言?xún)?yōu)化內(nèi)核,實(shí)現(xiàn)可復(fù)現(xiàn)的計(jì)算過(guò)程,以及通過(guò)低精度(FP4)來(lái)減少資源消耗。在推理階段,還設(shè)計(jì)了更復(fù)雜的KV cache存儲(chǔ)方式,甚至可以部分放到磁盤(pán)上,從而支持極長(zhǎng)上下文而不爆內(nèi)存。
三、預(yù)訓(xùn)練:基礎(chǔ)模型提升明顯,F(xiàn)lash模型就已超V3.2
預(yù)訓(xùn)練過(guò)程主要基于DeepSeek-V3的數(shù)據(jù),同時(shí)為構(gòu)建一個(gè)更多樣化、高質(zhì)量且有效上下文更長(zhǎng)的訓(xùn)練語(yǔ)料庫(kù),DeepSeek持續(xù)優(yōu)化數(shù)據(jù)構(gòu)建流程。與DeepSeek-V3不同的是,V4在預(yù)訓(xùn)練過(guò)程中引入了“樣本級(jí)注意力掩碼”(sample-level attention masking)機(jī)制。
對(duì)于來(lái)自網(wǎng)頁(yè)的數(shù)據(jù),DeepSeek-V4采用過(guò)濾策略,去除批量自動(dòng)生成和模板化內(nèi)容,從而降低模型崩潰的風(fēng)險(xiǎn)。數(shù)學(xué)和編程語(yǔ)料仍然是訓(xùn)練數(shù)據(jù)的核心組成部分,同時(shí)DeepSeek在中期訓(xùn)練階段引入了智能體數(shù)據(jù),進(jìn)一步提升DeepSeek-V4系列的代碼能力。
在多語(yǔ)言數(shù)據(jù)方面,DeepSeek-V4構(gòu)建了更大規(guī)模的語(yǔ)料庫(kù),從而增強(qiáng)模型對(duì)不同文化中“長(zhǎng)尾知識(shí)”的理解能力。此外,DeepSeek-V4特別強(qiáng)調(diào)長(zhǎng)文檔數(shù)據(jù)的構(gòu)建,優(yōu)先收集科學(xué)論文、技術(shù)報(bào)告等材料。
綜合上述各類(lèi)數(shù)據(jù),預(yù)訓(xùn)練語(yǔ)料總規(guī)模超過(guò)32萬(wàn)億tokens,涵蓋數(shù)學(xué)內(nèi)容、代碼、網(wǎng)頁(yè)文本、長(zhǎng)文檔等多種高質(zhì)量類(lèi)別。
對(duì)于基礎(chǔ)模型的評(píng)估,DeepSeek-V4覆蓋四個(gè)關(guān)鍵維度的基準(zhǔn)測(cè)試,包括世界知識(shí)、語(yǔ)言理解與推理、代碼與數(shù)學(xué),以及長(zhǎng)上下文處理。
DeepSeek-V3.2、DeepSeek-V4-Flash和DeepSeek-V4-Pro的基礎(chǔ)模型在統(tǒng)一的內(nèi)部框架下進(jìn)行了評(píng)測(cè),獲得以下結(jié)果。
![]()
盡管DeepSeek-V4-Flash-Base的激活參數(shù)量和總參數(shù)量都明顯更小,但它在大量基準(zhǔn)測(cè)試中超過(guò)了DeepSeek-V3.2-Base,該優(yōu)勢(shì)在世界知識(shí)任務(wù)和長(zhǎng)上下文場(chǎng)景中尤其明顯。結(jié)果表明,DeepSeek-V4-Flash-Base在更緊湊的參數(shù)預(yù)算下,也能取得更強(qiáng)性能,在大多數(shù)評(píng)測(cè)中有效超過(guò)規(guī)模更大的DeepSeek-V3.2-Base。
此外,DeepSeek-V4-Pro-Base能力躍升更為明顯,幾乎全面領(lǐng)先DeepSeek-V3.2-Base和DeepSeek-V4-Flash-Base,在基準(zhǔn)測(cè)試上刷新了DeepSeek基礎(chǔ)模型的性能上限。它在知識(shí)密集型評(píng)測(cè)和長(zhǎng)上下文理解能力取得了顯著提升。在大多數(shù)推理和代碼基準(zhǔn)上,DeepSeek-V4-Pro-Base也超過(guò)了前兩個(gè)模型。可以說(shuō),DeepSeek-V4-Pro-Base在知識(shí)、推理、代碼和長(zhǎng)上下文能力等多個(gè)方面全面超越了前代模型。
四、后訓(xùn)練:基于策略蒸餾,跨輪次保留推理歷史
在完成預(yù)訓(xùn)練之后,DeepSeek還進(jìn)行了后訓(xùn)練,最終得到DeepSeek-V4系列模型。雖然整體訓(xùn)練流程在很大程度上沿用了DeepSeek-V3.2的方案,但在方法上做出了一項(xiàng)關(guān)鍵替換:原先的混合強(qiáng)化學(xué)習(xí)(RL)階段被完全替換為“基于策略的蒸餾”(On-Policy Distillation,OPD)。
具體做法是,先對(duì)每個(gè)目標(biāo)領(lǐng)域各自訓(xùn)練一個(gè)獨(dú)立的專(zhuān)家模型。每位專(zhuān)家都經(jīng)歷相同的流程:先用高質(zhì)量領(lǐng)域數(shù)據(jù)做監(jiān)督微調(diào)打底,再用GRPO算法做領(lǐng)域強(qiáng)化學(xué)習(xí),這一步會(huì)得到十多位各有所長(zhǎng)的“偏科高手”。
真正的合并動(dòng)作發(fā)生在第二階段。DeepSeek-V3.2的做法是把各類(lèi)數(shù)據(jù)混在一起做RL,容易互相影響,而V4則換成讓統(tǒng)一的學(xué)生模型自己采樣答題,過(guò)程中由這十多位專(zhuān)家老師在完整詞表的logit層面打分對(duì)齊,用reverse KL損失把學(xué)生拉向老師。這種方式保證模型在每個(gè)領(lǐng)域的專(zhuān)長(zhǎng)都能被完整保留。另外一個(gè)關(guān)鍵改動(dòng)是DeepSeek-V4堅(jiān)持做全詞表蒸餾,進(jìn)而梯度更穩(wěn),訓(xùn)練曲線(xiàn)更可控,但工程難度更高。
依托DeepSeek-V4系列的一百萬(wàn) token上下文窗口,DeepSeek進(jìn)一步優(yōu)化機(jī)制,以最大化智能體環(huán)境中交錯(cuò)思考的效果。
![]()
在工具調(diào)用場(chǎng)景中,所有推理內(nèi)容都會(huì)在整個(gè)對(duì)話(huà)過(guò)程中被完整保留。不同于DeepSeek-V3.2會(huì)在每一輪新用戶(hù)輸入到來(lái)時(shí)丟棄思考軌跡,DeepSeek-V4系列會(huì)跨越所有輪次保留完整的推理歷史,讓模型能夠在長(zhǎng)周期智能體任務(wù)中維持連貫、持續(xù)累積的思考鏈條。
在一般對(duì)話(huà)場(chǎng)景中,DeepSeek-V4仍然保留原有策略:當(dāng)新的用戶(hù)消息到來(lái)時(shí),會(huì)丟棄上一輪的推理內(nèi)容,從而保持上下文簡(jiǎn)潔。
與DeepSeek-V3.2一樣,那些通過(guò)用戶(hù)消息來(lái)模擬工具交互的智能體框架(例如 Terminus)可能不會(huì)觸發(fā)工具調(diào)用上下文路徑,因此也可能無(wú)法受益于增強(qiáng)后的推理持久化機(jī)制。對(duì)于這類(lèi)架構(gòu),DeepSeek仍然建議使用非思考模型。
五、知識(shí)、推理、代碼三線(xiàn)抬升,開(kāi)源模型逼近閉源上限
評(píng)測(cè)結(jié)果上看,DeepSeek-V4-Pro-Max相比其他開(kāi)源模型也略有領(lǐng)先,部分能力逼近閉源模型。
在知識(shí)能力和推理能力上,DeepSeek-V4-Pro-Max相比其他開(kāi)源模型略有領(lǐng)先,但仍遜于閉源模型Gemini 3.1-Pro。推理能力上,DeepSeek-V4-Pro-Max優(yōu)于GPT-5.2和Gemini-3.0-Pro,落后于GPT-5.4和Gemini-3.1-Pro;DeepSeek-V4-Flash-Max與GPT-5.2和Gemini-3.0-Pro能力近似,在復(fù)雜推理任務(wù)中展現(xiàn)出很高的性?xún)r(jià)比。
Agent能力方面,DeepSeek-V4-Pro-Max與Kimi-K2.6和GLM-5.1等領(lǐng)先開(kāi)源模型表現(xiàn)相當(dāng),但略遜于最前沿的閉源模型。長(zhǎng)上下文能力方面,DeepSeek-V4-Pro-Max在合成任務(wù)和真實(shí)應(yīng)用場(chǎng)景中均表現(xiàn)強(qiáng)勁,在學(xué)術(shù)基準(zhǔn)測(cè)試中甚至超過(guò)了Gemini-3.1-Pro。
![]()
在DeepSeek-V4-Pro與DeepSeek-V4-Flash的對(duì)比中,由于參數(shù)規(guī)模較小,DeepSeek-V4-Flash-Max在知識(shí)類(lèi)評(píng)測(cè)中的表現(xiàn)略低。但在給予更多推理token時(shí),在推理任務(wù)中的表現(xiàn)可以接近DeepSeek-V4-Pro-Max。在智能體評(píng)測(cè)中DeepSeek-V4-Flash-Max在部分基準(zhǔn)上可以達(dá)到與DeepSeek-V4-Pro-Max相當(dāng)?shù)乃剑诟鼜?fù)雜、高難度任務(wù)中仍略遜一籌。
結(jié)語(yǔ):高效支持百萬(wàn)級(jí)token上下文,后續(xù)需簡(jiǎn)化架構(gòu)
DeepSeek-V4系列預(yù)覽版突破了超長(zhǎng)上下文處理中的效率瓶頸,其通過(guò)融合CSA與HCA的混合注意力架構(gòu),并結(jié)合系統(tǒng)級(jí)基礎(chǔ)設(shè)施優(yōu)化,使模型能夠更高效地支持百萬(wàn)token級(jí)上下文,為測(cè)試時(shí)擴(kuò)展、長(zhǎng)時(shí)序任務(wù)和在線(xiàn)學(xué)習(xí)等方向提供了基礎(chǔ)。
從評(píng)測(cè)結(jié)果看,DeepSeek-V4-Pro-Max在開(kāi)源模型中表現(xiàn)突出,在知識(shí)、推理和智能體任務(wù)上均取得較強(qiáng)結(jié)果,部分能力接近前沿閉源模型。DeepSeek-V4-Flash-Max則在較低成本下實(shí)現(xiàn)了較強(qiáng)推理能力,體現(xiàn)出較高性?xún)r(jià)比。
不過(guò),DeepSeek-V4的架構(gòu)也較為復(fù)雜,部分穩(wěn)定性方法如Anticipatory Routing和SwiGLU Clamping的機(jī)理仍有待進(jìn)一步理解。后續(xù)工作預(yù)計(jì)將集中在簡(jiǎn)化架構(gòu)、提升訓(xùn)練穩(wěn)定性、探索更多稀疏化方向、降低長(zhǎng)上下文推理延遲、增強(qiáng)多輪智能體與多模態(tài)能力,以及持續(xù)改進(jìn)數(shù)據(jù)構(gòu)建與合成策略等方面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.