網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4：華為昇騰適配、性價比王者、最新底層技術

2026-04-24 14:16:25　來源: AI科技評論

廣東舉報

分享至

交付質量接近 Opus 4.6 非思考模式，與思考模式存在一定差距。

作者丨梁丙鑒

編輯丨馬曉寧

越過數個發布窗口，4 月 24 日，DeepSeek 最新一代旗艦模型 DeepSeek-V4 終于正式發布。

此次發布的 DeepSeek-V4 主打百萬字超長上下文，在 Agent 能力、世界知識和推理性能上均表現亮眼。有意思的是，4 月 8 日凌晨 DeepSeek 悄然上線了專家模式和快速模式，外界一度猜測是 V4 的不同版本。這一猜測得到了官方確認，按參數量大小，V4 此次同步推出了 pro 及 flash 兩個版本。

相較于前代模型，V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評測中，已達到當前開源模型最佳水平，且在其它 Agent 相關評測中同樣表現優異。DeepSeek 內部評測反饋顯示，DeepSeek-V4-Pro 使用體驗優于 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

此外在 SimpleQA Verified、HLE 等知識推理類基準測試中，DeepSeek V4 的表現均居于前列，特別是在ApexShortlist、Codeforces 兩項測試中分別以 90.2 和 3206 的成績登頂，表現出了頂級的推理性能和世界知識儲備。

價格方面，pro 版本和 flash 版本采取了階梯定價。更小更快的 flash 版本繼承了前代模型便宜大碗路線的，同時 pro 版本的降價也被官方排上日程，預計會隨著今年下半年昇騰 950 超節點的批量上市實現大幅下調。

值得注意的是，DeepSeek-V4 針對昇騰等國產芯片進行了深度適配，實現推理環節全面兼容，有傳聞稱利用率可達 85％以上。而據路透社報道，此前 DeepSeek 也拒絕向包括英偉達在內的美國芯片制造商提供 V4 模型的早期訪問權限。

在美國對華出臺高端 GPU 禁令、限制技術交流的背景下，DeepSeek 選擇以技術對等的姿態回應，和美方的脫鉤構成了一種有趣的鏡像關系。而回到國內，DeepSeek-V4 的背書證明了國產芯片足以支持第一梯隊大模型的推理部署，開始完成從“可用”到“好用”的跨越。同時被國產算力托住的 V4，也或可視為一個備戰“全華班模型生態”的起點。

架構創新，破解模型推理“不可能三角”

DeepSeek-V4 的上下文窗口跨越式地來到了 100 萬 Token 大關，并宣稱這此后將是 DeepSeek 所有官方服務的標配。

據官方技術文檔介紹，這種長文本能力的成熟源于 DeepSeek 開創的一種全新注意力機制，在 token 維度進行壓縮，結合 DSA 稀疏注意力（DeepSeek Sparse Attention），此舉不僅實現了全球領先的長上下文能力，并且相比于傳統方法大幅降低了對計算和顯存的需求。

DeepSeek 對長文本能力的探索早有跡象。在 V4 遲遲沒有問世的時間里，DeepSeek 低調發布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》，和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》，被外界視為其在長文本方面的有力技術儲備。

在長文本推理任務中，大模型長期存在著成本、速度、精度的不可能三角，但 Engram 架構提供了一種破局思路。該架構包含一個靜態知識檢索模塊，和一個動態推理協同模塊，前者通過哈希查找機制，將事實性知識存儲在廉價的 CPU 內存中，節省了對推理尤其寶貴的 GPU 顯存，后者負責判斷檢索到的記憶是否應該調用，并在必要時將其無縫融入推理過程。

這種設計的本質是將模型的記憶和計算分離，通過對信息存儲進行更精細的分層管理，使大模型能用上廉價、大容量的 CPU 內容，并確保 GPU 顯存“好鋼用在刀刃上”，在其擅長的動態并行計算中發揮出更大價值，最終在降低計算成本的同時保證關鍵信息不會丟失。其結果是當 MoE 的“專家”們再進行推理時，會像是配備了一位專門的助理，確保他們得到的信息及時、相關且準確。

DeepSeek-V4 的另一項底層創新，是其在訓練中使用的 mHC（流形約束超連接）技術。

V4 的參數總量達到了 1.6T，這種超大規模的神經網絡訓練，本身就是一個富于挑戰的問題。傳統的 Transformer 架構中，信息會在層層傳遞中呈指數級放大，模型參數量越大、層數越深，這種“信號爆炸”越嚴重，最終可能導致梯度爆炸，訓練崩潰。

mHC 技術正是為解決“信號爆炸”現象提出，其核心思想是用嚴格的幾何約束來控制信息流動，而不是放任自由連接。

這個防爆設計由三個環節組成。流形約束會把層間連接矩陣投影到雙隨機矩陣流形，強制規定每個節點的"輸入總和"和"輸出總和"必須守恒，具體的投影過程通過 Sinkhorn-Knopp 算法執行，兩者共同把信號增益嚴格限制在合理倍數。最后的多流殘差設計在擴展殘差流寬度的同時，通過非負約束避免信號相互抵消，既能增強模型表達能力，又兼顧了復雜度和穩定性。

想象信息是一條奔騰的大河，多流殘差拓寬了河道，流形約束和 Sinkhorn-Knopp 算法就是一道道閘門，三者的配合保證了大規模訓練時的信息洪流不會引發梯度爆炸。

而 mHC 技術更深刻的意義在于，它和 MoE 架構、Engram 架構等技術共同為后 Scaling Law 時代的大模型擴展提供了一種可能的范式，也就是在參數規模、數據量的傳統維度之外，轉向追求更高的連接、參數和記憶效率。區別于前者的暴力美學，DeepSeek-V4 呈現了精致工程的魔力。

模型之爭的工程轉向

用流形約束防止信號爆炸的架構理論創新得以落地，離不開算子融合、選擇性重計算、通信重疊等工程手段。參數量和穩定性之間的沖突曾經是制約大模型繼續擴展的根本矛盾，而 mHC 技術對此的突破，建立在頂級的工程優化之上。

Engram 架構也有著類似的啟示。內存訪問如何精準配合 GPU 的計算過程，多級緩存需要什么樣的精細管理……Engram 架構在 V4 上落地伴隨的種種工程挑戰，才是底層技術創新能否轉化為模型能力關鍵。

智能的使用應有其邊界，記憶管理的精細程度直接影響模型性能，這一范式重新詮釋了對智能上限的追求。未來最聰明的模型，或許是最經濟地界定了智能使用邊界的模型。

DeepSeek-V4 問世之后，我們和應用爆發之間的距離或許又近了一大步。

原生多模態架構、百萬 Token 上下文窗口紛紛走向成熟，背后是代碼、法律和金融等場景的巨大想象空間。而 V4 所展現的頂級工程能力，和模型智能迭代逐漸放緩的背景合流，更便宜、可得的智能產品也會不斷涌現。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.