網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別高估英偉達(dá)，別低估DeepSeek

2026-04-25 00:21:16　來源: 虎嗅APP

北京舉報(bào)

分享至

出品 | 妙投APP

作者 | 董必政

編輯 | 丁萍

頭圖 | AI制圖

DeepSeek-V4終于來了。

4月24日，全新系列模型DeepSeek-V4預(yù)覽版本正式上線，并同步開源。

DeepSeek-V4開創(chuàng)了一種全新的注意力機(jī)制，在token維度進(jìn)行壓縮，結(jié)合DSA稀疏注意力（DeepSeek Sparse Attention），實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力，并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。

可別小瞧了，DeepSeek-V4大幅降低了對(duì)計(jì)算和顯存的需求。

妙投認(rèn)為，這將直接削弱英偉達(dá)GPU的優(yōu)勢(shì)。值得注意的是，DeepSeek-V4還優(yōu)先適配國(guó)產(chǎn)芯片廠商。

換句話說，別高估英偉達(dá)的護(hù)城河，也千萬別低估DeepSeek正在掀起的這場(chǎng)架構(gòu)革命。關(guān)鍵不在“誰替代誰”，而在AI產(chǎn)業(yè)鏈的利潤(rùn)分配、部署路徑和投資邏輯，可能正在變。

一、戴著“鐐銬”起舞

過去兩年，AI大模型主要看的是訓(xùn)練，拼的是算力。

在一定程度上，AI基礎(chǔ)大模型的競(jìng)爭(zhēng)，本質(zhì)就是GPU算力基礎(chǔ)設(shè)施的競(jìng)爭(zhēng)。誰能買到更多高端GPU，誰能堆出更大的集群，誰就更有機(jī)會(huì)做出更強(qiáng)的基礎(chǔ)模型。

然而，由于美國(guó)通過出口管制，禁止英偉達(dá)H100/H200等頂級(jí)芯片對(duì)華銷售。此外，臺(tái)積電先進(jìn)制程等已經(jīng)被美國(guó)卡死了，國(guó)產(chǎn)GPU卡與英偉達(dá)卡仍有一定的差距。

“國(guó)內(nèi)GPU廠商都是戴著“鐐銬”與英偉達(dá)同臺(tái)競(jìng)技的”，一位GPU企業(yè)人士曾向妙投形容。

有意思的是，就是在這樣的逆風(fēng)局下，這兩年中美大模型的差距開始逐步縮小，甚至接近拉平。

2023年底，中美的頂級(jí)模型在各大維度的差距還在20%-30%之間徘徊。4月14日，斯坦福大學(xué)HAI實(shí)驗(yàn)室發(fā)布2026年度《AI指數(shù)報(bào)告》，這份長(zhǎng)達(dá)423頁的行業(yè)權(quán)威報(bào)告顯示，中美大模型性能差距已收窄至2.7%，基本實(shí)現(xiàn)技術(shù)追平。

妙投認(rèn)為，如果把中美AI大模型性能差距看作結(jié)果，那么英偉達(dá)GPU并非決定性因素。

這一方面，歸結(jié)于國(guó)產(chǎn)芯片崛起及中國(guó)電力基礎(chǔ)設(shè)施的完備。

黃仁勛在最近訪談中表示，“AI本質(zhì)上是并行計(jì)算問題，中國(guó)完全可以通過堆疊更多芯片來彌補(bǔ)單顆芯片的制程差距，中國(guó)有那么多能源，如果愿意，完全可以把更多芯片組合在一起，即使制程落后幾個(gè)納米。”

實(shí)際上，不少國(guó)內(nèi)GPU廠商已實(shí)現(xiàn)了萬卡集群，以彌補(bǔ)單卡算力的短板。比如：摩爾的夸娥萬卡集群、沐曦的曦源一號(hào)SADA萬卡集群。

另一方面，則歸結(jié)于DeepSeek為代表的大模型企業(yè)脫穎而出。

DeepSeek用軟件上的前瞻性設(shè)計(jì)，主動(dòng)去適配和賦能國(guó)產(chǎn)硬件，為國(guó)產(chǎn)芯片鋪平道路。

比如：DeepSeek-V3驗(yàn)證了FP8在大規(guī)模模型訓(xùn)練的可用性，在不增加額外開銷的情況下擴(kuò)大了模型訓(xùn)練規(guī)模且不影響模型訓(xùn)練質(zhì)量。

打個(gè)比方，過去，要完成一個(gè)復(fù)雜的AI計(jì)算任務(wù)，需要幾臺(tái)巨大、精密且昂貴的德國(guó)進(jìn)口機(jī)床（代表英偉達(dá)的高精度GPU）。而現(xiàn)在，DeepSeek通過改變?nèi)蝿?wù)的加工流程（即改變數(shù)據(jù)格式），使得這個(gè)任務(wù)可以被幾十臺(tái)小巧、簡(jiǎn)單且便宜的國(guó)產(chǎn)機(jī)床（代表國(guó)產(chǎn)GPU的計(jì)算單元）組成的流水線高效完成。

即便如此，英偉達(dá)GPU仍讓海外大模型在訓(xùn)練上更勝一籌。

但從產(chǎn)業(yè)演進(jìn)看，大模型訓(xùn)練只是第一階段。大模型做出來之后，真正決定商業(yè)化速度和產(chǎn)業(yè)滲透深度的，是推理。尤其是，Openclaw、Hermes為代表的Agent爆火之后。

二、英偉達(dá)贏了訓(xùn)練，但推理才剛開始

訓(xùn)練和推理是兩種不同的模式。

Claw類Agent爆發(fā)，長(zhǎng)上下文記憶能力就是核心導(dǎo)火索。

以前的AI只會(huì)聊天、轉(zhuǎn)頭就忘，魚的記憶；而Claw能記住一切、持續(xù)干活、越用越懂你，記憶讓它從 “玩具” 變成 “工具”。

當(dāng)上下文越來越長(zhǎng)、Agent記憶越來越深、工具調(diào)用越來越頻繁的時(shí)候，GPU的顯存會(huì)被KV cache（記憶緩存）撐爆，大模型的推理質(zhì)量就會(huì)下降。

因此，推理爆發(fā)的第一個(gè)瓶頸，不是算力不夠，是”記憶"和"計(jì)算"搶同一塊顯存。

對(duì)國(guó)產(chǎn)GPU而言，算力（峰值 TFLOPS）不是最大瓶頸，是顯存。而英偉達(dá)GPU在顯存技術(shù)上擁有領(lǐng)先其他廠商1-2年的代際優(yōu)勢(shì)。

英偉達(dá)的主流數(shù)據(jù)中心GPU（如A100、H100）的單卡顯存容量通常標(biāo)配為80GB，而最新一代Rubin GPU搭載8顆36GB的HBM4內(nèi)存顆粒（總?cè)萘?288GB），顯存總帶寬提升13 TB/s。

國(guó)產(chǎn)芯片受限于先進(jìn)制程，顯存容量和帶寬都更低，仍需突圍。比如：昇騰910B的顯存容量為64GB。

按照此前梁文鋒發(fā)布的論文，這次DeepSeek-V4應(yīng)采用了獨(dú)特的Engram架構(gòu)，而Engram恰好解決的是顯存容量瓶頸。

DeepSeek-V4的做法是，把模型里那些“死記硬背”的靜態(tài)知識(shí)抽出來，塞進(jìn)一個(gè)巨大的內(nèi)存表里；推理時(shí)，CPU負(fù)責(zé)“查字典”（檢索知識(shí)），GPU只負(fù)責(zé)“想邏輯”（計(jì)算推理）。

這兩者是完全重疊執(zhí)行的。當(dāng)GPU在算上一個(gè)詞的邏輯時(shí)，CPU已經(jīng)把下一個(gè)詞所需的知識(shí)搬到了門口。由于延遲被這種并行架構(gòu)徹底掩蓋，AI單位時(shí)間內(nèi)的產(chǎn)出效率呈幾何級(jí)數(shù)提升，GPU顯存不再被KV cache撐爆。

比如：一個(gè)需要80GB顯存才能跑的長(zhǎng)上下文推理任務(wù)，在Engram架構(gòu)下，可能只需要8GB顯存就能跑。

這意味著國(guó)產(chǎn)GPU在顯存受限的情況下，也能完成同樣的任務(wù)，而英偉達(dá)引以為傲的HBM顯存稀缺性面臨崩塌。同時(shí)，CPU也將迎來爆發(fā)。

此外，更值得關(guān)注的是，DeepSeek-V4即將發(fā)布，這次沒有按行業(yè)慣例給英偉達(dá)早期測(cè)試權(quán)限，把提前適配的機(jī)會(huì)全部留給了華為和寒武紀(jì)。目標(biāo)是從CUDA生態(tài)整體遷移到華為CANN框架。

雖然英偉達(dá)的CUDA生態(tài)短期不會(huì)被取代，但已經(jīng)出現(xiàn)了裂縫。這也意味著DeepSeek無論在開源生態(tài)還是國(guó)產(chǎn)自主上依然有著其強(qiáng)力的生態(tài)位。

據(jù)媒體報(bào)道，為應(yīng)對(duì)基于該模型云服務(wù)上線需求，阿里巴巴、字節(jié)跳動(dòng)和騰訊等科技巨頭已提前下單華為新一代AI芯片，訂單規(guī)模達(dá)數(shù)十萬顆。

可以預(yù)見的是，這次即將發(fā)布的DeepSeek-V4，也將給AI投資帶來新的預(yù)期。

三、新的投資預(yù)期

從投資角度看，妙投認(rèn)為DeepSeek-V4將直接利好兩大方向：國(guó)產(chǎn)算力及AI應(yīng)用。

1.國(guó)產(chǎn)算力

如果DeepSeek-V4確認(rèn)是完全基于國(guó)產(chǎn)算力訓(xùn)練出來的，那這將是國(guó)產(chǎn)芯片史上的“DeepSeek時(shí)刻”。這證明了即便沒有H100，我們也能跑出世界一流的大模型。

這帶來的邊際變化是大超預(yù)期的。這個(gè)預(yù)期，不亞于Google憑借自研的TPU芯片訓(xùn)練出Gemini。要知道，Google已成為巴菲特的伯克希爾持倉(cāng)標(biāo)的。

此前，市場(chǎng)對(duì)國(guó)產(chǎn)算力的預(yù)期大多停留在“自主可控”的宏大敘事邏輯上，而V4將把邏輯推向“好用且必需”的商業(yè)邏輯。

這次受益的最大方，便是國(guó)產(chǎn)GPU廠商。華為、寒武紀(jì)已經(jīng)明牌了。其他國(guó)產(chǎn)GPU廠商也將積極適配DeepSeek大模型。從確定性來看，以華為、寒武紀(jì)為代表的國(guó)產(chǎn)芯片、國(guó)產(chǎn)服務(wù)器及相關(guān)配套廠商的受益確定性最高。

展望2026年，寒武紀(jì)、壁仞科技、天數(shù)智芯等5家已上市AI芯公司W(wǎng)ind一致預(yù)期收入同比增長(zhǎng)約120%到約257億人民幣。

此外，從彈性上來看，沐曦股份預(yù)期2026年將扭虧為盈，有望成為繼寒武紀(jì)之后另一家盈利的GPU廠商，從而實(shí)現(xiàn)商業(yè)閉環(huán)。

因此，國(guó)產(chǎn)算力將為AI投資繼續(xù)關(guān)注的重點(diǎn)。

2.AI應(yīng)用

除了適配國(guó)產(chǎn)算力的推理需求，DeepSeek-V4可能通過創(chuàng)新架構(gòu)（mHC和Engram技術(shù)）進(jìn)一步降低訓(xùn)練和推理成本，加速中國(guó)AI價(jià)值鏈創(chuàng)新周期。

同時(shí)，DeepSeek有望幫助全球大語言模型和AI應(yīng)用企業(yè)加速商業(yè)化進(jìn)程，從而緩解日益沉重的資本開支壓力。

隨著Engram架構(gòu)落地，GPU顯存需求降低90%，推理的硬件成本會(huì)大幅壓縮。這對(duì)終端部署（邊緣AI推理）是重大利好。

此外，今年1月以來，A股AI應(yīng)用板塊表現(xiàn)低迷，核心痛點(diǎn)是“大模型吞噬軟件”的恐懼。AI應(yīng)用已經(jīng)進(jìn)入了“殺邏輯”的階段。

但DeepSeekV4的發(fā)布可能改善這個(gè)情緒。對(duì)于國(guó)內(nèi)A股的應(yīng)用公司來說，大模型更像是一種廉價(jià)的基礎(chǔ)設(shè)施，有利于優(yōu)化成本。

妙投認(rèn)為，與核心數(shù)據(jù)綁定較為緊密的AI應(yīng)用企業(yè)、相關(guān)云服務(wù)廠商，也將有望迎來邊際改善。

小結(jié)

英偉達(dá)依舊是訓(xùn)練大模型最強(qiáng)的基礎(chǔ)設(shè)施，這一點(diǎn)沒有懸念。短期內(nèi)，它在高端訓(xùn)練GPU、CUDA生態(tài)和集群能力上的優(yōu)勢(shì)，依然很難被替代。

不可忽視，英偉達(dá)的優(yōu)勢(shì)正在逐步被DeepSeek“曲線救國(guó)”式地瓦解。

DeepSeek-V4率先適配國(guó)產(chǎn)芯片以及創(chuàng)新正在試圖證明，AI推理不一定只能靠最貴的GPU繼續(xù)往前推，系統(tǒng)級(jí)優(yōu)化、軟硬協(xié)同和本地化部署，同樣可以打開一條新路。而國(guó)產(chǎn)算力又能往前再走一步。

不要高估了英偉達(dá)，也不要低估了DeepSeek和國(guó)產(chǎn)算力。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4852245.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.