網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4深夜炸場(chǎng)！CPU能當(dāng)GPU用，AI部署成本直接砍90%？

2026-01-15 01:15:07　來(lái)源: 呼呼歷史論

遼寧舉報(bào)

分享至

2026年1月13日凌晨，AI圈被一篇突然曝光的論文攪得徹底沸騰——DeepSeek在GitHub悄悄上傳了題為《Conditional Memory via Scalable Lookup》的技術(shù)文檔，署名正是核心研發(fā)梁文鋒。這篇被網(wǎng)友稱為“V4提前泄密”的論文，拋出了一個(gè)顛覆行業(yè)的重磅方案：讓CPU接手GPU的“記憶存儲(chǔ)”工作，僅保留GPU負(fù)責(zé)核心推理，直接讓大模型部署成本暴降90%，原本要花幾十萬(wàn)的算力開(kāi)銷，現(xiàn)在幾千塊就能搞定。

先搞懂：以前的大模型為啥這么“燒錢”？

用過(guò)AI模型或關(guān)注行業(yè)的人都知道，大模型最燒錢的地方就是GPU。像ChatGPT這類千億參數(shù)模型，以前要跑起來(lái)至少得8張英偉達(dá)A100顯卡，單卡價(jià)格就超萬(wàn)美元，一套部署下來(lái)光硬件成本就得上百萬(wàn)，這也是很多中小企業(yè)和開(kāi)發(fā)者望而卻步的原因。

其實(shí)這背后藏著一個(gè)“算力浪費(fèi)”的問(wèn)題。就像DeepSeek論文里舉的例子：你問(wèn)模型“戴安娜王妃的全名是什么”，它不會(huì)像人一樣直接“回憶”答案，而是要調(diào)動(dòng)所有千億參數(shù)層層計(jì)算，從海量數(shù)據(jù)里“猜”出結(jié)果。這就好比讓程序員寫一行簡(jiǎn)單代碼，卻要從計(jì)算機(jī)原理重新推導(dǎo)一遍，明明是“查字典”的活，硬做成了“解奧數(shù)題”。

更關(guān)鍵的是，這些“死記硬背”的知識(shí)占滿了GPU顯存——比如代碼里的固定語(yǔ)法、常見(jiàn)的人名地名、數(shù)學(xué)公式等，這些占比高達(dá)80%的靜態(tài)知識(shí)，本來(lái)不需要GPU這種“高端算力”來(lái)處理，卻一直占用著寶貴的顯存資源，導(dǎo)致真正需要GPU發(fā)力的推理任務(wù)反而受限于資源，既費(fèi)錢又低效。

黑科技拆解：Engram模塊如何讓CPU“逆襲”？

DeepSeek這次的核心突破，是推出了一個(gè)叫“Engram”（記憶痕跡）的條件記憶模塊，簡(jiǎn)單說(shuō)就是給大模型裝了個(gè)“超級(jí)字典”，讓CPU專門負(fù)責(zé)“查字典”，GPU專心“解難題”，兩者分工協(xié)作效率翻倍。這個(gè)模塊的運(yùn)作邏輯其實(shí)一點(diǎn)不復(fù)雜，用大白話拆解就是四步：

第一步是“詞匯瘦身”。傳統(tǒng)模型會(huì)把“Apple”和“apple”當(dāng)成兩個(gè)不同的詞，浪費(fèi)大量存儲(chǔ)。Engram通過(guò)規(guī)范化處理，把語(yǔ)義相同的詞匯合并，直接讓詞表大小減少23%，存儲(chǔ)效率大幅提升。

第二步是“秒查不迷路”。它會(huì)把輸入的文字切成短片段，用4個(gè)獨(dú)立的哈希函數(shù)并行查找，就像用多把鑰匙同時(shí)開(kāi)鎖，能瞬間在超大的“知識(shí)字典”里找到對(duì)應(yīng)內(nèi)容，而且出現(xiàn)查找沖突的概率低到可以忽略不計(jì)。

第三步是“智能過(guò)濾雜音”。查出來(lái)的知識(shí)不一定都能用，Engram會(huì)用當(dāng)前的上下文當(dāng)“質(zhì)檢員”，給檢索結(jié)果打分。如果內(nèi)容和上下文不符，就會(huì)直接屏蔽，避免模型給出錯(cuò)誤答案。比如遇到“亞歷山大大帝的戰(zhàn)馬”這種冷門知識(shí)點(diǎn)時(shí)，它能精準(zhǔn)激活對(duì)應(yīng)的記憶，不會(huì)被無(wú)關(guān)信息干擾。

第四步是“查算并行”。這是最關(guān)鍵的一步：CPU負(fù)責(zé)從內(nèi)存里調(diào)取“字典”里的知識(shí)，GPU同時(shí)進(jìn)行推理計(jì)算，兩者同步推進(jìn)，完全不會(huì)互相等。以前要8張A100才能扛住的千億參數(shù)模型，現(xiàn)在用1張消費(fèi)級(jí)顯卡加幾根64G內(nèi)存條就能跑，硬件成本從幾萬(wàn)美金直接降到1200美元左右，降幅高達(dá)90%。

實(shí)測(cè)數(shù)據(jù)說(shuō)話：性能沒(méi)降，還更能打了

很多人會(huì)擔(dān)心“成本降這么多，性能會(huì)不會(huì)縮水”？但論文里的實(shí)驗(yàn)數(shù)據(jù)給出了明確答案：不僅沒(méi)降，反而在多個(gè)核心任務(wù)上實(shí)現(xiàn)了突破。

在知識(shí)類任務(wù)中，MMLU分?jǐn)?shù)提升3.4分，中文知識(shí)任務(wù)CMMLU更是漲了4分；通用推理任務(wù)BBH提升5分，代碼能力HumanEval提升3分，最讓人驚喜的是長(zhǎng)文本處理能力——在32k長(zhǎng)文本任務(wù)RULER中，準(zhǔn)確率從84.2%直接飆升到97%。

之所以能實(shí)現(xiàn)“降本不降效”，核心在于分工更合理了。Engram模塊把80%的靜態(tài)知識(shí)處理交給了CPU，讓GPU能集中算力處理剩下20%的復(fù)雜推理和創(chuàng)新邏輯。就像工廠分工后，有人專門負(fù)責(zé)物料準(zhǔn)備，有人專門負(fù)責(zé)核心生產(chǎn)，整體效率自然大幅提升。

更有意思的是，研究人員還發(fā)現(xiàn)了一個(gè)“黃金比例”：當(dāng)把20%-25%的稀疏參數(shù)分配給Engram時(shí)，模型性能最佳，這也為后續(xù)的技術(shù)優(yōu)化提供了明確方向。有內(nèi)部消息透露，DeepSeek V4訓(xùn)練時(shí)，Engram的詞表可能已經(jīng)擴(kuò)展到2000億參數(shù)，塞滿了代碼片段、數(shù)學(xué)公式和經(jīng)典算法，這也讓它在長(zhǎng)代碼和邏輯推理任務(wù)中表現(xiàn)更突出。

行業(yè)影響：AI門檻大降，中小企業(yè)迎來(lái)春天

這次技術(shù)突破帶來(lái)的不只是成本降低，更是整個(gè)AI行業(yè)的格局變化。以前大模型領(lǐng)域基本是巨頭的游戲，中小企業(yè)因?yàn)槌袚?dān)不起高昂的GPU成本，很難參與其中。但現(xiàn)在，有了Engram這種“查算分離”方案，小公司甚至個(gè)人開(kāi)發(fā)者，花幾千塊錢就能部署自己的百億參數(shù)模型。

就像某律所已經(jīng)開(kāi)始測(cè)試：用64G內(nèi)存的CPU存儲(chǔ)500萬(wàn)條判例，法律咨詢的準(zhǔn)確率從68%提升到89%，而成本僅為GPT-4 API的1/20。對(duì)于制造業(yè)來(lái)說(shuō)，這更是個(gè)好消息——2026年制造業(yè)智能化轉(zhuǎn)型加速，很多企業(yè)需要AI模型優(yōu)化研發(fā)和生產(chǎn)，但之前高昂的算力成本讓他們望而卻步。現(xiàn)在有了低成本部署方案，更多企業(yè)能用上AI，像數(shù)商云平臺(tái)那樣實(shí)現(xiàn)研發(fā)周期縮短60%、生產(chǎn)成本降低15%的目標(biāo)可能會(huì)成為常態(tài)。

此外，這也打破了對(duì)高端GPU的依賴。2025年中國(guó)AI芯片采購(gòu)額高達(dá)120億美元，如果有30%的需求轉(zhuǎn)向CPU方案，整個(gè)行業(yè)的成本結(jié)構(gòu)都會(huì)被重構(gòu)，更多資源能投入到技術(shù)創(chuàng)新而不是硬件采購(gòu)上。同時(shí)，新的崗位也在崛起，“知識(shí)架構(gòu)師”成為熱門——他們不需要精通調(diào)參，而是要懂業(yè)務(wù)、會(huì)整理專業(yè)知識(shí)，把這些內(nèi)容喂給模型的“超級(jí)字典”。

未來(lái)展望：萬(wàn)億參數(shù)模型不是夢(mèng)

按照目前的技術(shù)趨勢(shì)，Engram模塊的潛力還遠(yuǎn)沒(méi)挖完。理論上，它可以把不常用的“冷知識(shí)”存到SSD里，支持萬(wàn)億參數(shù)的外掛擴(kuò)展，這意味著未來(lái)的大模型可能會(huì)擁有無(wú)限的“記憶容量”，同時(shí)保持高效的推理速度。

而且隨著技術(shù)的開(kāi)源和普及，會(huì)有更多開(kāi)發(fā)者參與進(jìn)來(lái)，優(yōu)化哈希算法、解決工程化難題，讓“CPU+GPU”的混合部署方案更成熟。對(duì)于普通用戶來(lái)說(shuō)，這也意味著未來(lái)能用到更便宜、更強(qiáng)大的AI服務(wù)——比如AI辦公軟件、智能客服、專業(yè)咨詢工具等，價(jià)格可能會(huì)大幅下降，普及率也會(huì)更高。

不過(guò)也要看到，目前這項(xiàng)技術(shù)還面臨一些挑戰(zhàn)，比如批量處理超過(guò)64條數(shù)據(jù)時(shí)，吞吐量會(huì)有15%的下降，哈希沖突和CPU-GPU同步開(kāi)銷也需要進(jìn)一步優(yōu)化。但這些都是工程化層面的問(wèn)題，隨著技術(shù)迭代大概率能逐步解決。

總結(jié)：AI降本革命，才剛剛開(kāi)始

DeepSeek這次曝光的Engram技術(shù)，本質(zhì)上是打開(kāi)了AI架構(gòu)的一扇新大門——從之前的“全能型”模型，變成了“分工協(xié)作型”模型。它用“查算分離”的思路，既解決了GPU顯存不足的痛點(diǎn)，又大幅降低了部署成本，讓AI技術(shù)真正走進(jìn)中小企業(yè)和普通開(kāi)發(fā)者。

這不僅是一次技術(shù)突破，更是一次“普惠革命”。以前遙不可及的大模型技術(shù)，現(xiàn)在變得觸手可及；以前只有巨頭能玩的游戲，現(xiàn)在中小企業(yè)也能參與。隨著越來(lái)越多類似的技術(shù)出現(xiàn)，AI行業(yè)的創(chuàng)新活力會(huì)被徹底激發(fā)，更多實(shí)用的AI應(yīng)用會(huì)涌現(xiàn)出來(lái)，真正改變我們的工作和生活。

你覺(jué)得這項(xiàng)“CPU替代GPU”的技術(shù)會(huì)普及嗎？如果能低成本部署大模型，你最想用來(lái)解決什么問(wèn)題？歡迎在評(píng)論區(qū)分享你的看法！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.