2026年1月13日凌晨,AI圈被一篇突然曝光的論文攪得徹底沸騰——DeepSeek在GitHub悄悄上傳了題為《Conditional Memory via Scalable Lookup》的技術(shù)文檔,署名正是核心研發(fā)梁文鋒。這篇被網(wǎng)友稱為“V4提前泄密”的論文,拋出了一個(gè)顛覆行業(yè)的重磅方案:讓CPU接手GPU的“記憶存儲(chǔ)”工作,僅保留GPU負(fù)責(zé)核心推理,直接讓大模型部署成本暴降90%,原本要花幾十萬(wàn)的算力開(kāi)銷,現(xiàn)在幾千塊就能搞定。
![]()
先搞懂:以前的大模型為啥這么“燒錢”?
用過(guò)AI模型或關(guān)注行業(yè)的人都知道,大模型最燒錢的地方就是GPU。像ChatGPT這類千億參數(shù)模型,以前要跑起來(lái)至少得8張英偉達(dá)A100顯卡,單卡價(jià)格就超萬(wàn)美元,一套部署下來(lái)光硬件成本就得上百萬(wàn),這也是很多中小企業(yè)和開(kāi)發(fā)者望而卻步的原因。
其實(shí)這背后藏著一個(gè)“算力浪費(fèi)”的問(wèn)題。就像DeepSeek論文里舉的例子:你問(wèn)模型“戴安娜王妃的全名是什么”,它不會(huì)像人一樣直接“回憶”答案,而是要調(diào)動(dòng)所有千億參數(shù)層層計(jì)算,從海量數(shù)據(jù)里“猜”出結(jié)果。這就好比讓程序員寫一行簡(jiǎn)單代碼,卻要從計(jì)算機(jī)原理重新推導(dǎo)一遍,明明是“查字典”的活,硬做成了“解奧數(shù)題”。
更關(guān)鍵的是,這些“死記硬背”的知識(shí)占滿了GPU顯存——比如代碼里的固定語(yǔ)法、常見(jiàn)的人名地名、數(shù)學(xué)公式等,這些占比高達(dá)80%的靜態(tài)知識(shí),本來(lái)不需要GPU這種“高端算力”來(lái)處理,卻一直占用著寶貴的顯存資源,導(dǎo)致真正需要GPU發(fā)力的推理任務(wù)反而受限于資源,既費(fèi)錢又低效。
黑科技拆解:Engram模塊如何讓CPU“逆襲”?
DeepSeek這次的核心突破,是推出了一個(gè)叫“Engram”(記憶痕跡)的條件記憶模塊,簡(jiǎn)單說(shuō)就是給大模型裝了個(gè)“超級(jí)字典”,讓CPU專門負(fù)責(zé)“查字典”,GPU專心“解難題”,兩者分工協(xié)作效率翻倍。這個(gè)模塊的運(yùn)作邏輯其實(shí)一點(diǎn)不復(fù)雜,用大白話拆解就是四步:
第一步是“詞匯瘦身”。傳統(tǒng)模型會(huì)把“Apple”和“apple”當(dāng)成兩個(gè)不同的詞,浪費(fèi)大量存儲(chǔ)。Engram通過(guò)規(guī)范化處理,把語(yǔ)義相同的詞匯合并,直接讓詞表大小減少23%,存儲(chǔ)效率大幅提升。
第二步是“秒查不迷路”。它會(huì)把輸入的文字切成短片段,用4個(gè)獨(dú)立的哈希函數(shù)并行查找,就像用多把鑰匙同時(shí)開(kāi)鎖,能瞬間在超大的“知識(shí)字典”里找到對(duì)應(yīng)內(nèi)容,而且出現(xiàn)查找沖突的概率低到可以忽略不計(jì)。
第三步是“智能過(guò)濾雜音”。查出來(lái)的知識(shí)不一定都能用,Engram會(huì)用當(dāng)前的上下文當(dāng)“質(zhì)檢員”,給檢索結(jié)果打分。如果內(nèi)容和上下文不符,就會(huì)直接屏蔽,避免模型給出錯(cuò)誤答案。比如遇到“亞歷山大大帝的戰(zhàn)馬”這種冷門知識(shí)點(diǎn)時(shí),它能精準(zhǔn)激活對(duì)應(yīng)的記憶,不會(huì)被無(wú)關(guān)信息干擾。
第四步是“查算并行”。這是最關(guān)鍵的一步:CPU負(fù)責(zé)從內(nèi)存里調(diào)取“字典”里的知識(shí),GPU同時(shí)進(jìn)行推理計(jì)算,兩者同步推進(jìn),完全不會(huì)互相等。以前要8張A100才能扛住的千億參數(shù)模型,現(xiàn)在用1張消費(fèi)級(jí)顯卡加幾根64G內(nèi)存條就能跑,硬件成本從幾萬(wàn)美金直接降到1200美元左右,降幅高達(dá)90%。
實(shí)測(cè)數(shù)據(jù)說(shuō)話:性能沒(méi)降,還更能打了
很多人會(huì)擔(dān)心“成本降這么多,性能會(huì)不會(huì)縮水”?但論文里的實(shí)驗(yàn)數(shù)據(jù)給出了明確答案:不僅沒(méi)降,反而在多個(gè)核心任務(wù)上實(shí)現(xiàn)了突破。
在知識(shí)類任務(wù)中,MMLU分?jǐn)?shù)提升3.4分,中文知識(shí)任務(wù)CMMLU更是漲了4分;通用推理任務(wù)BBH提升5分,代碼能力HumanEval提升3分,最讓人驚喜的是長(zhǎng)文本處理能力——在32k長(zhǎng)文本任務(wù)RULER中,準(zhǔn)確率從84.2%直接飆升到97%。
之所以能實(shí)現(xiàn)“降本不降效”,核心在于分工更合理了。Engram模塊把80%的靜態(tài)知識(shí)處理交給了CPU,讓GPU能集中算力處理剩下20%的復(fù)雜推理和創(chuàng)新邏輯。就像工廠分工后,有人專門負(fù)責(zé)物料準(zhǔn)備,有人專門負(fù)責(zé)核心生產(chǎn),整體效率自然大幅提升。
更有意思的是,研究人員還發(fā)現(xiàn)了一個(gè)“黃金比例”:當(dāng)把20%-25%的稀疏參數(shù)分配給Engram時(shí),模型性能最佳,這也為后續(xù)的技術(shù)優(yōu)化提供了明確方向。有內(nèi)部消息透露,DeepSeek V4訓(xùn)練時(shí),Engram的詞表可能已經(jīng)擴(kuò)展到2000億參數(shù),塞滿了代碼片段、數(shù)學(xué)公式和經(jīng)典算法,這也讓它在長(zhǎng)代碼和邏輯推理任務(wù)中表現(xiàn)更突出。
行業(yè)影響:AI門檻大降,中小企業(yè)迎來(lái)春天
這次技術(shù)突破帶來(lái)的不只是成本降低,更是整個(gè)AI行業(yè)的格局變化。以前大模型領(lǐng)域基本是巨頭的游戲,中小企業(yè)因?yàn)槌袚?dān)不起高昂的GPU成本,很難參與其中。但現(xiàn)在,有了Engram這種“查算分離”方案,小公司甚至個(gè)人開(kāi)發(fā)者,花幾千塊錢就能部署自己的百億參數(shù)模型。
就像某律所已經(jīng)開(kāi)始測(cè)試:用64G內(nèi)存的CPU存儲(chǔ)500萬(wàn)條判例,法律咨詢的準(zhǔn)確率從68%提升到89%,而成本僅為GPT-4 API的1/20。對(duì)于制造業(yè)來(lái)說(shuō),這更是個(gè)好消息——2026年制造業(yè)智能化轉(zhuǎn)型加速,很多企業(yè)需要AI模型優(yōu)化研發(fā)和生產(chǎn),但之前高昂的算力成本讓他們望而卻步。現(xiàn)在有了低成本部署方案,更多企業(yè)能用上AI,像數(shù)商云平臺(tái)那樣實(shí)現(xiàn)研發(fā)周期縮短60%、生產(chǎn)成本降低15%的目標(biāo)可能會(huì)成為常態(tài)。
此外,這也打破了對(duì)高端GPU的依賴。2025年中國(guó)AI芯片采購(gòu)額高達(dá)120億美元,如果有30%的需求轉(zhuǎn)向CPU方案,整個(gè)行業(yè)的成本結(jié)構(gòu)都會(huì)被重構(gòu),更多資源能投入到技術(shù)創(chuàng)新而不是硬件采購(gòu)上。同時(shí),新的崗位也在崛起,“知識(shí)架構(gòu)師”成為熱門——他們不需要精通調(diào)參,而是要懂業(yè)務(wù)、會(huì)整理專業(yè)知識(shí),把這些內(nèi)容喂給模型的“超級(jí)字典”。
未來(lái)展望:萬(wàn)億參數(shù)模型不是夢(mèng)
按照目前的技術(shù)趨勢(shì),Engram模塊的潛力還遠(yuǎn)沒(méi)挖完。理論上,它可以把不常用的“冷知識(shí)”存到SSD里,支持萬(wàn)億參數(shù)的外掛擴(kuò)展,這意味著未來(lái)的大模型可能會(huì)擁有無(wú)限的“記憶容量”,同時(shí)保持高效的推理速度。
而且隨著技術(shù)的開(kāi)源和普及,會(huì)有更多開(kāi)發(fā)者參與進(jìn)來(lái),優(yōu)化哈希算法、解決工程化難題,讓“CPU+GPU”的混合部署方案更成熟。對(duì)于普通用戶來(lái)說(shuō),這也意味著未來(lái)能用到更便宜、更強(qiáng)大的AI服務(wù)——比如AI辦公軟件、智能客服、專業(yè)咨詢工具等,價(jià)格可能會(huì)大幅下降,普及率也會(huì)更高。
不過(guò)也要看到,目前這項(xiàng)技術(shù)還面臨一些挑戰(zhàn),比如批量處理超過(guò)64條數(shù)據(jù)時(shí),吞吐量會(huì)有15%的下降,哈希沖突和CPU-GPU同步開(kāi)銷也需要進(jìn)一步優(yōu)化。但這些都是工程化層面的問(wèn)題,隨著技術(shù)迭代大概率能逐步解決。
總結(jié):AI降本革命,才剛剛開(kāi)始
DeepSeek這次曝光的Engram技術(shù),本質(zhì)上是打開(kāi)了AI架構(gòu)的一扇新大門——從之前的“全能型”模型,變成了“分工協(xié)作型”模型。它用“查算分離”的思路,既解決了GPU顯存不足的痛點(diǎn),又大幅降低了部署成本,讓AI技術(shù)真正走進(jìn)中小企業(yè)和普通開(kāi)發(fā)者。
這不僅是一次技術(shù)突破,更是一次“普惠革命”。以前遙不可及的大模型技術(shù),現(xiàn)在變得觸手可及;以前只有巨頭能玩的游戲,現(xiàn)在中小企業(yè)也能參與。隨著越來(lái)越多類似的技術(shù)出現(xiàn),AI行業(yè)的創(chuàng)新活力會(huì)被徹底激發(fā),更多實(shí)用的AI應(yīng)用會(huì)涌現(xiàn)出來(lái),真正改變我們的工作和生活。
你覺(jué)得這項(xiàng)“CPU替代GPU”的技術(shù)會(huì)普及嗎?如果能低成本部署大模型,你最想用來(lái)解決什么問(wèn)題?歡迎在評(píng)論區(qū)分享你的看法!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.