網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

梁文鋒又掀桌？在省錢這件事上，DeepSeek給V4模型鋪墊好了

2026-01-13 18:14:06　來源: 搜狐科技

北京舉報

分享至

出品｜搜狐科技

作者｜常博碩

編輯| 楊錦

V4發(fā)布前夕，DeepSeek的更新真是一個比一個重磅。

元旦前，DeepSeek發(fā)了新架構(gòu)mHC,對深度學(xué)習(xí)的地基Resnet進(jìn)行了優(yōu)化，上周又把那篇R1的論文擴(kuò)寫了64頁，詳細(xì)公開了訓(xùn)練路徑，這次發(fā)的新論文還準(zhǔn)備修一修Transformer，順便在硬件上再省一筆。

今天凌晨，DeepSeek在Github上甩出了一篇名為《Conditional Memory via Scalable Lookup：A New Axis of Sparsity for Large Language Models》的論文，直指Transformer架構(gòu)讓模型反復(fù)思考，浪費(fèi)算力資源的缺陷，同時開源了論文中的“記憶模塊”Engram。

這篇論文是DeepSeek和北京大學(xué)合作完成的，作者欄依然有梁文鋒本人署名。

直擊Transformer缺陷

2017年，谷歌一篇名為《Attention Is All You Need》的論文正式將Transformer這種深度學(xué)習(xí)架構(gòu)呈現(xiàn)在了大家眼前，證明了完全基于自注意力機(jī)制（Self-Attention）的模型在機(jī)器翻譯任務(wù)上優(yōu)于當(dāng)時的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）。

這篇論文是深度學(xué)習(xí)領(lǐng)域，尤其是自然語言處理（NLP）的重要轉(zhuǎn)折點(diǎn)，也被看作是現(xiàn)代人工智能的奠基性論文，甚至成為了21世紀(jì)NLP領(lǐng)域被引用次數(shù)最多的論文之一。今天，我們能看到的絕大多數(shù)大語言模型也都是以Transformer作為核心架構(gòu)的。

然而，DeepSeek他們發(fā)現(xiàn)Transformer并不是神，它有一個非常反人類的缺陷。它沒有真正的記憶模塊，它的記憶全是靠“算”出來的。

在標(biāo)準(zhǔn)的Transformer架構(gòu)中，無論一句話多么常見、結(jié)構(gòu)多么固定，模型都會在每一層里反復(fù)計算token之間的關(guān)系。其實在人的語言和思維里，“固定搭配”這件事是很常見的，比如“中國四大…”后面就得接“發(fā)明”，英語里by the后面基本接的就是way。

可是Transformer不是這么思考問題的，四大發(fā)明、by the way這種在人類看來固定搭配的詞組，在模型內(nèi)部，仍然被拆成多個token（詞元），即使這種組合關(guān)系在訓(xùn)練語料里已經(jīng)被見過成千上萬次，但模型還是每次都重新組合和理解。

再復(fù)雜一點(diǎn)來說，比如你問大模型一個很簡單的問題：東漢末年的張仲景是誰？在現(xiàn)在的Transformer架構(gòu)下，模型的神經(jīng)網(wǎng)絡(luò)大腦就會開始動用幾百億參數(shù)，再經(jīng)過幾十層的向量計算，最后說：“是醫(yī)圣”。

DeepSeek團(tuán)隊就覺得，這太浪費(fèi)算力了，其實“張仲景是醫(yī)圣”這件事背下來就行。因為只要涉及計算，那肯定就是非常費(fèi)腦子的事，對于AI來說，費(fèi)的就是顯存。換句話說就是，太費(fèi)錢了！

這次的論文提出的記憶模塊Engram解決的就是這個事，大模型并不是每一步都需要“算”。

如今，為了更好地節(jié)省資源，MoE成為大模型主流架構(gòu)，但MoE最核心、最本質(zhì)的架構(gòu)組件仍然是Transformer，缺少“查表”的能力。

Engram很像是給大模型裝了一個外接的大字典，他們把“醫(yī)圣張仲景”“四大發(fā)明”這些固定的知識點(diǎn)，通過N-gram機(jī)制做成了一個巨大的索引表。以后遇到新問題，能查表的查表，需要算的再算，兩件事分開干。

DeepSeek設(shè)計了一個精妙的“門控機(jī)制”（Context-aware Gating）。模型會自己判斷，遇到“四大發(fā)明”“勾股定理”這種死知識，Engram模塊直接查表給答案，省時省力。

遇到復(fù)雜的邏輯推理或閱讀理解，Engram就退后，讓Transformer的核心計算層（MoE）去深度思考。

結(jié)果就是不僅省力，還變強(qiáng)了。論文中的實驗數(shù)據(jù)顯示，這種“查表+推理”的混合模式，比純粹靠堆參數(shù)的MoE模型更強(qiáng)。Engram在知識問答、代碼、數(shù)學(xué)和邏輯推理的能力都有提升。

具體是怎么做到的呢？Engram有一些關(guān)鍵的設(shè)計點(diǎn)。

Engram的核心邏輯是構(gòu)建一個巨大的、外掛式的N-gram嵌入表，并通過精細(xì)的機(jī)制將其無縫融合到Transformer主干中。

首先是詞表壓縮，標(biāo)準(zhǔn)的分詞器往往會將語義相同但寫法微異的詞分配不同的ID，比如 “Apple”和“apple”，這就導(dǎo)致N-gram空間極其稀疏且存在冗余。Engram就把tokenizer的id做了壓縮，把同義詞合并，論文里提到128k詞表下能壓縮近23%。這就顯著提高了語義密度，使得N-gram查表更高效。

Engram還采用了多頭哈希的方法。因為直接存儲所有可能的N-gram組合是不現(xiàn)實的，那么為了解決哈希沖突，Engram對每個N-gram階數(shù)n使用K個不同的哈希頭。每個頭使用獨(dú)立的哈希函數(shù)將N-gram映射到嵌入表的一個索引位置。

最終的記憶向量是所有n階、所有K個頭檢索出的向量的拼接。

由于查表得到的向量e是靜態(tài)的，且可能包含哈希沖突帶來的噪聲。如果直接加到模型里，會干擾上下文。所以Engram還設(shè)計了一套門控機(jī)制來“過濾”和“融合”這些信息。

想掀硬件廠商的桌？

傳統(tǒng)大模型有一個硬約束，參數(shù)要參與計算，得在GPU顯存里。過去幾年，大模型的發(fā)展默認(rèn)接受了一條前提：參數(shù)越多，模型越大越好，顯存就必須越大。

現(xiàn)在的AI軍備競賽，本質(zhì)上是在拼HBM，也就是高帶寬顯存。

無論是H100還是H200，最貴的往往是那塊容量有限且速度極快的HBM。所以，為了塞下幾千億參數(shù)的大模型，科技公司不得不買成千上萬張顯卡。

同時受地緣政治與出口管制影響，中國市場能夠穩(wěn)定獲得的HBM資源愈發(fā)有限，價格也水漲船高。其實英偉達(dá)H20等對中國特供版的GPU，最關(guān)鍵的限制基本都落在HBM上，算力反而是次要被約束的。

HBM目前產(chǎn)能基本和SK海力士、三星和美光鎖死，已經(jīng)是供不應(yīng)求，同時價格也非常昂貴，平均是普通內(nèi)存價格的7倍左右。

在這樣的背景下，把模型全塞進(jìn)顯存這條路線，就越來越不可持續(xù)了。DeepSeek這篇論文證明了，其實不需要把所有參數(shù)都塞進(jìn)昂貴的顯存里。

可以說，DeepSeek這次其實就是想要正面翻過這道墻。

具體是怎么做到的呢？首先，Engram的記憶訪問是可預(yù)測的，它不像MoE那樣，必須算完這一層才知道下一層要去哪，數(shù)據(jù)必須都在GPU上待命。Engram的索引只由輸入token決定，在推理開始前就可以計算出來。

這意味著系統(tǒng)可以提前把即將用到的記憶，從主機(jī)內(nèi)存異步搬到GPU。

第二，大部分參數(shù)其實是“冷的”。自然語言天然遵循 Zipf 分布，極少數(shù)短語被反復(fù)使用，而絕大多數(shù)組合幾乎從不出現(xiàn)。Engram正好利用了這一點(diǎn)，將高頻記憶放在顯存或主內(nèi)存，低頻記憶放在更便宜、更大的存儲中。

在論文中，DeepSeek甚至把一個1000億參數(shù)規(guī)模的Engram記憶表，完整放在CPU里，僅在需要時預(yù)取，結(jié)果整個推理速度的損耗甚至低于3%。

在算力和顯存都越來越貴、越來越稀缺的當(dāng)下，Engram給行業(yè)提供了一條比較現(xiàn)實的路徑，不是所有性能提升都必須用更貴的硬件來換。

至此，稀疏化模型也進(jìn)入了計算+記憶的時代，如果即將推出的DeepSeek-V4真的把此前發(fā)布的mHC和這次發(fā)布的Engram落地，那將又是一次架構(gòu)范式的躍遷，讓我們拭目以待吧！

運(yùn)營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.