網易首頁 > 網易號 > 正文申請入駐

梁文鋒署名新論文：給大模型配本“字典”，計算、記憶分家后智商爆表，劇透DeepSeek V4？

2026-01-13 11:56:17　來源: 華爾街見聞官方

上海舉報

分享至

這是一個關于AI底層邏輯重構的時刻。

長期以來，Transformer架構被困在一個昂貴的悖論中：我們用著最先進的GPU算力，去讓AI模型“死記硬背”那些查字典就能知道的靜態知識。

DeepSeek梁文鋒團隊與其北大合作者在今日凌晨發布的重磅論文《Conditional Memory via Scalable Lookup》，徹底打破了這一僵局。他們提出了一種全新的Engram（印跡）模塊，在傳統的“條件計算”（MoE）之外，開辟了第二條稀疏化戰線——“條件記憶”。

這不只是一次技術修補，而是一場關于模型“腦容量”的供給側改革。它證明了：當我們將“記憶”從“計算”中剝離，把該背的交給“字典”，把該算的交給大腦，AI的推理能力將迎來反直覺的爆發式增長。

DeepSeek計劃在2月春節前后正式發布V4，而這一刻或許就是DeepSeek V4誕生的前夜。

序章：六層神經網絡的“無用功”

故事的起點，源于DeepSeek團隊對Transformer內部運作機制的一次“核磁共振”掃描。

在人工智能的黑盒子里，當大模型看到“Diana, Princess of Wales”（戴安娜，威爾士王妃）這個短語時，它的內部發生了一場令人費解且極其昂貴的“內耗”。

研究人員發現，為了識別這個固定的實體，模型竟然動用了整整6層網絡：

第1-2層：模型還在琢磨“Wales”大概是一個國家；
第3層：它意識到這是歐洲的一個地理概念；
第4層：它開始拼湊出“Princess of Wales”似乎是一個頭銜；
第5層：它聯想到了“威爾士親王的妻子”；
第6層：直到這里，它才終于確認，這是指那位著名的“戴安娜王妃”。

在一位追求極致效率的架構師眼中，這簡直是算力的暴殄天物。

“戴安娜王妃”是一個客觀存在的、靜態的實體，它不會因為上下文的變化而改變其本質。為了提取這個本來查字典就能知道的事實，Transformer竟然動用了整整6層深度的昂貴矩陣運算去“重建”這個概念。

這就像是一個絕世天才，在去解決微積分難題之前，每次都得先花半小時默寫一遍九九乘法表。 這種“隱式記憶”的機制，迫使模型將寶貴的參數容量和網絡深度，浪費在了簡單的模式匹配上。

DeepSeek在這篇長達33頁的論文中，提出了一個直擊靈魂的拷問：為什么不直接給大模型配一本可以隨查隨用的“超級字典”？

第一章：架構重塑——Engram模塊的暴力美學

為了解決這個問題，DeepSeek提出了一種名為“Engram（條件記憶）”的全新模塊。

如果說MoE（混合專家模型）是把“大腦”分成了不同的區域，讓不同的專家負責不同的思考（條件計算）；那么Engram就是給大腦外掛了一個巨大的“海馬體”，專門負責存儲靜態知識（條件記憶）。

1. 復活“N-gram”：從古老智慧中尋找答案

Engram的核心靈感，竟然來自于NLP（自然語言處理）領域的“上古神器”——N-gram。在深度學習統治世界之前，我們就是靠統計“N個詞同時出現的概率”來理解語言的。

DeepSeek將這一經典概念進行了現代化的魔改：

傳統的Transformer：知識分散在神經元的權重（Weights）里，提取知識需要經過復雜的線性層計算，復雜度高。
Engram模塊：它是一個巨大的、可擴展的嵌入表（Embedding Table）。當模型讀到“張仲景”或者“四大發明”這種固定搭配（N-gram）時，不需要動用大腦皮層去推理，直接通過哈希索引，在內存表中“查”出對應的向量。

這一過程的時間復雜度是O(1)——這意味著無論知識庫膨脹到多大（哪怕是1000億參數），查找速度幾乎不變，且極快。

2. 三大技術護城河

既然查表這么好，為什么以前沒人做？因為有三個攔路虎：存儲爆炸、多義詞沖突、參數分配。DeepSeek給出了教科書級的解決方案：

A. 詞表壓縮：極致的去重

世界上的詞組組合是天文數字。DeepSeek首先做了一步“無損壓縮”。在分詞器（Tokenizer）層面，它將語義相同但寫法不同的詞進行了歸一化。
例如，“Apple”（首字母大寫）和“apple”（小寫）在語義上通常指同一個東西。通過映射歸并，有效詞表直接縮小了23%。這不僅節省了空間，更讓知識的密度大幅提升。

B. 多頭哈希：解決“哈希沖突”

不可能把所有N-gram都存下來。Engram使用了“多頭哈希（Multi-Head Hashing）”技術。通過多個哈希函數，將無限的N-gram映射到有限的內存槽位中。雖然會有哈希沖突（即兩個不同的詞被映射到了同一個位置），但通過“多頭”設計，模型可以從多個候選結果中拼湊出正確的信息，極大地提高了魯棒性。

C. 上下文門控：給記憶配個“裁判”

這是最精妙的一筆。查表是死的，語言是活的。
比如“蘋果”這個詞。在“吃蘋果”的語境下，它指水果；在“蘋果發布會”的語境下，它指科技公司。直接查表可能會引入噪聲。

DeepSeek設計了一個“上下文感知門控”（Context-aware Gating）。

Query（查詢）：當前上下文的隱藏狀態（Hidden State）。
Key/Value（鍵值）：查表得到的靜態向量。

這個門控就像一個裁判。如果查出來的“靜態知識”和當前的“上下文”不搭，裁判就會把權重壓低（Gate值趨向0），讓模型忽略這個噪聲；如果完美契合（比如“傷寒雜病論”后跟著“張仲景”），裁判就會把大門打開（Gate值趨向1），直接把知識注入模型。

第二章：黃金比例——發現AI模型的“U型曲線”

架構設計好了，接下來的問題是：怎么分家產？

假設我們顯卡里的顯存是有限的，總參數預算也是固定的。我們應該把多少參數分配給MoE的“專家”（負責計算），多少參數分配給Engram的“字典”（負責記憶）？

這是一個典型的資源配置博弈。DeepSeek團隊進行了一場大規模的消融實驗，掃描了從0%到100%的分配比例，結果畫出了一條完美的“U型Scaling Law曲線”。

這張圖揭示了AI模型設計的底層規律：

左側極端（純Engram）：如果把參數全給字典，Loss很高。因為模型變成了“書呆子”，光有死記硬背，沒有邏輯推理能力。
右側極端（純MoE）：如果把參數全給專家，Loss也很高。因為專家們被迫把精力都花在背書（記憶靜態知識）上，沒空干正事。
黃金分割點（ρ ≈ 75%-80%）：當我們將約20%-25%的稀疏參數預算分給Engram，剩下的給MoE時，模型的驗證集Loss降到了最低點。

這是一個極具指導意義的發現：對于幾百億參數的大模型來說，單純堆砌計算單元（MoE專家）已經是邊際效應遞減了，必須引入專門的靜態記憶模塊來實現“存算平衡”。

第三章：反直覺的爆發——為什么“查字典”能提高“數學成績”？

如果Engram僅僅是讓模型“記性更好”，這篇論文的分量還不足以震動社區。畢竟，RAG（檢索增強生成）也能解決知識問題。

真正讓業界感到震撼的，是實驗結果中那些意料之外的收益。

DeepSeek構建了三個對比模型，嚴格控制激活參數量（3.8B）和訓練數據量（262B tokens）完全一致：

Dense-4B：傳統的稠密模型。
MoE-27B：純MoE模型（72個專家）。
Engram-27B：混合模型（55個專家 + 5.7B Engram參數）。

結果令人大跌眼鏡：

1. 意料之中：知識類任務霸榜

在MMLU（綜合知識）上，Engram模型提升了3.4分；在CMMLU（中文知識）上，提升了4.0分。這很好理解，外掛了字典，常識自然更好了，幻覺更少了。

2. 意料之外：邏輯、代碼、數學全面暴漲

按理說，“查字典”和“做數學題”沒關系。但在BBH（綜合推理）上，Engram-27B竟然比同參數的純MoE基線提升了整整5.0分！

MATH（數學）：提升2.4分。
HumanEval（代碼生成）：提升3.0分。
ARC-Challenge（復雜推理）：提升3.7分。

3. 深度解析：有效深度（Effective Depth）理論

為什么？一個“死記硬背”的模塊，為什么能提高智商？

DeepSeek團隊利用LogitLens和“CKA（中心核對齊）”技術，對模型內部進行了“解剖”。他們發現了一個驚人的現象：

還記得開頭的“戴安娜王妃”嗎？
在純MoE模型中，前幾層網絡都在忙著“拼湊概念”。
而在Engram模型中，由于第2層就插入了Engram模塊，靜態知識的檢索在極早的階段就完成了。

這意味著，原本用于“死記硬背”的前幾層網絡被解放了！

這相當于給模型“虛增”了深度。 那些被釋放出來的網絡層和注意力頭（Attention Heads），不再需要處理瑣碎的局部依賴（比如識別“張仲景”是誰），從而可以全神貫注地投入到更復雜的全局推理、長程邏輯構建和代碼邏輯生成中去。

Engram的本質，不是“替代”推理，而是通過“分流”雜活，讓大腦專注于更高維度的思考。

第四章：工程奇跡——打破英偉達的“顯存霸權”

對于華爾街的投資者和算力中心的運維者來說，這篇論文最性感的地方不在于Score，而在于Cost（成本）。

在AI時代，最昂貴的資源不是算力（FLOPs），而是顯存（HBM）。英偉達H100之所以貴，很大程度上是因為那稀缺的HBM3e內存。

而Engram帶來了一個顛覆性的特性：徹底的存算分離。

1. MoE的痛點：顯存吞噬者

傳統的MoE模型，其路由機制（Routing）是動態的。模型必須先算出當前Token的特征，算完這一層，才知道下一層該找哪個專家。這意味著，所有的專家模型必須時刻在昂貴的GPU顯存里待命，隨叫隨到。

2. Engram的突破：確定的預知

Engram的查表邏輯是確定性的。
只要輸入的文本確定了（比如“A New Axis of Sparsity”），那么它對應的N-gram索引就確定了。我們根本不需要等模型算完前一層，在Token進入模型的那一瞬間，我們就知道它需要查哪張表的哪一行。

3. CPU的逆襲：把大模型塞進內存條

這一特性帶來了巨大的工程紅利：

卸載（Offload）：我們可以把幾百億、甚至上千億參數的Engram詞表，直接扔到便宜、量大、易擴展的“CPU內存（DRAM）”里，甚至放在NVMe SSD上。
預取（Prefetching）：在GPU拼命計算前一層Transformer的時候，CPU利用PCIe通道，異步地把下一層需要的記憶數據“預取”出來，推送到GPU。

掩蓋延遲，并行處理。

DeepSeek實測數據顯示：即使掛載了100B（千億）參數的Engram表到CPU內存，相比于純GPU推理，吞吐量的下降不到3%。

這是一個讓所有因為買不到HBM而焦慮的人狂喜的結論。這意味著，未來的大模型，“記憶容量”可以低成本地無限擴張，而不必被英偉達的顯存卡脖子。

第五章：長文本的勝利——NIAH測試的躍升

除了通用推理，Engram在長文本（Long Context）領域的表現同樣證明了“分工”的價值。

在長文本處理中，注意力機制（Attention）的窗口是有限的。如果注意力被大量的局部信息（如固定短語）占據，它處理全局信息的能力就會下降。

Engram接管了局部依賴后，Attention機制終于可以抬頭看路了。

在嚴格的RULER基準測試中，Engram-27B的表現令人咋舌：

Multi-Query NIAH（多重針大海撈針）：從MoE基線的84.2分，直接飆升至97.0分。
Variable Tracking（變量追蹤）：從77.0分提升至89.0分。

這說明，當我們將“局部記憶”外包給Engram后，Transformer原本的注意力機制就能更高效地捕捉幾萬字文檔中的“草蛇灰線”。

尾聲：DeepSeek V4的拼圖已現

把以上所有信息串聯起來，我們已經隱約看到了DeepSeek下一代模型——DeepSeek V4的雛形。

華爾街見聞寫道，報道稱DeepSeek計劃在2月（春節前后）正式發布V4。回顧DeepSeek的節奏：從2024年1月的R1，到年底擊敗GPT-5基準的V3.2，再到即將登場的V4，每一步都踩準了技術迭代的脈搏。

如果說R1展示了“推理”的深度，V3展示了“MoE”的效率，那么即將到來的V4，可能通過引入Engram技術，將解決記憶與計算的耦合，實現“電子腦（計算）”與“外部記憶（Engram）”的完美共生。

DeepSeek V2：引入MLA（多頭潛在注意力），壓縮KV Cache，解決推理顯存瓶頸。
DeepSeek V3：優化“MoE（混合專家）”與無損負載均衡，解決訓練穩定性與計算成本。
DeepSeek V4（推測）：引入Engram（條件記憶），解決記憶與計算的耦合，實現“電子腦（計算）”與“外部記憶（Engram）”的完美共生。

這不是一次簡單的版本迭代，這是對Transformer架構底層缺陷的一次系統性手術。在DeepSeek V3已經憑借極其低廉的API價格和強大的性能席卷全球之后，V4如果集成了Engram技術，將帶來更可怕的競爭力：它將擁有更大的知識庫（低成本內存擴展）、更強的邏輯推理（網絡深度解放）以及更低的推理成本（存算分離）。

更重要的是，報道提到V4在數據模式理解上的改進，“避免了以往模型在長時間訓練下性能衰退的情況”。這與Engram將靜態知識固化、減少動態網絡負擔的特性不謀而合——它讓模型更穩定，更不容易“遺忘”或“精神錯亂”。

在論文的最后，DeepSeek團隊自信地寫道：

“We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”
（我們預想，條件記憶將成為下一代稀疏模型不可或缺的建模原語。）

春節前夕的這篇論文，不僅是DeepSeek的技術秀，更是向全行業發出的信號：單純“卷算力”、“堆參數”的蠻荒時代結束了，架構創新的紅利期才剛剛開始。而在這場定義下一代AI標準的競賽中，中國大模型不僅沒有掉隊，甚至正在重新定義比賽規則。

2026，中國商業航天的“諾曼底時刻”剛剛過去；而AI領域的“存算分家”時刻，或許正是現在。

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

開源地址：https://github.com/deepseek-ai/Engram

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.