網易首頁 > 網易號 > 正文申請入駐

DeepSeek最新論文：直指Transformer要害，讓AI學會翻“字典”了

2026-01-13 16:35:34　來源: DeepTech深科技

北京舉報

分享至

今日凌晨，DeepSeek 在 GitHub 上發布了一項代號為“Engram”的最新研究成果，并同步上傳了題為Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models（基于可擴展查找的條件記憶：大語言模型稀疏性的新維度）的學術論文。

（來源：GitHub）

這篇由梁文鋒、DeepSeek 研究團隊與北京大學聯合署名的論文，一經發表就引發了廣泛討論。

此次研究帶來了一項突破：在業界廣泛采用的“混合專家模型”（MoE）之外，DeepSeek 開辟了第二條提升模型效率的路徑——“條件記憶”（Conditional Memory）。如果說 MoE 解決了“如何高效計算”的問題，那么新提出的 Engram 架構則試圖解決“如何高效存儲與提取知識”的難題。

在此前的 DeepSeek-V2 和 V3 取得巨大成功后，基于 Transformer 的 MoE 架構已成為最具代表性、應用最廣泛的稀疏化方案之一。MoE 通過“條件計算”（Conditional Computation）機制，即在處理每個詞元（Token）時僅激活模型參數的一小部分，成功打破了模型規模與推理成本之間的線性約束。

然而，DeepSeek 研究團隊指出，盡管 MoE 極大地優化了計算效率，在當前以注意力與前饋網絡為核心的 Transformer 范式下，模型并不具備顯式、可尋址的知識查找機制。

在現有的架構中，模型記憶知識的方式是隱式的。當模型需要回答“法國的首都是哪里”時，它無法像人類查閱字典那樣直接檢索出“巴黎”這個詞，而是需要通過多層注意力機制（Attention）和前饋神經網絡（FFN）進行復雜的矩陣運算，實際上是在通過計算來模擬檢索過程。

這種機制造成了巨大的資源浪費：模型不得不動用寶貴的推理算力去“死記硬背”大量固定的事實性知識（如人名、地名、固定搭配等），這不僅效率低下，還擠占了模型處理復雜邏輯推理的“腦容量”。

（來源：Nano Banana Pro）

針對這一點，DeepSeek 提出了“條件記憶”的概念，并設計了實體模塊 Engram 來加以實現。Engram 的設計靈感源自自然語言處理（NLP）領域經典的 N-gram（N 元語法）模型，但在深度學習語境下進行了現代化改造。傳統的 N-gram 依靠統計詞匯共現頻率來預測下一個詞，而 Engram 則將其轉化為一種可學習的、基于哈希（Hash）的向量檢索系統。

圖 | Engram 模塊的整體架構示意（來源：論文）

具體而言，Engram 模塊被嵌入到 Transformer 的主干網絡中，與 MoE 層并行或交替工作。當模型處理輸入文本時，Engram 不依賴深層神經網絡計算，而是通過兩步輕量化的檢索與融合操作完成信息注入：

首先是“檢索”，它將當前的局部上下文（例如最近出現的幾個詞）進行壓縮并通過多頭哈希映射，在算法層面實現近似 O(1) 的常數時間查表，并通過預取機制在系統層面將實際延遲控制在極低水平；其次是“融合”，通過一個上下文感知的門控機制（Gating Mechanism），將檢索到的靜態記憶向量與模型計算出的動態隱藏狀態進行加權融合。

我們可以將傳統的 Transformer 模型想象一個不僅需要理解題意，還需要現場推導所有數學公式和歷史數據的考生；而搭載了 Engram 的模型，則相當于被允許帶入考場一本百科全書。遇到固定的知識點，Engram 直接查表獲得答案，而將寶貴的“大腦”算力集中用于處理從未見過的復雜邏輯題。這種“計算”與“記憶”的解耦，正是 DeepSeek 新架構的核心邏輯。

這項研究并不僅停留在理論層面，DeepSeek 在論文中披露了名為“稀疏性分配”（Sparsity Allocation）的關鍵發現，揭示了模型性能背后的數學規律。研究人員在嚴格控制總參數量和計算量（FLOPs）不變的前提下，系統性地調整了分配給 MoE 專家與 Engram 記憶表的參數比例。

實驗結果呈現出一條清晰的“U 型曲線”：最佳的模型性能既不出現在純粹的 MoE 架構中，也不出現在過度依賴記憶的架構中，而是當大約 20% 至 25% 的稀疏參數預算分配給 Engram，而剩余部分留給 MoE 時（即ρ≈75% -80% 時），模型性能達到最佳。

圖 | 稀疏性分配與記憶痕跡擴展 (來源：論文)

基于這一發現，DeepSeek 訓練了一個擁有 270 億參數的 Engram-27B 模型，并在同等參數規模和計算消耗下，與標準的 MoE-27B 模型進行了全方位的對比測試。結果顯示，引入條件記憶機制后，模型在多個關鍵維度上實現了性能的顯著躍升。

在知識密集型任務中，Engram 的優勢符合預期。例如在衡量綜合知識水平的 MMLU（大規模多任務語言理解）基準測試中，Engram-27B 的得分比基準模型高出 3.4 分；在中文綜合基準 CMMLU 上，提升幅度更是達到了 4.0 分。這直接證明了外掛式的高效記憶模塊能顯著擴充模型的知識庫。

不過，更令人意外的是 Engram 在通用推理能力上的表現。在衡量復雜推理能力的 BBH（Big-Bench Hard）基準上，Engram 模型取得了 5.0 分的巨大提升；在 ARC-Challenge 科學推理任務中提升了 3.7 分。甚至在傳統認為高度依賴邏輯推演的代碼生成（HumanEval +3.0）和數學解題（MATH +2.4）任務中，Engram 同樣表現出了顯著優勢。

（來源：論文）

為何一個看似負責“死記硬背”的記憶模塊，能提升模型的邏輯推理能力？DeepSeek 團隊利用 LogitLens 和 CKA（中心核對齊）等可解釋性工具進行了深入的機理分析，得出了一個極具洞察力的結論：Engram 有效增加了模型的“有效深度”（Effective Depth）。

分析顯示，在沒有 Engram 的傳統模型中，底層的許多神經網絡層實際上在忙于構建基礎的詞法組合和短語模式，這是一種低級的“特征重構”工作。而在引入 Engram 后，這些局部的、固定的語言模式（如“紐約”后緊接“時代廣場”，“人工智能”是一個專有名詞），這些都直接通過查表解決。

這使得模型的主干網絡從繁瑣的淺層任務中解脫出來，能夠將更多的層數和注意力資源投入到更高層級的語義理解和邏輯推演中。換言之，Engram 通過承擔記憶職能，在不增加層數的前提下，提高了模型用于復雜推理的“有效深度”。

（來源：論文）

此外，Engram 架構還在長文本處理（Long Context）領域展現出了意想不到的結構性優勢。在處理長篇文檔時，注意力機制往往面臨巨大的計算壓力。DeepSeek 的研究表明，文本中大量的依賴關系其實是局部的（Local），可以通過 N-gram 查找來解決。Engram 負責處理這些局部依賴，從而釋放了 Transformer 全局注意力機制的容量，使其能更專注于捕捉跨度極大的長程關聯。

在極具挑戰性的“大海撈針”（Needle In A Haystack）測試中，Engram-27B 在該測試中的表現顯著優于基準模型。。在多查詢（Multi-Query）設置下，其準確率從基準 MoE 模型的 84.2% 飆升至 97.0%；在變量跟蹤（Variable Tracking）任務中，準確率從 77.0% 提升至 89.0%。這意味著，搭載 Engram 的模型在處理法律合同分析、長篇小說理解或大型代碼庫維護等需要極高精度的長文本任務時，將具備更強的魯棒性。

（來源：論文）

除了模型性能層面的突破，DeepSeek 延續了其一貫的“高效基礎設施”理念，在 Engram 的工程實現上做到了極致。在當前的硬件環境下，顯存（HBM）往往是制約大模型規模的瓶頸。然而，Engram 展現出了基礎設施感知（Infrastructure-aware）的特性。

與 MoE 依賴運行時動態路由不同，Engram 的檢索是基于輸入文本的確定性哈希。這意味著，系統在正式計算某一層之前，就已經確切知道需要用到哪些記憶向量。這種確定性使得“預取”（Prefetching）策略成為可能。

DeepSeek 在實驗中成功演示了將一個高達 1,000 億參數的 Engram 嵌入表完全存儲在廉價的主機內存（CPU DRAM）中，而非昂貴的 GPU 顯存里。在模型計算前序層級時，系統通過 PCIe 通道異步地將所需的記憶數據搬運至 GPU。

實驗數據顯示，即使在 1,000 億參數的超大規模下，這種跨硬件的存儲與計算解耦方案帶來的額外推理延遲也不到 3%。這一工程結果表明，在特定的系統設計與實驗條件下，模型參數規模不再嚴格受限于 GPU 顯存容量。理論上，這一設計為未來 DeepSeek 掛載 TB 級別的超大規模記憶庫提供了可行路徑，而無需成倍增加昂貴的算力集群成本。

綜合此次發布的 Engram 論文，以及今年元旦期間 DeepSeek 發布的關于“流形約束超連接”（Manifold-Constrained Hyper-Connections, mHC）的研究，DeepSeek-V4 的架構開始逐漸具象化。

如果說 MoE 架構（條件計算）是 DeepSeek-V2/V3 的基石，那么 V4 有望在架構層面呈現出更高程度的整合性：它將融合 mHC 以優化專家間的通信效率，同時引入 Engram 作為獨立的“海馬體”模塊。這種架構不再是簡單的參數堆疊，而是向著人類大腦“計算與記憶分離、協同工作”的生物學原理邁進。MoE 負責動態的邏輯處理，Engram 負責靜態的知識檢索，兩者互為補充，共同構成了一個更高效、更博學且更擅長推理的智能系統。

Github 論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.