網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek 凌晨開源：給 Transformer 加個「查字典」的能力

2026-01-13 01:34:40　來源: 賽博禪心

北京舉報

分享至

對于問題「北京是中國的首都」，需要推理嗎？
應(yīng)該是不需要，地球人都知道

但現(xiàn)在，Transformer 只有一種處理方式：全靠算

DeepSeek 大半夜的，發(fā)布了一篇新論文
Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

https://github.com/deepseek-ai/Engram

這篇論文中，做了一個新方法 Engram，并給到觀點：
該查表的查表，該算的算，兩件事分開處理

對此，他們 Engram 的模塊，專門負責(zé)「查」，和負責(zé)「算」的 MoE 配合使用

結(jié)果就是，Engram-27B 在等參數(shù)、等算力條件下，全面超越純 MoE baseline

代碼已開源：
https://github.com/deepseek-ai/Engram

一個具體的例子

論文里有個很直觀的案例

模型處理「Diana, Princess of Wales」這個實體時，內(nèi)部發(fā)生了什么：

層數(shù)

模型此時「認為」這是什么

第 1-2 層

Wales，一個國家

第 3 層

Wales，歐洲的一個國家

第 4 層

Princess of Wales，一個頭銜

第 5 層

Princess of Wales，威爾士親王的妻子

第 6 層

Diana, Princess of Wales，戴安娜王妃

六層網(wǎng)絡(luò)，才把這個實體識別出來

但「戴安娜王妃」這個知識是固定的，不會因為上下文變化而變化。模型花六層來「算」出這個結(jié)果，本質(zhì)上是在用計算重建一個靜態(tài)的查找表

這六層深度，本可以用來處理更復(fù)雜的推理任務(wù)

Engram 怎么做

技術(shù)方案不復(fù)雜：用連續(xù)幾個 token（N-gram）作為「查詢詞」，從一個大表里查出對應(yīng)的向量，融合到模型的中間狀態(tài)里

幾個關(guān)鍵設(shè)計：

詞表壓縮

標(biāo)準(zhǔn)分詞器會給「Apple」和「apple」分配不同的 ID，但它們語義上是同一個東西。Engram 先做一層歸并，把這類 token 映射到同一個規(guī)范化 ID

實測 128k 詞表壓縮了 23%

多頭哈希

不可能真的存下所有 N-gram 組合，那是天文數(shù)字。用哈希函數(shù)把 N-gram 映射到有限大小的表里，犧牲一點精度換存儲空間

上下文門控

查出來的向量是「靜態(tài)先驗」，可能和當(dāng)前上下文不匹配。比如「蘋果」在討論水果時和討論手機時含義不同

解決方案：用當(dāng)前位置的隱藏狀態(tài)（已經(jīng)通過 Attention 聚合了上下文信息）作為「裁判」，給查出來的向量打分。語義不匹配時，把這個向量的權(quán)重壓低

放在哪一層

Engram 不是每層都加。放太淺，隱藏狀態(tài)還沒積累足夠上下文，「裁判」不準(zhǔn)；放太深，錯過了分擔(dān)早期層負擔(dān)的時機

實驗發(fā)現(xiàn)：放在第 2 層效果最好。如果要放兩個，第 2 層和第 15 層的組合最優(yōu)

參數(shù)怎么分配

這里有個核心問題：給定固定的參數(shù)預(yù)算，多少給 MoE，多少給 Engram？

論文定義了一個分配比例 ρ

? ρ = 100%：全給 MoE，沒有 Engram
? ρ = 0%：全給 Engram，沒有 MoE 的路由專家

實驗掃了一遍，結(jié)果是 U 型曲線：

這兩個極端，都不好

全給 MoE（ρ = 100%）：沒有專門的記憶模塊，模型被迫用計算來重建靜態(tài)知識

全給 Engram（ρ → 0%）：失去了動態(tài)計算能力，復(fù)雜推理做不了

最優(yōu)點在 75%-80%

也就是說，把 20-25% 的稀疏參數(shù)從 MoE 轉(zhuǎn)給 Engram，效果最好

這個比例在不同的計算預(yù)算下都穩(wěn)定，有一定的普適性

效果數(shù)據(jù)

四個模型對比：

? Dense-4B：稠密模型，基線
? MoE-27B：純 MoE 架構(gòu)
? Engram-27B：把 MoE-27B 的 72 個路由專家減到 55 個，省出的參數(shù)給 5.7B 的 Engram
? Engram-40B：進一步擴大 Engram 到 18.5B

全部訓(xùn)練 262B tokens，激活參數(shù)都是 3.8B（等算力）

挑幾個關(guān)鍵數(shù)據(jù)：

任務(wù)類型

具體任務(wù)

MoE-27B

Engram-27B

提升

知識

MMLU

57.4

60.4

+3.0

知識

CMMLU（中文）

57.9

61.9

+4.0

推理

BBH

50.9

55.9

+5.0

推理

ARC-Challenge

70.1

73.8

+3.7

代碼

HumanEval

37.8

40.8

+3.0

數(shù)學(xué)

MATH

28.3

30.7

+2.4

知識類任務(wù)提升在預(yù)期內(nèi)，畢竟加了個「記憶」模塊

但推理類任務(wù)提升更大，這就有意思了

一個「記憶」模塊，怎么讓「推理」能力變強？

為什么推理也變強了

這是論文最有價值的部分

他們用了兩個分析工具

LogitLens：看每一層輸出的預(yù)測置信度

結(jié)果：Engram 模型在早期層就達到了高置信度，預(yù)測收斂速度明顯更快

CKA：看不同層之間的表示相似度

結(jié)果：Engram 模型第 5 層的表示，和 MoE 模型第 12 層的表示最相似

這說明什么？

Engram 等效于增加了網(wǎng)絡(luò)的有效深度

邏輯是這樣的：有了 Engram 分擔(dān)靜態(tài)知識的檢索，早期層不用再花深度做這件事。省出來的深度，可以用于更復(fù)雜的推理

Attention 的容量也被釋放了。本來要處理局部依賴（比如識別「張仲景」是一個人名）的注意力頭，現(xiàn)在可以專注于全局上下文

長上下文任務(wù)上這個效果更明顯：

任務(wù)

MoE-27B

Engram-27B

Multi-Query NIAH

84.2

97.0

Variable Tracking

77.0

89.0

Engram 到底存了什么

做了個消融實驗：把 Engram 的輸出完全屏蔽，看各類任務(wù)的性能保留多少

? 事實問答（TriviaQA）：只剩 29%
? 閱讀理解（C3）：保留 93%
? 推理任務(wù)：居中

結(jié)論很清晰：

事實知識主要存在 Engram 里，屏蔽后崩得厲害

閱讀理解依賴上下文，答案就在文章里，Engram 幫不上忙

推理任務(wù)的提升是間接的，來自 Engram 釋放的網(wǎng)絡(luò)深度，而不是 Engram 直接提供推理能力

門控可視化

紅色表示門控激活（采納了查表結(jié)果），顏色越深激活越強

規(guī)律很明顯：

? 多 token 實體觸發(fā)高激活：「Alexander the Great」「Milky Way」「Princess of Wales」
? 固定搭配觸發(fā)高激活：「By the way」
? 中文也能識別：「四大發(fā)明」「張仲景」「醫(yī)圣」「傷寒雜病論」

需要結(jié)合上下文理解的 token，門控會壓低

工程：offload 效率

這部分對開發(fā)者有參考價值

Engram 的查表索引是確定的。知道輸入是什么 token，就知道要查哪些行，不依賴中間計算結(jié)果

MoE 不一樣，路由決策要等隱藏狀態(tài)算出來才能做

這個區(qū)別讓 Engram 可以做預(yù)取：模型在計算前幾層的時候，同時從主機內(nèi)存異步加載 Engram 需要的數(shù)據(jù)，兩邊并行

實測結(jié)果：

配置

吞吐量

Dense-4B

9,031 tok/s

Dense-4B + 100B

Engram（CPU offload）

8,858 tok/s

Dense-8B

6,315 tok/s

Dense-8B + 100B

Engram（CPU offload）

6,140 tok/s

100B 參數(shù)的 Engram 表完全放主機內(nèi)存，吞吐量下降不到 3%

N-gram 的訪問還符合 Zipf 分布，少數(shù)高頻模式占了絕大多數(shù)訪問量。可以做多級緩存：熱門的放 GPU 顯存，長尾的放主機內(nèi)存甚至 SSD

組件消融

哪些設(shè)計貢獻最大：

? 多分支集成：重要
? 上下文門控：重要
? Tokenizer 壓縮：重要
? 輕量卷積：影響不大
? 4-gram：在當(dāng)前參數(shù)預(yù)算下不如 2-gram + 3-gram 組合

Engram 放在第 2 層效果最好，越往深層放效果越差

跑起來

                                                           pip install torch numpy transformers sympy
python engram_demo_v1.py

GitHub 上的 demo 是演示版，mock 了 Attention/MoE 等標(biāo)準(zhǔn)組件，用于展示 Engram 的數(shù)據(jù)流

總結(jié)一下：
MoE 管算，Engram 管查，兩種機制處理兩類任務(wù)

代碼：
https://github.com/deepseek-ai/Engram

論文：
https://raw.githubusercontent.com/deepseek-ai/Engram/refs/heads/main/Engram_paper.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

近百萬元存款被悄悄轉(zhuǎn)走！上海獨居老太毫無察覺，還說“我有兩套房，你可以搬來同住”

瀟湘晨報 2026-02-25 16:39:13
6141 跟貼 6141
“36斤活羊烤完剩6.9斤”，網(wǎng)友質(zhì)疑店家約剔除5斤，有博主現(xiàn)場做實驗測重

大風(fēng)新聞 2026-02-25 23:10:03
3807 跟貼 3807

日本計劃部署導(dǎo)彈部隊距臺灣僅110公里中方強硬表態(tài)

環(huán)球網(wǎng)資訊 2026-02-26 06:54:33
3957 跟貼 3957

中華人民共和國和德意志聯(lián)邦共和國聯(lián)合新聞聲明

新華社 2026-02-25 21:46:25
654 跟貼 654
上海樓市“新七條”落地當(dāng)天：兩類群體咨詢升溫，有房東重新掛牌

澎湃新聞 2026-02-25 22:22:28
1247 跟貼 1247

300多只東北虎“輕斷食”？景區(qū)：每天斷食1個園，司機會帶游客找可投喂區(qū)

封面新聞 2026-02-23 16:29:03
1619 跟貼 1619

有網(wǎng)友稱價格炒至9000元，還有人翻箱倒柜找出來賣，寧波市場情況如何？

環(huán)球網(wǎng)資訊 2026-02-26 07:26:19
41 跟貼 41
微信出新功能，網(wǎng)友：簡直是社恐福音

南方都市報 2026-02-25 16:59:07
284 跟貼 284

美媒：比爾·蓋茨就其與愛潑斯坦關(guān)系向蓋茨基金會員工道歉

環(huán)球網(wǎng)資訊 2026-02-25 14:04:22
680 跟貼 680
360元一斤草莓企業(yè)稱用800斤牛奶兌水灌溉專家：噱頭

封面新聞 2026-02-26 01:37:14
438 跟貼 438
記者觀察｜日本高價大米背后的民生難題

新華社 2026-02-25 15:55:24
1581 跟貼 1581
日經(jīng)225指數(shù)漲幅擴大至超1%，首次站上59000點

每日經(jīng)濟新聞 2026-02-26 08:17:04
37 跟貼 37
女子牙齦流膿兩年不治，半口牙“全軍覆沒”

極目新聞 2026-02-26 10:41:46
19 跟貼 19
山西一地要求出租車給游客打九折，官方通報

界面新聞 2026-02-25 19:34:08
484 跟貼 484
美核動力航母650個廁所每天都維修

財聯(lián)社 2026-02-25 16:40:05
557 跟貼 557
湖人新任商務(wù)運營總裁透露佩林卡將繼續(xù)擔(dān)任球隊總經(jīng)理

北青網(wǎng)-北京青年報 2026-02-26 09:29:03
16 跟貼 16
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
109 跟貼 109
“別吱聲，我跟趙車長打好招呼了”，K692次列車被指安排“人情座”，女子在擁擠車廂內(nèi)打電話請人安排座位，鐵路部門：目前正在調(diào)查

揚子晚報 2026-02-26 11:28:40
0 跟貼 0
烏總統(tǒng)稱新一輪烏美俄三方會談預(yù)計3月初舉行

財聯(lián)社 2026-02-26 07:30:09
23 跟貼 23
花開成海春日盛景引客來

上游新聞 2026-02-25 16:45:10
390 跟貼 390
除夕小區(qū)停水停電、電器燒光，物業(yè)直接失聯(lián)！這個小區(qū)都業(yè)主到底過了個怎樣的年？

物業(yè)管理的那些事 2026-02-26 13:14:07
0 跟貼 0
孫子帶女友回家80歲奶奶激動扔菜擁抱，網(wǎng)友：白菜，誰為我發(fā)聲？

南國今報 2026-02-26 13:15:18
0 跟貼 0
向華強回應(yīng)遺產(chǎn)問題：和向太達成一致都交給郭碧婷來管一分錢不留給兒子

閃電新聞 2026-02-26 11:56:07
0 跟貼 0
蔚來銷售辱罵顧客？客服：如屬實，會有相關(guān)處理

鞭牛士 2026-02-26 13:17:38
0 跟貼 0

賈永婕發(fā)文還原大S臨終場面吳佩慈目睹搶救過程大S生前已有預(yù)感

可樂談情感

2026-02-26 07:46:30

沖上熱搜！劉強東回應(yīng)造游艇：我們家100多年都是船民，當(dāng)船長是兒時夢想；已接到5條大型游艇訂單，每艘平均賣6000萬歐元

每日經(jīng)濟新聞

2026-02-25 19:31:58

荷蘭沒回頭路了！中國子公司宣布：正式換國內(nèi)供應(yīng)商，不再合作！

生活新鮮市

2026-02-25 18:47:22

120抵達40分鐘后病人才上救護車，老人搶救無效死亡急救中心被判賠17萬余元急救搬抬如何破局？|紅星深度

紅星新聞

2026-02-25 21:05:18

187cm已塌房男演員，試圖復(fù)出無望，結(jié)果又有新“瓜”？

有仁有娛

2026-02-24 23:36:53

賈淺淺《開花》被獲得全國詩歌一等獎的詩，寫出了女性的原始欲

讀睡

2026-02-20 16:29:43

28歲北京獨子王荻娶50歲德國妻子，寧斷香火也要成婚，現(xiàn)狀太意外

談史論天地

2026-02-25 06:53:06

威爾士公開賽16強出爐附賽程，張安達vs希金斯，8強中國有望占4席

小火箭愛體育

2026-02-26 09:05:55

笑噴了！汪大爺能屈能伸，積極配合張?zhí)m，小孫孫出生詳情曝光

小娛樂悠悠

2026-02-26 08:00:55

人到中年，真的要感謝單位“不重用”之恩！

侃故事的阿慶

2026-02-26 10:12:33

皇太極的變態(tài)嗜好：把妻子賞給下人，坐月子、兒子為王皆不能幸免

老謝談史

2026-02-26 02:06:26

火箭大勝！杜蘭特21+4+5，賽后老范抱住德羅贊，小謝接受采訪

擔(dān)酒

2026-02-26 11:21:36

都說不去日本，春節(jié)赴日的卻是這群人！日媒暗訪揭開真相

壹知眠羊

2026-02-25 22:18:18

王力宏現(xiàn)身比亞迪深圳坪山總部副總裁李柯及核心高管親自接待

快科技

2026-02-26 09:45:06

財政壓力的下半場：退休人員占比近四成，才是硬賬

超先聲

2026-01-09 16:45:39

Tesla特斯拉（春招）招聘公告！

實習(xí)僧

2026-02-25 14:40:30

長沙市重大項目集中簽約開工，總投資額超260億元

界面新聞

2026-02-26 09:37:06

果然不簡單：中國摁住日本后，又讓美國見識了北京的“陽謀”

花小貓的美食日常

2026-02-26 06:51:35

越秀236億跑馬場地塊定局誰在為廣州頂奢商業(yè)買單？

觀點機構(gòu)

2026-02-26 03:34:10

這個世界上最搞不懂的，就是尼格買提的父母了

百態(tài)人間

2026-02-24 15:44:11

賽博禪心

拜AI古佛，修賽博禪心

302文章數(shù) 44關(guān)注度

往期回顧全部

科技要聞

單季營收681億凈利429億！英偉達再次炸裂

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

短劇市場風(fēng)云突變！有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新四門玩趣代步車來襲

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

旅游

藝術(shù)

房產(chǎn)

時尚

手機 / 數(shù)碼

房產(chǎn) / 家居

DeepSeek 凌晨開源 ：給 Transformer 加個「查字典」的能力

單季營收681億凈利429億！英偉達再次炸裂

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

尼格買提撒貝寧滑雪被偶遇 17年老友情

短劇市場風(fēng)云突變！有人投百萬賠得精光

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

一整年都有新驚喜！上海迪士尼十周年慶典即將啟幕，三大娛樂演出煥新升級

2025年百家金陵畫展 | 油畫作品選刊

2.2萬/m2起！三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

倫敦時裝周｜2026秋冬流行趨勢早知道

DeepSeek 凌晨開源：給 Transformer 加個「查字典」的能力

第五代宏光MINIEV煥新四門玩趣代步車來襲

2.2萬/m2起！三亞主城性價比標(biāo)桿海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶