<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,梁文鋒署名開源「記憶」模塊,DeepSeek V4更細節了

      0
      分享至



      機器之心編輯部

      就在十幾個小時前,DeepSeek 發布了一篇新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,與北京大學合作完成,作者中同樣有梁文鋒署名。



      • 論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      簡單總結一波這項新研究要解決的問題:目前大語言模型主要通過混合專家(MoE)來實現稀疏化,這被稱為「條件計算」。但是,現有的 Transformer 缺少原生的知識查找機制,只能被迫通過計算過程低效地模擬檢索行為。

      針對這一現狀,DeepSeek 提出了條件記憶(conditional memory),從而與 MoE 的條件計算互補,并通過引入一個新模塊 Engram 來實現

      目前,模塊「Engram」相關的實現已經上傳到了 GitHub。



      項目地址:https://github.com/deepseek-ai/Engram

      這讓網友們感慨:「DeepSeek is back!」



      此外,結合元旦期間公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我們可以明確的是 DeepSeek v4 的模樣愈發清晰,就等上新了!

      除了條件計算(MoE),

      LLM 還需要一個獨立的條件記憶 Engram

      MoE 模型通過條件計算實現了模型容量的擴展,但現有的 Transformer 架構缺乏原生的知識查找原語,只能通過計算過程低效地模擬檢索行為。

      為了解決這一問題,DeepSeek 提出了條件記憶(conditional memory)這一與條件計算互補的稀疏化維度,并通過 Engram 模塊加以實現。Engram 在經典 -gram 嵌入的基礎上進行了現代化改造,使其能夠以 O (1) 時間復雜度完成知識查找。

      通過形式化提出稀疏性分配問題,DeepSeek 還發現了一條呈 U 型的擴展規律,用以刻畫神經計算(MoE)與靜態記憶(Engram)之間的最優權衡關系。

      在這一規律的指導下,DeepSeek 將 Engram 擴展至 270 億參數規模,并在嚴格等參數量、等 FLOPs 的條件下,其整體性能顯著優于純 MoE 基線模型

      尤為值得注意的是,盡管記憶模塊本身主要被用于提升知識檢索能力(如 MMLU 提升 +3.4、CMMLU 提升 +4.0),但 DeepSeek 觀察到其在通用推理能力(如 BBH 提升 +5.0、ARC-Challenge 提升 +3.7)以及代碼與數學推理任務(HumanEval 提升 +3.0、MATH 提升 +2.4)上帶來了更為顯著的增益。

      進一步的分析表明,Engram 能夠將靜態知識的重建負擔從模型的淺層中剝離出來,從而有效加深網絡用于復雜推理的有效深度。此外,通過將局部依賴關系交由查表機制處理,Engram 釋放了注意力機制的容量,使其能夠更專注于全局上下文建模,從而顯著提升了長上下文檢索能力(例如 Multi-Query NIAH 的準確率從 84.2 提升至 97.0)。

      最后,Engram 在系統層面同樣展現出基礎設施感知的高效性:其確定性的尋址方式支持在運行時從主機內存進行預取,幾乎不會帶來額外的性能開銷。

      DeepSeek 認為,條件記憶將成為下一代稀疏大模型中不可或缺的核心建模原語

      Engram 架構如下,其設計目標是在結構上將靜態模式存儲與動態計算過程從 Transformer 主干網絡中分離出來,從而對其進行增強。該模塊對序列中每一個位置依次執行兩個功能階段:檢索與融合。



      在運行過程中,DeepSeek 首先對當前位置的后綴 N-gram 進行提取與壓縮,并通過哈希機制以確定性的方式檢索對應的靜態嵌入向量。隨后,這些被檢索到的嵌入會在當前隱藏狀態的調制下進行動態調整,并進一步通過一個輕量級卷積操作加以精煉。最后,Engram 與多分支架構進行集成。

      基于哈希 -gram 的稀疏檢索

      這一階段的目標是將局部上下文映射到靜態記憶條目,這一過程主要包括分詞器壓縮以及通過確定性哈希機制來檢索對應的嵌入表示。

      分詞器壓縮:為了最大化記憶單元的語義密度,DeepSeek 引入了一層詞表投影(vocabulary projection)。為此,他們預先設計了一個映射函數,其將原始 token ID 映射為基于文本規范化等價關系(例如使用 NFKC 規范化、統一大小寫等)得到的規范化標識符(canonical identifiers)。在實際應用中,對于一個規模為 128k 的分詞器,該過程能夠將有效詞表規模縮減約 23%(詳見附錄 C)。



      多頭哈希:直接對所有可能的 N-gram 組合空間進行參數化在計算和存儲上都是不可行的。借鑒 Tito Svenstrup 等(2017)的工作,DeepSeek 采用了一種基于哈希的近似方法。為了降低哈希沖突的影響,對于每一種 N-gram 階數 n,引入 K 個相互獨立的哈希頭。

      上下文感知門控

      前一階段通過哈希 -gram 從條件記憶中檢索得到的嵌入向量,本質上提供的是一種與具體語境無關的靜態先驗信息。然而,正因為其靜態屬性,這些嵌入缺乏對當前上下文的自適應能力,并且在實際應用中可能受到哈希沖突或詞項多義性帶來的噪聲干擾。

      為此,DeepSeek 在檢索之后引入了一種上下文感知的門控機制,其設計靈感來源于注意力機制。

      系統效率:計算與存儲的解耦

      在帶有記憶機制的模型中,規模擴展往往受到 GPU 高帶寬顯存(HBM)容量有限的制約。然而,Engram 所采用的確定性檢索機制天然支持將參數存儲與計算資源進行解耦。不同于 MoE 依賴運行時隱藏狀態進行動態路由,Engram 的檢索索引完全由輸入 token 序列決定。這種可預測性使得針對訓練與推理階段的專門優化策略成為可能,如圖 2 所示。



      在訓練階段,為容納大規模嵌入表,DeepSeek 采用標準的模型并行方案,將嵌入表分片分布在多張 GPU 上。在前向傳播過程中,通過 All-to-All 通信原語收集被激活的嵌入行;在反向傳播階段,則將對應梯度分發回各個分片,從而使總可用記憶容量能夠隨加速器數量線性擴展。

      在推理階段,這種確定性特性進一步支持一種預取–重疊(prefetch-and-overlap)策略。由于在前向計算開始之前即可確定所需訪問的記憶索引,系統能夠通過 PCIe 從容量充足的主機內存中異步地預取嵌入向量。為有效掩蔽通信帶來的延遲,Engram 模塊被放置在主干網絡中的特定層級,利用其前序 Transformer 層的計算作為緩沖,從而避免 GPU 計算停頓。

      這也要求一種硬件 — 算法協同設計(hardware–algorithm co-design):一方面,將 Engram 放置得更深可以拉長用于隱藏通信延遲的計算窗口;另一方面,從建模效果來看,較早地介入以卸載局部模式的重建更為有利。因此,Engram 的最優插入位置必須同時滿足建模性能與系統時延兩方面的約束。

      此外,自然語言中的 -gram 天然遵循 Zipfian 分布,即少量高頻模式貢獻了絕大多數的記憶訪問。這一統計特性啟發研究者可以構建一種多級緩存層次結構(Multi-Level Cache Hierarchy):將高頻訪問的嵌入緩存于更快的存儲介質中(如 GPU HBM 或主機 DRAM),而將大量低頻的長尾模式存放在容量更大但速度較慢的存儲介質中(如 NVMe SSD)。這種分層設計使 Engram 能夠擴展到極大規模的記憶容量,同時對有效訪問延遲的影響保持在最低水平。

      U 型擴展規律與稀疏性分配

      作為「條件記憶」的一種具體實現,Engram 在結構上與 MoE 專家提供的「條件計算」形成了互補。本節旨在探究這種二元特性(Duality)的擴展屬性,以及如何最優地分配稀疏容量。

      具體而言,本項研究由兩個核心問題驅動:

      • 有限約束下的分配:在總參數量和訓練計算量固定(即等參數、等 FLOPs)的情況下,應該如何在 MoE 專家與 Engram 嵌入之間劃分稀疏容量?
      • 無限記憶范式:考慮到 Engram 具有不隨規模增長(Non-scaling)的查找開銷,如果放寬記憶預算或進行激進擴展,Engram 自身會表現出怎樣的擴展行為?

      首先來看MoE 與 Engram 之間的最優分配比例。在計算匹配公式時,DeepSeek 使用以下三個參數度量來分析這個權衡:

      • P_tot:總的可訓練參數,不包括詞匯嵌入和語言模型頭。
      • P_act:每個 token 激活的參數。這一量度決定了訓練成本(FLOPs)。
      • :不激活的參數,表示可用于擴大模型大小而不增加計算成本的「自由」參數預算(例如未選擇的專家或未檢索的嵌入)。



      DeepSeek 在每個 FLOPs 預算內保持 P_tot 和 P_act 固定,這樣模型具有相同數量的參數和相同的每 token FLOPs。對于 MoE,P_act 由選定的 top-k 專家決定,而未選擇的專家的參數貢獻給 P_sparse。對于 Engram,每個 token 只檢索固定數量的槽(slots),因此增加嵌入槽的數量會增加 P_tot,但不會增加每 token 的 FLOPs。



      其次是「在無限內存模式下的 Engram」。在固定參數預算下優化分配之外,DeepSeek 探索了互補的設置:激進的內存擴展。這個研究的動機來自于 Engram 獨特的能力,能夠將存儲與計算解耦。

      DeepSeek 使用一個固定的 MoE 主干,具有 P_tot ≈ 3B 和 P_act = 568M,并訓練了 100B 個 token 以確保收斂。在此基礎上附加了一個 Engram 表,并調整了槽的數量 M 從 2.58 × 10? 到 1.0 × 10?(增加最多約 13 億參數)。

      下圖 3(左)揭示了驗證損失與分配比例 之間一致的 U 形關系。值得注意的是,即使 MoE 分配減少到僅 ≈ 40%(即 5.7B 模型為 46 個專家,9.9B 模型為 43 個專家),Engram 模型仍然達到了與純 MoE 基準( = 100%)相當的性能。

      此外,純 MoE 基準證明是次優的:將大約 20%-25% 的稀疏參數預算重新分配給 Engram 獲得最佳性能。定量分析中,在 10B 范圍內( = 6 × 102?),驗證損失從 1.7248( = 100%)改善到 1.7109,接近 ≈ 80% 時的最優值(Δ = 0.0139)。值得注意的是,這一最優點的位置在不同的范圍內穩定( ≈ 75%-80%),表明在固定稀疏性下,各個規模之間有一個穩健的分配偏好。這一觀察到的 U 形確認了兩種模塊之間的結構互補性。

      圖 3(右)展示了增加內存槽數量會顯著改善驗證損失,并且這一改進在整個范圍內持續穩定。該曲線遵循嚴格的冪律(在對數空間中線性),這表明 Engram 提供了一個可預測的擴展旋鈕:更大的內存在不需要額外計算的情況下繼續帶來收益。

      關鍵一點是,在擴展效率方面:雖然 OverEncoding 通過更大的內存表受益,但 Engram 在相同的內存預算下釋放了更大的擴展潛力。

      結合分配規律來看,這些結果驗證了條件記憶作為稀疏容量的獨立、可擴展軸的作用,它補充了 MoE 的條件計算



      實驗結果

      通過提出的 Engram 架構以及經驗推導出的分配法則,DeepSeek 將 Engram 擴展至數十億參數規模,以驗證其在真實語言模型預訓練中的有效性。

      總共訓練了以下四種模型:

      • Dense-4B(總參數量 41 億),
      • MoE-27B(總參數量 267 億),
      • Engram-27B(總參數量 267 億),
      • 以及 Engram-40B(總參數量 395 億)。

      所有模型均采用完全相同的數據訓練流程(相同的 token 預算及順序),且在激活參數量上嚴格匹配。

      關于實驗設置,所有模型均在包含 2620 億 token 的語料庫上進行預訓練,并采用了 DeepSeek-v3 的分詞器,其詞表大小為 128k。DeepSeek 在涵蓋語言建模、知識、推理、閱讀理解以及代碼 / 數學的多樣化基準測試集上對模型進行評估。對于每項基準測試,均遵循標準的提示詞協議和評估指標。

      先來看大規模預訓練的實驗結果,如下表 1 所示,稀疏架構展示了比密集模型更優的擴展規律

      在相同的訓練計算預算下,所有三種稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中顯著超越了 iso-FLOPs 的 Dense-4B 基準。

      更重要的是,Engram-27B 在 iso - 參數和 iso-FLOPs 的 MoE-27B 基準上持續取得改進。有趣的是,這些提升并不限于知識密集型任務(例如,MMLU: +3.0,MMLU-Pro: +1.8,CMMLU: +4.0),在這些任務中,內存容量直觀上是有益的。此外還觀察到,在一般推理領域(例如,BBH: +5.0,ARC-Challenge: +3.7,DROP: +3.3)以及代碼和數學推理任務(例如,HumanEval: +3.0,MBPP: +1.6,GSM8K: +2.2,MATH: +2.4)中,改進更加顯著。

      擴展到 Engram-40B 進一步減少了預訓練損失,并提高了大多數基準測試的性能。盡管它尚未在每個任務上嚴格超越 Engram-27B,但這可能是由于訓練不足的結果。此外,Engram-40B 與基準模型之間的訓練損失差距在訓練結束時繼續擴大,表明擴展的內存容量尚未在當前的 token 預算內完全飽和。



      接下來是長上下文訓練。通過將局部依賴建模卸載至靜態查找,Engram 架構為處理全局上下文保留了寶貴的注意力容量。DeepSeek 通過進行長文本擴展訓練,對這一結構性優勢進行了實驗驗證。通過采用嚴密的評估協議,將架構設計帶來的貢獻與基礎模型本身的能力剝離開來,證明了 Engram 在長程檢索和推理任務中帶來了顯著的性能增益。

      DeepSeek 首先解耦基礎模型能力與架構設計之間的影響,其次進行受控對照分析,結果如下表 2 所示,主要得出了以下兩個結論:

      一是超越注意力機制的長文本能力

      雖然注意力機制和位置編碼為上下文處理提供了結構基礎,但實驗結果表明,長文本性能并非僅由架構先驗決定。通過觀察 Engram 的演進軌跡(從 41k 步到 50k 步),即使在控制相同模型架構和固定長文本擴展階段計算預算的前提下,長文本性能仍隨預訓練進程單調提升。這表明長文本性能與基礎模型的通用建模能力存在內在耦合。因此,嚴謹的架構對比必須通過對齊「基礎模型損失(Loss)」而非僅僅對齊「訓練步數」來控制這一混淆變量。

      二是受控設置下的架構優越性

      基于上述原則,DeepSeek 將 Engram 與 MoE 基準模型進行了對比測試。在控制基礎能力的前提下,Engram 模塊的效率增益變得十分顯著:

      • 等損耗設置(Iso-Loss Setting,41k 步 vs. 基準):該設置嚴格分離了架構效率的影響。當對比 Engram-27B(46k 步)與完整訓練的 MoE-27B(50k 步),即預訓練損失完全對齊的兩個模型時,Engram 表現出顯著增益。具體而言,它在復雜檢索任務中大幅超越基準模型(例如,多查詢「大海撈針」 NIAH:97.0 vs. 84.2;變量跟蹤 VT:87.2 vs. 77.0)。
      • 等計算量設置(Iso-FLOPs Setting,50k 步 vs. 基準):在標準的等計算預算下,Engram-27B(50k 步)進一步拉大了差距,在所有指標上均實現了頂尖性能。
      • 極端設置(約 82% 計算量):即使是提前停止訓練的 Engram-27B(41k 步),在面對完整訓練的 MoE-27B(50k 步)時依然極具競爭力。它在 LongPPL 指標上與基準持平,并在 RULER 測試中實現超越,這充分證明了 Engram 架構的內在優越性。



      最后,下圖 4 是對表示對齊與收斂速度的分析。(a) 基于 LogitLens 的逐層 KL 散度分析。在模型淺層,KL 散度持續保持在較低水平,這表明 Engram 加速了預測的收斂。(b-c) 為基于 CKA 計算的相似度熱力圖。高相似度對角線顯著的向上偏移表明,Engram 的淺層在功能上等效于 MoE 模型的深層,從而有效地增加了模型的深度。



      更多細節請參考原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄭麗文做對4件事反將賴清德一軍,蔡正元或迎轉機

      鄭麗文做對4件事反將賴清德一軍,蔡正元或迎轉機

      野史日記
      2026-01-12 10:20:07
      一錘在錘!檀健次戀情升級,女方再放猛料,這次恐徹底涼涼

      一錘在錘!檀健次戀情升級,女方再放猛料,這次恐徹底涼涼

      青橘罐頭
      2026-01-11 11:40:45
      為河北農民取暖發聲是順應天理人心!農民日報不該刪稿

      為河北農民取暖發聲是順應天理人心!農民日報不該刪稿

      灰白筆記
      2026-01-08 12:40:29
      阿隆索下課原因曝光:拒絕老佛爺用人決定+超級杯丟冠

      阿隆索下課原因曝光:拒絕老佛爺用人決定+超級杯丟冠

      愛奇藝體育
      2026-01-13 11:16:33
      海歸光環徹底消失?49.5萬留學生涌回國,殘酷真相:企業只認這個

      海歸光環徹底消失?49.5萬留學生涌回國,殘酷真相:企業只認這個

      南權先生
      2025-12-23 16:16:33
      今年起公司給個人支付勞務費,需代扣代繳增值稅

      今年起公司給個人支付勞務費,需代扣代繳增值稅

      極目新聞
      2026-01-12 20:46:55
      揭秘四大長壽食物,玉米第三,第一名便宜卻很少有人愛。

      揭秘四大長壽食物,玉米第三,第一名便宜卻很少有人愛。

      阿天愛旅行
      2026-01-12 04:51:36
      勇士4換1方案正式報價小波特,但籃網暫未松口,仍想換回2個首輪

      勇士4換1方案正式報價小波特,但籃網暫未松口,仍想換回2個首輪

      移動擋拆
      2026-01-13 07:27:47
      官宣,伊藤美誠媽媽亮相新崗位,日本隊批準,曾給莎莎做飯團

      官宣,伊藤美誠媽媽亮相新崗位,日本隊批準,曾給莎莎做飯團

      樂聊球
      2026-01-07 11:19:44
      上海最新“28條”服務業舉措解讀:抓住消費市場結構轉變的關鍵時期

      上海最新“28條”服務業舉措解讀:抓住消費市場結構轉變的關鍵時期

      界面新聞
      2026-01-13 11:11:08
      錢再多有什么用,64歲郎平如今的現狀,給所有運動員們提了個醒

      錢再多有什么用,64歲郎平如今的現狀,給所有運動員們提了個醒

      削桐作琴
      2025-12-10 16:53:18
      道歉不到24小時,閆學晶再迎三大噩耗,她兒子可能30萬都賺不到了

      道歉不到24小時,閆學晶再迎三大噩耗,她兒子可能30萬都賺不到了

      夜深愛雜談
      2026-01-12 13:54:48
      衣服粘毛還買滾筒?只用一個塑料瓶,就能快速去除毛絮,漲知識了

      衣服粘毛還買滾筒?只用一個塑料瓶,就能快速去除毛絮,漲知識了

      妙招酷
      2026-01-10 23:53:43
      “電腦不賣、貨架不賣、電視不賣”,即將關閉的宜家門店多個貨架售罄,客服稱不再補貨

      “電腦不賣、貨架不賣、電視不賣”,即將關閉的宜家門店多個貨架售罄,客服稱不再補貨

      洪觀新聞
      2026-01-12 15:51:02
      14年后,再看“京城四少”的現狀,才明白娶一個好老婆有多重要

      14年后,再看“京城四少”的現狀,才明白娶一個好老婆有多重要

      豐譚筆錄
      2026-01-13 07:20:11
      1988年他一張單程機票飛到香港,35年后以燒炭自盡的方式結束生命

      1988年他一張單程機票飛到香港,35年后以燒炭自盡的方式結束生命

      小莜讀史
      2026-01-12 12:20:16
      特朗普取打擊伊朗匯報,美國對伊朗的打擊可能隨時開始

      特朗普取打擊伊朗匯報,美國對伊朗的打擊可能隨時開始

      邵旭峰域
      2026-01-12 17:57:06
      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      古事尋蹤記
      2026-01-13 07:10:23
      鄭爽整容失敗變大媽?避談整容質疑,哭訴自己生活不好,只想要活路

      鄭爽整容失敗變大媽?避談整容質疑,哭訴自己生活不好,只想要活路

      八卦王者
      2026-01-13 09:30:09
      春節檔最大黑馬預定!吳京《鏢人》狠到顛覆武俠,李連杰復出拼到發抖

      春節檔最大黑馬預定!吳京《鏢人》狠到顛覆武俠,李連杰復出拼到發抖

      小椰的奶奶
      2026-01-13 11:48:09
      2026-01-13 12:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12104文章數 142535關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      業主花400多萬買新房:還沒交付 半年資產縮水百萬

      頭條要聞

      業主花400多萬買新房:還沒交付 半年資產縮水百萬

      體育要聞

      阿隆索得知下課后先是驚訝 然后表示如釋重負

      娛樂要聞

      周杰倫以球員身份參加澳網,C位海報公開

      財經要聞

      中國一口氣申報20萬顆衛星,意味著什么?

      汽車要聞

      吉利持續加碼億咖通 智能化海外布局提速

      態度原創

      教育
      健康
      時尚
      游戲
      軍事航空

      教育要聞

      哈爾濱中考體育統一測試在即,考生該選啥項目?家長如何準備?

      血常規3項異常,是身體警報!

      走過那個夏天,甜茶終于站上金球獎之巔

      《PEAK》開發商稱自家游戲定價完美拿捏玩家心理

      軍事要聞

      官方確認:殲10CE在空戰中擊落多架戰機

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品高清国产一久久| 99热色| 无码人妻一区二区三区免费n鬼沢| 国产精品天干天干综合网| 在线视频一区二区三区不卡| 中国老熟女重囗味hdxx| 99精品在线观看| 亚洲成人精| 久久久人妻| 亚洲第一视频网站| 性夜夜春夜夜爽夜夜免费视频| 好男人视频免费| 美女网站免费福利视频| av毛片亚洲精品观看| 成人午夜国产内射主播| 美女秘密91| 最新av播放| 日韩精品一日韩激情内射高潮,97无…| 欧美成人精品三级网站视频| 精品一区二区三区四区五区| 亚洲国产精品一区二区WWW| 国产日韩av在线播放| 久久综合给合久久97色| 亚洲综合网国产精品一区| 1024无码| 精品国产av无码一区二区三区| AV天堂免费观看| 欧洲天堂网| 无码人妻精品一区二区三区蜜臀百度| 日韩一卡2卡3卡4卡新区亚洲| 亚洲欧美日韩综合久久| 无码熟妇人妻AV影音先锋| www成人国产高清内射| 日韩亚洲中文图片小说| 久久久不卡国产精品一区二区| 欧美国产三级| 国精品99久9在线 | 免费| 国产avav| 精品国产日韩亚洲一区| 福利在线视频导航| 亚洲a成人片在线观看|