<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,梁文鋒署名開源「記憶」模塊,DeepSeek V4更細節了

      0
      分享至



      機器之心編輯部

      就在十幾個小時前,DeepSeek 發布了一篇新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,與北京大學合作完成,作者中同樣有梁文鋒署名。



      • 論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      簡單總結一波這項新研究要解決的問題:目前大語言模型主要通過混合專家(MoE)來實現稀疏化,這被稱為「條件計算」。但是,現有的 Transformer 缺少原生的知識查找機制,只能被迫通過計算過程低效地模擬檢索行為。

      針對這一現狀,DeepSeek 提出了條件記憶(conditional memory),從而與 MoE 的條件計算互補,并通過引入一個新模塊 Engram 來實現

      目前,模塊「Engram」相關的實現已經上傳到了 GitHub。



      項目地址:https://github.com/deepseek-ai/Engram

      這讓網友們感慨:「DeepSeek is back!」



      此外,結合元旦期間公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我們可以明確的是 DeepSeek v4 的模樣愈發清晰,就等上新了!

      除了條件計算(MoE),

      LLM 還需要一個獨立的條件記憶 Engram

      MoE 模型通過條件計算實現了模型容量的擴展,但現有的 Transformer 架構缺乏原生的知識查找原語,只能通過計算過程低效地模擬檢索行為。

      為了解決這一問題,DeepSeek 提出了條件記憶(conditional memory)這一與條件計算互補的稀疏化維度,并通過 Engram 模塊加以實現。Engram 在經典 -gram 嵌入的基礎上進行了現代化改造,使其能夠以 O (1) 時間復雜度完成知識查找。

      通過形式化提出稀疏性分配問題,DeepSeek 還發現了一條呈 U 型的擴展規律,用以刻畫神經計算(MoE)與靜態記憶(Engram)之間的最優權衡關系。

      在這一規律的指導下,DeepSeek 將 Engram 擴展至 270 億參數規模,并在嚴格等參數量、等 FLOPs 的條件下,其整體性能顯著優于純 MoE 基線模型

      尤為值得注意的是,盡管記憶模塊本身主要被用于提升知識檢索能力(如 MMLU 提升 +3.4、CMMLU 提升 +4.0),但 DeepSeek 觀察到其在通用推理能力(如 BBH 提升 +5.0、ARC-Challenge 提升 +3.7)以及代碼與數學推理任務(HumanEval 提升 +3.0、MATH 提升 +2.4)上帶來了更為顯著的增益。

      進一步的分析表明,Engram 能夠將靜態知識的重建負擔從模型的淺層中剝離出來,從而有效加深網絡用于復雜推理的有效深度。此外,通過將局部依賴關系交由查表機制處理,Engram 釋放了注意力機制的容量,使其能夠更專注于全局上下文建模,從而顯著提升了長上下文檢索能力(例如 Multi-Query NIAH 的準確率從 84.2 提升至 97.0)。

      最后,Engram 在系統層面同樣展現出基礎設施感知的高效性:其確定性的尋址方式支持在運行時從主機內存進行預取,幾乎不會帶來額外的性能開銷。

      DeepSeek 認為,條件記憶將成為下一代稀疏大模型中不可或缺的核心建模原語

      Engram 架構如下,其設計目標是在結構上將靜態模式存儲與動態計算過程從 Transformer 主干網絡中分離出來,從而對其進行增強。該模塊對序列中每一個位置依次執行兩個功能階段:檢索與融合。



      在運行過程中,DeepSeek 首先對當前位置的后綴 N-gram 進行提取與壓縮,并通過哈希機制以確定性的方式檢索對應的靜態嵌入向量。隨后,這些被檢索到的嵌入會在當前隱藏狀態的調制下進行動態調整,并進一步通過一個輕量級卷積操作加以精煉。最后,Engram 與多分支架構進行集成。

      基于哈希 -gram 的稀疏檢索

      這一階段的目標是將局部上下文映射到靜態記憶條目,這一過程主要包括分詞器壓縮以及通過確定性哈希機制來檢索對應的嵌入表示。

      分詞器壓縮:為了最大化記憶單元的語義密度,DeepSeek 引入了一層詞表投影(vocabulary projection)。為此,他們預先設計了一個映射函數,其將原始 token ID 映射為基于文本規范化等價關系(例如使用 NFKC 規范化、統一大小寫等)得到的規范化標識符(canonical identifiers)。在實際應用中,對于一個規模為 128k 的分詞器,該過程能夠將有效詞表規模縮減約 23%(詳見附錄 C)。



      多頭哈希:直接對所有可能的 N-gram 組合空間進行參數化在計算和存儲上都是不可行的。借鑒 Tito Svenstrup 等(2017)的工作,DeepSeek 采用了一種基于哈希的近似方法。為了降低哈希沖突的影響,對于每一種 N-gram 階數 n,引入 K 個相互獨立的哈希頭。

      上下文感知門控

      前一階段通過哈希 -gram 從條件記憶中檢索得到的嵌入向量,本質上提供的是一種與具體語境無關的靜態先驗信息。然而,正因為其靜態屬性,這些嵌入缺乏對當前上下文的自適應能力,并且在實際應用中可能受到哈希沖突或詞項多義性帶來的噪聲干擾。

      為此,DeepSeek 在檢索之后引入了一種上下文感知的門控機制,其設計靈感來源于注意力機制。

      系統效率:計算與存儲的解耦

      在帶有記憶機制的模型中,規模擴展往往受到 GPU 高帶寬顯存(HBM)容量有限的制約。然而,Engram 所采用的確定性檢索機制天然支持將參數存儲與計算資源進行解耦。不同于 MoE 依賴運行時隱藏狀態進行動態路由,Engram 的檢索索引完全由輸入 token 序列決定。這種可預測性使得針對訓練與推理階段的專門優化策略成為可能,如圖 2 所示。



      在訓練階段,為容納大規模嵌入表,DeepSeek 采用標準的模型并行方案,將嵌入表分片分布在多張 GPU 上。在前向傳播過程中,通過 All-to-All 通信原語收集被激活的嵌入行;在反向傳播階段,則將對應梯度分發回各個分片,從而使總可用記憶容量能夠隨加速器數量線性擴展。

      在推理階段,這種確定性特性進一步支持一種預取–重疊(prefetch-and-overlap)策略。由于在前向計算開始之前即可確定所需訪問的記憶索引,系統能夠通過 PCIe 從容量充足的主機內存中異步地預取嵌入向量。為有效掩蔽通信帶來的延遲,Engram 模塊被放置在主干網絡中的特定層級,利用其前序 Transformer 層的計算作為緩沖,從而避免 GPU 計算停頓。

      這也要求一種硬件 — 算法協同設計(hardware–algorithm co-design):一方面,將 Engram 放置得更深可以拉長用于隱藏通信延遲的計算窗口;另一方面,從建模效果來看,較早地介入以卸載局部模式的重建更為有利。因此,Engram 的最優插入位置必須同時滿足建模性能與系統時延兩方面的約束。

      此外,自然語言中的 -gram 天然遵循 Zipfian 分布,即少量高頻模式貢獻了絕大多數的記憶訪問。這一統計特性啟發研究者可以構建一種多級緩存層次結構(Multi-Level Cache Hierarchy):將高頻訪問的嵌入緩存于更快的存儲介質中(如 GPU HBM 或主機 DRAM),而將大量低頻的長尾模式存放在容量更大但速度較慢的存儲介質中(如 NVMe SSD)。這種分層設計使 Engram 能夠擴展到極大規模的記憶容量,同時對有效訪問延遲的影響保持在最低水平。

      U 型擴展規律與稀疏性分配

      作為「條件記憶」的一種具體實現,Engram 在結構上與 MoE 專家提供的「條件計算」形成了互補。本節旨在探究這種二元特性(Duality)的擴展屬性,以及如何最優地分配稀疏容量。

      具體而言,本項研究由兩個核心問題驅動:

      • 有限約束下的分配:在總參數量和訓練計算量固定(即等參數、等 FLOPs)的情況下,應該如何在 MoE 專家與 Engram 嵌入之間劃分稀疏容量?
      • 無限記憶范式:考慮到 Engram 具有不隨規模增長(Non-scaling)的查找開銷,如果放寬記憶預算或進行激進擴展,Engram 自身會表現出怎樣的擴展行為?

      首先來看MoE 與 Engram 之間的最優分配比例。在計算匹配公式時,DeepSeek 使用以下三個參數度量來分析這個權衡:

      • P_tot:總的可訓練參數,不包括詞匯嵌入和語言模型頭。
      • P_act:每個 token 激活的參數。這一量度決定了訓練成本(FLOPs)。
      • :不激活的參數,表示可用于擴大模型大小而不增加計算成本的「自由」參數預算(例如未選擇的專家或未檢索的嵌入)。



      DeepSeek 在每個 FLOPs 預算內保持 P_tot 和 P_act 固定,這樣模型具有相同數量的參數和相同的每 token FLOPs。對于 MoE,P_act 由選定的 top-k 專家決定,而未選擇的專家的參數貢獻給 P_sparse。對于 Engram,每個 token 只檢索固定數量的槽(slots),因此增加嵌入槽的數量會增加 P_tot,但不會增加每 token 的 FLOPs。



      其次是「在無限內存模式下的 Engram」。在固定參數預算下優化分配之外,DeepSeek 探索了互補的設置:激進的內存擴展。這個研究的動機來自于 Engram 獨特的能力,能夠將存儲與計算解耦。

      DeepSeek 使用一個固定的 MoE 主干,具有 P_tot ≈ 3B 和 P_act = 568M,并訓練了 100B 個 token 以確保收斂。在此基礎上附加了一個 Engram 表,并調整了槽的數量 M 從 2.58 × 10? 到 1.0 × 10?(增加最多約 13 億參數)。

      下圖 3(左)揭示了驗證損失與分配比例 之間一致的 U 形關系。值得注意的是,即使 MoE 分配減少到僅 ≈ 40%(即 5.7B 模型為 46 個專家,9.9B 模型為 43 個專家),Engram 模型仍然達到了與純 MoE 基準( = 100%)相當的性能。

      此外,純 MoE 基準證明是次優的:將大約 20%-25% 的稀疏參數預算重新分配給 Engram 獲得最佳性能。定量分析中,在 10B 范圍內( = 6 × 102?),驗證損失從 1.7248( = 100%)改善到 1.7109,接近 ≈ 80% 時的最優值(Δ = 0.0139)。值得注意的是,這一最優點的位置在不同的范圍內穩定( ≈ 75%-80%),表明在固定稀疏性下,各個規模之間有一個穩健的分配偏好。這一觀察到的 U 形確認了兩種模塊之間的結構互補性。

      圖 3(右)展示了增加內存槽數量會顯著改善驗證損失,并且這一改進在整個范圍內持續穩定。該曲線遵循嚴格的冪律(在對數空間中線性),這表明 Engram 提供了一個可預測的擴展旋鈕:更大的內存在不需要額外計算的情況下繼續帶來收益。

      關鍵一點是,在擴展效率方面:雖然 OverEncoding 通過更大的內存表受益,但 Engram 在相同的內存預算下釋放了更大的擴展潛力。

      結合分配規律來看,這些結果驗證了條件記憶作為稀疏容量的獨立、可擴展軸的作用,它補充了 MoE 的條件計算



      實驗結果

      通過提出的 Engram 架構以及經驗推導出的分配法則,DeepSeek 將 Engram 擴展至數十億參數規模,以驗證其在真實語言模型預訓練中的有效性。

      總共訓練了以下四種模型:

      • Dense-4B(總參數量 41 億),
      • MoE-27B(總參數量 267 億),
      • Engram-27B(總參數量 267 億),
      • 以及 Engram-40B(總參數量 395 億)。

      所有模型均采用完全相同的數據訓練流程(相同的 token 預算及順序),且在激活參數量上嚴格匹配。

      關于實驗設置,所有模型均在包含 2620 億 token 的語料庫上進行預訓練,并采用了 DeepSeek-v3 的分詞器,其詞表大小為 128k。DeepSeek 在涵蓋語言建模、知識、推理、閱讀理解以及代碼 / 數學的多樣化基準測試集上對模型進行評估。對于每項基準測試,均遵循標準的提示詞協議和評估指標。

      先來看大規模預訓練的實驗結果,如下表 1 所示,稀疏架構展示了比密集模型更優的擴展規律

      在相同的訓練計算預算下,所有三種稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中顯著超越了 iso-FLOPs 的 Dense-4B 基準。

      更重要的是,Engram-27B 在 iso - 參數和 iso-FLOPs 的 MoE-27B 基準上持續取得改進。有趣的是,這些提升并不限于知識密集型任務(例如,MMLU: +3.0,MMLU-Pro: +1.8,CMMLU: +4.0),在這些任務中,內存容量直觀上是有益的。此外還觀察到,在一般推理領域(例如,BBH: +5.0,ARC-Challenge: +3.7,DROP: +3.3)以及代碼和數學推理任務(例如,HumanEval: +3.0,MBPP: +1.6,GSM8K: +2.2,MATH: +2.4)中,改進更加顯著。

      擴展到 Engram-40B 進一步減少了預訓練損失,并提高了大多數基準測試的性能。盡管它尚未在每個任務上嚴格超越 Engram-27B,但這可能是由于訓練不足的結果。此外,Engram-40B 與基準模型之間的訓練損失差距在訓練結束時繼續擴大,表明擴展的內存容量尚未在當前的 token 預算內完全飽和。



      接下來是長上下文訓練。通過將局部依賴建模卸載至靜態查找,Engram 架構為處理全局上下文保留了寶貴的注意力容量。DeepSeek 通過進行長文本擴展訓練,對這一結構性優勢進行了實驗驗證。通過采用嚴密的評估協議,將架構設計帶來的貢獻與基礎模型本身的能力剝離開來,證明了 Engram 在長程檢索和推理任務中帶來了顯著的性能增益。

      DeepSeek 首先解耦基礎模型能力與架構設計之間的影響,其次進行受控對照分析,結果如下表 2 所示,主要得出了以下兩個結論:

      一是超越注意力機制的長文本能力

      雖然注意力機制和位置編碼為上下文處理提供了結構基礎,但實驗結果表明,長文本性能并非僅由架構先驗決定。通過觀察 Engram 的演進軌跡(從 41k 步到 50k 步),即使在控制相同模型架構和固定長文本擴展階段計算預算的前提下,長文本性能仍隨預訓練進程單調提升。這表明長文本性能與基礎模型的通用建模能力存在內在耦合。因此,嚴謹的架構對比必須通過對齊「基礎模型損失(Loss)」而非僅僅對齊「訓練步數」來控制這一混淆變量。

      二是受控設置下的架構優越性

      基于上述原則,DeepSeek 將 Engram 與 MoE 基準模型進行了對比測試。在控制基礎能力的前提下,Engram 模塊的效率增益變得十分顯著:

      • 等損耗設置(Iso-Loss Setting,41k 步 vs. 基準):該設置嚴格分離了架構效率的影響。當對比 Engram-27B(46k 步)與完整訓練的 MoE-27B(50k 步),即預訓練損失完全對齊的兩個模型時,Engram 表現出顯著增益。具體而言,它在復雜檢索任務中大幅超越基準模型(例如,多查詢「大海撈針」 NIAH:97.0 vs. 84.2;變量跟蹤 VT:87.2 vs. 77.0)。
      • 等計算量設置(Iso-FLOPs Setting,50k 步 vs. 基準):在標準的等計算預算下,Engram-27B(50k 步)進一步拉大了差距,在所有指標上均實現了頂尖性能。
      • 極端設置(約 82% 計算量):即使是提前停止訓練的 Engram-27B(41k 步),在面對完整訓練的 MoE-27B(50k 步)時依然極具競爭力。它在 LongPPL 指標上與基準持平,并在 RULER 測試中實現超越,這充分證明了 Engram 架構的內在優越性。



      最后,下圖 4 是對表示對齊與收斂速度的分析。(a) 基于 LogitLens 的逐層 KL 散度分析。在模型淺層,KL 散度持續保持在較低水平,這表明 Engram 加速了預測的收斂。(b-c) 為基于 CKA 計算的相似度熱力圖。高相似度對角線顯著的向上偏移表明,Engram 的淺層在功能上等效于 MoE 模型的深層,從而有效地增加了模型的深度。



      更多細節請參考原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      報道稱:伊朗抗議期間或已有超過1.2萬人死亡,他們在等什么?

      報道稱:伊朗抗議期間或已有超過1.2萬人死亡,他們在等什么?

      以色列計劃Pro
      2026-01-13 20:36:55
      伊朗軍隊司令:伊朗作戰能力較以伊沖突前明顯增強

      伊朗軍隊司令:伊朗作戰能力較以伊沖突前明顯增強

      界面新聞
      2026-01-13 22:39:59
      博爾特現狀:退役8年生3娃,每年領400萬美元,39歲上樓都能喘氣

      博爾特現狀:退役8年生3娃,每年領400萬美元,39歲上樓都能喘氣

      削桐作琴
      2025-12-25 17:32:09
      商業航天概念跌麻了,火箭失利只是導火索,只等散戶進場接盤站崗

      商業航天概念跌麻了,火箭失利只是導火索,只等散戶進場接盤站崗

      眼光很亮
      2026-01-13 17:20:07
      是否建議中國公民前往伊朗旅游?外交部回應

      是否建議中國公民前往伊朗旅游?外交部回應

      北青網-北京青年報
      2026-01-13 15:35:16
      零負債人群,要小心了

      零負債人群,要小心了

      畫生筆記
      2026-01-13 09:11:56
      00后“肥美”女神!新秀Top級,溫柔顧家超耐看

      00后“肥美”女神!新秀Top級,溫柔顧家超耐看

      素然追光
      2025-11-28 00:53:11
      隨著韓國0-2,伊朗0-1,U23亞洲杯最新積分榜:日本+越南頭名出線

      隨著韓國0-2,伊朗0-1,U23亞洲杯最新積分榜:日本+越南頭名出線

      侃球熊弟
      2026-01-13 21:42:45
      中方沒有猜錯,日本孤注一擲對俄喊話,自衛隊前途不能被中國堵死

      中方沒有猜錯,日本孤注一擲對俄喊話,自衛隊前途不能被中國堵死

      兵說
      2026-01-13 22:26:10
      劉震云:當有一天,你發現周圍的人變得客氣了,是你的實力變強了

      劉震云:當有一天,你發現周圍的人變得客氣了,是你的實力變強了

      清風拂心
      2025-12-20 19:02:55
      上千網友到合川幫女孩殺豬,車子從村頭停到了村尾,主廚:這么多張嘴掛身上,壓力太大了

      上千網友到合川幫女孩殺豬,車子從村頭停到了村尾,主廚:這么多張嘴掛身上,壓力太大了

      極目新聞
      2026-01-12 13:44:34
      文旅部門回應“貴州省博老館29件套文物丟失或被盜”:有備案可查,正梳理將通報

      文旅部門回應“貴州省博老館29件套文物丟失或被盜”:有備案可查,正梳理將通報

      紅星新聞
      2026-01-13 12:18:08
      申花再官宣外援!14場0球前鋒加盟,阿馬杜或踢完亞冠后離隊

      申花再官宣外援!14場0球前鋒加盟,阿馬杜或踢完亞冠后離隊

      中超偽球迷
      2026-01-13 21:45:12
      比芯片更致命!中國的白糖命脈竟靠國外進口,甜菜種子被卡脖子?

      比芯片更致命!中國的白糖命脈竟靠國外進口,甜菜種子被卡脖子?

      命運自認幽默
      2026-01-13 16:29:43
      以色列的未來國運,將比加沙凄慘一萬倍

      以色列的未來國運,將比加沙凄慘一萬倍

      農夫史記
      2026-01-12 20:34:46
      王者歸來!新機官宣:2月25日,正式發布登場!

      王者歸來!新機官宣:2月25日,正式發布登場!

      科技堡壘
      2026-01-11 11:45:36
      退休10年后被查的“老虎”:8萬元入股張家界大峽谷,退居“二線”后獲利數千萬元

      退休10年后被查的“老虎”:8萬元入股張家界大峽谷,退居“二線”后獲利數千萬元

      上觀新聞
      2026-01-13 13:04:18
      為什么英國仍然被認為是世界強國?

      為什么英國仍然被認為是世界強國?

      霹靂炮
      2026-01-06 22:38:17
      震驚!山東男籃大換血,邱彪讓位,高詩巖能否逆襲?

      震驚!山東男籃大換血,邱彪讓位,高詩巖能否逆襲?

      魯源侃球
      2026-01-13 06:00:03
      身陷險境!廣東兩名女子跟隨驢友群8人徒步,因體力不支被棄荒野

      身陷險境!廣東兩名女子跟隨驢友群8人徒步,因體力不支被棄荒野

      半島晨報
      2026-01-13 11:04:18
      2026-01-13 23:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12110文章數 142535關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      員工被辭退索賠89萬遭公司反訴索賠214萬 歷時2年判了

      頭條要聞

      員工被辭退索賠89萬遭公司反訴索賠214萬 歷時2年判了

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      蔡卓妍承認新戀情,與男友林俊賢感情穩定

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      游戲
      教育
      親子
      家居
      時尚

      育碧《星戰》現已加入XGP!爭議之作你會試試嗎?

      教育要聞

      最慘英國大學!

      親子要聞

      9歲娃提書包夜闖高速!作業不該是親子戰場

      家居要聞

      現代簡逸 尋找生活的光

      比大衣更高級,比羽絨服更時髦?它才是今年冬天最火的外套!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人妻资源网| 黑人无码视频| 农村欧美丰满熟妇xxxx| 色~性~乱~伦~噜| 久久亚洲精品中文字幕| 亚洲男人av香蕉爽爽爽爽| 男人的天堂av一二三区| 亚洲成人在线一区二区三区| 东山县| 在线aⅴ亚洲中文字幕| 亚洲av国产成人精品区| 非会员区试看120秒6次| 国产97在线 | 免费| 大肉大捧一进一出好爽视频mba| 精品无码a久久| 天堂av亚洲一区二区| 各种少妇正面着bbw撒尿视频| 集贤县| 麻豆国产va免费精品高清在线| 日本中文字幕乱码免费| 制服丝袜无码| 熟女一区| 乱人伦人妻精品一区二区| 成人做爰www网站视频| 亚洲无码天堂| 无码熟妇人妻AV影音先锋| 女同综合网| 亚洲一区二区av| 亚洲成人黄色| 中文区中文字幕免费看| jizz网站| 影音先锋女人aV鲁色资源网站 | 欧洲成人综合| 国产黄片视频在线观看| 久久精品女人天堂aaa| 一本久道久久综合无码中文| 中文字幕人妻宗合另类| 亚洲青青草视频免费观看| 午夜无码人妻A∨大片| 99啪啪| 成全我在线观看免费第二季|