<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

      0
      分享至

      今日凌晨,DeepSeek 在 GitHub 上發布了一項代號為“Engram”的最新研究成果,并同步上傳了題為Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可擴展查找的條件記憶:大語言模型稀疏性的新維度)的學術論文。


      (來源:GitHub)

      這篇由梁文鋒、DeepSeek 研究團隊與北京大學聯合署名的論文,一經發表就引發了廣泛討論。

      此次研究帶來了一項突破:在業界廣泛采用的“混合專家模型”(MoE)之外,DeepSeek 開辟了第二條提升模型效率的路徑——“條件記憶”(Conditional Memory)。如果說 MoE 解決了“如何高效計算”的問題,那么新提出的 Engram 架構則試圖解決“如何高效存儲與提取知識”的難題。

      在此前的 DeepSeek-V2 和 V3 取得巨大成功后,基于 Transformer 的 MoE 架構已成為最具代表性、應用最廣泛的稀疏化方案之一。MoE 通過“條件計算”(Conditional Computation)機制,即在處理每個詞元(Token)時僅激活模型參數的一小部分,成功打破了模型規模與推理成本之間的線性約束。

      然而,DeepSeek 研究團隊指出,盡管 MoE 極大地優化了計算效率,在當前以注意力與前饋網絡為核心的 Transformer 范式下,模型并不具備顯式、可尋址的知識查找機制。

      在現有的架構中,模型記憶知識的方式是隱式的。當模型需要回答“法國的首都是哪里”時,它無法像人類查閱字典那樣直接檢索出“巴黎”這個詞,而是需要通過多層注意力機制(Attention)和前饋神經網絡(FFN)進行復雜的矩陣運算,實際上是在通過計算來模擬檢索過程。

      這種機制造成了巨大的資源浪費:模型不得不動用寶貴的推理算力去“死記硬背”大量固定的事實性知識(如人名、地名、固定搭配等),這不僅效率低下,還擠占了模型處理復雜邏輯推理的“腦容量”。


      (來源:Nano Banana Pro)

      針對這一點,DeepSeek 提出了“條件記憶”的概念,并設計了實體模塊 Engram 來加以實現。Engram 的設計靈感源自自然語言處理(NLP)領域經典的 N-gram(N 元語法)模型,但在深度學習語境下進行了現代化改造。傳統的 N-gram 依靠統計詞匯共現頻率來預測下一個詞,而 Engram 則將其轉化為一種可學習的、基于哈希(Hash)的向量檢索系統。


      圖 | Engram 模塊的整體架構示意(來源:論文)

      具體而言,Engram 模塊被嵌入到 Transformer 的主干網絡中,與 MoE 層并行或交替工作。當模型處理輸入文本時,Engram 不依賴深層神經網絡計算,而是通過兩步輕量化的檢索與融合操作完成信息注入:

      首先是“檢索”,它將當前的局部上下文(例如最近出現的幾個詞)進行壓縮并通過多頭哈希映射,在算法層面實現近似 O(1) 的常數時間查表,并通過預取機制在系統層面將實際延遲控制在極低水平;其次是“融合”,通過一個上下文感知的門控機制(Gating Mechanism),將檢索到的靜態記憶向量與模型計算出的動態隱藏狀態進行加權融合。

      我們可以將傳統的 Transformer 模型想象一個不僅需要理解題意,還需要現場推導所有數學公式和歷史數據的考生;而搭載了 Engram 的模型,則相當于被允許帶入考場一本百科全書。遇到固定的知識點,Engram 直接查表獲得答案,而將寶貴的“大腦”算力集中用于處理從未見過的復雜邏輯題。這種“計算”與“記憶”的解耦,正是 DeepSeek 新架構的核心邏輯。

      這項研究并不僅停留在理論層面,DeepSeek 在論文中披露了名為“稀疏性分配”(Sparsity Allocation)的關鍵發現,揭示了模型性能背后的數學規律。研究人員在嚴格控制總參數量和計算量(FLOPs)不變的前提下,系統性地調整了分配給 MoE 專家與 Engram 記憶表的參數比例。

      實驗結果呈現出一條清晰的“U 型曲線”:最佳的模型性能既不出現在純粹的 MoE 架構中,也不出現在過度依賴記憶的架構中,而是當大約 20% 至 25% 的稀疏參數預算分配給 Engram,而剩余部分留給 MoE 時(即ρ≈75% -80% 時),模型性能達到最佳。


      圖 | 稀疏性分配與記憶痕跡擴展 (來源:論文)

      基于這一發現,DeepSeek 訓練了一個擁有 270 億參數的 Engram-27B 模型,并在同等參數規模和計算消耗下,與標準的 MoE-27B 模型進行了全方位的對比測試。結果顯示,引入條件記憶機制后,模型在多個關鍵維度上實現了性能的顯著躍升。

      在知識密集型任務中,Engram 的優勢符合預期。例如在衡量綜合知識水平的 MMLU(大規模多任務語言理解)基準測試中,Engram-27B 的得分比基準模型高出 3.4 分;在中文綜合基準 CMMLU 上,提升幅度更是達到了 4.0 分。這直接證明了外掛式的高效記憶模塊能顯著擴充模型的知識庫。

      不過,更令人意外的是 Engram 在通用推理能力上的表現。在衡量復雜推理能力的 BBH(Big-Bench Hard)基準上,Engram 模型取得了 5.0 分的巨大提升;在 ARC-Challenge 科學推理任務中提升了 3.7 分。甚至在傳統認為高度依賴邏輯推演的代碼生成(HumanEval +3.0)和數學解題(MATH +2.4)任務中,Engram 同樣表現出了顯著優勢。


      (來源:論文)

      為何一個看似負責“死記硬背”的記憶模塊,能提升模型的邏輯推理能力?DeepSeek 團隊利用 LogitLens 和 CKA(中心核對齊)等可解釋性工具進行了深入的機理分析,得出了一個極具洞察力的結論:Engram 有效增加了模型的“有效深度”(Effective Depth)。

      分析顯示,在沒有 Engram 的傳統模型中,底層的許多神經網絡層實際上在忙于構建基礎的詞法組合和短語模式,這是一種低級的“特征重構”工作。而在引入 Engram 后,這些局部的、固定的語言模式(如“紐約”后緊接“時代廣場”,“人工智能”是一個專有名詞),這些都直接通過查表解決。

      這使得模型的主干網絡從繁瑣的淺層任務中解脫出來,能夠將更多的層數和注意力資源投入到更高層級的語義理解和邏輯推演中。換言之,Engram 通過承擔記憶職能,在不增加層數的前提下,提高了模型用于復雜推理的“有效深度”。


      (來源:論文)

      此外,Engram 架構還在長文本處理(Long Context)領域展現出了意想不到的結構性優勢。在處理長篇文檔時,注意力機制往往面臨巨大的計算壓力。DeepSeek 的研究表明,文本中大量的依賴關系其實是局部的(Local),可以通過 N-gram 查找來解決。Engram 負責處理這些局部依賴,從而釋放了 Transformer 全局注意力機制的容量,使其能更專注于捕捉跨度極大的長程關聯。

      在極具挑戰性的“大海撈針”(Needle In A Haystack)測試中,Engram-27B 在該測試中的表現顯著優于基準模型。。在多查詢(Multi-Query)設置下,其準確率從基準 MoE 模型的 84.2% 飆升至 97.0%;在變量跟蹤(Variable Tracking)任務中,準確率從 77.0% 提升至 89.0%。這意味著,搭載 Engram 的模型在處理法律合同分析、長篇小說理解或大型代碼庫維護等需要極高精度的長文本任務時,將具備更強的魯棒性。


      (來源:論文)

      除了模型性能層面的突破,DeepSeek 延續了其一貫的“高效基礎設施”理念,在 Engram 的工程實現上做到了極致。在當前的硬件環境下,顯存(HBM)往往是制約大模型規模的瓶頸。然而,Engram 展現出了基礎設施感知(Infrastructure-aware)的特性。

      與 MoE 依賴運行時動態路由不同,Engram 的檢索是基于輸入文本的確定性哈希。這意味著,系統在正式計算某一層之前,就已經確切知道需要用到哪些記憶向量。這種確定性使得“預取”(Prefetching)策略成為可能。

      DeepSeek 在實驗中成功演示了將一個高達 1,000 億參數的 Engram 嵌入表完全存儲在廉價的主機內存(CPU DRAM)中,而非昂貴的 GPU 顯存里。在模型計算前序層級時,系統通過 PCIe 通道異步地將所需的記憶數據搬運至 GPU。

      實驗數據顯示,即使在 1,000 億參數的超大規模下,這種跨硬件的存儲與計算解耦方案帶來的額外推理延遲也不到 3%。這一工程結果表明,在特定的系統設計與實驗條件下,模型參數規模不再嚴格受限于 GPU 顯存容量。理論上,這一設計為未來 DeepSeek 掛載 TB 級別的超大規模記憶庫提供了可行路徑,而無需成倍增加昂貴的算力集群成本。

      綜合此次發布的 Engram 論文,以及今年元旦期間 DeepSeek 發布的關于“流形約束超連接”(Manifold-Constrained Hyper-Connections, mHC)的研究,DeepSeek-V4 的架構開始逐漸具象化。

      如果說 MoE 架構(條件計算)是 DeepSeek-V2/V3 的基石,那么 V4 有望在架構層面呈現出更高程度的整合性:它將融合 mHC 以優化專家間的通信效率,同時引入 Engram 作為獨立的“海馬體”模塊。這種架構不再是簡單的參數堆疊,而是向著人類大腦“計算與記憶分離、協同工作”的生物學原理邁進。MoE 負責動態的邏輯處理,Engram 負責靜態的知識檢索,兩者互為補充,共同構成了一個更高效、更博學且更擅長推理的智能系統。



      Github 論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

      江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

      觀威海
      2026-01-12 09:42:12
      已經被證實:你愛喝的這種咖啡,很容易升高你的膽固醇,當心

      已經被證實:你愛喝的這種咖啡,很容易升高你的膽固醇,當心

      爆炸營養彭鑫蕊
      2026-01-13 16:33:33
      兩性關系:女人敢開口要這東西就是生理性喜歡了,裝不出來的

      兩性關系:女人敢開口要這東西就是生理性喜歡了,裝不出來的

      全球風情大揭秘
      2025-12-17 18:44:20
      A股收評:17連陽后首陰出現!明天 A股怎么走,我做了個大膽的預測!

      A股收評:17連陽后首陰出現!明天 A股怎么走,我做了個大膽的預測!

      股市皆大事
      2026-01-13 15:16:03
      又走一猛將,成都蓉城雪上加霜,新賽季別說冠軍,前五都難進!

      又走一猛將,成都蓉城雪上加霜,新賽季別說冠軍,前五都難進!

      我就是一個說球的
      2026-01-13 20:10:33
      美扣押俄油輪,嚴重后果開始顯現,土耳其提議:中俄伊土組建聯盟

      美扣押俄油輪,嚴重后果開始顯現,土耳其提議:中俄伊土組建聯盟

      鐵錘簡科
      2026-01-14 00:47:48
      “性蕭條”才是這個時代真正的危機

      “性蕭條”才是這個時代真正的危機

      深藍夜讀
      2025-09-24 16:00:09
      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      古事尋蹤記
      2026-01-13 07:10:23
      哈梅內伊用俄語隔空喊話:為何緊抱俄羅斯,而非向中國求援?

      哈梅內伊用俄語隔空喊話:為何緊抱俄羅斯,而非向中國求援?

      矚望云霄
      2026-01-13 15:23:25
      阿森納在對陣切爾西的關鍵戰前遭遇雙重傷病警報

      阿森納在對陣切爾西的關鍵戰前遭遇雙重傷病警報

      綠茵情報局
      2026-01-13 22:53:50
      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      胡一舸南游y
      2026-01-12 20:02:01
      東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

      東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

      湖人崛起
      2026-01-13 13:24:00
      美媒:中國簡直“反人類”,美國死攻的技術,居然要被中國搶先了

      美媒:中國簡直“反人類”,美國死攻的技術,居然要被中國搶先了

      音樂時光的娛樂
      2026-01-14 01:57:27
      你是怎么發現同事在曖昧的?網友:我們大老板臉上有同款布靈布靈

      你是怎么發現同事在曖昧的?網友:我們大老板臉上有同款布靈布靈

      夜深愛雜談
      2026-01-13 21:44:58
      伊朗從骨子里瞧不上中國!棄GPS改用北斗,被美打痛不得已選中

      伊朗從骨子里瞧不上中國!棄GPS改用北斗,被美打痛不得已選中

      百態人間
      2025-12-12 16:03:57
      妹子沖浪滑倒后居然把比基尼甩飛了?這現場圖簡直不忍直視啊哈哈哈

      妹子沖浪滑倒后居然把比基尼甩飛了?這現場圖簡直不忍直視啊哈哈哈

      斗圖
      2026-01-12 23:00:36
      20 塊錢能買到啥好煙?這4款煙硬碰硬,誰才是性價比天花板?

      20 塊錢能買到啥好煙?這4款煙硬碰硬,誰才是性價比天花板?

      老特有話說
      2026-01-11 22:56:27
      “多所中小學到校時間改為8點”上熱搜!成都的學校是幾點?

      “多所中小學到校時間改為8點”上熱搜!成都的學校是幾點?

      掌上金牛
      2026-01-13 18:59:10
      維爾茨5戰造4球,9500萬神鋒傳射!4-1橫掃弱旅,利物浦終結3連平

      維爾茨5戰造4球,9500萬神鋒傳射!4-1橫掃弱旅,利物浦終結3連平

      我的護球最獨特
      2026-01-13 05:43:30
      驚人的母子定律:你與母親的關系,就是你與世界的關系,不得不信

      驚人的母子定律:你與母親的關系,就是你與世界的關系,不得不信

      聞心品閣
      2026-01-10 09:34:38
      2026-01-14 03:43:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16120文章數 514483關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      蔡卓妍承認新戀情,與男友林俊賢感情穩定

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      手機
      親子
      旅游
      家居
      時尚

      手機要聞

      三星S26+、Ultra量產,S26+升級或受限?

      親子要聞

      小學和幼兒園老師2年減少45萬

      旅游要聞

      順義區將硬核打造“工業時尚游”

      家居要聞

      現代簡逸 尋找生活的光

      今年春天,外套長一點會更美!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩A| 亚洲国产欧美在线人成| 无码人妻一区二区三区AV| 国产精品成人99久久久久| 色欲av狠狠躁天天躁无码中文| 久章草在线精品视频免费观看| 天堂中文最新版在线官网在线| 无码任你躁久久久久久久| 国产精品久久久久av福利动漫| 内射中出无码护士在线| 91丨人妻丨国产丨丝袜| 国产中文99视频在线观看| 操日本屄| 精品福利一区| 亚洲国产精品成人久久蜜臀| 亚洲色就是色| 新版资源天堂中文| 亚洲国产在一区二区三区| 亚洲成人在线| 汕尾市| 久久精品少妇高潮a片免费观| 国产亚洲人成在线播放| 中文在线最新版天堂| 国产suv精品一区二区69| 亚洲三级香港三级久久| 超碰福利导航| 林甸县| 国产精品毛片完整版视频| 96无码| 97人妻熟女成人免费视频色戒| 无码国产精品成人| 免费无码av片在线观看播放| 蜜臀av午夜精品福利| 日韩亚洲中文图片小说| 亚洲国产日韩欧美一区二区三区| 亚洲啊V天堂在线观看2021| 午夜福利电影| 国产精品亚洲а∨无码播放麻豆| 国产欧美一区二区精品久久久| 日韩大片在线永久免费观看网站| 日韩有码中文字幕国产|