<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷

      0
      分享至


      新智元報道

      編輯:編輯部

      【新智元導讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模塊,解決了Transformer的記憶難題,讓模型容量不再靠堆參數!

      剛剛 ,DeepSeek新論文發布了,梁文鋒署名!

      這一次,他們聯手北大直接瞄準了「記憶」,是Transformer最致命的關鍵難題。

      如今,MoE成為大模型主流架構,但本質仍是Transformer,因其缺少原生「知識查找」機制,很多檢索能力被迫用大量計算去模擬。

      33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,并通過一種全新的Engram模塊去實現:

      將經典哈希N-gram嵌入現代化,提供近似O(1)的確定性知識查找。


      論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      通過「稀疏分配」(Sparsity Allocation)建模,他們意外發現MoE與Engram之間,存在「U形scaling law」。

      這意味著,需調整兩者之間資源比例,讓計算與靜態記憶間找到最優權衡。


      沿著這個規律,將Engram擴展到27B參數后,并在嚴格等參數、等FLOPs下優于MoE基線。

      直白講,MoE只解決「怎么少算」,Engram直接解決「別瞎算」。


      它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結果不只是更會背知識,同時推理、代碼、數學一起變強。

      這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或將集成這一新方法。



      不再苦算,給Transfomer插入「電子腦」

      當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——

      把參數做大,把計算做「稀疏」。

      混合專家模型(MoE)就是典型代表,每個token只需激活少量專家,用「條件計算」讓參數規模飆升,FLOPs還能控住。

      從Artifical Analysis榜單中可以看出,現有的稀疏大模型,主流都是MoE。

      但問題在于,Transformer缺少一種「原生的知識查找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不劃算。


      北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務「計算」,也可以服務「記憶」。

      由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模塊去承擔。

      這樣一來,可以讓Transformer主干把注意力和深度用在更需要「組合與推理」的地方。

      語言建模,兩類任務

      論文中,作者明確將語言建模拆成兩類子任務:

      • 一部分任務需「組合與推理」:上下文關系、長程依賴、邏輯推理、鏈式推理。

      • 另一部分任務更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重復出現的局部結構

      后者的一個共同點很明顯,即它們往往局部、穩定、重復出現。

      若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠占早期層的表達空間。


      為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特征,這個過程理論上是可以通過一次知識查找操作來完成的。

      而Engram想做的事情很直接——

      把這類「局部靜態模式」轉移到一個廉價的知識查找原語。

      它用確定性的查表快速給出候選信息,再由上下文決定是否采納。

      Engram核心架構:暴力查表+記憶開關

      Engram一詞源于神經學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。

      它可以用于存儲LLM在推理過程中,可能已接觸過的模式、信息片段。


      可以將Engram理解為,把經典「哈希N-gram嵌入」現代化,做成插在Transformer中間層的一個「可擴展查表模塊」。

      如圖1所示,Engram是一個條件記憶模塊,旨在通過從結構上將靜態模式存儲與動態計算分離開來,從而增強Transformer骨干網絡。


      形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd,該模塊分兩個功能階段來處理每個位置t:檢索融合

      接下來,一起看看Engram的關鍵設計點。

      基于哈希N-gram的稀疏檢索

      第一階段主要負責將局部上下文映射到靜態的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性哈希檢索嵌入來實現。

      分詞器壓縮

      為了最大化語義密度,作者引入了一個詞表投影層。

      他們預先計算了一個滿射函數P:V→V',利用歸一化的文本等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規范標識符。

      這個過程能讓128k大小的分詞器有效詞表大小減少23%。


      多頭哈希

      要想直接參數化所有可能的N-grams組合空間,計算上是行不通的。作者采用了一種基于哈希的方法。

      為了減少沖突,給每個N-gram階數n分配了K個不同的哈希頭。

      每個頭k通過一個確定性函數φ_n,k,將壓縮后的上下文映射到嵌入表E_n,k中的一個索引:


      上下文感知門控

      檢索到的嵌入e_t充當的是上下文無關的先驗信息。不過,它們容易受到哈希沖突或多義詞帶來的噪聲干擾。

      為了增強表達力并解決這種歧義,作者采用了一套受注意力機制啟發的上下文感知門控機制。


      他們利用當前的隱藏狀態h_t作為動態的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:


      其中W_K,W_V是可學習的投影矩陣。

      為了保證梯度穩定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:


      最后,為了擴大感受野并增強模型的非線性,作者還引入了一個短的深度因果卷積:


      門控可視化

      為了實證驗Engram是否按預期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。


      結果展示了,明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地激活(顯示為紅色)。

      在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的激活。

      關鍵是,這種行為有效地跨語言泛化。

      在中文demo中,Engram識別并檢索獨特的習語表達和歷史實體,比如「四大發明」和「張仲景」。

      這些定性結果證實,Engram成功識別并處理了固定的語言依賴關系,有效地將Transformer骨干網絡從記憶這些靜態關聯中解放出來。

      系統效率:計算與存儲解耦

      擴展記憶增強型模型往往受限于GPU高帶寬內存(HBM)的容量。

      然而,Engram的確定性檢索機制天生就支持將參數存儲與計算資源解耦。

      與依賴運行時隱藏狀態進行動態路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決于輸入的Token序列。

      這種可預測性為訓練和推理提供了專門的優化策略,如圖2所示。


      訓練階段為了容納大規模嵌入表,他們采用標準的模型并行策略,將表分片存儲在可用的GPU上。

      推理階段這種確定性特性使得「預取和重疊」策略成為可能。

      U型Scaling Law,揭秘最優分配比

      Engram作為條件記憶的一種實現形式,在結構上與MoE專家提供的條件計算是互補的。

      這里,主要研究了以下兩個關鍵問題:

      1. 有限約束下的分配

      2. 無限內存場景

      作者通過三個參數指標來分析MoE和Engram之間的權衡:

      • P_tot:總可訓練參數,不包括詞表嵌和LM頭。

      • P_act:每個Token的激活參數量。這個數值決定了訓練成本(FLOPs)。

      • P_sparse?P_tot-P_act:非激活參數,這代表了「免費」的參數預算,可用于在不增加計算成本的情況下擴展模型規模。

      作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非激活參數預算的比例:


      直觀來說:

      • ρ=1對應純MoE模型(所有非激活參數都是參與路由的專家)。

      • ρ<1則減少路由專家的數量,并將釋放出來的參數重新分配給Engram嵌入槽位。


      結果與分析


      圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關系。

      這種U型關系證實了兩個模塊之間的結構互補性:

      • MoE主導(ρ→100):模型缺乏用于存儲靜態模式的專用內存,迫使它只能通過增加深度和計算量來低效地重建這些模式。

      • Engram主導(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態、上下文依賴推理的任務;在這種場景下,記憶無法替代計算。

      接下來,作者探索了一種互補的設置:激進的內存擴展。

      圖3(右)表明,擴展內存槽位的數量能帶來清晰且一致的驗證損失改善。

      在探索的范圍內,曲線遵循嚴格的冪律,這表明Engram提供了一種可預測的擴展調節手段:更大的內存能持續帶來收益,而無需額外的計算量。

      關于擴展效率關鍵的一點是:雖然OverEncoding的直接平均方法也能受益于更大的內存表,但Engram在相同的內存預算下解鎖了更大的擴展潛力。

      結合分配定律,這些結果驗證了——

      條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。

      爆殺傳統MoE,知識推理數學全面漲

      基于Engram架構以及實驗得出的分配定律,作者將Engram擴展到了數十億參數的級別,以此來驗證其在現實世界LLM預訓練中的有效性。

      他們訓練了以下四個模型:

      ·Dense-4B (總參數4.1B)

      ·MoE-27B (總參數26.7B)

      ·Engram-27B (總參數26.7B)

      ·Engram-40B (總參數39.5B)

      實驗結果

      首先,與先前的文獻結論一致,稀疏架構表現出了優于密集模型的擴展定律。

      在相同的訓練計算預算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。

      更重要的是,Engram-27B始終優于等參數且等FLOPs的MoE-27B基線。

      有趣的是,這些收益并不僅限于知識密集型任務(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。

      在通用推理領域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及代碼和數學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。

      這些結果支持了他們的假設:引入一個專用的知識查找原語所帶來的表示效率提升,要超過將所有稀疏預算都分配給條件計算的效果。

      最后,擴展到Engram-40B進一步降低了預訓練損失,并在大多數基準測試中提升了性能。

      可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練后期仍在持續擴大,這表明擴大的內存容量在當前的Token預算內尚未完全飽和。


      注意力徹底解放,32k上下文性能狂飆

      通過將局部依賴建模的任務卸載給靜態查找,Engram架構保留了寶貴的注意力容量來管理全局上下文。

      通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。

      實驗結果


      1. 超越注意力機制的長上下文能力

      雖然注意力機制和位置編碼提供了處理上下文的結構基礎,但結果表明,長上下文性能并非僅由架構先驗決定。

      軌跡可見,長上下文性能與基座模型的通用建模能力本質上是掛鉤的。

      因此,嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變量,而不僅僅是簡單地對齊訓練步數。

      2. 受控設定下的架構優越性

      在上述原則的指導下,作者將Engram與MoE 基線進行了對比。當控制了基座能力后,Engram模塊的效率增益就變得非常明顯:

      • 等Loss設定(46k vs. 基線):當對比預訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現出了顯著的增益。

      • 等FLOPs設定(50k vs. 基線):在標準的等計算預算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。

      • 極端設定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構內在的優越性。

      計算+記憶雙軸時代,直接融入V4?

      DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發性的路線:

      稀疏化模型進入了「計算+記憶」雙軸時代。

      • MoE繼續負責動態計算與推理

      • Engram負責存儲與檢索靜態知識與局部模式

      如上的U型scaling law證明了,稀疏預算全部給MoE,不是全局最優,留出一部分給Engram整體更強。

      1. 稀疏化目標變得更豐富了

      條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。

      2. Engram收益帶有結構性

      它讓LLM知識能力暴漲同時,也間接提升了推理、數學、代碼的性能,因為Transfomer主干的深度和注意力計算效用更「值錢」了。

      3. 確定性查表,很適合系統優化

      模型預取和卸載很大,為「更大參數、同等吞吐」提供了一種可行的工程路線。

      如今,全網都在猜測,春節檔的V4有很大概率會把Engram融入主干架構。

      回看此前DeepSeek路線:

      DeepSeek V2曾引入MLA,大幅提升了推理效率和KV緩存友好度;

      DeepSeek V3持續優化MoE,實現無損負載均衡,訓練更穩定,成本更低。

      若是V4真的把Engram落地,那將不僅是參數規模的提升,更是架構范式的又一次躍遷。

      再加上,此前爆出,V4代碼實力可能趕超Claude、ChatGPT系列。

      今年的春節大禮,真是讓人期待。




      作者介紹

      Xin Cheng


      Xin Cheng目前在北京大學讀博,主攻自然語言處理方向,研究重點是大語言模型和檢索增強生成。

      作為一名學術新秀,他在圈內已經做出了不少成績,尤其是在NeurIPS、ACL和EMNLP這些頂會上,發了多篇一作論文。


      參考資料:HYZ

      https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      https://x.com/karminski3/status/2010858438814023740

      https://x.com/LearnWithScribe/status/2010783721410981930?s=20


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

      江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

      觀威海
      2026-01-12 09:42:12
      已經被證實:你愛喝的這種咖啡,很容易升高你的膽固醇,當心

      已經被證實:你愛喝的這種咖啡,很容易升高你的膽固醇,當心

      爆炸營養彭鑫蕊
      2026-01-13 16:33:33
      兩性關系:女人敢開口要這東西就是生理性喜歡了,裝不出來的

      兩性關系:女人敢開口要這東西就是生理性喜歡了,裝不出來的

      全球風情大揭秘
      2025-12-17 18:44:20
      A股收評:17連陽后首陰出現!明天 A股怎么走,我做了個大膽的預測!

      A股收評:17連陽后首陰出現!明天 A股怎么走,我做了個大膽的預測!

      股市皆大事
      2026-01-13 15:16:03
      又走一猛將,成都蓉城雪上加霜,新賽季別說冠軍,前五都難進!

      又走一猛將,成都蓉城雪上加霜,新賽季別說冠軍,前五都難進!

      我就是一個說球的
      2026-01-13 20:10:33
      美扣押俄油輪,嚴重后果開始顯現,土耳其提議:中俄伊土組建聯盟

      美扣押俄油輪,嚴重后果開始顯現,土耳其提議:中俄伊土組建聯盟

      鐵錘簡科
      2026-01-14 00:47:48
      “性蕭條”才是這個時代真正的危機

      “性蕭條”才是這個時代真正的危機

      深藍夜讀
      2025-09-24 16:00:09
      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      古事尋蹤記
      2026-01-13 07:10:23
      哈梅內伊用俄語隔空喊話:為何緊抱俄羅斯,而非向中國求援?

      哈梅內伊用俄語隔空喊話:為何緊抱俄羅斯,而非向中國求援?

      矚望云霄
      2026-01-13 15:23:25
      阿森納在對陣切爾西的關鍵戰前遭遇雙重傷病警報

      阿森納在對陣切爾西的關鍵戰前遭遇雙重傷病警報

      綠茵情報局
      2026-01-13 22:53:50
      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      胡一舸南游y
      2026-01-12 20:02:01
      東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

      東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

      湖人崛起
      2026-01-13 13:24:00
      美媒:中國簡直“反人類”,美國死攻的技術,居然要被中國搶先了

      美媒:中國簡直“反人類”,美國死攻的技術,居然要被中國搶先了

      音樂時光的娛樂
      2026-01-14 01:57:27
      你是怎么發現同事在曖昧的?網友:我們大老板臉上有同款布靈布靈

      你是怎么發現同事在曖昧的?網友:我們大老板臉上有同款布靈布靈

      夜深愛雜談
      2026-01-13 21:44:58
      伊朗從骨子里瞧不上中國!棄GPS改用北斗,被美打痛不得已選中

      伊朗從骨子里瞧不上中國!棄GPS改用北斗,被美打痛不得已選中

      百態人間
      2025-12-12 16:03:57
      妹子沖浪滑倒后居然把比基尼甩飛了?這現場圖簡直不忍直視啊哈哈哈

      妹子沖浪滑倒后居然把比基尼甩飛了?這現場圖簡直不忍直視啊哈哈哈

      斗圖
      2026-01-12 23:00:36
      20 塊錢能買到啥好煙?這4款煙硬碰硬,誰才是性價比天花板?

      20 塊錢能買到啥好煙?這4款煙硬碰硬,誰才是性價比天花板?

      老特有話說
      2026-01-11 22:56:27
      “多所中小學到校時間改為8點”上熱搜!成都的學校是幾點?

      “多所中小學到校時間改為8點”上熱搜!成都的學校是幾點?

      掌上金牛
      2026-01-13 18:59:10
      維爾茨5戰造4球,9500萬神鋒傳射!4-1橫掃弱旅,利物浦終結3連平

      維爾茨5戰造4球,9500萬神鋒傳射!4-1橫掃弱旅,利物浦終結3連平

      我的護球最獨特
      2026-01-13 05:43:30
      驚人的母子定律:你與母親的關系,就是你與世界的關系,不得不信

      驚人的母子定律:你與母親的關系,就是你與世界的關系,不得不信

      聞心品閣
      2026-01-10 09:34:38
      2026-01-14 03:43:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14326文章數 66456關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      蔡卓妍承認新戀情,與男友林俊賢感情穩定

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      數碼
      家居
      教育
      時尚
      旅游

      數碼要聞

      PC硬件全線漲價?這幾款RTX 50系游戲本竟敢“逆勢”維持原價

      家居要聞

      現代簡逸 尋找生活的光

      教育要聞

      揭秘中國美術學院!藝術生必看

      今年春天,外套長一點會更美!

      旅游要聞

      順義區將硬核打造“工業時尚游”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品无码专区免费| 精品无码av一区二区三区不卡| 国产亚洲精品久久久久久久软件| 欧美激情猛片xxxⅹ大3| 人妻中文字幕精品系列| 久久91精品牛牛| 国产丝袜极在线| 奇骏影院在线观看免费版| 国产亚洲精品aaaaaaa片| 万年县| 怡红院亚洲| 国产96在线 | 欧美| 免费国产麻豆传| 久久久久久AV| 国产超级va在线观看视频| 亚洲第一成人网站| 国产成人无码网站| 国产精品成人va在线观看| 亚洲成人无码AV| 久久国产精品老女人| 尹人97| 深州市| 亚洲国产精品第一区二区| 欧美久久久久中文字幕| 亚欧美国产色| 黑人巨茎大战欧美白妇| 91视频在线免费观看| 波多野美乳人妻hd电影欧美| 国产又色又刺激高潮视频| 久久天天躁狠狠躁夜夜不卡公司 | 另类专区欧美在线亚洲免费| 日本久久99成人网站| 岳乳丰满一区二区三区| 欧美乱码精品一区二区三区| 男人j进入女人j内部免费网站 | 欧美人与动牲交A免费观看| 日日夜夜撸免费视频| 国产在线不卡精品网站| 国产精品久久久久aaaa| 亚洲男人av香蕉爽爽爽爽| 午夜免费视频|