<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      再談注意力:阿里、Kimi 都在用的 DeltaNet 和線性注意力新改進

      0
      分享至



      不僅是提升效率,線性注意力在數據受限情況下也可能提升效果。

      訪談丨程曼祺

      整理丨姚一楠

      注意力機制(Attention)是 Transformer 架構大型語言模型(LLM)的核心機制,它決定了模型如何處理、理解海量的文本信息。然而,傳統全注意力機制的計算開銷會隨文本長度呈平方級暴增,這正是限制模型處理長文檔、長上下文的關鍵瓶頸。

      今年初,《晚點聊》的 103 期和 104 期節目分別討論了注意力機制改進的兩個主要方向:“稀疏注意力” 和 “線性注意力”。(文字版見《大模型 “注意力簡史”:與兩位 AI 研究者從 DeepSeek、Kimi 最新改進聊起》和《3700 次預訓練尋找 “線性注意力” 非共識,MiniMax-01 開發者講述 4 年探索》)

      這期節目,我們繼續關注線性注意力的新進展。在 9 月和 10 月底,阿里巴巴和月之暗面先后開源 Qwen3-Next 和 Kimi Linear 模型,其中的注意力機制都使用了線性注意力 DeltaNet 和 full attention(傳統的全注意力)混合的方式。

      此后在社交媒體上,兩家公司的研究人員也透露,他們很可能在下一代旗艦模型中,使用新進釋放的這些線性注意力改進成果。

      本期《晚點聊》,我們就邀請到了 DeltaNet 核心貢獻者之一楊松琳來聊聊 DeltaNet 和線性注意力的發展脈絡。她也是線性注意力開源小組 FLA 的發起者,正在 MIT CSAIL 讀博士三年級。

      DeltaNet 的發展是多位研究者長期累積的結果。在 2021 年,Imanol Schlag、Kazuki Irie 和 Jürgen Schmidhuber 在線性注意力中引入類 Delta Rule 的可糾錯更新規則;2023 年,Kazuki Irie 等從理論與形式語言視角刻畫線性 Transformer 及其擴展的計算能力邊界;2024 年,楊松琳等提出沿序列長度并行的 DeltaNet 訓練算法以適配現代硬件;2025 年,楊松琳等進一步引入門控形式提出 Gated DeltaNet,強化記憶控制與檢索表現。

      楊松琳介紹了線性注意力和 DeltaNet 的發展脈絡,為何 21 年剛被提出時沒引起太多注意,后來怎么進化的。我們也討論了重新去做 full attetnion 的 MiniMax(MiniMax 在今年初發布的 M1 中使用了線性注意力,在今年 10 月發布的 M2 中,轉向全部使用 full attention),和未來要在旗艦模型上用線性注意力的 Kimi 與阿里的不同選擇;線性注意力的優劣勢,以及一些腦洞——如果算力無限,還需要線性注意力?楊松琳也分享了,作為 AI 研究員,怎么獲得交叉技能,怎么開始發起 FLA 小組等成長經歷。

      DeltaNet 在 2021 年就被提出,但并行

      晚點:注意力機制在大語言模型里有什么用,為什么重要?

      楊松琳:語言模型預測下一個詞時,若要用到前面的信息,就必須在句子層面做運算,把不同位置的信息混合。注意力機制通過建模兩點之間成對的關系來整合前后文信息,最直接、最常用的是 Softmax Attention,平方復雜度的機制(如下圖)?,F在注意力也可以泛指在序列維度上做信息聚合的算子,比如線性注意力。



      來源:Attention in transformers,3Blue1Brown

      晚點:注意力機制最近好幾個新動向都和你研究的 DeltaNet 有關,可以簡單解釋下 DeltaNet 是什么?

      楊松琳:線性注意力的核心思想,最初是將自注意力(Self-Attention)中的 Softmax 函數移除。經過數學上的等價變換,它就可以被重寫成 循環神經網絡 (RNN) 的遞推形式,從而將復雜度從平方級降至線性。2020 年的論文 Transformers are RNNs(《Transformer 是循環神經網絡》)最早確立了這個研究方向。

      隨后的改進主要集中在兩個方面:加門控(Gate)機制 或引入 Delta Rule(Delta 規則)。

      其中,Delta Rule 是基于 2021 年 LSTM 作者 Jürgen Schmidhuber(于爾根·施密德胡伯) 團隊的論文 Linear Transformers Are Secretly Fast Weight Programmers(《線性 Transformer 本質上是快速權重編程器》)。該研究以快速權重編程的視角重新解釋了線性注意力,并指出:

      - 線性注意力默認使用的權重更新方式是赫布學習(Hebbian Learning)。

      - 為了實現更高效的上下文檢索(Retrieval)能力——即 “前面寫入一組 Key-Value,后面用 Key 就能取回對應的 Value”——可以將更新規則替換為更強大的 Delta Rule。

      DeltaNet 正是在這一思路下誕生的,它利用 Delta Rule 來更快地寫入和更新權重(即記憶狀態)。



      DeltaNet 起初不火,一是缺少關鍵架構改進,二是實現不夠好。我去年在 NeurIPS 發的 Parallelizing Linear Transformers with the Delta Rule over Sequence Length(《利用 Delta 規則在序列長度上并行化線性 Transformer》)就是專門討論如何并行化這個遞歸更新。

      晚點:那從 2021 年 DeltaNet 被提出,到你們做的這個并行化的優化之間,還有哪些有關 DeltaNet 或者說線性注意力的改進思路?

      楊松琳:近幾年網絡模塊發展很快,如 TransNormerLLM 架構 引入了新的歸一化方案,微軟亞研院 RetNet 用了輸出門模塊;后面 Mamba 把短卷積帶火。短卷積、輸出歸一化、門控成了標配。

      但這些大多是在架構層面改進,而非更新規則,包括線性注意力和許多 RNN 變體的更新規則基本仍在最初框架里,只是加了一點簡單的衰減。

      晚點:更新規則改進和模型架構改進的區別是什么?

      楊松琳:架構改進動的是外層結構,算子沒變,比如在輸出端加門控。線性注意力很早就在輸出上加門控,Qwen 的 Gated Attention 本質也是輸出門控;底層算子還是 GQA,用 FlashAttention 訓練。

      更新規則的改進則是直接改算子本身,外層架構仍照著近年驗證有效的方案來用就行。比如線性注意力一般能寫成一階線性遞歸:輸入通常是外積,轉移矩陣默認是單位矩陣,改更新規則就是改這個轉移矩陣。GLA、Mamba 把單位矩陣換成對角矩陣;DeltaNet 把它變成低秩單位矩陣;Kimi 把單位矩陣放寬為可學習的對角矩陣;RWKV-7 則用對角低秩矩陣作為轉移矩陣。

      晚點:DeltaNet,包括你后面又做的 Gated DeltaNet 具體是怎么改進更新規則的?

      楊松琳:我們沒發明全新東西,更多是用新算法把老技術重新做到了可用。就是前面提到的,我去年在 NeurIPS 的那篇工作,就是把它并行化,讓它真正能大規模訓練。

      隨后我在英偉達實習做了 Gated DeltaNet,它在 DeltaNet 上加了一個衰減??梢园阉闯?DeltaNet 與 Mamba 2 的結合:保留 RetNet、線性注意力等當代架構思路,同時繼承更強的 Delta Rule 更新,再加上衰減。衰減本質類似遺忘門,對 RNN 很重要,因為它的隱藏狀態有限,必須忘掉一些,否則狀態會被撐爆。

      晚點:之前一些做算法的研究員告訴我,他們不擅長改算子。我理解你也是算法出身的,但會自己來改算子,是因為你自學了 Infra?

      楊松琳:可以這么說。我碩士時,做過 “上下文無關文法”,需要把大量 python 運算并行到 GPU 上,就寫 CUDA 加速。后來做模型架構,寫算子更順手,于是做軟硬件結合的算法設計,讓模型在 GPU 上跑更快。

      我對并行加速還挺有興趣的。剛讀博士時,斯坦福有個研究組叫 Hazy Research,FlashAttention、Mamba 都出自那兒,他們倡導硬件友好型算法。我有學習他們的風格,既寫算子也做算法。

      Qwen 和 Kimi 下一代旗艦模型可能轉向線性注意力,Minimax M2 則用回全注意力

      晚點:回到最近的一些進展,阿里的 Qwen3-Next 以及 Kimi 的 Kimi Linear 和 DeltaNet 的具體關系是?

      楊松琳:Gated DeltaNet 今年被 Qwen 團隊系統地測了一輪。他們對全局注意力、混合滑窗注意力、Mamba 2 和 Gated DeltaNet 做了真正的 apple-to-apple 的對比,結果 Gated DeltaNet 最好,于是用進了 Qwen3-Next。

      Kimi Linear 用的 KDA 基本是 Gated DeltaNet 的細粒度版:DeltaNet 部分不變,但把衰減從粗到細。原先 high-dim(高維,指模型的特征表示向量) 128 個 channel 共用一個遺忘率,現在每個 channel 各有一個,有的忘得快,有忘得的慢,用來存不同時間尺度的信息。細粒度衰減的思路本來也常見,比如我在 ICML 2024 的 Gated 線性注意力(Gated Linear Attention Transformers with Hardware-Efficient Training)就用了這種精細衰減。

      因此 KDA 可以看成 Gated 線性注意力 + DeltaNet,而 Gated DeltaNet 是 DeltaNet + Mamba 2;在衰減粒度上,它們關系就像 GLA 和 Mamba 2 的差別。

      晚點:為什么 Qwen3-Next 和 Kimi Linear 現在都要把線性注意力和完全注意力(full Attention)混用,不能全用線性的?

      楊松琳:線性注意力給速度,完全注意力給容量。線性注意力的容量太小,短文本還可以應付,到長文本就會表現很爛。線性注意力機制每層有大小固定的 RNN 隱藏狀態,層數和維度一旦確定,整套模型的可存信息量也就固定了。

      傳統 Softmax Attention 的 KV Cache 可以看成隱藏狀態,會隨著 token 線性增加,長文本不會被容量卡??;但推理時要從全局讀取信息,KV Cache 過大時會非常慢。(注:KV Cache :在推理時緩存已生成 token 的 Key 和 Value,用來避免重復計算注意力,從而加速生成。)

      晚點:現在用 DeltaNet 的模型都不大,Qwen3-Next 是 80B ,Kimi Linear 是 48B 。把線性注意力用到參數更大的模型上,有什么瓶頸嗎?

      楊松琳:工業界的常見做法,就是先用小模型驗證架構、降風險,再訓大模型;直接在超大規模上試,兩次失敗公司就破產了。

      千問和 Kimi 其實都在往大模型走。最近在 Reddit 上 ,Kimi 團隊透露他們的下一代旗艦模型,就是 K3 大概率繼續沿混合 KDA 方向;Qwen3-Next 的最終版本 Qwen 3.5 應該也會走混合架構。

      晚點:MiniMax 很早就把線性注意力用到了超大模型上,他們在今年初發布的 4560 億參數的 MoE M1 上,就用了混合線性注意力與全注意力的 Lightning Attention,但 10 月底發布 MiniMax M2 又回到了完全注意力。從業者是怎么討論這個轉變的?

      楊松琳:大家都覺得這個現象挺好玩。這有點像,線性注意力是一個 “坑”,MiniMax 趕著跳出去,Qwen 和 Kimi 又急著往里跳;不過 Minimax 也沒完全失去信心,還在驗證混合架構。

      Minimax 可能之前受 Lightning Attention 的傷太大了,一朝被蛇咬十年怕井繩。Lightning Attention 很弱,只是在最原始線性注意力上疊了粗粒度、輸入無關的衰減。他們當時直接 Scale Up 到幾百 B ,可能是 Eval(驗證)沒搭好。

      結果 MiniMax 發現 Lightning Attention 在 MMLU(注:測試大模型在 57 個學科上綜合知識與理解能力的標準考試題測評) 等短程任務上跟完全注意力差不多,用個比較短的滑窗就夠了。但在多跳推理(注:Multi-hop Reasoning,需要模型跨越多個信息點、分步驟串聯線索才能得出答案的推理方式,典型例題如 “愛因斯坦出生時德國的國家元首是誰?”)上,完全注意力能直接建模點對點關系,疊幾層就能自然形成多跳推理;線性注意力或混合結構會把信息壓得很模糊,準確率掉得很厲害。

      現在 Agent 做任務都會想很多,多跳推理在 Agentic AI 里非常重要。MiniMax 覺得混合架構暫時解決不了想主攻的 Agentic AI,退回完全注意力挺自然的。

      他們的反思里也有不少值得學的點,比如基準選擇:一些多跳推理 benchmark,如 BBH 其實很容易,可以找方法讓架構表現很好,但不代表模型在真實場景里就真的會推理。

      晚點:據你所知,DeepSeek 有來研究線性注意力機制改進嗎?

      楊松琳:他們應該更相信稀疏注意力,年初發的 MLA 和最近 DeepSeek V3.2 的 DeepSeek-Sparse-Attention 都是稀疏注意力的改進。

      晚點:對比稀疏注意力和線性注意力,未來的潛力有什么區別?

      楊松琳:單層潛力肯定是稀疏注意力更強,實際應用中不好說。

      稀疏注意力通過減少激活的 KV Cache 讀取來加速,依然需要存全部 KV Cache,每次運算時選一些出來。大家就會有滿滿的安全感,因為 token 不容易掉。理論上 KV Cache 夠大,效果就能逼近 Softmax Attention;Softmax Attention 的 Attention Map 相當稀疏,所以稀疏注意力的效率會更高。但當規模很大、序列很長、KV Cache 的大小本身成為瓶頸時,稀疏注意力就愛莫能助了。

      線性注意力有理論缺陷,因為狀態空間固定,但這也能是加速推理的動力?;旌暇€性注意力一般 75% 的層都被換成了 RNN,RNN 的 Cache Size 在長文本推理時可以忽略,KV Cache 大小就減了 3/4,可以支持更大的批量推理。批量越大,做推理效率越高,同時服務很多用戶。

      不僅是提效,在數據受限的后訓練和強化學習中,線性注意力可能有性能優勢

      晚點:如果有無限算力,大家還有動力做完全注意力外的方法改進嗎?

      楊松琳:給我無限數據和算力,我當然直接用完全注意力。但 bound 住(約束)我們的不僅是算力,還有數據。

      我們必須用有限數據下更高效的架構;這時候完全注意力反而是個劣勢,因為它同樣數據下學的比較慢,沒有引入歸納偏見。歸納偏見就是人的先驗。

      線性注意力更關注鄰近 token,在數據受限時可能表現更好;后訓練、強化學習的數據更少,混合架構的優勢可能會慢慢顯現。

      晚點:所以線性注意力除了省推理算力,在數據更少的后訓練、強化學習里也可能更好?

      楊松琳:從電路復雜度看,完全注意力屬于 TC?,表達能力不夠,所以 Transformer 要解決復雜問題只能靠很長的思維鏈。

      這是 DeltaNet 另一個被忽視的優勢,它從計算理論上是 NC1-complete 架構,能超越 TC?,更擅長狀態追蹤,這對 Agentic AI 至關重要。比如你寫代碼時變量名不斷變,模型得在內部維護變量狀態;再比如網頁操作,Agent 得知道你按什么順序做了什么、到了什么狀態,才能決策。

      前段時間有篇很有意思的論文 Recurrence-Complete Frame-based Action Models,專門講為什么 Agentic AI 更該關注狀態追蹤和循環機制。

      (注:TC? 和 NC1 是不同的復雜性類,復雜性類是將有相似計算難度的一群問題歸納在一起的集合。簡單來說,NC1 的電路允許 “對數深度”,而 TC? 的電路只有 “常數深度”,但 TC? 允許使用閾值門,在很少的并行層數里完成相對復雜的運算;從已知結果看,TC? 是被包含在 NC1 里的一個子類。很多看起來 “復雜” 的認知任務,難點往往在于需要較長的計算深度來逐步更新和傳遞信息,例如在讀代碼時持續追蹤程序狀態和變量取值,這類能力更依賴足夠多輪的迭代計算,而不僅僅是單步中的并行算力。)

      晚點:你說線性注意力帶歸納偏見可能提升效果;而之前 AI 界著名文章 “The Bitter Lesson” 它認為加人為結構和先驗通常不如尋找可以用更多算力、數據,做更大規模訓練的方法。

      楊松琳:100 個人有 100 種對 Scaling 和 The Bitter Lesson 的解讀。大語言模型本身就是把人類先驗注入進去的例子。我更支持先把方法做到效果和效率上能 scalable,歸納偏見不用管,好不好驗一下就知道了,不用多做討論。

      晚點:你這里說的 scalable 的關鍵是什么?

      楊松琳:一是大規模訓練下效率要有保證、算法要硬件友好;二是模型放大后依然有效,很多改動在小模型好用,規模擴大就失效。

      研究發現是連點成線:本科時形成對矩陣代數的興趣,算法優化看多了熟能生巧

      晚點:你自己開始關注到線性注意力改進和 DeltaNet 方向的過程是怎樣的?

      楊松琳:我一直喜歡做模型和算法,碩士時就喜歡看各種魔改注意力的方法,但真正開始研究是 2023 讀博之后。當時在想怎么選方向,既感興趣又專業相關。完全注意力的長文本問題似乎一直解決不掉,還有有意思的算法可玩,我就跑來玩這個領域了。

      晚點:你最初有哪些一起研究的伙伴?你之前有提到過斯坦福的 Hazy Research,還有嗎?

      楊松琳:他們在新架構上做得很多,我和他們挺熟,比如 Simran Arora、Albert Gu、Tri Dao。國內我覺得微軟亞研董力團隊也很強,我跟 RetNet 一作孫宇濤討論挺多。還有之前鐘怡然(MiniMax 前算法總監,曾在上海 AI lab 擔任 PI)那邊的秦臻,從知乎私信聯系到我,聊著聊著就合作了一兩篇論文,就是比較早的線性 RNN 工作 HGRN。

      晚點:現在的導師會給你什么幫助?

      楊松琳:他可以幫我搞來卡。(笑)老板在最開始會有些大方向的感覺,然后提供算力和寫論文的支持,別的方向也不一定能幫得上學生,因為大家讀博的目標就是在這個領域比自己老板還懂。

      但我覺得老板還是很有眼光的。他建議我關注軟硬件結合的算法設計,以及數值代數的一些思路。比如 DeltaNet 用到數值代數里經典的 Householder 矩陣做累乘,這和線性注意力的 Chunkwise 算法能很好結合,最后就成了 Parallelizing Linear Transformers with the Delta Rule over Sequence Length 的核心想法。

      晚點:你做算法又寫 CUDA kenel,這些跨領域能力怎么積累的?

      楊松琳:還是興趣驅動,我喜歡矩陣運算和 kernel 優化。數值計算偏應用數學,里面有很多矩陣加速算法,深度學習也離不開矩陣。我對這些本身就感興趣,看得比較多,熟能生巧吧。

      晚點:你本科是在南方科技大學,這本身是一所挺新的研究性大學,當時的學習經歷對積累交叉知識和視野有什么幫助?

      楊松琳:這還真有一些關系。我本科最喜歡的課就是線性代數,用的是吉爾伯特·斯特朗(Gilbert Strang)的經典教材。他從空間角度講,特別直觀,讓我對線性代數興趣很強。如果是國內常見那種上來先講行列式、公式推導,我可能就沒什么興趣了。

      晚點:你改進 DeltaNet 讓它能并行的過程中,具體是怎么突破,獲得思路的?

      楊松琳:并行線性遞歸要先展開,會出現轉移矩陣,繼續展開就會出現一個累乘,難點就是高效算這個累乘。DeltaNet 的轉移矩陣像 Householder,我一開始不知道怎么算,后來發現可以用 WY 算法把累乘變成累加,形式和線性注意力很像,我就意識到它可能能和 Chunkwise 算法兼容。之后推了一陣,推通了還挺開心,又找到一個好玩的算法,也能把這個方向繼續 scale 上去。

      晚點:怎么想到 Householder 矩陣,怎么意識到這個關聯的?

      楊松琳:就是一直想吧,我從 2023 年 9 月開始想怎么并行 DeltaNet,到 2024 年 3 月才想出算法;然后碩士我在上科大上過一門 “矩陣方法”,講 Householder 和 QR 分解;QR 是很經典的算法,Householder 累乘最早就是用來做 QR 的,最近我發現它還能加速 DeltaNet。在英偉達做 Gated 線性注意力那個項目時,我對線性注意力的分塊算法理解更深,這些積累后來都啟發了新想法,整體還是循序漸進。

      晚點:基礎科學里,常發生把很多看似無關的東西放在一起產生新成果,比如物理學有時會從幾百年前的數學里獲得啟發。你覺得 AI 能什么時候能獨立產生這種聯想?

      楊松琳:我覺得大模型應該能獨立發明這個(讓 DeltaNet 并行化的)算法,只要提示詞合適,它可能就能把后面所有推導都做出來。檢驗推導正確性可以用 RL 做,只要 reward 能驗證,RL 就能解決,用在科學發現上也挺有用的。

      FLA 小組:像運營產品一樣 “運營” 技術;Kimi 從 FLA 找到線性注意力研究員

      晚點:你去年 1 月開始維護 FLA 這個線性注意力的開源社區,契機是什么?做開源的過程中有什么故事或收獲?我看到貢獻者里有 Kimi 的研究員,也有歐洲做 AI for science 的開發者。

      楊松琳:當時在知乎看到一篇文章,說 Flash Attention 的成功本質是產品成功。Tiling、online softmax 早就有了,xFormers 里也有初版思路,但 Tri Dao( FlashAttention 的作者)把它當產品做,重視接口、重視運營、積極和社區互動、按用戶需求迭代,關鍵是好用,即插即用、裝個包就能跑。

      我被這套產品思路打動了,就想,線性注意力為什么不做一個?線性注意力有不少算法成果,但缺好實現,那我就做個開源庫,把 Triton 算子和各種 layer 寫好,讓用戶一個庫就能跑各種帶 kernel 的模型,大家覺得好用就會留下來,還會給反饋幫我們迭代。比如后來很多人要變長訓練模塊,我們發現需求巨大,我就和張宇商量,直接把可變長度功能全部寫進 FLA。

      晚點:張宇是你做了 FLA 之后,他關注到這塊,加進來成為核心貢獻者的嗎?

      楊松琳:張宇是 FLA 的核心貢獻者,也是 Gated 線性注意力的作者。我和他 2020 年就認識了,那時我們都在做 parsing,要寫很多并行算法。他當時維護一個叫 supar 的庫(su 是蘇州大學,par 是 parsing),實現非常 clean、并行效率很好,基本所有做 parsing 的人都會用,特別酷,所以做 FLA 時我第一時間就想把他拉進來。

      他做庫水平很高,也很適合寫并行算法和 kernel。你翻 FLA 的 GitHub,貢獻行數和總貢獻數他都是最多的,代碼特別強。后來 Kimi 想做混合線性注意力,就想找 FLA 的作者;我人在美國,他們不可能把我弄過去,就把張宇弄去 Kimi 做研究。(注:parsing:編譯,自然語言處理中的一個模塊,用來分析句子的結構,例如解析句子 “I love you” 時,parsing 會把它拆成主語、動詞和賓語。)

      晚點:所以是 Kimi 想做線性注意力,從 FLA 社區里注意到了張宇,然后再邀請他加入的?

      楊松琳:對。

      晚點:Kimi 關注到這個方向,這是誰的判斷了?

      楊松琳:應該是 Tim 吧,周昕宇(Kimi 的聯創)。

      晚點:我看張宇的頭像是個二次元少女拿著實驗筆記本。

      楊松琳:(笑)經典 stereotype(刻板印象),二次元頭像的人 coding 強。

      希望下一步把稀疏注意力和線性注意力真正做通,徹底解決長文本問題

      晚點:我們可以分別講講,注意力機制接下來的演進,首先是稀疏注意力,你看到的趨勢是什么?

      楊松琳:核心是動態稀疏,靜態稀疏之前被證明效果不太好,難點卡在如何在硬件上高效實現。動態稀疏現在有兩條路:block 級和 token 級。block 級快但漏信息風險大,所以怎么選準 block 很關鍵;token 級更靈活但實現更難。

      比如 NSA 是 block 級,每次只選一個 block,方便連續讀入、順序計算。DSA(DeepSeek Sparse Attention)把 block 的結構化約束扔掉,回到不結構化的 token 級動態稀疏。比如要選 512 個 token 刻畫一個 token,選 512 個最相關的 token,而不是選 512/32 個 block,顆粒度更細也更準,但實現難度大的多。

      Deepseek 訓練不是從預訓練開始稀疏化,而是訓練到中途才用:先蒸餾,把 DeepSeek 3.1 轉成 MQA,再把注意力分布蒸餾到 indexer,作為初始化。

      DSA 的 trick 在于,用一個非常輕量的平方復雜度 Attention 做 “indexer” 來生成全局注意力矩陣,因為這個算子能在 FP8 下跑、不需要 online softmax,只是矩陣乘法,所以算得很快。indexer 得到 L×L 的注意力矩陣后,直接做 Top-K,每個 token 找出最相關的前 K 個 token。

      稀疏還有梯度傳遞的問題,block 選不準可能也是梯度質量差導致。

      最后,稀疏注意力也可以考慮減少 KV cache?,F在大多數稀疏注意力保留全部 KV cache ,幾乎和完全注意力一樣,還是會卡在 KV cache 的規模瓶頸。

      晚點:線性注意力呢?

      楊松琳:線性注意力的架構方向驗證得差不多了,更值得探索的是更新規則??梢韵胂?DeltaNet 外還有哪些更新方式既能更好地并行實現,又更具表達力。

      另外,沿著 DeltaNet 還能繼續做很多,比如加衰減、norm 衰減;DeltaNet 在 test-time training 視角就是近似梯度下降,有些工作像 DeltaProduct 每步會做多次梯度下降,而不是一次;還有動態擴容思路,如記憶混合,把 RNN 的狀態當成 MLP 的權重矩陣,既然可以在權重矩陣上做 MoE ,那么也能在 RNN 的記憶狀態做 MoE;最近也研究有把滑窗和線性注意力結合,鄰近 token 保留滑窗,遠距離用線性注意力壓縮。

      晚點:你覺得當前的注意力機制離理想狀態還差什么?

      楊松琳:先不說理想,我更希望下一步看到有人把稀疏注意力和線性注意力真正做通?,F在的混合注意力依然在全局保留完全注意力層,長文本解碼時還是會被它拖慢。如果能把所有完全注意力都換成稀疏注意力,比如 DSA 混 KDA 之類的組合,至少能把長文本問題階段性解決,KV cache 規模降下來,就能做更多長文本應用,也能做更多 agentic 任務。(01:18:43)

      晚點:現在大家都是混線性注意力和完全注意力的,而不是混線性注意力和稀疏注意力,原因是什么?

      楊松琳:我覺得架構研究還是要扎實,一次動一點、驗證透,再動下一步,不可能一步邁太大。先保留一些完全注意力,用來驗線性注意力;混合架構在旗艦模型上驗證穩定后,再去驗證稀疏注意力也不遲。(01:19:59)

      晚點:更廣泛地說,你現在會關注大模型在預訓練、強化學習之后的下一步嗎?大家在討論預訓練 + RL 可能到了瓶頸,也許需要新范式,比如在線學習、持續學習、自主學習。

      楊松琳:持續學習大家都很關心。這里有很多 open question,怎么做沒有定論,效果也不顯著,但它一定很重要。如果 AI 能持續吸收外界信息,就不需要隔段時間重訓一次;有也有強的商業價值,比如做個性化,用戶持續交互,模型積累了這些記憶就能更好地把握用戶喜好。

      晚點:現在模型的記憶能力并不是內化在模型里,而是靠工程或外掛方式實現的,是嗎?

      楊松琳:對。預訓練是把信息壓進 FFN 的權重里;另一類是上下文工程,通過注意力做上下文學習?,F在主要就是這兩種,再有就是一些記憶外掛。(注:FFN 是前饋神經網絡,Transformer 中的前饋全連接層。在注意力之后,模型會把每個 token 的向量分別送入兩層 MLP 作為存儲的記憶,這部分就是 FFN。)

      晚點:如果模型能持續學習,它會越來越懂你,那上下文工程的空間不就變小了?

      楊松琳:這依然是個 open question:哪些信息該存進權重矩陣,哪些該放在上下文里,沒有定論。

      其實兩者是對偶的:梯度下降可視為一種上下文學習,而上下文學習也能視為梯度下降。現在流行的測試時訓練(Test-Time Training)把每個 token 當訓練樣本,輸入后做一次梯度下降快速權重更新;在 RNN 里快速權重可以視為隱狀態。既然有這種對偶,FFN 如何在訓練中牢牢記住成千上萬的 token,也能啟發長文本問題:把信息寫進權重,再用動態的測試時訓練,也許能走出更好的持續學習路徑。

      我對這個路徑很看好的?,F在的權重推理時不更新,無法吸收新信息;測試時訓練或快速權重編程(Fast Weight Programming)允許處理新 token 后實時更新權重。如果能把這套機制打通,長文本問題能靠更緊湊的權重存更多信息,持續學習也能順帶解決。(注:測試時訓練:在推理階段對模型參數進行快速更新,讓模型利用當前輸入的信息提升輸出表現。例如模型在處理一篇醫學文章時,可以先用文章里的一小段內容做一次快速梯度更新,讓模型立即更擅長理解該領域的術語,再繼續生成答案。)

      題圖來源:月升王國

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普亮綠燈批準,美國售臺111億美元軍火,賴當局欣喜若狂

      特朗普亮綠燈批準,美國售臺111億美元軍火,賴當局欣喜若狂

      第一軍情
      2025-12-18 16:09:13
      狼王回歸!加內特重返森林狼任職 21號球衣退役將在明尼蘇達舉辦

      狼王回歸!加內特重返森林狼任職 21號球衣退役將在明尼蘇達舉辦

      羅說NBA
      2025-12-18 22:45:03
      癲出新高度!比安卡穿乳膠衣,把自己扭成家具?網友:看不懂但大受震撼

      癲出新高度!比安卡穿乳膠衣,把自己扭成家具?網友:看不懂但大受震撼

      最黑科技
      2025-12-16 22:49:00
      價格暴降!上海門店兩天被搶空,“猶豫一下就沒貨了”...

      價格暴降!上海門店兩天被搶空,“猶豫一下就沒貨了”...

      申消費
      2025-12-17 10:31:28
      葡萄牙歷史身價最高球員排名揭曉,C羅領銜前十!

      葡萄牙歷史身價最高球員排名揭曉,C羅領銜前十!

      球天下資訊
      2025-12-18 21:55:04
      人猛價不高,小波特已成交易市場熱門,要價1首輪火箭成熱門下家

      人猛價不高,小波特已成交易市場熱門,要價1首輪火箭成熱門下家

      拾叁懂球
      2025-12-18 14:40:02
      男性長期禁欲,性能力會更加強?醫生提醒:可能要付出這幾個代價

      男性長期禁欲,性能力會更加強?醫生提醒:可能要付出這幾個代價

      醫者榮耀
      2025-12-17 12:05:09
      俄媒:智利大選結果出爐 拉美右翼政治聯盟進一步成型

      俄媒:智利大選結果出爐 拉美右翼政治聯盟進一步成型

      參考消息
      2025-12-17 21:32:04
      中國足協無視潛規則!硬剛國際足聯,拒絕為世界杯讓路

      中國足協無視潛規則!硬剛國際足聯,拒絕為世界杯讓路

      綠茵舞著
      2025-12-17 23:17:32
      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      故宮一件我一件的含金量又上升了,南京博物館藏品細節越挖多了!

      你食不食油餅
      2025-12-18 02:04:53
      傅作義親自護送5位敵將登機南逃,幾十年后才知他保住的是什么

      傅作義親自護送5位敵將登機南逃,幾十年后才知他保住的是什么

      小哥很OK
      2025-12-16 09:24:47
      手術室護士長王嬌被查,涉嫌嚴重違法!

      手術室護士長王嬌被查,涉嫌嚴重違法!

      醫脈圈
      2025-12-17 20:54:04
      玩火自焚!美囤銅想卡脖,不料鋁價狂飆,中國坐莊,他們急著求饒

      玩火自焚!美囤銅想卡脖,不料鋁價狂飆,中國坐莊,他們急著求饒

      近史博覽
      2025-12-18 18:12:03
      特朗普正面開撕,索賠金額暴漲10倍,反華慣犯BBC要付賬了

      特朗普正面開撕,索賠金額暴漲10倍,反華慣犯BBC要付賬了

      公子故事會
      2025-12-17 18:28:55
      40年前的奢侈飲料“麥乳精”,到底是什么東西?

      40年前的奢侈飲料“麥乳精”,到底是什么東西?

      簡食記工作號
      2025-12-12 21:11:15
      柬埔寨的洪家天下:“金邊肯德基全家桶”

      柬埔寨的洪家天下:“金邊肯德基全家桶”

      Wilsonhe8
      2025-07-01 00:24:02
      烏軍摧毀俄軍2套雷達、1套防空系統和1架飛機,俄軍損失超2億美元

      烏軍摧毀俄軍2套雷達、1套防空系統和1架飛機,俄軍損失超2億美元

      山河路口
      2025-12-18 21:44:37
      柬埔寨為啥不用中國戰斗機去應戰泰國?不是不想,而是真的沒法用

      柬埔寨為啥不用中國戰斗機去應戰泰國?不是不想,而是真的沒法用

      詩意世界
      2025-12-17 10:14:24
      時隔三年推新車、切入SUV賽道,歐拉不想困在“貓系”里

      時隔三年推新車、切入SUV賽道,歐拉不想困在“貓系”里

      北京商報
      2025-12-17 18:24:20
      郭京飛新劇演技炸裂,細節失誤卻讓人瘋狂吐槽!

      郭京飛新劇演技炸裂,細節失誤卻讓人瘋狂吐槽!

      娛文速遞
      2025-12-18 08:53:06
      2025-12-19 00:23:00
      晚點LatePost
      晚點LatePost
      晚一點,好一點。商業的真相總是在晚點?!锻睃cLatePost》官方賬號
      2982文章數 21861關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      家居
      親子
      本地
      公開課
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      親子要聞

      當家爸爸的聚會,鮑家寨方言課開課,奶爸學方言笑翻全場,“你據撒起”教學開始啦~

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国极品少妇videossexhd| 一本无码在线观看| 开鲁县| 欧美乱码精品一区二区三区| wwwwcom色是| 亚洲中文字幕精品久久| 在线观看亚洲欧美日本| 桃色综合网站| 肉大榛一进一出免费视频 | 亚洲av不卡电影在线网址最新| 宁夏| 在线 | 一区二区三区| 水蜜AⅤ视频一区二区三区| 乱人伦人妻精品一区二区| 美女一区二区三区| 人人妻久久人人澡人人爽人人精品| 小鸡入水蜜桃免费观看电视剧| 久久天天久久| 五月婷婷开心| 久无码久无码av无码| 久久久久久亚洲AV成人无码激情| 性色欲情网站| 九色视频丨PORNY丨丝袜| 女人与公狍交酡女免费| 亚洲成人国产精品| 成人小说一区| 在线亚洲人成电影网站色www| 国产中文| 成人无码av片在线观看| 亚州Av无码| 少妇人妻88久久中文字幕| 日本久久高清一区二区三区毛片| 南充市| 制服.丝袜.亚洲.中文.综合| 国产成人精品三级在线影院| 国产在线精品一区二区三区| 久久青青草原精品国产app| 无码粉嫩虎白一线天在线观看| 桐城市| 午夜精品久久久久久久久| 少妇50p|