<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

線性注意力回歸！Kimi新模型引爆，MiniMax卻悄悄換回傳統架構

2025-11-01 23:52:03　來源: AI寒武紀

江蘇舉報

0

分享至

LLM領域，線性注意力機制正在回歸，工程實踐主要還是國產模型在推進，主要原因大家都清楚，我們算力有限，當然也有長期的目標，Agent要真正落地干貨，注意力機制必須要改變，目前國外主要模型都是閉源的，技術細節我們不了解，看起來都是仗著有卡，暴力解算，以下是這場技術路線之爭的簡要梳理

早期：效率與精度的兩難

線性注意力并非新技術。早在2020年代，相關論文就已大量涌現。

其核心目標是將注意力機制的時間和內存復雜度從O(n2)降低到O(n)，從而在處理長序列時實現更高的效率。

然而，這些早期的嘗試從未真正獲得主流認可。根本原因在于，它們以犧牲模型精度為代價，因此從未被應用在任何一個開源的、達到業界頂尖水平（SOTA）的大語言模型中。

新的浪潮：國產模型引領

轉折點發生在今年下半年，線性注意力變體迎來了一輪復興

6月，MiniMax-M1：擁有4560億總參數、460億激活參數的MoE模型，采用了“閃電注意力”（lightning attention）

8月，Qwen3-Next：由Qwen3團隊推出，采用了線性注意力變體

9月，DeepSeek V3.2：由DeepSeek團隊發布，采用了稀疏注意力（sparse attention），雖然并非嚴格的線性，但仍是亞二次方復雜度

這三個模型的共同點是，在大部分或所有層中，都用高效的線性或亞二次方注意力變體取代了傳統的二次方注意力

劇情反轉：MiniMax悄然“倒戈”

就在線性注意力看似前景大好之時，劇情出現了反轉。

MiniMax團隊發布了其新的2300億參數模型M2，但出人意料地放棄了線性注意力，回歸了常規注意力機制

團隊給出的解釋是，線性注意力在生產環境的LLM中非常棘手。雖然它在處理常規提示時表現尚可，但在推理和多輪對話任務中存在明顯的精度問題——而這兩項能力對于聊天會話和智能體應用至關重要

這一舉動一度讓外界認為，線性注意力的探索或許不值得再繼續下去

Kimi入局：混合策略帶來新解法

然而，上周，Kimi團隊發布了其全新的Kimi Linear模型，再次將線性注意力拉回舞臺中央。

官方數據顯示，與常規的全注意力（full attention）相比，Kimi Linear實現了：

75%的KV緩存縮減

最高達6倍的解碼吞吐量

在架構上，Kimi Linear與Qwen3-Next有諸多相似之處，兩者都依賴于一種混合注意力策略。

具體來說，它們都將輕量級的線性注意力與重量級的全注意力層結合使用。兩者的比例均為3:1，即每三個采用線性注意力（Gated DeltaNet變體）的Transformer塊，就搭配一個使用全注意力的塊

但Kimi Linear在此基礎上進行了改進：

1.線性部分：采用了Kimi Delta Attention (KDA)機制，這是對Gated DeltaNet的精煉，關于KDA解讀可以看我之前的文章

2.全注意力部分：用多頭潛在注意力（multi-head latent attention, MLA）取代了標準的全注意力模塊

雖然Kimi Linear的論文中沒有與Qwen3-Next的直接比較，但與Gated DeltaNet論文中的Gated DeltaNet-H1模型（本質上是Gated DeltaNet與滑動窗口注意力的結合）相比，Kimi Linear在保持相同token生成速度的同時，實現了更高的建模精度

需要的注意的目前Kimi Linear中的多頭潛在注意力（MLA）尚未整合輸出門（sigmoid bypass），但團隊計劃在未來加入這一特性

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

佛山順德一4A景區灰塑被人拿下，官方通報

南方都市報 2026-02-26 12:58:14
623 跟貼 623
“反詐老陳”賬號被封，本人回應：問心無愧！MCN機構：即刻解除所有合約，雙方合作立即終止

都市快報橙柿互動 2026-03-01 07:15:47
1086 跟貼 1086

年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環球網資訊 2026-02-27 09:52:19
526 跟貼 526

男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區回應：“八仙過海”石雕屬于公共區域無人值守，后續會加強巡邏

三湘都市報 2026-02-28 13:37:39
1188 跟貼 1188
湖南將派出14個副廳級領導擔任組長的督導組，赴市州督導

湖南日報 2026-03-01 14:28:00
5 跟貼 5

中超|延續傳統，山東泰山部分代表開展登泰山活動

齊魯壹點 2026-03-01 22:11:24
0 跟貼 0

極氪公布春節十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
明天開學會下雨嗎？上海下周開啟新一輪入春沖刺

縱相新聞 2026-03-01 18:41:13
16 跟貼 16

9.9元/升的椰子水能喝嗎？“100%椰子水”疑似加水加糖？業內人士揭秘真相

上觀新聞 2026-03-01 14:27:23
19 跟貼 19
已有杭州飛往迪拜的航班取消！多家航空公司暫停航班，滯留旅客花費人均近萬元回國

都市快報橙柿互動 2026-03-01 10:18:58
464 跟貼 464
安徽一獨生女哭訴：捧著母親的骨灰盒連悲傷痛哭的時間都沒

阿SIR觀察 2026-03-01 22:54:11
0 跟貼 0
剛剛 | 退錢了！有人退了3萬多！

天津廣播 2026-03-01 08:20:12
671 跟貼 671
押金不夠，女友來湊

一個島島 2026-03-01 22:35:30
0 跟貼 0
全國政協會議議程來了

央視新聞客戶端 2026-03-01 09:49:59
49 跟貼 49
月月315｜男子花52.5萬全款購買婚房，5年多未等來房產證，湖南岳陽縣住建局：房款未進入開發商賬戶，正全力推動解決

大風新聞 2026-03-01 14:34:03
3 跟貼 3
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
78 跟貼 78
椰樹集團廣告語再引爭議

南陽網 2026-03-01 22:27:18
1 跟貼 1
“手機將全面漲價”，沖上熱搜

南方都市報 2026-02-27 14:31:12
0 跟貼 0
首屆中關村（海淀）國際機器人產業園科技廟會啟幕

中國日報網 2026-03-01 20:54:03
2 跟貼 2
溫州女子投訴：業委會成員搞特權

溫曉生 2026-03-01 22:54:57
0 跟貼 0
再現逆轉！中國男籃擊敗中國臺北男籃，世預賽賽場斬獲連勝

澎湃新聞 2026-03-01 17:52:27
4 跟貼 4
云南女子每天被尿騷味熏醒！監控拍下七旬老人凌晨缺德操作！

今朝牛馬 2026-03-01 22:38:49
0 跟貼 0
切斷霍爾木茲海峽后會發生什么？專家：布倫特原油可能率先突破80美元

財聯社 2026-03-01 11:29:10
0 跟貼 0

大快人心！打人夫妻再迎3大噩耗，舅舅被曝惡行，勢力再大也沒用

大快人心！打人夫妻再迎3大噩耗，舅舅被曝惡行，勢力再大也沒用

社會日日鮮

2026-02-28 11:20:06

首發0分他打球拖累全隊！球迷炮轟郭士強選他是錯誤，該選得分王

首發0分他打球拖累全隊！球迷炮轟郭士強選他是錯誤，該選得分王

老吳說體育

2026-03-01 19:21:06

特朗普應該想不到：他對伊朗的滅國之戰，讓中俄歐看清了一個真相

特朗普應該想不到：他對伊朗的滅國之戰，讓中俄歐看清了一個真相

頭條爆料007

2026-02-28 18:49:20

你們的痛苦不會白費——據稱伊朗最高領袖哈梅內伊在空襲中死亡

你們的痛苦不會白費——據稱伊朗最高領袖哈梅內伊在空襲中死亡

老王說正義

2026-03-01 11:56:27

蘋果即將全面開放 NFC 功能！實在是等太久了

蘋果即將全面開放 NFC 功能！實在是等太久了

XCiOS俱樂部

2026-02-28 22:27:50

放假半天！不補休

小易商丘

2026-03-01 10:00:47

哈梅內伊遇害，伊朗會怎么報復？

哈梅內伊遇害，伊朗會怎么報復？

紅星新聞

2026-03-01 11:51:17

阿里的復仇：一場遲到了十年的清算

阿里的復仇：一場遲到了十年的清算

快消經緯

2026-02-28 18:58:05

中東誰也打不過的以色列，在東亞算什么水平？韓國：誰也打不過

中東誰也打不過的以色列，在東亞算什么水平？韓國：誰也打不過

比利

2025-11-29 18:49:51

穆帥：若證實普雷斯蒂安尼涉嫌歧視那他就離隊；我不會去皇馬

穆帥：若證實普雷斯蒂安尼涉嫌歧視那他就離隊；我不會去皇馬

懂球帝

2026-03-01 20:15:35

世紀斬首：哈梅內伊之死，如何徹底改寫中東與全球安全未來？

世紀斬首：哈梅內伊之死，如何徹底改寫中東與全球安全未來？

國是直通車

2026-03-01 13:18:09

荷蘭半導體專家：ASML花費40年鉆研光刻機，中國企業竟比ASML還狠

荷蘭半導體專家：ASML花費40年鉆研光刻機，中國企業竟比ASML還狠

策略述

2026-02-28 17:11:40

3月1日晚，新加坡大滿貫大結局！王楚欽4-0奪冠，女單決賽引爭議

3月1日晚，新加坡大滿貫大結局！王楚欽4-0奪冠，女單決賽引爭議

侃球熊弟

2026-03-01 21:32:14

外交部：提醒中國公民暫勿前往伊朗周邊地區

外交部：提醒中國公民暫勿前往伊朗周邊地區

界面新聞

2026-03-01 20:26:41

29萬人逃離湖南，22萬出走吉林！人口遷徙洗牌，真正贏家非北上廣

29萬人逃離湖南，22萬出走吉林！人口遷徙洗牌，真正贏家非北上廣

通文知史

2026-02-27 00:00:04

沒想到竟然這么多工作需要保密的！網友：不讓看非看被一槍斃了

沒想到竟然這么多工作需要保密的！網友：不讓看非看被一槍斃了

另子維愛讀史

2025-12-08 20:58:22

真香啊！個稅退稅退回21606.18元，浙江一網友曬出自己的“經驗”

真香啊！個稅退稅退回21606.18元，浙江一網友曬出自己的“經驗”

火山詩話

2026-03-01 10:32:25

周末打“三虎”，都是來自安徽，力度夠大，拍手稱贊！

周末打“三虎”，都是來自安徽，力度夠大，拍手稱贊！

呼呼歷史論

2026-03-01 21:19:21

伊朗革命衛隊宣布大規模軍事行動

伊朗革命衛隊宣布大規模軍事行動

界面新聞

2026-02-28 18:18:55

退休后你會到鄉下養老嗎？網友：鄉下沒這么嚇人

退休后你會到鄉下養老嗎？網友：鄉下沒這么嚇人

帶你感受人間冷暖

2026-02-23 00:49:19

專注于人工智能，科技領域

1034文章數 396關注度

往期回顧全部

科技要聞

榮耀發布機器人手機、折疊屏、人形機器人

頭條要聞

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起真的被嚇到

頭條要聞

在以貼瓷磚的中國小伙：爆炸聲在頭頂響起真的被嚇到

體育要聞

火箭輸給熱火：烏度卡又輸斯波教練

娛樂要聞

黃景瑜李雪健坐鎮！38集犯罪大劇來襲

財經要聞

中東局勢升級如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛歷史累計交付超159萬輛

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

手機

房產

本地

公開課

教育要聞

中考數學復習，中考數學重難點二次函數，經典壓軸題，難度大

手機要聞

一加15T再次被確認：驍龍8E5+7500mAh+潛望鏡，配置全曝光！

房產要聞

濱江九小也來了！集齊海僑北+哈羅、寰島...江東教育要炸了！

本地新聞

津南好·四時總相宜

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

^{<blockquote id="bnxap"></blockquote>}

<p id="bnxap"><li id="bnxap"></li></p>

<sup id="bnxap"><rt id="bnxap"><form id="bnxap"></form></rt></sup>

<s id="bnxap"></s>