<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      線性注意力回歸!Kimi新模型引爆,MiniMax卻悄悄換回傳統架構

      0
      分享至


      LLM領域,線性注意力機制正在回歸,工程實踐主要還是國產模型在推進,主要原因大家都清楚,我們算力有限,當然也有長期的目標,Agent要真正落地干貨,注意力機制必須要改變,目前國外主要模型都是閉源的,技術細節我們不了解,看起來都是仗著有卡,暴力解算,以下是這場技術路線之爭的簡要梳理

      早期:效率與精度的兩難

      線性注意力并非新技術。早在2020年代,相關論文就已大量涌現。

      其核心目標是將注意力機制的時間和內存復雜度從O(n2)降低到O(n),從而在處理長序列時實現更高的效率。

      然而,這些早期的嘗試從未真正獲得主流認可。根本原因在于,它們以犧牲模型精度為代價,因此從未被應用在任何一個開源的、達到業界頂尖水平(SOTA)的大語言模型中。

      新的浪潮:國產模型引領

      轉折點發生在今年下半年,線性注意力變體迎來了一輪復興

      6月,MiniMax-M1:擁有4560億總參數、460億激活參數的MoE模型,采用了“閃電注意力”(lightning attention)

      8月,Qwen3-Next:由Qwen3團隊推出,采用了線性注意力變體

      9月,DeepSeek V3.2:由DeepSeek團隊發布,采用了稀疏注意力(sparse attention),雖然并非嚴格的線性,但仍是亞二次方復雜度

      這三個模型的共同點是,在大部分或所有層中,都用高效的線性或亞二次方注意力變體取代了傳統的二次方注意力

      劇情反轉:MiniMax悄然“倒戈”

      就在線性注意力看似前景大好之時,劇情出現了反轉。

      MiniMax團隊發布了其新的2300億參數模型M2,但出人意料地放棄了線性注意力,回歸了常規注意力機制

      團隊給出的解釋是,線性注意力在生產環境的LLM中非常棘手。雖然它在處理常規提示時表現尚可,但在推理和多輪對話任務中存在明顯的精度問題——而這兩項能力對于聊天會話和智能體應用至關重要

      這一舉動一度讓外界認為,線性注意力的探索或許不值得再繼續下去

      Kimi入局:混合策略帶來新解法

      然而,上周,Kimi團隊發布了其全新的Kimi Linear模型,再次將線性注意力拉回舞臺中央。

      官方數據顯示,與常規的全注意力(full attention)相比,Kimi Linear實現了:

      75%的KV緩存縮減

      最高達6倍的解碼吞吐量

      在架構上,Kimi Linear與Qwen3-Next有諸多相似之處,兩者都依賴于一種混合注意力策略。

      具體來說,它們都將輕量級的線性注意力與重量級的全注意力層結合使用。兩者的比例均為3:1,即每三個采用線性注意力(Gated DeltaNet變體)的Transformer塊,就搭配一個使用全注意力的塊

      但Kimi Linear在此基礎上進行了改進:

      1.線性部分:采用了Kimi Delta Attention (KDA)機制,這是對Gated DeltaNet的精煉,關于KDA解讀可以看我之前的文章

      2.全注意力部分:用多頭潛在注意力(multi-head latent attention, MLA)取代了標準的全注意力模塊

      雖然Kimi Linear的論文中沒有與Qwen3-Next的直接比較,但與Gated DeltaNet論文中的Gated DeltaNet-H1模型(本質上是Gated DeltaNet與滑動窗口注意力的結合)相比,Kimi Linear在保持相同token生成速度的同時,實現了更高的建模精度

      需要的注意的目前Kimi Linear中的多頭潛在注意力(MLA)尚未整合輸出門(sigmoid bypass),但團隊計劃在未來加入這一特性

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      雷軍低調期,兄弟林斌在小米套現140億

      雷軍低調期,兄弟林斌在小米套現140億

      野馬財經
      2025-12-30 10:01:59
      上海這里,終于要拆了?

      上海這里,終于要拆了?

      墜入二次元的海洋
      2025-12-30 02:56:20
      洪森兒媳發聲!中方114億援助物資到柬,王毅有何新要求?

      洪森兒媳發聲!中方114億援助物資到柬,王毅有何新要求?

      時時有聊
      2025-12-29 22:02:43
      黃一鳴帶女兒醫院看病,閃閃名字被曝光,網友:王思聰會很遺憾!

      黃一鳴帶女兒醫院看病,閃閃名字被曝光,網友:王思聰會很遺憾!

      娛樂團長
      2025-12-08 11:11:05
      徐湖平的父親身份被曝光:參加過“平江起義”,與江渭清是老戰友

      徐湖平的父親身份被曝光:參加過“平江起義”,與江渭清是老戰友

      方圓文史
      2025-12-29 14:41:45
      虧死!花大代價挖來的“球星”,3場硬仗全是0分,球隊3連敗了!

      虧死!花大代價挖來的“球星”,3場硬仗全是0分,球隊3連敗了!

      金山話體育
      2025-12-30 10:18:13
      iPhone 電池維修,不再是天價!

      iPhone 電池維修,不再是天價!

      黑貓科技迷
      2025-12-29 22:50:00
      正式退出,王楚欽官宣決定,遠離乒乓球,享受生活,后續計劃曝光

      正式退出,王楚欽官宣決定,遠離乒乓球,享受生活,后續計劃曝光

      懂球社
      2025-12-29 11:10:01
      黨史上最復雜離奇的懸案,毛主席被困擾18年,其中究竟有何隱情?

      黨史上最復雜離奇的懸案,毛主席被困擾18年,其中究竟有何隱情?

      貓眼觀史
      2024-11-19 09:10:02
      成都蓉城新帥浮出水面,很快到位,徐正源最佳替代者,有3大優勢

      成都蓉城新帥浮出水面,很快到位,徐正源最佳替代者,有3大優勢

      零度眼看球
      2025-12-30 09:15:07
      尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

      尿是黃色!金子也是黃色!德國男子為了提煉黃金,煮了五千升尿液

      扶蘇聊歷史
      2025-12-25 16:18:51
      你老公“免死金牌”怎么來的?網友:跟婆婆吵多兇 都感恩一輩子

      你老公“免死金牌”怎么來的?網友:跟婆婆吵多兇 都感恩一輩子

      夜深愛雜談
      2025-12-24 16:45:13
      又一百年巨頭塌了!從技術神話到貼牌代工,網友:買了個牌子殼!

      又一百年巨頭塌了!從技術神話到貼牌代工,網友:買了個牌子殼!

      青眼財經
      2025-11-18 23:16:47
      福建一攝影大賽一等獎作品被質疑用AI生成,主辦方回應

      福建一攝影大賽一等獎作品被質疑用AI生成,主辦方回應

      環球網資訊
      2025-12-28 16:56:15
      中柬泰發表新聞公報(全文)

      中柬泰發表新聞公報(全文)

      觀察者網
      2025-12-29 15:11:06
      死都不告訴另一半的秘密是啥?網友:老公的叔搭過我,要我微信

      死都不告訴另一半的秘密是啥?網友:老公的叔搭過我,要我微信

      帶你感受人間冷暖
      2025-12-18 00:20:06
      一場追思會,戳穿翁帆沉默兩個月真相,原來楊振寧生前真的沒說錯

      一場追思會,戳穿翁帆沉默兩個月真相,原來楊振寧生前真的沒說錯

      來科點譜
      2025-12-15 09:06:33
      場均轟39分,場均轟28分7助!NBA最強力球星雙人組,卻越打越辛酸

      場均轟39分,場均轟28分7助!NBA最強力球星雙人組,卻越打越辛酸

      老梁體育漫談
      2025-12-30 00:03:41
      剛剛,河北省紀委監委通報

      剛剛,河北省紀委監委通報

      新牛城
      2025-12-30 06:33:20
      東部戰區發布軍事演習主題海報《正義之錘 封港斷線》

      東部戰區發布軍事演習主題海報《正義之錘 封港斷線》

      新京報
      2025-12-30 08:36:07
      2025-12-30 10:56:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1024文章數 393關注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達數十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財經要聞

      翁杰明:宏觀數據與居民微觀感受存在差距

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      數碼
      健康
      游戲
      手機
      公開課

      數碼要聞

      LG將在CES 2026推出畫框式藝術電視Gallery TV

      這些新療法,讓化療不再那么痛苦

      ShadPS4模擬器重大突破:《血源》成功運行在線功能

      手機要聞

      HMD Pulse 2 Pro手機曝光:紫光展銳T7250芯片、6.72英寸屏幕

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品一区| 精品无码国产污污污免费| 内射视频在线观看| 性欧美高清| 99蜜桃在线观看免费视频网站| 午夜人成免费视频| 国产精品自在欧美一区| jizzjizz欧美| 枝江市| 亚洲国产精品无码久久久| 国产精品天干天干| 成人福利国产午夜AV免费不卡在线| 久久精品动漫| 亚洲国产成人精品女人久久久| 日本大片在线看黄a∨免费| 欧美激情一区二区久久久| 国内精品99偷拍| 庆城县| 国产精品麻豆成人av电影艾秋 | 牛牛视频一区二区三区| 又爆又大又粗又硬又黄的a片| 欧美啪啪视频| 久久综合网色| 中文字幕无码不卡一区二区三区| 国精产品一区一区三区有限公司 | 国产菊爆视频在线观看| 旬阳县| 久久视频在线视频| 国产精品自在欧美一区| 人妻?制服?丝袜| 中文字幕乱论| 国产精品久久..4399| 欧美成人h精品网站| XXX国产| 天堂国产一区二区三区| 97久久天天综合色天天综合色hd| 999国产精品视频免费| 遵义县| 337p西西人体大胆瓣开下部| 国产高清在线精品一区不卡| 91免费在线|