網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

難怪黃仁勛GTC請了楊植麟，讀完Kimi新論文我懂了

2026-03-19 17:50:41　來源: 蒼何

湖北舉報(bào)

分享至

這是蒼何的第 511 篇原創(chuàng)！

Token，正在成為 AI 時(shí)代的水和電。

誰能用更少的算力壓出更多的 token 效率，誰就能在這場軍備競賽里活得更久。

這也是為什么今年英偉達(dá) GTC 大會(huì)的焦點(diǎn)，開始從"誰的卡更多"轉(zhuǎn)向"誰用得更聰明"。

圖片來自中國藍(lán)新聞

這就不得不提剛在GTC上演講的楊植麟了，因?yàn)樗葜v的一個(gè)重要主題就是 Token 效率。

這可能也是老黃請他的原因。

楊植麟這次演講的主題是《How We Scaled Kimi K2.5》，首次完整披露了 Kimi 下一代模型的技術(shù)路線圖。他把 Kimi 的進(jìn)化邏輯概括為三個(gè)維度：

Token 效率：用 MuonClip 優(yōu)化器替代用了 11 年的 Adam，token 效率翻倍
長上下文：Kimi Linear 架構(gòu)在 128K-1M 上下文范圍內(nèi)，解碼速度提升 5-6 倍
智能體集群：引入 Orchestrator 編排器，讓多個(gè) Agent 并行協(xié)作

但真正讓我注意到的，是他在演講里提到的第三項(xiàng)底層創(chuàng)新：「Attention Residuals」。

因?yàn)榫驮?GTC 前兩天，我看到 Kimi 剛發(fā)了這篇論文。而馬斯克轉(zhuǎn)發(fā)后直接說了句：「Impressive work from Kimi」。

Karpathy 看完也半開玩笑地說：我們是不是沒把「Attention is All You Need」這句話理解透。

一篇改殘差連接的論文，怎么就讓這幫人集體激動(dòng)了？我去讀了下。

論文我也下載下來了，私信回復(fù)暗號(hào)即可獲取：Attention_Residuals

主角我居然還挺熟——殘差連接。

簡單說下殘差連接是什么。

2015 年 ResNet 提出了一個(gè)極其簡單的操作：每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個(gè)加法。

這個(gè)加法讓深層網(wǎng)絡(luò)成為可能，也讓后來的 Transformer 站穩(wěn)了腳跟。從 2015 年到現(xiàn)在，幾乎所有大模型都在用它，權(quán)重恒定為 1，所有層一視同仁。

問題在哪？

打個(gè)比方：一個(gè)學(xué)生上了 40 節(jié)課，期末復(fù)習(xí)的時(shí)候把所有筆記等量堆在一起看——不管哪門課跟考試相關(guān)，每門課都占同樣的復(fù)習(xí)時(shí)間。

結(jié)果就是：

早期學(xué)到的重要內(nèi)容，傳到深層已經(jīng)被稀釋得差不多了
后面的層想產(chǎn)生影響，得"喊"得比前面所有層加起來還大聲
研究甚至發(fā)現(xiàn)，很多大模型里相當(dāng)一部分層可以直接刪掉，性能幾乎不受影響

用了十年沒人動(dòng)，不是因?yàn)樗昝溃且驗(yàn)?夠用"讓人失去了追問的動(dòng)力。

DeepSeek 去年底發(fā)了篇論文（mHC），核心思路是：既然固定權(quán)重太死板，那就讓權(quán)重變成可學(xué)習(xí)的，讓模型自己決定怎么混合各層的信號(hào)。

DeepSeek 在殘差連接基礎(chǔ)上改進(jìn)的 mHC（流形約束超連接）架構(gòu)，解決了 Hyper-Connections 的訓(xùn)練不穩(wěn)定問題，同時(shí)保持表達(dá)能力，并在 3B/9B/27B 規(guī)模模型上驗(yàn)證了效果。

這個(gè)方向是對的，但有一個(gè)局限：權(quán)重訓(xùn)練完就固定了，不管輸入是什么，每一層拿到的混合方式都一樣。

Kimi 團(tuán)隊(duì)這篇論文問了一個(gè)更往下的問題：就算權(quán)重可以學(xué)，每一層拿到的依然是"混合過的狀態(tài)"。它沒有辦法說"我要單獨(dú)看第 3 層的輸出"。

信息一旦被攪進(jìn)累積狀態(tài)，就找不回來了。

Kimi 的解法，來自一個(gè)很漂亮的類比。

把 Attention 旋轉(zhuǎn) 90 度

Transformer 處理文本的時(shí)候，用注意力機(jī)制讓每個(gè)詞可以"回頭看"前面所有的詞，根據(jù)內(nèi)容動(dòng)態(tài)決定關(guān)注哪里。這是橫向的——在序列維度上。

Kimi 團(tuán)隊(duì)在思考：那層與層之間，為什么不能做同樣的事？

把注意力機(jī)制"旋轉(zhuǎn) 90 度"——從序列維度轉(zhuǎn)向深度維度。

改完之后，每一層擁有一個(gè)可學(xué)習(xí)的查詢向量（query），用它對所有前序?qū)拥妮敵鲎?attention。哪些層對當(dāng)前計(jì)算更重要，權(quán)重就更高；不相關(guān)的層，權(quán)重自動(dòng)降低。

回到復(fù)習(xí)的比喻：現(xiàn)在這個(gè)學(xué)生有了一套智能系統(tǒng)：做每道題之前，系統(tǒng)根據(jù)題目內(nèi)容自動(dòng)從 40 節(jié)課的筆記里挑出最相關(guān)的幾份重點(diǎn)看。

最關(guān)鍵的一點(diǎn)：這個(gè)權(quán)重是動(dòng)態(tài)的。同一個(gè)模型，處理不同的輸入，每一層對前序?qū)拥年P(guān)注程度完全不同——實(shí)時(shí)決定，而非訓(xùn)練完就固定。

Ilya 說過，LSTM 旋轉(zhuǎn) 90 度就是 ResNet。現(xiàn)在 Kimi 證明，Attention 也可以旋轉(zhuǎn) 90 度。

效果：等效白賺 25% 算力

工程上，Kimi 把模型分成約 8 個(gè) block，塊內(nèi)用傳統(tǒng)殘差，塊間做 attention。推理延遲增加不到 2%，幾乎免費(fèi)。

在自家 48B 參數(shù)模型（Kimi Linear，3B 激活參數(shù)）上驗(yàn)證：

GPQA-Diamond（科學(xué)推理）：+7.5 分
Math（數(shù)學(xué)）：+3.6 分
HumanEval（代碼）：+3.1 分

同等算力下性能更好；反過來說，達(dá)到同等性能需要的訓(xùn)練預(yù)算減少約 20%。相當(dāng)于不加機(jī)器、不加數(shù)據(jù)，只改信息流結(jié)構(gòu)，白賺 25% 的算力效果。

這幾年大模型的競爭，表面上是參數(shù)量、數(shù)據(jù)量、卡的數(shù)量在比拼。

但 GTC 的風(fēng)向已經(jīng)變了.

黃仁勛自己也清楚，光靠堆算力的時(shí)代正在見頂。

他需要在臺(tái)上展示的，是"聰明地用算力"的人。

楊植麟帶來的三項(xiàng)底層創(chuàng)新: MuonClip、Kimi Linear、Attention Residuals。

恰好都在回答同一個(gè)問題：

怎么用更少的資源做出更好的模型。

Adam 用了 11 年，Attention 用了 8 年，殘差連接用了 10 年。

這些東西不是不能動(dòng)，是大部分人默認(rèn)了"不需要?jiǎng)?。

當(dāng)所有人都在想怎么買更多的卡，有人在想怎么讓每張卡的每個(gè) token 都更值錢。

這才是黃仁勛真正想讓世界看到的。

過去兩年，從 DeepSeek 到 Kimi，中國大模型團(tuán)隊(duì)動(dòng)手的位置越來越深。

從訓(xùn)練方法論到核心網(wǎng)絡(luò)架構(gòu)，再到最底層的信號(hào)傳遞結(jié)構(gòu)。

大力出奇跡的故事講了太久了。接下來的競爭，屬于那些敢拆「地基」的人。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

黃仁勛GTC直言：現(xiàn)在是OpenClaw的時(shí)代，SaaS都將變AgaaS

機(jī)器之心Pro 2026-03-17 17:22:21
0 跟貼 0
歡迎進(jìn)入3T時(shí)代——算力主權(quán)、智能經(jīng)濟(jì)與靈識(shí)社會(huì)的范式革命

鈦媒體APP 2026-04-28 13:14:10
0 跟貼 0

人活著的唯一理由是善良

葉檀財(cái)經(jīng) 2026-02-01 17:07:04
0 跟貼 0

黃仁勛：AGI時(shí)代已經(jīng)到來，“龍蝦開公司”不是夢！

財(cái)聯(lián)社 2026-03-26 23:15:59
0 跟貼 0
1000 倍效率神話，Taalas如何用 “模型即芯片” 暴打英偉達(dá)

鈦媒體APP 2026-02-24 15:35:10
0 跟貼 0

Momenta CEO曹旭東：物理AI的“門票”至少百億美元

經(jīng)濟(jì)觀察報(bào) 2026-04-29 09:44:10
0 跟貼 0

Kimi新架構(gòu)讓馬斯克嘆服！17歲高中生作者一戰(zhàn)成名

量子位 2026-03-17 14:47:09
161 跟貼 161
銀河通用LDA定義全域數(shù)據(jù)利用范式，跨本體世界動(dòng)作大模型

量子位 2026-04-29 10:26:01
0 跟貼 0

超越VLA與世界模型,銀河通用發(fā)布LDA,全譜系數(shù)據(jù)跑通Scaling Law

機(jī)器之心Pro 2026-04-29 10:08:15
0 跟貼 0
CVPR 2026 | 20步也能穩(wěn)住畫質(zhì)，這個(gè)擴(kuò)散加速方法不一樣

機(jī)器之心Pro 2026-04-10 18:40:17
0 跟貼 0
智元新增人形機(jī)器人生產(chǎn)訂單超萬臺(tái)，具身本體路線還能卷多久？ | 獨(dú)家

鈦媒體APP 2026-04-29 11:04:11
0 跟貼 0
智云收入占比超七成，四維圖新開始給AI“喂數(shù)據(jù)”

經(jīng)濟(jì)觀察報(bào) 2026-04-29 10:06:07
0 跟貼 0
連信數(shù)字/連心云黃杏：語言之外，為什么“看懂人心”才是AI的終極考題？

智東西 2026-04-29 10:32:11
0 跟貼 0
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
馬斯克拿1萬億工資，為什么大家都覺得超值

雷科技 2025-11-08 14:17:34
5 跟貼 5
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
30 跟貼 30
黃仁勛最擔(dān)心的事發(fā)生了！DeepSeek V4華為芯片首發(fā)

快科技 2026-04-27 12:27:37
1 跟貼 1
黃仁勛的感慨正在成真

新浪財(cái)經(jīng) 2026-04-28 08:57:48
2 跟貼 2
馬斯克曾點(diǎn)名中國：電池光伏汽車一個(gè)不落，中國真聽了他建議？

曉駂就是我 2026-04-29 00:38:02
2 跟貼 2
比亞迪5月1日開始漲價(jià)；微信朋友圈悄然改版；麥當(dāng)勞奶昔正式回歸

極客公園 2026-04-29 08:31:29
0 跟貼 0
馬斯克睡過的床，對中國市場虎視眈眈

虎嗅APP 2026-04-28 21:12:40
0 跟貼 0
別再以為能控制一切了！掌握“第一性原理”，你會(huì)活得更清醒！

精準(zhǔn)心理學(xué)何日輝 2026-04-28 18:14:28
0 跟貼 0
馬斯克稱Neuralink的人機(jī)共生才是人類真正的答案

不看車bukanche 2026-04-29 07:12:16
0 跟貼 0
黃仁勛：沒有對流和傳導(dǎo)，也能把數(shù)據(jù)中心建在太空

機(jī)器之心Pro 2026-03-17 19:00:19
0 跟貼 0
馬斯克的小目標(biāo)：星艦10000發(fā)/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
0 跟貼 0
方向盤裝回去了，但“躺賺神車”的餅，馬斯克這次畫得有點(diǎn)香啊

深藍(lán)航跡 2026-04-27 01:08:30
6 跟貼 6
馬斯克要改變出行歷史！Cybercab已量產(chǎn)，年產(chǎn)200萬

投行圈子 2026-04-28 00:03:41
1 跟貼 1
貝佐斯創(chuàng)業(yè)，馬斯克嘲笑，兩人的恩怨糾葛20年

量子位 2025-11-22 12:44:22
0 跟貼 0
在四五年內(nèi)，在太空運(yùn)行大規(guī)模AI將比地面更劃算

每日經(jīng)濟(jì)新聞 2026-01-22 12:48:26
0 跟貼 0
科技圈3大肝帝！最后一個(gè)連睡覺都在干活

雷科技 2026-02-03 20:54:35
0 跟貼 0
馬斯克狀告奧特曼OpenAI“變心”案，陪審團(tuán)選拔今日啟動(dòng)

Nee看 2026-04-28 15:09:43
0 跟貼 0
黃仁勛全世界穿皮衣，唯獨(dú)在中國換上了大花襖

雷科技 2026-01-27 17:19:30
0 跟貼 0
馬斯克：西方不搞電車，歐日韓集體擁抱氫能，中國電動(dòng)車錯(cuò)了沒？

主持人璐璐lu 2026-04-27 22:06:57
3 跟貼 3
清華教授揚(yáng)言物理太難，馬斯克接下來的話，對方瞬間啞口無言！

矻矻時(shí)尚 2026-04-28 10:30:50
0 跟貼 0
外網(wǎng)看美國請求中國租借月壤，外國網(wǎng)友都炸鍋了

是麗麗啊 2026-04-27 14:02:16
0 跟貼 0
馬斯克真的把方向盤給刪了，Cybercab在北美正式量產(chǎn)

國+社區(qū) 2026-04-28 12:42:56
17 跟貼 17
馬斯克4秒掙的錢相當(dāng)于普通人一年的收入

每日經(jīng)濟(jì)新聞 2026-01-21 00:05:31
1 跟貼 1
AI狼人殺決戰(zhàn)，誰是國內(nèi)推理天花板

思哲與創(chuàng)富 2026-04-27 10:28:17
1 跟貼 1
因OpenAI未能達(dá)成目標(biāo)，軟銀大跌近10%，甲骨文、AMD也被拖累；英偉達(dá)發(fā)布新模型Nemotron 3 Nano Omni，效率提升9倍丨全球科技早參

每日經(jīng)濟(jì)新聞 2026-04-29 08:20:12
1 跟貼 1
上海迪士尼回應(yīng)游客勸阻吸煙被打：園區(qū)沒有禁煙；被打男子發(fā)聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229

蒼何

前大廠工程師，努力分享AI干貨知識(shí)

95文章數(shù) 153關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

旅游

教育

公開課

軍事航空

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
七個(gè)無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

難怪黃仁勛GTC請了楊植麟，讀完Kimi新論文我懂了

夭折的造富神話，逼著中國AI回去賺"慢錢"

40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

巴黎5-4拜仁夜：身價(jià)1.55億的“足壇笑話”，成了最硬的底牌

單依純演唱會(huì)再唱“區(qū)區(qū)三萬天”宣戰(zhàn)

多地藥店違規(guī)串換商品套刷醫(yī)保揭秘

配32寸升降屏 新款別克世紀(jì)CENTURY上市53.99萬起

態(tài)度原創(chuàng)

兩頭騙坑了兩個(gè)女友！Rookie承認(rèn)造謠小鈺

“五五購物節(jié)”上海佛羅倫薩小鎮(zhèn)解鎖“百花之城”

“我的女兒，被這些東西毀掉了！”一盒廉價(jià)珠寶，讓家長情緒失控

德國總理默茨：美國正遭受伊朗領(lǐng)導(dǎo)層的羞辱

40歲男子開賭場賺7.31億元被通緝前在英國瘋狂購房

40歲男子開賭場賺7.31億元被通緝前在英國瘋狂購房

配32寸升降屏新款別克世紀(jì)CENTURY上市53.99萬起