這是蒼何的第 511 篇原創(chuàng)!
Token,正在成為 AI 時(shí)代的水和電。
誰能用更少的算力壓出更多的 token 效率,誰就能在這場軍備競賽里活得更久。
這也是為什么今年英偉達(dá) GTC 大會(huì)的焦點(diǎn),開始從"誰的卡更多"轉(zhuǎn)向"誰用得更聰明"。
![]()
圖片來自中國藍(lán)新聞
這就不得不提剛在GTC上演講的楊植麟了,因?yàn)樗葜v的一個(gè)重要主題就是 Token 效率。
這可能也是老黃請他的原因。
楊植麟這次演講的主題是《How We Scaled Kimi K2.5》,首次完整披露了 Kimi 下一代模型的技術(shù)路線圖。他把 Kimi 的進(jìn)化邏輯概括為三個(gè)維度:
Token 效率:用 MuonClip 優(yōu)化器替代用了 11 年的 Adam,token 效率翻倍
長上下文:Kimi Linear 架構(gòu)在 128K-1M 上下文范圍內(nèi),解碼速度提升 5-6 倍
智能體集群:引入 Orchestrator 編排器,讓多個(gè) Agent 并行協(xié)作
![]()
但真正讓我注意到的,是他在演講里提到的第三項(xiàng)底層創(chuàng)新:「Attention Residuals」。
![]()
因?yàn)榫驮?GTC 前兩天,我看到 Kimi 剛發(fā)了這篇論文。而馬斯克轉(zhuǎn)發(fā)后直接說了句:「Impressive work from Kimi」。
![]()
Karpathy 看完也半開玩笑地說:我們是不是沒把「Attention is All You Need」這句話理解透。
![]()
一篇改殘差連接的論文,怎么就讓這幫人集體激動(dòng)了?我去讀了下。
![]()
論文我也下載下來了,私信回復(fù)暗號(hào)即可獲取:Attention_Residuals
主角我居然還挺熟——殘差連接。
簡單說下殘差連接是什么。
2015 年 ResNet 提出了一個(gè)極其簡單的操作:每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個(gè)加法。
這個(gè)加法讓深層網(wǎng)絡(luò)成為可能,也讓后來的 Transformer 站穩(wěn)了腳跟。從 2015 年到現(xiàn)在,幾乎所有大模型都在用它,權(quán)重恒定為 1,所有層一視同仁。
![]()
問題在哪?
打個(gè)比方:一個(gè)學(xué)生上了 40 節(jié)課,期末復(fù)習(xí)的時(shí)候把所有筆記等量堆在一起看——不管哪門課跟考試相關(guān),每門課都占同樣的復(fù)習(xí)時(shí)間。
結(jié)果就是:
早期學(xué)到的重要內(nèi)容,傳到深層已經(jīng)被稀釋得差不多了
后面的層想產(chǎn)生影響,得"喊"得比前面所有層加起來還大聲
研究甚至發(fā)現(xiàn),很多大模型里相當(dāng)一部分層可以直接刪掉,性能幾乎不受影響
![]()
用了十年沒人動(dòng),不是因?yàn)樗昝溃且驗(yàn)?夠用"讓人失去了追問的動(dòng)力。
DeepSeek 去年底發(fā)了篇論文(mHC),核心思路是:既然固定權(quán)重太死板,那就讓權(quán)重變成可學(xué)習(xí)的,讓模型自己決定怎么混合各層的信號(hào)。
DeepSeek 在殘差連接基礎(chǔ)上改進(jìn)的 mHC(流形約束超連接) 架構(gòu),解決了 Hyper-Connections 的訓(xùn)練不穩(wěn)定問題,同時(shí)保持表達(dá)能力,并在 3B/9B/27B 規(guī)模模型上驗(yàn)證了效果。
![]()
這個(gè)方向是對的,但有一個(gè)局限:權(quán)重訓(xùn)練完就固定了,不管輸入是什么,每一層拿到的混合方式都一樣。
Kimi 團(tuán)隊(duì)這篇論文問了一個(gè)更往下的問題:就算權(quán)重可以學(xué),每一層拿到的依然是"混合過的狀態(tài)"。它沒有辦法說"我要單獨(dú)看第 3 層的輸出"。
信息一旦被攪進(jìn)累積狀態(tài),就找不回來了。
Kimi 的解法,來自一個(gè)很漂亮的類比。
把 Attention 旋轉(zhuǎn) 90 度
Transformer 處理文本的時(shí)候,用注意力機(jī)制讓每個(gè)詞可以"回頭看"前面所有的詞,根據(jù)內(nèi)容動(dòng)態(tài)決定關(guān)注哪里。這是橫向的——在序列維度上。
Kimi 團(tuán)隊(duì)在思考:那層與層之間,為什么不能做同樣的事?
把注意力機(jī)制"旋轉(zhuǎn) 90 度"——從序列維度轉(zhuǎn)向深度維度。
改完之后,每一層擁有一個(gè)可學(xué)習(xí)的查詢向量(query),用它對所有前序?qū)拥妮敵鲎?attention。哪些層對當(dāng)前計(jì)算更重要,權(quán)重就更高;不相關(guān)的層,權(quán)重自動(dòng)降低。
![]()
回到復(fù)習(xí)的比喻:現(xiàn)在這個(gè)學(xué)生有了一套智能系統(tǒng):做每道題之前,系統(tǒng)根據(jù)題目內(nèi)容自動(dòng)從 40 節(jié)課的筆記里挑出最相關(guān)的幾份重點(diǎn)看。
![]()
最關(guān)鍵的一點(diǎn):這個(gè)權(quán)重是動(dòng)態(tài)的。同一個(gè)模型,處理不同的輸入,每一層對前序?qū)拥年P(guān)注程度完全不同——實(shí)時(shí)決定,而非訓(xùn)練完就固定。
Ilya 說過,LSTM 旋轉(zhuǎn) 90 度就是 ResNet。現(xiàn)在 Kimi 證明,Attention 也可以旋轉(zhuǎn) 90 度。
![]()
效果:等效白賺 25% 算力
工程上,Kimi 把模型分成約 8 個(gè) block,塊內(nèi)用傳統(tǒng)殘差,塊間做 attention。推理延遲增加不到 2%,幾乎免費(fèi)。
在自家 48B 參數(shù)模型(Kimi Linear,3B 激活參數(shù))上驗(yàn)證:
GPQA-Diamond(科學(xué)推理):+7.5 分
Math(數(shù)學(xué)):+3.6 分
HumanEval(代碼):+3.1 分
同等算力下性能更好;反過來說,達(dá)到同等性能需要的訓(xùn)練預(yù)算減少約 20%。相當(dāng)于不加機(jī)器、不加數(shù)據(jù),只改信息流結(jié)構(gòu),白賺 25% 的算力效果。
![]()
這幾年大模型的競爭,表面上是參數(shù)量、數(shù)據(jù)量、卡的數(shù)量在比拼。
但 GTC 的風(fēng)向已經(jīng)變了.
黃仁勛自己也清楚,光靠堆算力的時(shí)代正在見頂。
他需要在臺(tái)上展示的,是"聰明地用算力"的人。
楊植麟帶來的三項(xiàng)底層創(chuàng)新: MuonClip、Kimi Linear、Attention Residuals。
恰好都在回答同一個(gè)問題:
怎么用更少的資源做出更好的模型。
Adam 用了 11 年,Attention 用了 8 年,殘差連接用了 10 年。
這些東西不是不能動(dòng),是大部分人默認(rèn)了"不需要?jiǎng)?。
當(dāng)所有人都在想怎么買更多的卡,有人在想怎么讓每張卡的每個(gè) token 都更值錢。
這才是黃仁勛真正想讓世界看到的。
過去兩年,從 DeepSeek 到 Kimi,中國大模型團(tuán)隊(duì)動(dòng)手的位置越來越深。
從訓(xùn)練方法論到核心網(wǎng)絡(luò)架構(gòu),再到最底層的信號(hào)傳遞結(jié)構(gòu)。
大力出奇跡的故事講了太久了。接下來的競爭,屬于那些敢拆「地基」的人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.