DeepSeek 在 2026 年第一篇論文,梁文峰署名
讓「多流殘差」這個(gè)好想法,能真正在大模型上跑起來(lái)
私底下,某巨佬評(píng)價(jià)道:“牛逼”
![]()
https://arxiv.org/abs/2512.24880
要理解這篇論文,得先知道 Transformer 里的信息是怎么傳的
Transformer 里的信息流
你問(wèn) ChatGPT 一個(gè)問(wèn)題:今天天氣怎么樣,它怎么回答你的?
問(wèn)題拆成一個(gè)個(gè)小單元,比如「今天」「天氣」「怎么樣」這樣的片段
,可以點(diǎn)擊下面的 svg,模擬交互
然后,每個(gè)片段會(huì)被轉(zhuǎn)成一組向量,進(jìn)入 Transformer,開(kāi)始進(jìn)行處理
數(shù)字從第一層進(jìn)去,經(jīng)過(guò)處理,傳到第二層,再處理,再傳到第三層...一直傳到最后一層
最后一層輸出的數(shù)字,決定了模型接下來(lái)要生成哪個(gè)詞
![]()
大概就是這樣
這個(gè)過(guò)程會(huì)循環(huán)往復(fù),直到所有文字都生成完畢
你看到 ChatGPT 一個(gè)字一個(gè)字往外蹦,就是這個(gè)過(guò)程
所以中間這幾十層的傳遞很關(guān)鍵。傳到最后的數(shù)字如果不對(duì),生成的內(nèi)容就會(huì)跑偏
問(wèn)題來(lái)了:層數(shù)一多,數(shù)字在傳遞過(guò)程中會(huì)越來(lái)越小,甚至趨近于零
傳到后面,前面的信息就丟了
2015 年,ResNet 提出了一個(gè)辦法:殘差連接
做法很簡(jiǎn)單。每一層在輸出的時(shí)候,把「這一層算出來(lái)的新數(shù)字」和「上一層傳過(guò)來(lái)的原始數(shù)字」加在一起,再傳給下一層
![]()
一個(gè)簡(jiǎn)單的示意圖
這樣,不管網(wǎng)絡(luò)有多深,最開(kāi)始的信息都能一路傳到底
過(guò)去十年,幾乎所有大模型都在用
字節(jié)的想法:一條路不夠,搞四條
2024 年,字節(jié)發(fā)了一篇論文叫 Hyper-Connections(HC),入選了 ICLR 2025
他們說(shuō),一條殘差通道不夠用,要把這條路拓寬成四條,還得并行
同時(shí)的,這四條通道之間,可以互相交換信息,通過(guò)一個(gè)可學(xué)習(xí)的矩陣來(lái)混合
![]()
三種連接方式對(duì)比:左邊是傳統(tǒng)殘差,中間是 HC,右邊是 DeepSeek 的 mHC
聽(tīng)起來(lái)很合理,小模型上的實(shí)驗(yàn)效果也確實(shí)好
但...
![]()
boom 問(wèn)題:信號(hào)爆炸
那個(gè)用來(lái)混合信息的矩陣,完全可學(xué)習(xí),沒(méi)有任何約束
一層沒(méi)事,兩層也還行
但層數(shù)一多,矩陣一乘,信號(hào)就飛了
信息每過(guò)一層,都要被這個(gè)矩陣處理一次。矩陣乘矩陣,再乘矩陣...
DeepSeek 在 27B 模型上復(fù)現(xiàn)了這個(gè)問(wèn)題
訓(xùn)練到 12000 步左右,loss 突然飆升,梯度劇烈震蕩,訓(xùn)練崩了
![]()
27B 模型訓(xùn)練曲線,HC 在 12k 步附近崩了
論文里給了一個(gè)指標(biāo),衡量信號(hào)在傳遞過(guò)程中被放大了多少倍
HC 在 27B 模型上,這個(gè)數(shù)能到多少?3000 倍(理想情況下,不應(yīng)該放大)
![]()
HC 的信號(hào)增益能飆到 3000 mHC:加一個(gè)約束
DeepSeek 的思路很直接
問(wèn)題出在矩陣沒(méi)有約束,那就加約束
加什么約束?
雙隨機(jī)矩陣
這個(gè)矩陣有個(gè)特點(diǎn):所有元素加起來(lái),每一行的和等于 1,每一列的和也等于 1
換句話說(shuō),信息經(jīng)過(guò)這個(gè)矩陣,可以在四條通道之間重新分配,但總量不變
信息可以流動(dòng),但總量守恒
不管模型有多少層,信號(hào)都不會(huì)爆炸,也不會(huì)消失
用了這個(gè)約束之后,27B 模型上的信號(hào)放大倍數(shù)從 3000 降到了 1.6
![]()
mHC 的信號(hào)增益穩(wěn)定在 1 附近性
這就是 mHC
m 代表 Manifold,流形約束
工程優(yōu)化
四條通道,意味著四倍的數(shù)據(jù)讀寫(xiě)量
DeepSeek 做了一系列工程優(yōu)化:內(nèi)核融合、重計(jì)算策略、流水線調(diào)度...
細(xì)節(jié)不展開(kāi)了
最終結(jié)果:
額外的訓(xùn)練時(shí)間開(kāi)銷只有 6.7%
實(shí)驗(yàn)效果
27B 模型,mHC 對(duì)比傳統(tǒng)殘差連接,loss 下降 0.021
下游任務(wù)上,推理能力(BBH)提升 2.1%,閱讀理解(DROP)提升 2.3%
訓(xùn)練全程穩(wěn)定
![]()
mHC 穩(wěn)定下降,沒(méi)崩 說(shuō)回這篇論文
字節(jié)的 HC 提出了一個(gè)好想法:把殘差通道變寬
但沒(méi)解決大規(guī)模訓(xùn)練的穩(wěn)定性問(wèn)題
DeepSeek 給出了數(shù)學(xué)上干凈的解法,然后在工程上把開(kāi)銷壓到了可接受的范圍
這篇論文透露的信息:DeepSeek 在認(rèn)真搞架構(gòu)層的優(yōu)化
下一代模型,DeepSeek 會(huì)不會(huì)用 mHC?不知道
但顯然,他們?cè)谶@個(gè)方向有投入
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.