![]()
編輯|張倩、陳陳
2026 年 1 月過(guò)半,我們依然沒(méi)有等來(lái) DeepSeek V4,但它的模樣已經(jīng)愈發(fā)清晰。
最近,DeepSeek 連發(fā)了兩篇論文,一篇解決信息如何穩(wěn)定流動(dòng),另一篇聚焦知識(shí)如何高效檢索。
第一篇論文(mHC)出來(lái)的時(shí)候,打開論文的人都表示很懵,直呼看不懂,讓 AI 助手用各種方式講給自己聽。我們也翻了翻網(wǎng)友的討論,發(fā)現(xiàn)理解起來(lái)比較透徹的辦法其實(shí)還是要回到研究脈絡(luò),看看這些年研究者們是怎么接力的。要理解第二篇論文(Conditional Memory)也是如此。
于是,我們就去翻各路研究者的分析。這個(gè)時(shí)候,我們發(fā)現(xiàn)了一個(gè)有意思的現(xiàn)象:DeepSeek 和字節(jié) Seed 團(tuán)隊(duì)的很多工作其實(shí)是存在「接力」的 ——mHC 在字節(jié) Seed 團(tuán)隊(duì) HC(Hyper-Connections)的基礎(chǔ)上進(jìn)行了重大改進(jìn);Conditional Memory 則引用了字節(jié) Seed 的 OverEncoding、UltraMem 等多項(xiàng)工作。
如果把這些工作之間的關(guān)系搞清楚,相信我們不僅可以加深對(duì) DeepSeek 論文的理解,還能看清大模型架構(gòu)創(chuàng)新正在往哪些方向突破。
在這篇文章中,我們結(jié)合自己的觀察和學(xué)界專家的點(diǎn)評(píng),嘗試為大家梳理了一下。
殘差連接的十年接力
要理解 mHC,得先回到 2015 年。
那一年,AI 大牛何愷明等人提出了 ResNet,用殘差連接解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的老大難問(wèn)題:網(wǎng)絡(luò)層數(shù)一多,信息從前往后傳遞時(shí)會(huì)逐漸失真,到最后幾層幾乎學(xué)不到東西。殘差連接的思路很簡(jiǎn)單,每一層不光接收上一層處理過(guò)的結(jié)果,還同時(shí)保留一份原始輸入,兩者加在一起再往下傳。
這個(gè)設(shè)計(jì)堪稱深度學(xué)習(xí)的基石,十年來(lái)幾乎所有主流深度網(wǎng)絡(luò)架構(gòu)都以殘差連接為默認(rèn)配置。從視覺(jué)領(lǐng)域的各類 CNN,到自然語(yǔ)言處理領(lǐng)域的 Transformer,再到如今的大語(yǔ)言模型,無(wú)一例外。
期間,研究者們大多在注意力機(jī)制、歸一化方法、激活函數(shù)等方面做了大量改進(jìn),但殘差連接的基本形式幾乎沒(méi)有根本性變化。
直到 2024 年 9 月,字節(jié) Seed 提出了 HC,論文后來(lái)被 ICLR 2025 接收。
HC 的核心創(chuàng)新在于顯著提升了網(wǎng)絡(luò)的拓?fù)鋸?fù)雜度,同時(shí)不改變單個(gè)計(jì)算單元的 FLOPs 開銷。這意味著在相同的計(jì)算預(yù)算下,模型可以探索更豐富的特征組合方式。
中國(guó)人民大學(xué)長(zhǎng)聘副教授、博士生導(dǎo)師劉勇認(rèn)為:HC 打破了由 ResNet 統(tǒng)治的恒等映射殘差連接傳統(tǒng),提出了多路并發(fā)連接的新范式。它通過(guò)引入寬度動(dòng)態(tài)性和跨層特征聚合,證明了通過(guò)增加殘差路徑的特征維(Expansion)和引入可學(xué)習(xí)的 Dynamic Hyper Connections 可以有效緩解 Representation Collapse 的問(wèn)題并提升大語(yǔ)言模型的預(yù)訓(xùn)練效率,提供了一個(gè)超越傳統(tǒng)殘差網(wǎng)絡(luò)的全新架構(gòu)底座,即不再局限于單路徑的特征疊加,而是通過(guò)超連接構(gòu)建一個(gè)更高維、更靈活的特征流動(dòng)空間。
DeepSeek 在 mHC 論文中表示:近年來(lái),以 Hyper-Connections(HC)(Zhu et al., 2024) 為代表的研究,為殘差連接引入了一個(gè)新的維度,并在實(shí)驗(yàn)上驗(yàn)證了其顯著的性能潛力。HC 的單層結(jié)構(gòu)如圖 1 (b) 所示。通過(guò)擴(kuò)展殘差流的寬度并提升連接結(jié)構(gòu)的復(fù)雜性,HC 在不改變單個(gè)計(jì)算單元 FLOPs 開銷的前提下,顯著提升了網(wǎng)絡(luò)的拓?fù)鋸?fù)雜度。
![]()
可以看出:字節(jié) Seed 提出的「擴(kuò)展殘差流寬度 + 可學(xué)習(xí)連接矩陣」這一新的架構(gòu)范式,構(gòu)成了其后續(xù)方法設(shè)計(jì)的重要基礎(chǔ),相關(guān)工作正是在這一范式框架內(nèi)進(jìn)一步展開的。
但 HC 在走向大規(guī)模訓(xùn)練的過(guò)程中遇到了瓶頸,導(dǎo)致訓(xùn)練不穩(wěn)定和受限的可擴(kuò)展性。盡管如此,但其為后續(xù)研究指明了方向。劉勇認(rèn)為,HC 論文為 mHC 研究提供了三個(gè)核心思路:
- 首先是寬度擴(kuò)展(Stream Expansion),即通過(guò)將殘差流維度擴(kuò)大(如擴(kuò)大至 4 倍或更多),能夠顯著增強(qiáng)模型的容量和學(xué)習(xí)能力;
- 其次是多尺度連接的權(quán)重化,通過(guò)引入可學(xué)習(xí)矩陣來(lái)分配不同層級(jí)特征的貢獻(xiàn),啟示了連接權(quán)重管理(mHC 中的 Sinkhorn-Knopp 算法)的重要性;
- 最后是動(dòng)態(tài)拓?fù)涞臐摿?/strong>,論文展示了模型可以根據(jù)深度動(dòng)態(tài)調(diào)整特征流向,這種軟拓?fù)浣Y(jié)構(gòu)為解決深層網(wǎng)絡(luò)訓(xùn)練難點(diǎn)提供了新視角。這些探索讓 mHC 意識(shí)到,雖然拓?fù)浣Y(jié)構(gòu)的復(fù)雜化能帶來(lái)增益,但也必須解決隨之而來(lái)的訓(xùn)練穩(wěn)定性與工程效率問(wèn)題。
正是基于這些探索,DeepSeek 團(tuán)隊(duì)得以明確 mHC 的研究方向:在繼承 HC 架構(gòu)優(yōu)勢(shì)的同時(shí),針對(duì)性地解決其規(guī)模化瓶頸。
劉勇指出:mHC 針對(duì) HC 在大規(guī)模部署時(shí)暴露的穩(wěn)定性風(fēng)險(xiǎn)和內(nèi)存訪問(wèn)開銷進(jìn)行了針對(duì)性改進(jìn)。在研究思路上,mHC 延續(xù)了 HC 的寬度擴(kuò)展與多路徑聚合,并進(jìn)一步通過(guò) Sinkhorn-Knopp 等技術(shù)手段,施加流形約束,將 HC 的廣義空間投影回特定流形,從而在保留 HC 性能優(yōu)勢(shì)的同時(shí),重新找回了殘差網(wǎng)絡(luò)至關(guān)重要的恒等映射特性,解決了 HC 在超大規(guī)模訓(xùn)練時(shí)的不穩(wěn)定性。在工程層面,mHC 中提出了更高效的內(nèi)核優(yōu)化(Infrastructure Optimization),使該范式從理論實(shí)驗(yàn)走向了萬(wàn)億級(jí)參數(shù)規(guī)模的工業(yè)級(jí)應(yīng)用。
基于這些改進(jìn),mHC 不僅解決了穩(wěn)定性問(wèn)題,且在大規(guī)模訓(xùn)練中(如 27B 模型)表現(xiàn)出卓越的可擴(kuò)展性。
我們不難發(fā)現(xiàn),mHC 解決了 HC 在大規(guī)模訓(xùn)練中的工程瓶頸。通過(guò)引入流形約束,mHC 在保留 HC 架構(gòu)優(yōu)勢(shì)的同時(shí)恢復(fù)了訓(xùn)練穩(wěn)定性,使得這一新范式真正具備了在主流大模型訓(xùn)練中應(yīng)用的條件。
有網(wǎng)友認(rèn)為:DeepSeek 提出的 mHC 是對(duì)字節(jié) Seed HC 訓(xùn)練架構(gòu)技巧的一次頗具說(shuō)服力的推進(jìn)。
![]()
從 2015 年殘差連接問(wèn)世,到 2024 年字節(jié) Seed 提出 HC,再到 2026 年 DeepSeek 提出 mHC,我們清楚地看到殘差連接在算法上的演進(jìn),是不同機(jī)構(gòu)、研究者持續(xù)接力和優(yōu)化的結(jié)果。
而在 DeepSeek 發(fā)布的另一篇論文中,我們看到了幾乎相同的模式再次上演。
都用 N-gram,字節(jié) Seed、DeepSeek 接連導(dǎo)出新結(jié)論
和 mHC 論文的「抽象」感不同,「Conditional Memory」論文解決的問(wèn)題比較好理解:大模型被問(wèn)到的很多問(wèn)題是可以直接查表解決的,比如「法國(guó)的首都是哪里」,但由于標(biāo)準(zhǔn) Transformer 缺乏原生的知識(shí)查找原語(yǔ),即使這樣簡(jiǎn)單的問(wèn)題,模型也得去計(jì)算,就像你上了考場(chǎng)還要自己推導(dǎo)公式,這無(wú)疑是一種浪費(fèi)。
對(duì)此,「Conditional Memory」論文提出的解決方案是給模型裝一個(gè)「小抄本」(Engram),常見的詞組直接查表,省下來(lái)的算力用來(lái)做更復(fù)雜的推理。
具體來(lái)說(shuō),Engram 的做法是:給模型配一個(gè)巨大的「詞組詞典」,當(dāng)模型讀到某個(gè)詞(比如「Great」時(shí),就把它前面幾個(gè)詞拼成 N-gram(比如「the Great」或「Alexander the Great」),然后用哈希函數(shù)把這個(gè) N-gram 變成一個(gè)數(shù)字,直接去詞典里查對(duì)應(yīng)的向量。
這個(gè)「N-gram 哈希查表」的做法,字節(jié) Seed 之前也用過(guò)。在提出OverEncoding 方法的論文(題為「Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling」)中,他們發(fā)現(xiàn):給模型配一個(gè)巨大的 N-gram 詞典,幾乎是「白撿」的性能提升。為什么說(shuō)白撿?劉勇分析說(shuō),因?yàn)?strong>這些海量的嵌入?yún)?shù)是稀疏激活的,每次推理只查其中極少數(shù),所以既不怎么吃顯存,也不怎么費(fèi)算力。更重要的是,論文發(fā)現(xiàn)詞典越大、性能越好,而且提升幅度是可預(yù)測(cè)的。
![]()
論文地址:https://arxiv.org/pdf/2501.16975
如果說(shuō)字節(jié) Seed 論文用實(shí)驗(yàn)告訴我們「把輸入詞表加大就能漲分」,DeepSeek 論文則另開一條賽道:把 N-gram 做成外掛存儲(chǔ) Engram,與 MoE 分工,正式提出「條件存儲(chǔ)」這條新軸線,并告訴我們?cè)撛趺捶謪?shù)才最劃算。
還是回到考場(chǎng)的比喻:字節(jié) Seed 發(fā)現(xiàn)給學(xué)生發(fā)公式手冊(cè)成績(jī)會(huì)提高,于是得出結(jié)論 ——「大詞表是更好的輸入表示」。DeepSeek 則進(jìn)一步追問(wèn):這種做法還能以什么方式提高成績(jī)?他們通過(guò) LogitLens 等工具進(jìn)行機(jī)制分析,發(fā)現(xiàn)這種 lookup 機(jī)制能將模型從繁重的局部靜態(tài)模式重建中解放出來(lái),使早期層直接獲得高階語(yǔ)義,從而增加了模型的有效推理深度。
基于這個(gè)洞察,DeepSeek 不再僅僅將 N-gram 視為簡(jiǎn)單的詞表擴(kuò)展,而是將這一實(shí)驗(yàn)性結(jié)論升華為「條件存儲(chǔ)」(Conditional Memory),這是一條與條件計(jì)算(MoE)并列的 scaling law 新軸線。在此基礎(chǔ)上,他們提出了「稀疏分配」(Sparsity Allocation)問(wèn)題:在固定參數(shù)預(yù)算下,如何在 MoE 專家與靜態(tài)存儲(chǔ)模塊之間分配參數(shù)?實(shí)驗(yàn)揭示了一條 U 型縮放規(guī)律 —— 全押 MoE 并非最優(yōu)解,將約 20%-25% 的參數(shù)分配給 Engram 反而效果更好。
劉勇表示,在工程實(shí)現(xiàn)上,DeepSeek 也進(jìn)行了系統(tǒng)性的技術(shù)改良。架構(gòu)層面,它改進(jìn)了前作僅在輸入層(Layer 0)注入信息的局限,將 Engram 模塊注入到模型的中間層,使存儲(chǔ)訪問(wèn)與深度計(jì)算實(shí)現(xiàn)并行與融合。交互機(jī)制上,它放棄了簡(jiǎn)單的嵌入加和,引入了「上下文感知門控」,利用隱狀態(tài)動(dòng)態(tài)調(diào)節(jié)檢索結(jié)果。系統(tǒng)優(yōu)化上,它通過(guò)分詞器壓縮提高存儲(chǔ)效率,并利用硬件層面的預(yù)取技術(shù)(Prefetching)解決海量參數(shù)導(dǎo)致的延遲問(wèn)題,使該技術(shù)真正具備了大規(guī)模工業(yè)落地的能力。
在論文的 3.2 章節(jié),我們發(fā)現(xiàn),DeepSeek 把自己的 Engram 與字節(jié) Seed 的 OverEncoding 方法進(jìn)行了對(duì)比,指出雖然兩者都能從更大的嵌入表中獲益,但在相同的參數(shù)預(yù)算下,Engram 的縮放效率明顯更高。
![]()
一起上分、互相啟發(fā)
研究發(fā)表的意義具象化了
每次 DeepSeek 一發(fā)論文,推特上都能引發(fā)不小的轟動(dòng),有位博主甚至提到他搭乘的飛機(jī)上有 30% 的人都在看 DeepSeek 剛發(fā)的論文。
![]()
歸根結(jié)底,這反映出一個(gè)問(wèn)題 —— 目前還愿意公開自己研究成果、帶著大家一起「上分」的頭部大模型廠商已經(jīng)越來(lái)越少了。DeepSeek 和字節(jié) Seed 在研究上的接力讓我們看到了公開研究成果的價(jià)值。
同時(shí),DeepSeek 對(duì)于社區(qū)內(nèi)優(yōu)秀成果的挖掘也給了我們一些啟發(fā),類似字節(jié) Seed 這樣的國(guó)內(nèi)頭部大模型團(tuán)隊(duì)其實(shí)有很多想法值得繼續(xù)探索。
比如,在架構(gòu)層面,除了前面提到的 OverEncoding,DeepSeek 論文中還提到了幾篇字節(jié) Seed 的相關(guān)研究,包括稀疏模型架構(gòu) UltraMem 和它的新版本 Ultramemv2。這個(gè)全新的模型架構(gòu)通過(guò)分布式多層級(jí)聯(lián)內(nèi)存結(jié)構(gòu)、Tucker 分解檢索與隱式參數(shù)擴(kuò)展優(yōu)化,有效解決了傳統(tǒng) MoE 架構(gòu)在推理階段的高額訪存問(wèn)題,同時(shí)驗(yàn)證了其優(yōu)于傳統(tǒng)架構(gòu)的 Scaling Law 擴(kuò)展特性。
![]()
此外,字節(jié) Seed 在基礎(chǔ)研究上還發(fā)表過(guò)很多大膽探索全新范式的嘗試,比如Seed Diffusion Preview,系統(tǒng)性地驗(yàn)證離散擴(kuò)散技術(shù)路線作為下一代語(yǔ)言模型基礎(chǔ)框架的可行性;SuperClass,首次舍棄了文本編碼器,直接用原始文本的分詞作為多分類標(biāo)簽,在視覺(jué)任務(wù)上效果優(yōu)于傳統(tǒng)的 CLIP 方法;甚至提出了新型神經(jīng)網(wǎng)絡(luò)架構(gòu)FAN,通過(guò)引入傅里葉原理思想,彌補(bǔ)了 Transformer 等主流模型在周期性建模方面的缺陷。
這些底層技術(shù)的研究,雖然在短期內(nèi)無(wú)法用于商業(yè)模型的訓(xùn)練,但是科技行業(yè)的進(jìn)步,正是在無(wú)數(shù)研究者對(duì)未知領(lǐng)域的探索中發(fā)生的。
畢竟,真正推動(dòng)技術(shù)進(jìn)步的,從來(lái)不是單一的突破,而是持續(xù)的積累與相互啟發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.