![]()
新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】2026新年第一天,DeepSeek發(fā)表了梁文鋒署名的重磅新論文,提出了一種名為「mHC(流形約束超連接)」的新架構(gòu),在27B參數(shù)模型上,僅增加約6.7%的訓(xùn)練時(shí)間開(kāi)銷,即可實(shí)現(xiàn)顯著性能提升。
剛剛,DeepSeek送上2026年新年第一個(gè)王炸。
這次的創(chuàng)新是,mHC(流形約束超連接)新架構(gòu)。
![]()
標(biāo)題:mHC:Manifold-Constrained Hyper-Connections
鏈接:https://arxiv.org/abs/2512.24880
在這篇論文中,DeepSeek提出了流形約束超連接(mHC),將矩陣投影到約束流形上優(yōu)化殘差連接空間,從而確保穩(wěn)定性,徹底顛覆了傳統(tǒng)AI架構(gòu)認(rèn)知——
可以擴(kuò)大殘差流通道寬度(residual stream width),而在算力和內(nèi)存上的代價(jià)卻微乎其微。
![]()
圖1: 殘差連接范式示意圖
繼Hyper-Connections(HC)開(kāi)辟「殘差連接寬度可擴(kuò)展」路線之后,mHC直接把這一思路推上實(shí)用化的快車道。
DeepSeek這次直擊AI痛點(diǎn),給同行上了一課!
值得一提的是,這次梁文鋒署名,但解振達(dá)、韋毅軒、Huanqi Cao為核心貢獻(xiàn)者,解振達(dá)為通訊作者。
DeepSeek,或敲響ResNet喪鐘
這簡(jiǎn)直是為「模型優(yōu)化玩家」量身打造的王牌秘方。
過(guò)去,超連接(hyper-connections)更多只是學(xué)術(shù)圈的小眾嘗試。
而現(xiàn)在,DeepSeek直接把它升級(jí)為基礎(chǔ)架構(gòu)的核心設(shè)計(jì)要素。
這也正是擁躉一直以來(lái)對(duì)DeepSeek的期待:數(shù)學(xué)上的洞察力+硬件層面的極致優(yōu)化。
頂級(jí)大語(yǔ)言模型(LLM)中,ResNet結(jié)構(gòu)或許即將被淘汰。
![]()
畢竟,殘差流通道寬度一直是擴(kuò)展模型的「煩人瓶頸」。
這波操作,也再次展現(xiàn)了DeepSeek典型的風(fēng)格:對(duì)同行的溫和降維打擊——
你們兩年時(shí)間都在打磨微結(jié)構(gòu),調(diào)整DS-MoE?挺可愛(ài)哈。
來(lái)看看我們?cè)趺赐妫喊岩粋€(gè)理論上看起來(lái)還不夠成熟的高級(jí)原語(yǔ),直接做實(shí),順手解鎖游戲下一關(guān)。
他們?cè)谡撐闹袑?xiě)道:「我們的內(nèi)部大規(guī)模訓(xùn)練實(shí)驗(yàn)進(jìn)一步驗(yàn)證了mHC在大規(guī)模應(yīng)用中的有效性。」
![]()
這句話在DeepSeek的原生稀疏注意力(Natively trainable Sparse Attention,NAS)那篇論文里可沒(méi)有。
在27B模型的系統(tǒng)級(jí)基準(zhǔn)測(cè)試結(jié)果中,新架構(gòu)mHC在絕大多數(shù)基準(zhǔn)測(cè)試中持續(xù)超越基線模型并優(yōu)于HC,這證明其在大規(guī)模預(yù)訓(xùn)練中的有效性。
![]()
換句話說(shuō),DeepSeek信心十足,不怕同行知道自己的「殺招」。
這給了DeepSeek的鐵粉Teortaxes很大信心,他有九成把握:mHC會(huì)進(jìn)入DeepSeek V4。
![]()
核心方法
Manifold-Constrained Hyper-Connections (mHC)
這個(gè)方法的關(guān)鍵目標(biāo),就是在Hyper-Connections的拓?fù)湓O(shè)計(jì)下恢復(fù)身份映射屬性。這樣,就可以在大規(guī)模訓(xùn)練與現(xiàn)實(shí)基礎(chǔ)模型任務(wù)中體現(xiàn)實(shí)際價(jià)值。
mHC與傳統(tǒng)殘差連接和HC的根本差異在于:傳統(tǒng)殘差連接只保留簡(jiǎn)單的輸入 + 輸出形式(穩(wěn)定但表達(dá)受限);Hyper-Connections (HC)強(qiáng)化連接能力,但犧牲了穩(wěn)定性與效率。
而mHC的思路是:將Hyper-Connections的參數(shù)空間約束到特定的流形(manifold)上,以恢復(fù)身份映射結(jié)構(gòu)。
技術(shù)細(xì)節(jié)
受恒等映射原則的啟發(fā),mHC的核心思想是在一個(gè)特定流形上對(duì)殘差映
進(jìn)行約束。盡管原始的恒等映射通過(guò)強(qiáng)制來(lái)保證訓(xùn)練穩(wěn)定性,但這種做法從根本上阻斷了殘差流內(nèi)部的信息交互,而這種交互對(duì)于充分發(fā)揮多流(multi-stream)架構(gòu)的潛力至關(guān)重要。
因此,作者提出將殘差映射投影到一個(gè)既能維持跨層信號(hào)傳播穩(wěn)定性、又能促進(jìn)殘差流之間相互作用的流形上,從而在保證穩(wěn)定性的同時(shí)保留模型的表達(dá)能力。
為此,他們將約束為雙隨機(jī)矩陣,即矩陣元素非負(fù),且每一行與每一列的元素之和均為1。
形式化地,記為雙隨機(jī)矩陣所構(gòu)成的流形(亦稱Birkhoff多面體),將約束在其投影上,其定義為:
![]()
需要注意的是,當(dāng)n=1時(shí),雙隨機(jī)條件會(huì)退化為標(biāo)量1,從而恢復(fù)為原始的恒等映射。選擇雙隨機(jī)性能夠帶來(lái)若干對(duì)大規(guī)模模型訓(xùn)練具有重要意義的嚴(yán)格理論性質(zhì):
1.保范性:雙隨機(jī)矩陣的譜范數(shù)有上界1,即。
這意味著該可學(xué)習(xí)映射是非擴(kuò)張的,從而能夠有效緩解梯度爆炸問(wèn)題。
2.組合閉包性:
雙隨機(jī)矩陣集合在矩陣乘法下是封閉的。這保證了跨越多層的復(fù)合殘差映射![]()
仍然是雙隨機(jī)的,從而在整個(gè)模型深度范圍內(nèi)保持穩(wěn)定性。
3.通過(guò)Birkhoff多面體的幾何解釋:
集合構(gòu)成Birkhoff多面體,即置換矩陣集合的凸包。
這提供了清晰的幾何直觀:殘差映射可以被看作是若干置換的凸組合。
從數(shù)學(xué)上看,此類矩陣的反復(fù)作用會(huì)單調(diào)地增強(qiáng)不同信息流之間的混合程度,從而有效地充當(dāng)一種魯棒的特征融合機(jī)制。
參數(shù)化與流形投影
在本節(jié)中,作者詳細(xì)介紹了mHC中![]()
、以及的計(jì)算過(guò)程。
給定第l層的輸入隱藏矩陣,首先將其展平成向量,以保留完整的上下文信息。隨后,遵循原始HC的建模方式,得到動(dòng)態(tài)映射和靜態(tài)映射,具體如下:
![]()
隨后,通過(guò)如下方式得到最終滿足約束的映射:
![]()
其中,表示Sigmoid函數(shù)。
Sinkhorn–Knopp(?) 算子首先通過(guò)指數(shù)運(yùn)算保證所有元素為正,然后執(zhí)行交替的迭代歸一化過(guò)程,使矩陣的行和列分別歸一到1。
具體而言,以正矩陣作為初始值,歸一化迭代過(guò)程為:
![]()
隨著迭代次數(shù)增加,當(dāng)時(shí),該過(guò)程收斂到一個(gè)雙隨機(jī)矩陣。
在實(shí)驗(yàn)中,取作為一個(gè)實(shí)用的近似值。
高效的基礎(chǔ)設(shè)施設(shè)計(jì)
通過(guò)一系列嚴(yán)格的工程優(yōu)化,作者成功將mHC(取n=4)部署到大規(guī)模模型中,訓(xùn)練開(kāi)銷僅增加約6.7%。
內(nèi)核融合
作者觀察到,在mHC中,當(dāng)對(duì)高維隱藏狀態(tài)進(jìn)行操作時(shí),RMSNorm會(huì)帶來(lái)顯著的延遲。
為此,他們將「除以范數(shù)」的操作重新排序,使其發(fā)生在矩陣乘法之后。該優(yōu)化在數(shù)學(xué)上是等價(jià)的,但在工程實(shí)現(xiàn)上顯著提升了效率。
此外,我們采用混合精度策略,在不犧牲計(jì)算速度的前提下最大化數(shù)值精度,并將多個(gè)具有共享內(nèi)存訪問(wèn)模式的算子融合為統(tǒng)一的計(jì)算內(nèi)核,以降低內(nèi)存帶寬瓶頸。
基于公式(10)至(13)中給出的輸入與參數(shù)設(shè)置,作者實(shí)現(xiàn)了三個(gè)專用的 mHC計(jì)算內(nèi)核。
![]()
利用上述內(nèi)核計(jì)算得到的系數(shù),他們又引入了兩個(gè)額外的計(jì)算內(nèi)核來(lái)應(yīng)用這些映射。
該框架能夠簡(jiǎn)化復(fù)雜計(jì)算流程內(nèi)核的實(shí)現(xiàn),并在較小工程代價(jià)下充分發(fā)揮內(nèi)存帶寬的潛力。
重計(jì)算
n路殘差結(jié)構(gòu)在訓(xùn)練過(guò)程中會(huì)引入顯著的內(nèi)存開(kāi)銷。
為緩解這一問(wèn)題,作者在前向傳播結(jié)束后丟棄mHC內(nèi)核產(chǎn)生的中間激活,并在反向傳播階段通過(guò)重新執(zhí)行mHC內(nèi)核(不包含計(jì)算量較大的層函數(shù)F)來(lái)即時(shí)重計(jì)算這些激活。
因此,對(duì)于連續(xù)的L_r個(gè)層組成的一個(gè)模塊,只需存儲(chǔ)第一層的輸入。
在忽略輕量級(jí)系數(shù)、同時(shí)考慮到F中的pre-norm開(kāi)銷后,表3總結(jié)了在反向傳播中需要保留的中間激活以及在L_r個(gè)連續(xù)層中被重計(jì)算的瞬時(shí)激活。
![]()
隨后,他們通過(guò)最小化與L_r對(duì)應(yīng)的總內(nèi)存占用來(lái)確定最優(yōu)的塊大小。
![]()
DualPipe中的通信重疊
在大規(guī)模訓(xùn)練中,流水線并行(pipeline parallelism)是緩解參數(shù)與梯度內(nèi)存占用的標(biāo)準(zhǔn)實(shí)踐。
具體而言,他們采用了DualPipe調(diào)度策略,該策略能夠有效地重疊跨節(jié)點(diǎn)(scale-out)的互連通信流量,例如專家并行與流水線并行中的通信開(kāi)銷。
然而,與單流(single-stream)設(shè)計(jì)相比,mHC中提出的n-流殘差結(jié)構(gòu)會(huì)在流水線階段之間引入顯著的通信延遲。
此外,在階段邊界處,對(duì)所有Lr層重新計(jì)算mHC內(nèi)核也會(huì)帶來(lái)不可忽略的計(jì)算開(kāi)銷。為了解決這些瓶頸,作者對(duì)DualPipe調(diào)度進(jìn)行了擴(kuò)展(見(jiàn)下圖),以在流水線階段邊界實(shí)現(xiàn)更高效的通信與計(jì)算重疊。
![]()
原文圖4:mHC的通信–計(jì)算重疊機(jī)制。
具體而言,為避免阻塞通信流,他們MLP(即FFN)層的
內(nèi)核放置在一個(gè)獨(dú)立的高優(yōu)先級(jí)計(jì)算流上執(zhí)行。
同時(shí),在注意力層中,他們刻意避免使用長(zhǎng)時(shí)間運(yùn)行的持久化內(nèi)核(persistent kernels),以防止產(chǎn)生長(zhǎng)時(shí)間的停頓。
該設(shè)計(jì)允許對(duì)已重疊的注意力計(jì)算進(jìn)行搶占,從而在保持計(jì)算設(shè)備處理單元高利用率的同時(shí),實(shí)現(xiàn)更加靈活的調(diào)度。
此外,重計(jì)算過(guò)程被與流水線通信依賴解耦,這是因?yàn)槊總€(gè)階段的初始激活x0l已經(jīng)被緩存在本地。
實(shí)驗(yàn)結(jié)果
DeepSeek團(tuán)隊(duì)首先檢驗(yàn)了27B模型的訓(xùn)練穩(wěn)定性和收斂性。
如下圖(a)所示,mHC有效緩解了在HC中觀察到的訓(xùn)練不穩(wěn)定性,相比基線最終降低了0.021的損失。
下圖(b)中的梯度范數(shù)分析,進(jìn)一步證實(shí)了這種改善的穩(wěn)定性,表明mHC展現(xiàn)出顯著優(yōu)于HC的,穩(wěn)定性與基線相當(dāng)。
![]()
原文圖5: 流形約束超連接(mHC)的訓(xùn)練穩(wěn)定性,展示了 (a) mHC與HC相對(duì)于基線的絕對(duì)訓(xùn)練損失差距,以及 (b) 三種方法的梯度范數(shù)。所有實(shí)驗(yàn)均采用27B模型。
在多樣化基準(zhǔn)測(cè)試集上,mHC全面提升了下游性能,在所有任務(wù)上持續(xù)超越基線,并在大多數(shù)任務(wù)上優(yōu)于HC。
值得注意的是,與HC相比,mHC進(jìn)一步增強(qiáng)了模型的推理能力,在BBH上實(shí)現(xiàn)了2.1%的性能提升,在DROP上實(shí)現(xiàn)了2.3%的提升。
這證明其在大規(guī)模預(yù)訓(xùn)練中的有效性。
![]()
原文表4:27B模型的系統(tǒng)級(jí)基準(zhǔn)測(cè)試結(jié)果。 本表比較了基線、HC和mHC在8個(gè)不同下游基準(zhǔn)測(cè)試中的零樣本和少樣本性能。
為了評(píng)估方法的擴(kuò)展性,DeepSeek報(bào)告了mHC在不同規(guī)模下相比基線的相對(duì)損失改進(jìn)。
結(jié)果表明,即使在更高的計(jì)算預(yù)算下,mHC依然穩(wěn)健保持性能優(yōu)勢(shì),僅輕微衰減。
此外,研究團(tuán)隊(duì)考察了訓(xùn)練過(guò)程中的動(dòng)態(tài)變化,展示了3B模型的token擴(kuò)展曲線。
綜合來(lái)看,這些發(fā)現(xiàn)驗(yàn)證了mHC在大規(guī)模場(chǎng)景下的有效性。這一結(jié)論得到了我們內(nèi)部大規(guī)模訓(xùn)練實(shí)驗(yàn)的進(jìn)一步證實(shí)。
![]()
原文圖6:mHC相比基線的擴(kuò)展特性。 (a) 計(jì)算擴(kuò)展曲線:實(shí)線展示了不同計(jì)算預(yù)算下的性能差距。每個(gè)點(diǎn)代表模型大小和數(shù)據(jù)集大小的特定計(jì)算最優(yōu)配置,從3B和9B擴(kuò)展到27B參數(shù)。(b) Token擴(kuò)展曲線:3B模型在訓(xùn)練期間的軌跡。每個(gè)點(diǎn)代表模型在不同訓(xùn)練token數(shù)下的性能。
理想情況下,單層映射應(yīng)滿足雙隨機(jī)約束,即前向信號(hào)增益與后向梯度增益均等于1。
然而,為提升計(jì)算效率,實(shí)際實(shí)現(xiàn)中使用的Sinkhorn-Knopp算法必須限制迭代次數(shù),這次實(shí)驗(yàn)中為20次。
因此,如下圖(a)所示,后向梯度增益會(huì)略微偏離1。在下圖(b)所示的復(fù)合映射情況下,偏離有所增加但仍保持有界,最大值約為1.6。
![]()
原文圖7:流形約束超連接(mHC)的傳播穩(wěn)定性。 本圖展示了27B模型中 (a) 單層映射與 (b) 復(fù)合映射 的傳播動(dòng)態(tài)
值得注意的是,與HC中近3000的最大增益幅度相比,mHC將其降低了三個(gè)數(shù)量級(jí)。
這些結(jié)果表明,mHC相比HC顯著增強(qiáng)了傳播穩(wěn)定性,確保了前向信號(hào)與后向梯度的穩(wěn)定流動(dòng)。
此外,團(tuán)隊(duì)觀察到,對(duì)于HC,當(dāng)最大增益較大時(shí),其他值也往往顯著,這表明所有傳播路徑普遍存在不穩(wěn)定性。相比之下,mHC始終產(chǎn)生穩(wěn)定的結(jié)果。
![]()
原文圖8:可學(xué)習(xí)映射的可視化,展示了HC(第一行)與mHC(第二行)的代表性單層及復(fù)合映射。每個(gè)矩陣通過(guò)對(duì)選定序列內(nèi)所有token取平均計(jì)算得出。y軸和x軸上的標(biāo)簽分別表示前向信號(hào)增益(行和)與后向梯度增益(列和)。
更多詳情請(qǐng)參閱原論文。
參考資料:
https://arxiv.org/abs/2512.24880
https://x.com/teortaxesTex/status/2006628917428334631
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.