![]()
智東西
作者 江宇 王涵
編輯 心緣
智東西1月1日報(bào)道,昨日晚間,DeepSeek團(tuán)隊(duì)送出一份新年“賀禮”,正式發(fā)布新論文《Manifold-Constrained Hyper-Connections》,提出一種能穩(wěn)定訓(xùn)練并提升大模型可擴(kuò)展性的殘差連接新方案。
DeepSeek創(chuàng)始人兼CEO梁文鋒這次同樣出現(xiàn)在了合著名單之中。
![]()
論文核心指出,盡管當(dāng)前如Hyper-Connections(HC)這類連接結(jié)構(gòu)能帶來性能提升,但由于其結(jié)構(gòu)復(fù)雜、缺乏約束,往往導(dǎo)致訓(xùn)練不穩(wěn)定、信號失真甚至梯度爆炸等問題。
![]()
▲在27B模型中,HC的多層殘差映射在反向傳播中導(dǎo)致信號最大放大倍數(shù)逼近3000,存在梯度爆炸風(fēng)險(xiǎn)。
為此,DeepSeek提出了mHC(Manifold-Constrained Hyper-Connections)方案,將HC中的殘差映射矩陣投影到雙隨機(jī)矩陣構(gòu)成的“流形空間”,在保留拓?fù)浔磉_(dá)力的同時(shí),恢復(fù)原始?xì)埐钸B接的恒等映射性質(zhì)。
![]()
▲DeepSeek提出的mHC結(jié)構(gòu)通過流形投影重建了殘差連接的穩(wěn)定性。
實(shí)驗(yàn)證明,這一mHC方法在大規(guī)模訓(xùn)練中展現(xiàn)出顯著穩(wěn)定性,僅引入6.7%的訓(xùn)練時(shí)間開銷,在多個(gè)下游任務(wù)中超越HC與Baseline模型。
![]()
▲在8個(gè)下游任務(wù)上,mHC全面超越HC,尤其在BBH(+2.1%)和DROP(+2.3%)上表現(xiàn)突出。
一、傳統(tǒng)殘差連接的升級難點(diǎn):性能提升,但穩(wěn)定性喪失
當(dāng)前主流模型廣泛采用Residual Connection架構(gòu),其核心優(yōu)勢在于具備“恒等映射”特性,可穩(wěn)定信號傳播、避免訓(xùn)練過程中信號衰減或放大。
但近年來如Hyper-Connections(HC)等結(jié)構(gòu),為提升表達(dá)能力引入更復(fù)雜的連接拓?fù)洌瑢埐钔ǖ罃U(kuò)展至n倍寬度,并通過多個(gè)可學(xué)習(xí)映射矩陣對輸入與輸出特征進(jìn)行重組。
然而,HC的自由形態(tài)也打破了恒等映射約束,導(dǎo)致訓(xùn)練中存在信號爆炸(最高放大至3000倍)或梯度異常的問題。
![]()
▲相較于mHC,傳統(tǒng)Hyper-Connections在訓(xùn)練過程中出現(xiàn)顯著的不穩(wěn)定現(xiàn)象(上圖),其殘差連接在深層堆疊中更暴露出前向信號和反向梯度指數(shù)級放大問題(下圖),成為大模型擴(kuò)展的隱性障礙。
此外,HC還顯著提高了GPU內(nèi)存占用和通信帶寬需求,限制了其在更大規(guī)模模型中的使用效率。
二、mHC關(guān)鍵機(jī)制:將殘差映射投影到“流形”上恢復(fù)恒等映射
DeepSeek提出的mHC本質(zhì)上是對HC的穩(wěn)定性重構(gòu)。
![]()
▲mHC將殘差映射投影到雙隨機(jī)流形后,顯著提升了前向信號與反向梯度傳播的穩(wěn)定性。
其核心在于:不再直接使用無約束的殘差映射矩陣H_res,而是通過Sinkhorn-Knopp算法將其投影到“Birkhoff多面體”(即雙隨機(jī)矩陣流形)上。
這一投影操作使H_res具備以下三大性質(zhì):
1、所有行列和為1,具備能量守恒性,避免信號放大或衰減;
2、在矩陣乘法下閉合,即跨層傳播仍保穩(wěn)定性;
3、具備幾何可解釋性,是所有排列矩陣的凸組合,有利于特征信息融合。
論文中還提到,將輸入/輸出映射H_pre、H_post也做了正值約束,可進(jìn)一步避免信號抵消現(xiàn)象。
![]()
▲mHC對應(yīng)的殘差映射矩陣更集中于1附近,反觀HC則存在多個(gè)爆炸點(diǎn)。
三、實(shí)測效果:mHC顯著提升訓(xùn)練穩(wěn)定性與下游表現(xiàn)
此后,論文對比測試了Baseline、HC和mHC三種模型在27B參數(shù)規(guī)模下的訓(xùn)練表現(xiàn)與推理性能。實(shí)測結(jié)果表明,流形約束超連接(mHC)在大規(guī)模訓(xùn)練場景下顯著優(yōu)于傳統(tǒng)超連接(HC)。
訓(xùn)練穩(wěn)定性方面,對比傳統(tǒng)殘差、HC與mHC,HC訓(xùn)練中損失震蕩發(fā)散,梯度爆炸;mHC損失平穩(wěn)收斂,梯度穩(wěn)定。
![]()
▲流形約束超連接(mHC)的訓(xùn)練穩(wěn)定性
分析表明HC的復(fù)合映射增益高達(dá)3000(信息爆炸),而mHC控制在1.6,接近理想恒等映射,信號保真度高。
這說明,mHC通過雙隨機(jī)流形約束,有效抑制了多層堆疊中的信號放大與梯度爆炸問題,損失曲線平穩(wěn)收斂,梯度范數(shù)保持穩(wěn)定,解決了HC因數(shù)值不穩(wěn)定導(dǎo)致的訓(xùn)練發(fā)散缺陷。
性能表現(xiàn)方面,27B模型在BBH(51.0 vs HC 48.9)、DROP(53.9 vs 51.6)、GSM8K、MATH、MMLU等任務(wù)顯著優(yōu)于HC與基線,取得顯著增益,最高提升達(dá)2.3個(gè)百分點(diǎn),驗(yàn)證了其在復(fù)雜推理與語義建模中的優(yōu)勢。
![]()
▲基準(zhǔn)測試
可擴(kuò)展性方面,3B-27B模型驗(yàn)證,mHC性能增益隨規(guī)模擴(kuò)大保持穩(wěn)定甚至增強(qiáng)(如DROP提升從1.5→2.3),顯示深層大模型中的信號保真需求更高,展現(xiàn)出良好的泛化能力與深層適配性。1T token訓(xùn)練下無過擬合,泛化能力增強(qiáng)。
![]()
▲(a) 計(jì)算擴(kuò)展曲線;(b) token擴(kuò)展曲線
系統(tǒng)效率方面,通過內(nèi)核融合、重計(jì)算與通信重疊優(yōu)化,mHC在擴(kuò)展率n=4時(shí)僅引入6.7%的額外開銷,通過內(nèi)核融合(帶寬提升22%)、重計(jì)算(內(nèi)存降40%)及流水線優(yōu)化(GPU利用率>90%),實(shí)現(xiàn)高效訓(xùn)練,工程可行性高。
結(jié)語:mHC或?yàn)橄乱淮A(chǔ)架構(gòu)指明演進(jìn)方向
作為HC范式的廣義擴(kuò)展,mHC為未來研究開辟了多個(gè)前景廣闊的路徑。
DeepSeek團(tuán)隊(duì)在結(jié)論中說,盡管本研究采用雙隨機(jī)矩陣確保穩(wěn)定性,但該框架能容納針對特定學(xué)習(xí)目標(biāo)設(shè)計(jì)的多種流形約束探索。他們預(yù)計(jì),對幾何約束特性的進(jìn)一步研究可能產(chǎn)生新穎方法,從而在可塑性與穩(wěn)定性之間實(shí)現(xiàn)更優(yōu)權(quán)衡。
此外,研究團(tuán)隊(duì)希望mHC能重新激發(fā)學(xué)界對宏觀架構(gòu)設(shè)計(jì)的興趣。通過深化對拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC或?qū)⒂兄谕黄飘?dāng)前限制,并可能為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.