一個數學公式的巧妙調整,讓AI訓練穩定性實現質的飛躍,中國團隊在全球AI架構競賽中再下一城。
![]()
2026年元旦清晨,當大多數人還沉浸在節日氛圍中時,中國AI領域傳來重磅消息——DeepSeek團隊在arXiv上發布了一篇題為《mHC: Manifold-Constrained Hyper-Connections》的論文,創始人梁文鋒親自署名。
這篇論文提出的新架構,直指困擾AI領域十年的殘差連接瓶頸問題,為大規模模型訓練開辟了新路徑。
01 元旦驚喜
![]()
新年第一天,當時鐘剛過零點,AI研究社區卻異常活躍。一篇來自DeepSeek團隊的論文悄然出現在arXiv上,迅速引發全球AI研究者的關注。
論文標題中的“mHC”迅速成為技術圈熱門詞匯。這篇由Zhenda Xie、Yixuan Wei、Huanqi Cao共同完成,梁文鋒親自署名的研究,瞄準了Transformer架構中一個基礎但關鍵的問題。
選擇在元旦發布,這一時機意味深長。對中國AI界而言,這無疑是一份最好的新年禮物。
02 十年瓶頸
![]()
要理解這項突破的價值,我們需要回到AI模型的基礎架構。過去十年中,Transformer的殘差連接結構x + F(x)一直是AI模型的“骨干神經”。
這種設計簡單而優雅,通過“恒等映射”保證信號無損傳輸,確保了訓練的穩定性。但隨著模型規模不斷擴大,這一架構逐漸暴露出局限性。
近期,字節跳動Seed團隊提出的Hyper-Connections嘗試通過擴展殘差流寬度來突破瓶頸,確實帶來了性能提升,但也帶來了新問題。
信號在傳播過程中會“爆炸”或“消失”,破壞恒等映射特性,模型越深越難訓練。同時,通道變寬意味著顯存開銷成倍增加,形成了所謂的“顯存墻”。
03 核心突破
DeepSeek團隊提出的mHC架構,核心在于“流形約束”這一概念。研究團隊將傳統HC的殘差連接空間投影到一個特定的數學流形上,巧妙地恢復了恒等映射屬性。
研究團隊利用Sinkhorn-Knopp算法,將殘差連接矩陣投影到Birkhoff多胞形上。這使得信號傳播變為特征的“凸組合”,從數學上嚴格保證了信號范數的穩定性。
簡單來說,就像為信息流動鋪設了專用軌道,既保持了通道寬度增加帶來的性能優勢,又防止了信號失控。
這一設計帶來了多重理論優勢:學習到的映射是非擴張的,能有效緩解梯度爆炸問題;譜范數有界且不超過1,保持范數穩定;同時具有復合封閉性,確保跨多層仍保持穩定。
04 實戰驗證
在27B參數規模的實際訓練中,mHC展現出了令人信服的性能。與原始HC相比,mHC有效緩解了訓練不穩定問題,最終損失降低了0.021。
梯度范數分析進一步證實了穩定性的提升:mHC表現出明顯優于HC的行為,保持了與基線模型相當的穩定輪廓。
在8個不同的下游基準測試中,mHC不僅始終優于基線模型,還在大多數任務上超越了HC。特別在推理能力方面,mHC在BBH和DROP任務上分別實現了2.1%和2.3%的性能增益。
最令人驚喜的是系統開銷。在擴展倍率n=4的情況下,mHC僅增加了6.7%的訓練時間開銷,卻換來了顯著的性能提升。
05 可擴展優勢
研究團隊進一步測試了mHC在不同規模下的表現。從3B、9B到27B參數規模的計算擴展曲線表明,即使在更高的計算預算下,性能優勢依然穩健。
圖6展示了mHC與基線模型的擴展特性對比。計算擴展曲線中,每個點代表模型大小與數據集大小的最優計算配置,涵蓋不同參數規模。
這些實驗結果驗證了mHC在大規模場景下的有效性。團隊內部的更大規模訓練實驗也證實了這一結論。
06 背后深意
為什么DeepSeek要在元旦發布這篇論文?為什么梁文鋒要親自署名?這傳遞的信號遠比技術細節本身更重要。
在中國AI公司全球競爭的背景下,DeepSeek此舉展示了其在基礎研究領域的決心與實力。選擇在2026年第一天發布,更像是一份宣言:中國AI不僅要追趕,更要在基礎架構上引領創新。
mHC研究的意義不僅在于解決了一個具體的技術問題,更在于為整個基礎模型的拓撲架構演進指明了方向。在AI競賽日益白熱化的今天,架構創新遠比參數堆砌更具戰略價值。
當我們仔細審視那些實驗數據曲線,會發現一個令人振奮的現象:在27B模型訓練中,mHC的梯度范數曲線如平滑山丘般穩定延伸,而傳統HC的曲線則像暴風雨中的心電圖劇烈震蕩。
在BBH推理任務上2.1%的性能提升,看似微小卻標志著中國團隊在AI基礎架構領域已從跟跑者變為并行者。梁文鋒的名字出現在作者欄,不僅代表個人榮譽,更是中國AI企業集體沖刺技術深水區的象征。
新年鐘聲與論文發布時刻重合,這或許是巧合,但中國AI在全球舞臺發出的聲音,已經無法被忽視。
AI眼鏡處于爆發前夜,有很多值得體驗的好產品
歡迎大家進群一起交流使用心得!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.