2026年新年第一天,國(guó)內(nèi)領(lǐng)先的人工智能公司深度求索(DeepSeek)在預(yù)印本平臺(tái)發(fā)布重磅研究論文,提出了名為“流形約束超連接”(Manifold-Constrained Hyper-Connections,簡(jiǎn)稱mHC)的新一代神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu),旨在突破當(dāng)前大規(guī)模模型訓(xùn)練的核心瓶頸。尤為引人注目的是,這項(xiàng)前沿研究的前兩名核心作者均出身清華大學(xué),展現(xiàn)了該校在AI頂尖人才培養(yǎng)上的持續(xù)輸出。
核心突破:為AI模型架構(gòu)裝上“智能調(diào)節(jié)閥”
該研究直指大模型訓(xùn)練的底層挑戰(zhàn)。近年來,“超連接”(HC)架構(gòu)通過拓寬神經(jīng)網(wǎng)絡(luò)的信息通道提升了性能,但也帶來了訓(xùn)練不穩(wěn)定、難以擴(kuò)展和內(nèi)存消耗大等工業(yè)化難題。
DeepSeek提出的mHC架構(gòu),被通俗地理解為給信息通道加上了“交通規(guī)則”或“智能調(diào)節(jié)閥”。它通過數(shù)學(xué)上的流形約束,在保留超連接性能優(yōu)勢(shì)的同時(shí),恢復(fù)了信息穩(wěn)定、高效傳遞的特性。這好比在一條拓寬但水流湍急的河道中設(shè)置了智能水閘系統(tǒng),既保障了通航能力(性能),又防止了決堤風(fēng)險(xiǎn)(不穩(wěn)定),還節(jié)約了維護(hù)成本(資源)。這一改進(jìn)有望顯著提升訓(xùn)練穩(wěn)定性與擴(kuò)展性,降低大規(guī)模AI模型的研發(fā)門檻與算力成本,為未來萬億參數(shù)乃至更復(fù)雜模型(如多模態(tài)、智能決策系統(tǒng))的落地鋪平道路。
論文指出,mHC為下一代基礎(chǔ)架構(gòu)演進(jìn)指明了新方向,并可能重新激發(fā)學(xué)界對(duì)宏觀神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)的興趣。有行業(yè)人士評(píng)價(jià),此項(xiàng)針對(duì)Transformer最基礎(chǔ)問題的底層創(chuàng)新,結(jié)合DeepSeek此前積累,或預(yù)示其將在未來的V4等版本中實(shí)現(xiàn)重大更新。
清華力量:論文前兩位核心作者畢業(yè)于清華
本次研究的三位核心貢獻(xiàn)者中,前兩位均為清華校友。
解振達(dá)(并列第一作者,排名第一):于2023年獲得清華大學(xué)高等研究院博士學(xué)位,研究方向?yàn)橛?jì)算機(jī)視覺,曾參與發(fā)表Swin Transformer V2、SimMIM等具有影響力的工作,現(xiàn)為DeepSeek深度學(xué)習(xí)研究員。
韋毅軒(并列第一作者,排名第二):于2020年獲清華大學(xué)自動(dòng)化、經(jīng)管雙學(xué)士學(xué)位,2025年獲清華大學(xué)高等研究院博士學(xué)位。其博士期間合著的Swin Transformer論文曾于2021年獲得計(jì)算機(jī)視覺領(lǐng)域最高榮譽(yù)——ICCV馬爾獎(jiǎng)(Marr Prize)。
![]()
過去一年,DeepSeek雖未發(fā)布全新代際版本,但持續(xù)保持高強(qiáng)度迭代與開源,先后推出DeepSeek-V3.2系列及達(dá)到國(guó)際奧數(shù)金牌水平的數(shù)學(xué)推理模型。此次在新年首日發(fā)布架構(gòu)層面突破性論文,并以扎實(shí)的“清華力量”作為研發(fā)先鋒,再次展示了其在AI基礎(chǔ)研究領(lǐng)域的深厚野心與強(qiáng)大實(shí)力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.