<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,梁文鋒署名,DeepSeek元旦新論文要開啟架構新篇章

      DeepSeek元旦新論文

      0
      分享至

      來源:機器之心

      新年第一天,DeepSeek 發布了一篇新論文,提出了一種名為 mHC (流形約束超連接)的新架構。該研究旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益 。

      簡單來說,DeepSeek 提出的 mHC 通過將傳統 Transformer 的單一殘差流擴展為多流并行架構,并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和信號爆炸問題。


      這篇論文的第一作者有三位:Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek 創始人 & CEO 梁文鋒也在作者名單中。

      傳統的殘差連接(即 Transformer 中的 x + F (x) 結構)憑借「恒等映射」保證了信號無損傳輸和訓練穩定性。但它的瓶頸在于信息通道的寬度受限于隱藏層維度 C。

      近期,以 Hyper-Connections (HC) 為代表的研究,通過擴展殘差流寬度和多樣化連接模式,拓展了過去十年中廣泛應用的殘差連接范式。

      雖然這些方法帶來了顯著的性能提升,但但也帶來了兩個嚴重問題:

      • 數值不穩定性: 原始的 HC 中,連接矩陣是自由學習的,沒有約束。這導致信號在經過多層傳播后,數值會「爆炸」或「消失」,破壞了恒等映射的特性,模型越深越難訓練。

      • 系統開銷大: 通道變寬意味著顯存讀寫 (I/O) 和通信成本成倍增加,也就是所謂的「顯存墻」問題。

      從根本上破壞了殘差連接固有的恒等映射屬性,導致了嚴重的訓練不穩定性和受限的可擴展性,并額外增加了顯著的內存訪問開銷。

      為了解決這些挑戰,DeepSeek 的研究團隊提出了 Manifold-Constrained Hyper-Connections (mHC,流形約束超連接)。

      這是一個通用框架,它將 HC 的殘差連接空間投影到一個特定的流形上,以恢復恒等映射屬性,同時結合嚴格的基礎設施優化以確保效率。

      它的核心目的是:在保留「加寬殘差流」帶來的性能提升的同時,解決其導致的訓練不穩定和顯存消耗過大的問題。

      團隊利用 Sinkhorn-Knopp 算法將殘差連接矩陣投影到 Birkhoff 多胞形(雙隨機矩陣)上。這使得信號傳播變為特征的「凸組合」,從數學上嚴格保證了信號范數的穩定性(能量守恒)。為了抵消加寬通道帶來的開銷,團隊實施了內核融合、選擇性重計算以及擴展的 DualPipe 通信計算重疊策略。

      實證表明,mHC 不僅解決了穩定性問題,且在大規模訓練中(如 27B 模型)表現出卓越的可擴展性。在 n=4 的擴展倍率下,僅增加了 6.7% 的訓練時間開銷,卻換來了顯著的性能提升。mHC 為基礎模型的拓撲架構演進指明了方向。


      圖 1:殘差連接范式示意圖。 本圖對比了以下三種結構設計: (a) 標準殘差連接(Residual Connection); (b) Hyper-Connections (HC); (c) 我們提出的 Manifold-Constrained Hyper-Connections (mHC)。與無約束的 HC 不同,mHC 專注于優化殘差連接空間,通過將矩陣投影到受約束的流形上,以確保穩定性。


      具體方法介紹

      流形約束超連接 (mHC)

      借鑒恒等映射(Identity Mapping)原則,mHC 的核心前提是將殘差映射Hlres約束在一個特定的流形上。

      雖然原始的恒等映射是通過強制執行Hlres=1來確保穩定性,但它能從根本上阻止殘差流內部的信息交換,而這種交換對于最大化多流架構的潛力至關重要。

      因此,該 DeepSeek 團隊提出將殘差映射投影到一個流形上,既能保持跨層信號傳播的穩定性,又能促進殘差流之間的相互作用,以保持模型的表達能力(expressivity)。

      為此,他們的做法是將Hlres限制為雙擬隨機矩陣(Doubly Stochastic Matrix),即具有非負項且行和與列和均為 1 的矩陣。

      形式上,令Mres表示雙擬隨機矩陣的流形(也稱為 Birkhoff 多胞形),再將Hlres約束在PMres (Hlres)中,定義為:


      其中 1_n 表示全 1 的 n 維向量。

      為什么選擇雙擬隨機性?因為其具有多項有利于大規模訓練的理論屬性:

      • 范數保持:其譜范數有界且不超過 1(即∥Hlres∥2≤1 ),這意味著學習到的映射是非擴張的,可有效緩解梯度爆炸問題。


      • 復合封閉性:雙擬隨機矩陣集對矩陣乘法具有封閉性,確保了跨多層的復合殘差映射仍保持雙擬隨機,從而可在整個模型深度上維持穩定性。

      • 幾何解釋:該集合構成了 Birkhoff 多胞形,是排列矩陣集的凸包。這意味著殘差映射充當了排列的凸組合,其重復應用會單調地增加跨流的信息混合,起到魯棒的特征融合作用。

      此外,該團隊還對輸入映射 Hlpre 和輸出映射Hlpost施加了非負約束,以防止因正負系數復合導致的信號抵消。

      參數化與流形投影

      本節將詳述 mHC 中各映射的計算過程。

      給定第 l 層的輸入隱藏矩陣 x_l,先將其展平為向量


      以保留完整的上下文信息。然后,按照 HC 的原始公式獲取動態映射和靜態映射:


      最終的約束映射通過以下方式獲得:


      其中
      是Sigmoid函數。Sinkhorn-Knopp 算子首先通過指數操作確保所有元素為正,然后進行迭代規范化,交替縮放行和列使其和為 1。

      DeepSeek 在實驗中采用 t_max=20 次迭代。

      高效基礎設施設計

      DeepSeek 還為 mHC 量身定制了基礎設施設計,使其在 n=4 時在大模型中的訓練開銷僅增加 6.7%:

      算子融合 (Kernel Fusion):

      重新調整 RMSNorm 的順序以提高效率,并采用混合精度策略。

      開發了統一的算子,將多次掃描和矩陣乘法融合,減少內存帶寬瓶頸和算子啟動開銷。

      在單個算子中實現 Sinkhorn-Knopp 迭代及其自定義反向傳播。將 Hlpost和 Hlpre的應用與殘差合并融合,顯著減少了內存讀寫量

      重計算 (Recomputing):

      為了減輕 n 流設計帶來的內存壓力,DeepSeek 在前向傳播后丟棄 mHC 算子的中間激活,并在反向傳播時即時重新計算。

      通過推導得出最優重計算塊大小 L_r^*,以最小化總內存占用。

      DualPipe 中的通信重疊:

      擴展了 DualPipe 調度算法,以改善流水線并行階段邊界處的通信與計算重疊在專用高優先級計算流上執行 MLP 層的內核,并避免在注意力層使用持久算子,以防止阻塞通信流并提高設備利用率。


      實驗

      實驗設置

      研究團隊通過語言模型預訓練來驗證所提方法的有效性,并對基線模型、超連接(HC)以及提出的流形約束超連接(mHC)進行了對比分析。

      他們采用了受 DeepSeek-V3 啟發的 MoE 架構,訓練了四種不同的模型變體,以覆蓋不同的評估體系。

      具體而言,HC 和 mHC 的擴展率 n 均設置為 4,主要關注點是一個 27B 參數規模的模型。其訓練數據集的大小與其參數量成正比,該模型用于展示系統層面的主要結果。在此基礎上,他們通過引入使用成比例數據訓練的較小的 3B 和 9B 模型來分析計算擴展性,從而觀察不同計算規模下的性能趨勢。此外,為了專門研究 Token 規模的影響,他們另外訓練了一個獨立的 3B 模型,該模型在一個固定的 1T Token 的語料庫上進行訓練。


      主要結果


      圖 5:流形約束超連接 (mHC) 的訓練穩定性。 該圖展示了:(a) mHC 和 HC 相對于基線模型的訓練損失絕對差值;(b) 三種方法在訓練過程中的梯度范數。所有實驗均基于 27B 參數規模的模型。實驗結果表明,mHC 在損失函數和梯度范數兩方面均表現出更優的穩定性。

      研究團隊首先考察 27B 模型的訓練穩定性和收斂性。如圖 5 (a) 所示,mHC 有效緩解了在 HC 中觀察到的訓練不穩定問題,與基線模型相比,最終損失降低了 0.021。圖 5 (b) 中的梯度范數分析進一步證實了這種穩定性的提升:mHC 表現出明顯優于 HC 的行為,保持了與基線模型相當的穩定輪廓。


      表 4:27B 模型在系統級基準測試上的結果。 本表對比了基線模型、HC 以及 mHC 在 8 個不同的下游基準測試中的零樣本和少樣本性能表現。結果顯示,mHC 始終優于基線模型,并在大多數基準測試中超越了 HC,證明了其在大規模預訓練中的有效性。

      表 4 展示了在多種下游基準測試中的性能表現。mHC 帶來了全面的提升,一致性地優于基線模型,并在大多數任務上超過了 HC。值得注意的是,與 HC 相比,mHC 進一步增強了模型的推理能力,在 BBH 和 DROP 任務上分別實現了 2.1% 和 2.3% 的性能增益。

      規模擴展實驗


      圖 6:mHC 與基線模型的擴展特性對比。 (a) 計算擴展曲線:實線描繪了在不同計算預算下的性能差距。每個點代表模型大小與數據集大小的最優計算配置,涵蓋了從 3B、9B 到 27B 參數規模的規模擴展過程。 (b) Token 擴展曲線:展示了 3B 模型在訓練過程中的軌跡。每個點代表模型在不同訓練 Token 數量下的性能表現。

      為了評估該方法的擴展性,研究者報告了在不同規模下 mHC 相對于基線模型的損失改善情況。在圖 6 (a) 中,他們繪制了涵蓋 3B、9B 和 27B 參數規模的計算規模擴展曲線。其軌跡表明,即使在更高的計算預算下,性能優勢依然穩健地得以保持,僅表現出輕微的衰減。

      此外,他們在圖 6 (b) 中考察了訓練過程中的動態變化,展示了 3B 模型的 Token 擴展曲線。總的來看,這些發現驗證了 mHC 在大規模場景下的有效性。這一結論在他們內部的大規模訓練實驗中得到了進一步的證實。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “盲眼龍婆”2026年預言:外星人到訪、世界大戰、AI崛起,全球巨變要來了?

      “盲眼龍婆”2026年預言:外星人到訪、世界大戰、AI崛起,全球巨變要來了?

      北美省錢快報
      2026-01-01 07:40:23
      上海一女子掏空公司3500萬!養了上百只貓,還癡迷于“云祭祀”……

      上海一女子掏空公司3500萬!養了上百只貓,還癡迷于“云祭祀”……

      環球網資訊
      2026-01-01 11:20:08
      球迷可以安心睡覺,徐杰檢查結果出爐:骨頭和韌帶沒事,只是硬傷

      球迷可以安心睡覺,徐杰檢查結果出爐:骨頭和韌帶沒事,只是硬傷

      鄒維體育
      2026-01-01 22:32:18
      小沈陽女兒沈佳潤道歉沖上熱搜第一,毛不易評論回應

      小沈陽女兒沈佳潤道歉沖上熱搜第一,毛不易評論回應

      觀察者網
      2026-01-01 11:34:39
      倫敦足球:根據英足總相關規定,熱蘇斯或因展示宗教標語受罰

      倫敦足球:根據英足總相關規定,熱蘇斯或因展示宗教標語受罰

      懂球帝
      2026-01-01 12:05:13
      已經窮成這樣了嗎?我不信

      已經窮成這樣了嗎?我不信

      觀人隨筆
      2025-12-31 09:19:15
      國家明令要求!2026年起,小區物業必須給業主發這5大補貼!

      國家明令要求!2026年起,小區物業必須給業主發這5大補貼!

      今朝牛馬
      2025-12-30 15:36:19
      2026足壇十大看點:世界聚焦美加墨,梅西爭50冠C羅沖1000球

      2026足壇十大看點:世界聚焦美加墨,梅西爭50冠C羅沖1000球

      懂球帝
      2026-01-01 12:05:13
      日本研究:血管變硬,問題出在早餐上?提醒:4種早餐應撤下餐桌

      日本研究:血管變硬,問題出在早餐上?提醒:4種早餐應撤下餐桌

      華庭講美食
      2026-01-01 11:18:50
      賭徒心理!永州美女老板引眾怒:領導找她談話 教練直言對她心寒

      賭徒心理!永州美女老板引眾怒:領導找她談話 教練直言對她心寒

      風過鄉
      2026-01-01 07:46:32
      2026年首款萬元機皇來了!三星Galaxy S26 Ultra機模上手

      2026年首款萬元機皇來了!三星Galaxy S26 Ultra機模上手

      快科技
      2025-12-31 16:17:04
      起亞中國宣布奕跑、K3車型實行全國一口價

      起亞中國宣布奕跑、K3車型實行全國一口價

      界面新聞
      2026-01-01 14:08:28
      去你們的!馬威爆粗正式回應被湖人退貨:他們輸了我確實幸災樂禍

      去你們的!馬威爆粗正式回應被湖人退貨:他們輸了我確實幸災樂禍

      羅說NBA
      2026-01-01 07:44:49
      解放軍圍臺沒用彈道導彈,日媒:“雷聲大雨點小”,不想刺激日本

      解放軍圍臺沒用彈道導彈,日媒:“雷聲大雨點小”,不想刺激日本

      迷霧中的大眼睛
      2026-01-01 22:04:42
      烏克蘭戰俘馬齊耶夫斯基犧牲三周年 戰爭罪行執行者罪責難逃

      烏克蘭戰俘馬齊耶夫斯基犧牲三周年 戰爭罪行執行者罪責難逃

      老馬拉車莫少裝
      2025-12-30 21:37:51
      島內最新民調!高達六成三的臺灣民眾不愿自身或家人上戰場

      島內最新民調!高達六成三的臺灣民眾不愿自身或家人上戰場

      海峽導報社
      2025-12-31 17:56:08
      高市早苗終于開口反思,盼望得到中國原諒,語氣中透露著羞愧

      高市早苗終于開口反思,盼望得到中國原諒,語氣中透露著羞愧

      面包夾知識
      2025-12-19 13:07:36
      在日工作博主分享日本公司開年會,為什么他們如此摳嗖嗖?

      在日工作博主分享日本公司開年會,為什么他們如此摳嗖嗖?

      日本物語
      2025-12-31 21:51:38
      9歲進世界前八,打哭同齡人,林丹兒子進步揭開歐少年網球有多卷

      9歲進世界前八,打哭同齡人,林丹兒子進步揭開歐少年網球有多卷

      網球之家
      2026-01-01 12:33:37
      造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

      造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

      風笛悠揚聲
      2025-12-04 10:08:06
      2026-01-02 01:07:00
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領先的金融商業信息提供商
      139581文章數 2652002關注度
      往期回顧 全部

      科技要聞

      特斯拉Model 3車主首度全程自駕橫穿美國

      頭條要聞

      女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

      頭條要聞

      女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

      體育要聞

      2026,這些英超紀錄可能會被打破

      娛樂要聞

      跑調風波越演越烈!沈佳潤被網友喊話

      財經要聞

      巴菲特「身退,權還在」

      汽車要聞

      一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創新高

      態度原創

      教育
      家居
      本地
      手機
      時尚

      教育要聞

      全社會壓力最大的行業,中小學教師憑啥排在第一?

      家居要聞

      無形有行 自然與靈感詩意

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      手機要聞

      高通第六代驍龍8至尊版Pro曝光,定價將上漲

      2025年,記住她們的名字!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产小仙女一区二区三区| 不卡av电影在线| 亚洲中文字幕在线第六区| 欧美日韩免费专区在线观看| 中文亚洲字幕| 一区二区三区视频| 国模大胆一区二区三区| 欧美日韩精品一区二区三区在线 | 人人澡av| 无码人妻久久久一区二区三区| 蜜桃精品成人影片| 人妻夜夜爽天天爽| 亚洲AV乱码毛片在线播放| 少妇做爱视频| 婷婷伊人綜合中文字幕小说| 久久久久久久97| 无码一区二区三区久久精品| 亚洲xxxxxx| 欧美中文字幕人妻系列| 五十路丰满中年熟女中出| 丰满少妇呻吟高潮经历| 超碰在线成人| 东山县| 国产99久一区二区三区a片| 色婷婷AV| 顶级高跟鞋熟妇HD| 无码中文幕熟AⅤ一区二区| 亚洲香蕉视频天天爽| 国产精品乱码人妻一区二区三区| 亚洲av成人一区二区三区| 男同色色| 老少配BBw性少配老| 国产精品国产三级国产a| 亚欧美闷骚院| 蕲春县| 丁香五香天堂网| 广东少妇大战黑人34厘米视频| 99在线视频免费观看| av色天堂| 激情欧美日韩一区二区| 999zyz玖玖资源站永久|