<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 把人工智能的下水道打通了

      0
      分享至

      25年最后一天, deepseek 奉上了新年禮物 mHC,又是新的網絡結構

      如果不負責任地猜一下,這種對底層架構的深度魔改,加上他們之前MoE的積累,沒準DeepSeek V4真的要搞個大新聞。

      DeepSeek是真的厲害,要搞就搞底層創新,搞完MoE,現在盯上Transformer最基礎的下水道:殘差連接(Residual Connection)。



      1、為什么要搞mHC

      自從ResNet出來以后,殘差連接就是深度學習的標配。Identity Mapping(恒等映射)保證了信號能無損傳到深層,模型才能堆得深。

      24年字節搞了個Hyper-Connections,覺得原來的殘差流太細,信息不夠跑。于是把殘差流寬度擴大n倍(比如4倍),還加了各種可學習的線性映射矩陣(HH)來混合不同流的信息。這就好比把原來的單車道擴建成了四車道高速公路,不僅寬,車還能變道。

      問題來了: 路是寬了,但車速控制不住了。原來那套完美的Identity Mapping屬性被破壞了。當你層數一深,這些不受約束的矩陣乘起來,信號要么消失要么爆炸。圖里HC跑到12k步loss直接起飛,梯度亂跳。顯存訪問開銷也因為通道變寬暴增,撞上了Memory Wall。



      2、核心思路:把矩陣關進“流形”里(Manifold Constraint)

      這部分是論文的理論高光。DeepSeek這次的做法,給混合矩陣加約束,強制它必須是雙隨機矩陣(Doubly Stochastic Matrix)。

      妙在哪里?1??從幾何角度,這相當于把信號的傳遞變成了一種“凸組合”。你可以把它想象成一種能量守恒系統,信號在層與層之間傳遞時,總量被嚴格控制住了,既不會憑空放大也不會莫名衰減。2?? 雙隨機矩陣的譜范數≤1,意味著不會放大信號,梯度爆炸的風險大大降低。3??多個雙隨機矩陣連乘,結果還是雙隨機矩陣,所以深層網絡也能保持穩定

      實現上用經典的Sinkhorn-Knopp算法,反復做行列歸一化,迭代20次就夠了。



      3、工程優化

      mHC顯然需要大量對應的工程優化才能 work, 而且DeepSeek顯然是要在實際生產環境里用這東西的,所以花了不少篇幅講工程實現。

      幾個關鍵優化:Kernel Fusion(算子融合)、Recomputing(重計算)、DualPipe通信重疊(dualpipe 是 v3提的) 等等。

      最終效果:在n=4時,mHC只增加6.7%的訓練時間開銷。這個數字對于大規模訓練來說是可以接受的。

      主要看27B模型的結果:

      loss比baseline降0.021,比HC穩

      梯度范數平穩,HC則劇烈波動

      BBH、DROP、GSM8K等benchmark全面超baseline,多數超HC

      信號增益幅度從HC的約3000降到約1.6,三個數量級

      在 scaling實驗中還做了3B、9B的模型,說明這套方法在大模型上是通用的,且隨著算力增加優勢依然存在,期待在百 b 甚至 T 以上的模型效果

      感覺又要搞一波大的(是不是今年春節,DeepSeek V4要來了?)

      作者:AI Dance

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州小孩哥坐地鐵上學睡到機場站,學校給了他免遲到券和小枕頭:第二天樂呵呵照常上學

      廣州小孩哥坐地鐵上學睡到機場站,學校給了他免遲到券和小枕頭:第二天樂呵呵照常上學

      瀟湘晨報
      2025-12-31 16:45:13
      交易需謹慎,多孫姆、埃利斯進入市場,火箭給出首輪切不可太隨意

      交易需謹慎,多孫姆、埃利斯進入市場,火箭給出首輪切不可太隨意

      拾叁懂球
      2026-01-01 22:32:47
      普京下令復仇,發起斬首行動,烏軍高官當場殞命,澤連斯基大怒

      普京下令復仇,發起斬首行動,烏軍高官當場殞命,澤連斯基大怒

      百科密碼
      2025-12-31 15:16:35
      官宣戀情不到24小時,林俊杰回應女友懷孕問題,擔心的事還是發生

      官宣戀情不到24小時,林俊杰回應女友懷孕問題,擔心的事還是發生

      豆哥記錄
      2026-01-01 21:46:33
      2026年第一槍!墨西哥加征關稅35%-50%,中國如何應對?

      2026年第一槍!墨西哥加征關稅35%-50%,中國如何應對?

      兵國大事
      2025-12-31 20:16:01
      蔡依林9億砸出一條蛇!這記耳光,打醒了多少內娛裝睡的頂流?

      蔡依林9億砸出一條蛇!這記耳光,打醒了多少內娛裝睡的頂流?

      手工制作阿殲
      2026-01-01 02:09:56
      張嘉倪帶兒子迪士尼跨年!穿貂皮大衣貴氣十足,長子像買超,

      張嘉倪帶兒子迪士尼跨年!穿貂皮大衣貴氣十足,長子像買超,

      小徐講八卦
      2026-01-01 07:11:36
      讓人倒吸一口涼氣:烏軍3個旅反攻俄軍2個軍:24小時竟打進市中心

      讓人倒吸一口涼氣:烏軍3個旅反攻俄軍2個軍:24小時竟打進市中心

      瞳哥視界
      2025-12-24 21:36:08
      錢再多有什么用,64歲郎平如今的現狀,給所有運動員們提了個醒

      錢再多有什么用,64歲郎平如今的現狀,給所有運動員們提了個醒

      涵豆說娛
      2025-12-10 16:49:41
      看了一圈,還是董潔直播間的“冬裝”最值得買,每件都好高級優雅

      看了一圈,還是董潔直播間的“冬裝”最值得買,每件都好高級優雅

      小陳聊搭配
      2025-12-31 20:05:21
      換手機不要盲目跟風,2025近乎完美的3款手機,512GB流暢用六年

      換手機不要盲目跟風,2025近乎完美的3款手機,512GB流暢用六年

      科技阿維
      2026-01-01 16:51:02
      張水華東極奪冠僅半天,惡心事發生!元旦調休獎金到手,網友吵翻

      張水華東極奪冠僅半天,惡心事發生!元旦調休獎金到手,網友吵翻

      鯨探所長
      2026-01-01 16:10:48
      驚艷!全紅嬋 “換頭式” 長大,長發披肩秒變甜妹

      驚艷!全紅嬋 “換頭式” 長大,長發披肩秒變甜妹

      帶你逛體壇
      2025-12-31 08:03:04
      《滾石》雜志發布2025年最佳20部電影榜單。

      《滾石》雜志發布2025年最佳20部電影榜單。

      粉紅凍奶的觀影日記
      2025-12-31 19:00:05
      重慶“臭名遠播”的三所大學!被人民日報點名批評,學生提高警惕

      重慶“臭名遠播”的三所大學!被人民日報點名批評,學生提高警惕

      解說阿洎
      2026-01-01 14:53:29
      英偉達要求臺積電擴產 H200 以應對中國訂單潮

      英偉達要求臺積電擴產 H200 以應對中國訂單潮

      鞭牛士
      2026-01-01 08:54:06
      謝霆鋒給妹妹帶娃,3天崩潰

      謝霆鋒給妹妹帶娃,3天崩潰

      西樓知趣雜談
      2025-12-31 21:45:24
      “最快女護士”張水華東極新年馬拉松奪冠,本人發聲:“未來不管怎么選擇,都像東極的太陽一樣,充滿希望和力量”

      “最快女護士”張水華東極新年馬拉松奪冠,本人發聲:“未來不管怎么選擇,都像東極的太陽一樣,充滿希望和力量”

      紅星新聞
      2026-01-01 19:09:07
      新能源車購置稅今年從“全免”調為“減半”,蔚來稱利好換電車型

      新能源車購置稅今年從“全免”調為“減半”,蔚來稱利好換電車型

      IT之家
      2026-01-01 18:53:07
      新勢力年終交卷:零跑近60萬輛奪冠,蔚來、小鵬創歷史新高

      新勢力年終交卷:零跑近60萬輛奪冠,蔚來、小鵬創歷史新高

      澎湃新聞
      2026-01-01 22:10:27
      2026-01-01 23:11:00
      知識圈 incentive-icons
      知識圈
      全球熱點新聞資訊
      160文章數 316643關注度
      往期回顧 全部

      科技要聞

      特斯拉Model 3車主首度全程自駕橫穿美國

      頭條要聞

      滬漂外國網紅包丟了報警 警察到現場后發現"神秘字條"

      頭條要聞

      滬漂外國網紅包丟了報警 警察到現場后發現"神秘字條"

      體育要聞

      2026,這些英超紀錄可能會被打破

      娛樂要聞

      跑調風波越演越烈!沈佳潤被網友喊話

      財經要聞

      巴菲特「身退,權還在」

      汽車要聞

      一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創新高

      態度原創

      健康
      教育
      親子
      公開課
      軍事航空

      元旦舉家出行,注意防流感

      教育要聞

      有些孩子,上了初中就掉線了

      親子要聞

      誰家寶寶這么會挑時間?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      福建艦全體官兵列陣 送上硬核祝福

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇午夜啪爽嗷嗷叫视频| 阿鲁科尔沁旗| 亚州精品人妻一二三区| 国产丝袜剧情演绎| 象山县| 无码国产乱人伦偷精品视频| 亚洲熟女乱综合一区二区| 克拉玛依市| 男女做爰猛烈吃奶啪啪喷水网站| 欧洲精品码一区二区三区| 色噜噜一区二区三区| 黑人又大又粗免费视频| 国产蜜臀av在线一区尤物| 国语自产拍精品香蕉在线播放| yy19影院| 日本视频高清一区二区三区| 一本色道久久综合精品婷婷| 久久亚洲精品日本波多野结衣| 日本乱人伦片中文三区| 国产69精品久久久久久久 | 亚洲午夜香蕉久久精品| 天美传媒mv免费观看完整| 中文字幕亚洲天堂| 精品香蕉在线视频| 蜜桃av亚洲精品一区二区| 欧美z0zo人禽交另类视频| 欧美va天堂在线电影| 又黄又爽又色视频免费| 精品香蕉在线视频| 国产精品人成视频免| 乱熟女高潮一区二区在线| 普兰店市| 益阳市| 青青草Av| 国产又色又爽又黄的网站免费| 2021av在线| 欧美3p两根一起进高清免费视频 | 大帝AV| 妺妺窝人体色www看美女| 精品国产一区二区三区av性色| 亚洲成av人片大线观看|