<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重墻”?

      0
      分享至

      ★ 設為星標 | 只講人話,帶你玩轉AIGC。

      今天是元旦,DeepSeek 又扔了個王炸。

      本來準備躺平過節(嗯,是真的躺著了),結果睜眼發現一篇新論文 mHC(流形約束超連接)突然刷屏。

      我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。


      圖:DeepSeek CEO 梁文峰署名

      熟悉 DeepSeek 的都知道,這位 CEO 極少在技術論文上親自署名。

      老板親自掛帥,還選在新年第一天發,說明這事兒絕對不簡單。

      讀完我才發現,他們這次竟然要革深度學習祖師爺 ResNet 的命。

      聽起來很狂?但我研究了一下原理,發現這幫人是真有東西。

      01|從何愷明的“神來之筆”說起

      要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

      2016年,大神何愷明(Kaiming He) 團隊提出了 ResNet,徹底解決了深層網絡訓練不動的難題。

      其中的核心設計叫“恒等映射”。


      圖:何愷明,深度殘差網絡(ResNet)的主要發明者

      打個比方,這就像在迷宮里修了一條“直通車道”。信號可以無腦地從這一層傳到下一層,不被中間商賺差價。

      正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來。

      但問題是,對于現在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。

      于是,學術界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。

      HC 的想法很美好:既然單車道不夠,那我就擴建成多車道唄!

      它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來提升模型的能力。


      圖:三代架構進化史:(a) 是經典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

      但問題來了,這一擴建,出事了。

      原來的 ResNet 是“直通車”,很穩。現在的 HC 變成了“無紅綠燈的超級路口”。

      論文里的數據特別嚇人:在 HC 的架構下,信號在網絡里傳著傳著,就會因為缺乏管束而瘋狂膨脹。

      看原論文里的數據,HC 的信號增益幅度峰值直接干到了 3000!(下圖右側)


      圖:HC 的信號增益幅度峰值直接干到了 3000

      這意味著啥?意味著信號被放大了 3000 倍。

      這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“信號爆炸”。

      結果就是:模型訓練極其不穩定,錯誤率(Loss) 說炸就炸,根本沒法在大規模模型上用。

      02|DeepSeek 的解法:數學暴力美學

      面對這種“車禍現場”,一般人的思路可能是:“那我就少修兩條路吧。”

      但 DeepSeek 的思路是:路我要修,但我要請一個懂數學的交警。

      這就是 mHC(流形約束超連接)的核心邏輯。

      他們發現,只要把那些負責指揮交通的矩陣,強行按在一個叫“雙隨機矩陣”的數學規則里,問題就解決了。

      別被這個數學名詞嚇跑,它的原理其實也挺簡單,就像“能量守恒定律”:

      不管你在路口怎么變道、怎么混合,進來的流量總和,必須嚴格等于出去的流量總和。

      既不允許車子憑空消失(信號衰減),也不允許憑空變出車來(信號爆炸)。

      為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

      不管這矩陣原來長啥樣,經過這個算法一處理,它就必須變得老老實實,行和列的加和都得等于1。

      這就很漂亮了。

      它保留了多車道互聯帶來的信息豐富度(性能提升),又把信號嚴格限制在了一個安全的范圍內(穩定性),完美致敬了何愷明當年追求的“恒等映射”精神。

      03. 效果怎么樣?直接看療效

      理論吹得再好,還得看實驗。

      還記得剛才說 HC 的信號增益飆到了 3000 嗎?

      用了 mHC 之后,這個數字被死死按在了 1.6 左右。


      從 3000 到 1.6,這是直接降低了三個數量級!

      這也直接體現在了訓練曲線上:

      穩如老狗: mHC 的訓練 Loss 曲線(藍線)極其平滑,跟基線模型幾乎一樣穩。


      圖:mHC 的訓練 Loss 曲線極其平滑

      性能更強: 在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務上,提升非常明顯。


      圖:在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。

      04. 不止是數學,更是工程上的“摳門”

      讀 DeepSeek 的論文,你永遠能感覺到他們那種“把算力榨干到最后一滴”的執著。

      因為把路修寬,本來是一件非常費顯存、費時間的事。

      如果不做優化,內存訪問成本(I/O)會增加好幾倍,這誰受得了?

      所以 mHC 不僅僅是一個數學創新,還是一套工程優化方案。

      算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合并成一步,減少 GPU 讀寫內存的次數。

      重計算(Recomputing): 為了省顯存,他們選擇在反向傳播時重新計算中間結果,而不是一直存著。

      通信重疊: 利用 DualPipe 策略,把額外的通信時間“藏”在計算時間里。

      結果就是:在擴展率為 4 的情況下,mHC 帶來的額外訓練時間開銷,僅僅只有 6.7%。

      用極小的代價,換來了模型性能和穩定性的雙重提升。

      這種“又好又省”的風格,確實很 DeepSeek。

      說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術,而是他們“死磕底層”的態度。

      特別是在現在,大家都忙著卷應用、卷 Agents 的時候,他們愿意回過頭去修補 AI 的“地基”。

      ResNet 已經統治了深度學習這么多年,大家都覺得它是完美的。

      但 mHC 告訴我們:只要你不迷信權威,哪怕是地基,也有重修的可能。

      mHC 這種架構,或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。

      對于 DeepSeek 這種“硬核”的數學暴力美學,你怎么看?歡迎在評論區聊聊。

      (覺得文章硬核?點個“贊”,點個??,假裝自己看懂了)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      房貸利率,下調!

      房貸利率,下調!

      南國今報
      2026-01-01 18:39:03
      劉雪龍:發現“彩票”秘密,一年賺80億,17年被捕后判16年

      劉雪龍:發現“彩票”秘密,一年賺80億,17年被捕后判16年

      就一點
      2026-01-02 00:22:16
      美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

      美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

      小喬古裝漢服
      2025-09-24 07:20:03
      光漲年齡不漲演技!饅頭臉,香腸唇,這些整容臉又來禍害央視劇了

      光漲年齡不漲演技!饅頭臉,香腸唇,這些整容臉又來禍害央視劇了

      查爾菲的筆記
      2026-01-01 14:02:10
      砸23億!抖音華南總部在琶洲動工!效果圖搶先看

      砸23億!抖音華南總部在琶洲動工!效果圖搶先看

      GA環球建筑
      2026-01-01 18:12:26
      新加坡現在知道自己上當了,但是已經來不及了

      新加坡現在知道自己上當了,但是已經來不及了

      農夫史記
      2026-01-01 19:56:04
      7輪1勝!切爾西官宣馬雷斯卡下課 羅馬諾稱新帥可能是白堡主帥

      7輪1勝!切爾西官宣馬雷斯卡下課 羅馬諾稱新帥可能是白堡主帥

      智道足球
      2026-01-01 20:47:36
      1953年,得知彭老總在朝鮮打敗了美軍,身在臺灣的胡宗南紅了眼眶

      1953年,得知彭老總在朝鮮打敗了美軍,身在臺灣的胡宗南紅了眼眶

      大千世界觀
      2025-12-30 20:53:04
      剛剛,1499元飛天茅臺被瞬間搶光!“這絕對是黃牛的噩夢”,網友:我是掐著秒表進去搶的

      剛剛,1499元飛天茅臺被瞬間搶光!“這絕對是黃牛的噩夢”,網友:我是掐著秒表進去搶的

      先鋒新聞
      2026-01-01 13:16:25
      廣東兩市民政、退役軍人事務局合并,地方機構調整消息頻傳

      廣東兩市民政、退役軍人事務局合并,地方機構調整消息頻傳

      澎湃新聞
      2026-01-01 16:02:27
      繃不住了!多家建筑企業元旦瘋狂搞事!

      繃不住了!多家建筑企業元旦瘋狂搞事!

      黯泉
      2026-01-01 21:09:46
      有魄力!邵佳一清洗國足8大主力,中場增加5人,于漢超重返國家隊

      有魄力!邵佳一清洗國足8大主力,中場增加5人,于漢超重返國家隊

      何老師呀
      2026-01-01 11:14:40
      讓人忽視的“712炮戰”:3400噸炮彈1天打完,被西點軍校收錄復盤

      讓人忽視的“712炮戰”:3400噸炮彈1天打完,被西點軍校收錄復盤

      海佑講史
      2025-12-29 11:15:07
      天賦被埋沒了一輩子是啥體驗?網友:學啥都快,放棄也特別快

      天賦被埋沒了一輩子是啥體驗?網友:學啥都快,放棄也特別快

      帶你感受人間冷暖
      2026-01-02 00:10:08
      換了車我才悟了:寧可多花點錢,汽車也要堅持4不買!建議收藏!

      換了車我才悟了:寧可多花點錢,汽車也要堅持4不買!建議收藏!

      藍色海邊
      2025-12-27 07:14:15
      100多層高的大樓,總重高達80萬噸,為何承重柱不會被壓垮呢?

      100多層高的大樓,總重高達80萬噸,為何承重柱不會被壓垮呢?

      半解智士
      2026-01-01 21:02:51
      無意之中和親戚談戀愛是啥體驗?網友:近親不能結婚,建議五代外

      無意之中和親戚談戀愛是啥體驗?網友:近親不能結婚,建議五代外

      解讀熱點事件
      2025-12-29 01:45:30
      賭徒心理!永州美女老板引眾怒:領導找她談話 教練直言對她心寒

      賭徒心理!永州美女老板引眾怒:領導找她談話 教練直言對她心寒

      風過鄉
      2026-01-01 07:46:32
      惠及超3.6億人次!2025年以舊換新相關商品銷售額超2.6萬億元

      惠及超3.6億人次!2025年以舊換新相關商品銷售額超2.6萬億元

      界面新聞
      2026-01-01 16:41:02
      一切為了銷量、利潤,消息稱三星決定不提高Galaxy S26系列售價

      一切為了銷量、利潤,消息稱三星決定不提高Galaxy S26系列售價

      IT之家
      2026-01-01 20:34:06
      2026-01-02 01:52:49
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      631文章數 368關注度
      往期回顧 全部

      科技要聞

      特斯拉Model 3車主首度全程自駕橫穿美國

      頭條要聞

      收到情報后 盧卡申科“提醒普京不要赴會”

      頭條要聞

      收到情報后 盧卡申科“提醒普京不要赴會”

      體育要聞

      2026,這些英超紀錄可能會被打破

      娛樂要聞

      跑調風波越演越烈!沈佳潤被網友喊話

      財經要聞

      巴菲特「身退,權還在」

      汽車要聞

      一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創新高

      態度原創

      藝術
      家居
      時尚
      健康
      本地

      藝術要聞

      你絕對想不到,這位東方畫家竟將印象派推向巔峰!

      家居要聞

      無形有行 自然與靈感詩意

      2025年,記住她們的名字!

      元旦舉家出行,注意防流感

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲夂夂婷婷色拍ww47| 丝袜a片| 亚洲v欧美v日韩v国产v| 欧美亚洲国产精品久久| 国产后入又长又硬| 国产午夜成人久久无码一区二区| 免费看无码网站成人A片| 国内精品无码| 99久久精品费精品国产一区二区 | 精品无码国产av一区二区三区| 欧洲尺码日本尺码专线美国又| 熟女视频亚洲| 无码人妻一区二区三区尽卡亚| 国产精品久久久久久爽爽爽| 伊人久在线观看视频| 亚洲精品字幕| 人妻小说区图片区| 精品无码一区二区三区在线| 亚洲精品美女久久久久9999| 亚洲第一av网站| 亚洲AV天天| 精品国产午夜福利在线观看 | 内射自拍| 亚洲乱亚洲乱妇50p| 无码人妻品一区二区三区精99| 少妇被多人c夜夜爽爽av| 亚洲成人资源| 国产乱码精品一品二品| 99视频在线精品免费观看6| 亚洲sm另类一区二区三区| 大荔县| av无码精品一区二区三区宅噜噜| 国产自在自线午夜精品| 99精品人妻| 乱人伦国语对白| 亚洲 欧美 综合 另类 中字| 不卡国产一区二区三区| 人妖毛片| 亚洲熟少妇在线播放999| 国产av夜夜欢一区二区三区| 99在线免费观看|