<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重墻”?

      0
      分享至

        今天是元旦,DeepSeek 又扔了個王炸。

        本來準備躺平過節(嗯,是真的躺著了),結果睜眼發現一篇新論文 mHC(流形約束超連接)突然刷屏。

        我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。

        

        圖:DeepSeek CEO 梁文峰署名

        熟悉 DeepSeek 的都知道,這位 CEO 極少在技術論文上親自署名。

        老板親自掛帥,還選在新年第一天發,說明這事兒絕對不簡單。

        讀完我才發現,他們這次竟然要革深度學習祖師爺 ResNet 的命。

        聽起來很狂?但我研究了一下原理,發現這幫人是真有東西。

        01|從何愷明的“神來之筆”說起

        要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

        2016年,大神何愷明(Kaiming He) 團隊提出了 ResNet,徹底解決了深層網絡訓練不動的難題。

        其中的核心設計叫“恒等映射”。

        

        圖:何愷明,深度殘差網絡(ResNet)的主要發明者

        打個比方,這就像在迷宮里修了一條“直通車道”。信號可以無腦地從這一層傳到下一層,不被中間商賺差價。

        正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來。

        但問題是,對于現在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。

        于是,學術界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。

        HC 的想法很美好:既然單車道不夠,那我就擴建成多車道唄!

        它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來提升模型的能力。

        

        圖:三代架構進化史:(a) 是經典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

        但問題來了,這一擴建,出事了。

        原來的 ResNet 是“直通車”,很穩。現在的 HC 變成了“無紅綠燈的超級路口”。

        論文里的數據特別嚇人:在 HC 的架構下,信號在網絡里傳著傳著,就會因為缺乏管束而瘋狂膨脹。

        看原論文里的數據,HC 的信號增益幅度峰值直接干到了 3000!(下圖右側)

        

        圖:HC 的信號增益幅度峰值直接干到了 3000

        這意味著啥?意味著信號被放大了 3000 倍。

        這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“信號爆炸”。

        結果就是:模型訓練極其不穩定,錯誤率(Loss) 說炸就炸,根本沒法在大規模模型上用。

        02|DeepSeek 的解法:數學暴力美學

        面對這種“車禍現場”,一般人的思路可能是:“那我就少修兩條路吧。”

        但 DeepSeek 的思路是:路我要修,但我要請一個懂數學的交警。

        這就是 mHC(流形約束超連接)的核心邏輯。

        他們發現,只要把那些負責指揮交通的矩陣,強行按在一個叫“雙隨機矩陣”的數學規則里,問題就解決了。

        別被這個數學名詞嚇跑,它的原理其實也挺簡單,就像“能量守恒定律”:

        不管你在路口怎么變道、怎么混合,進來的流量總和,必須嚴格等于出去的流量總和。

        既不允許車子憑空消失(信號衰減),也不允許憑空變出車來(信號爆炸)。

        為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

        不管這矩陣原來長啥樣,經過這個算法一處理,它就必須變得老老實實,行和列的加和都得等于1。

        這就很漂亮了。

        它保留了多車道互聯帶來的信息豐富度(性能提升),又把信號嚴格限制在了一個安全的范圍內(穩定性),完美致敬了何愷明當年追求的“恒等映射”精神。

        03. 效果怎么樣?直接看療效

        理論吹得再好,還得看實驗。

        還記得剛才說 HC 的信號增益飆到了 3000 嗎?

        用了 mHC 之后,這個數字被死死按在了 1.6 左右。

        

        從 3000 到 1.6,這是直接降低了三個數量級!

        這也直接體現在了訓練曲線上:

        穩如老狗: mHC 的訓練 Loss 曲線(藍線)極其平滑,跟基線模型幾乎一樣穩。

        

        圖:mHC 的訓練 Loss 曲線極其平滑

        性能更強: 在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務上,提升非常明顯。

        

        圖:在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。

        04. 不止是數學,更是工程上的“摳門”

        讀 DeepSeek 的論文,你永遠能感覺到他們那種“把算力榨干到最后一滴”的執著。

        因為把路修寬,本來是一件非常費顯存、費時間的事。

        如果不做優化,內存訪問成本(I/O)會增加好幾倍,這誰受得了?

        所以 mHC 不僅僅是一個數學創新,還是一套工程優化方案。

        算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合并成一步,減少 GPU 讀寫內存的次數。

        重計算(Recomputing): 為了省顯存,他們選擇在反向傳播時重新計算中間結果,而不是一直存著。

        通信重疊: 利用 DualPipe 策略,把額外的通信時間“藏”在計算時間里。

        結果就是:在擴展率為 4 的情況下,mHC 帶來的額外訓練時間開銷,僅僅只有 6.7%。

        用極小的代價,換來了模型性能和穩定性的雙重提升。

        這種“又好又省”的風格,確實很 DeepSeek。

        說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術,而是他們“死磕底層”的態度。

        特別是在現在,大家都忙著卷應用、卷 Agents 的時候,他們愿意回過頭去修補 AI 的“地基”。

        ResNet 已經統治了深度學習這么多年,大家都覺得它是完美的。

        但 mHC 告訴我們:只要你不迷信權威,哪怕是地基,也有重修的可能。

        mHC 這種架構,或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。

        對于 DeepSeek 這種“硬核”的數學暴力美學,你怎么看?歡迎在評論區聊聊。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬筱梅兒子被質疑不是新生兒,疑在大S忌日出生,行程被扒惹爭議

      馬筱梅兒子被質疑不是新生兒,疑在大S忌日出生,行程被扒惹爭議

      古希臘掌管月桂的神
      2026-02-25 12:42:43
      新娘父親婚禮上退還男方18.8萬元彩禮,新娘:丈夫當時很震驚,彩禮在償還借款、扣除婚禮開銷后,已所剩無幾

      新娘父親婚禮上退還男方18.8萬元彩禮,新娘:丈夫當時很震驚,彩禮在償還借款、扣除婚禮開銷后,已所剩無幾

      觀威海
      2026-02-25 14:14:38
      首都博物館致歉:“垃圾桶中有被扔掉的觀眾留言紙”視頻屬實,依規嚴肅處理賈某和相關責任人

      首都博物館致歉:“垃圾桶中有被扔掉的觀眾留言紙”視頻屬實,依規嚴肅處理賈某和相關責任人

      都市快報橙柿互動
      2026-02-25 21:16:02
      傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發

      傅彪兒子近照曝光!過年和張一山聚餐,生活奢華難掩35歲滿頭白發

      離離言幾許
      2026-02-24 10:04:27
      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      第7情感
      2025-09-17 12:12:15
      女子返程被堵高速,發現20多輛私家車占用應急車道行駛,花半小時挨個拍照舉報,當事人發聲;交警回應:處理中

      女子返程被堵高速,發現20多輛私家車占用應急車道行駛,花半小時挨個拍照舉報,當事人發聲;交警回應:處理中

      揚子晚報
      2026-02-24 16:27:31
      張冬云任四川省副省長,曾任南充市委書記

      張冬云任四川省副省長,曾任南充市委書記

      澎湃新聞
      2026-02-25 16:48:29
      為什么10年前沒人考公,而現在卻擠破頭?終于有扎心答案了…

      為什么10年前沒人考公,而現在卻擠破頭?終于有扎心答案了…

      慧翔百科
      2026-02-25 11:30:38
      斯諾克戰報!5場4-0,2大世界冠軍被橫掃,趙心童常冰玉創紀錄!

      斯諾克戰報!5場4-0,2大世界冠軍被橫掃,趙心童常冰玉創紀錄!

      劉姚堯的文字城堡
      2026-02-25 07:04:40
      從王濛蒙冤到米蘭冬奧慘敗:網友為何死咬王春露不放?這才是真相

      從王濛蒙冤到米蘭冬奧慘敗:網友為何死咬王春露不放?這才是真相

      老馬拉車莫少裝
      2026-02-22 12:19:12
      攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

      攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

      天天熱點見聞
      2026-02-25 05:36:20
      高速服務區如何盈利?多數人只上廁所或接熱水,聽保安怎么說?

      高速服務區如何盈利?多數人只上廁所或接熱水,聽保安怎么說?

      寄星夜幕星河
      2026-02-17 20:39:30
      豆瓣評分9.4,中國通史巔峰之作!

      豆瓣評分9.4,中國通史巔峰之作!

      尚曦讀史
      2026-02-24 18:17:54
      被釘在恥辱柱上!42歲劉某飛踢到鐵板 已被法院逮捕 更嚴重的在后面

      被釘在恥辱柱上!42歲劉某飛踢到鐵板 已被法院逮捕 更嚴重的在后面

      小虎新車推薦員
      2026-02-25 15:44:39
      廣西夜市偶遇韋雪,真人撞臉楊冪,吃東西張不開嘴,頂一張面具臉

      廣西夜市偶遇韋雪,真人撞臉楊冪,吃東西張不開嘴,頂一張面具臉

      離離言幾許
      2026-02-25 13:49:18
      楊紫真的已經瘦到天賦上限了,這也太牛了…

      楊紫真的已經瘦到天賦上限了,這也太牛了…

      手工制作阿殲
      2026-02-22 13:25:34
      全國統一執行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      全國統一執行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      福建平子
      2026-02-25 10:54:52
      你在閑魚上買過什么好東西?網友:人類對咸魚的開發不足1%

      你在閑魚上買過什么好東西?網友:人類對咸魚的開發不足1%

      另子維愛讀史
      2026-01-09 21:12:13
      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      阿龍美食記
      2026-02-23 17:00:18
      養一臺奧迪A6L有多費錢?中年車主含淚吐槽:面子有了,卻養不起

      養一臺奧迪A6L有多費錢?中年車主含淚吐槽:面子有了,卻養不起

      搗蛋窩
      2026-02-17 18:54:35
      2026-02-26 00:47:00
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      664文章數 456關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      頭條要聞

      女子爬山失聯10天后遺體被找到 丈夫:她登頂神情恐懼

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      家居
      親子
      游戲
      健康
      軍事航空

      家居要聞

      藝居辦公 溫度與效率

      親子要聞

      可愛的孩子,有愛的老師!

      《如龍極3》中文配音訪談:中文配音與本地化并非易事

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版