<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重墻”?

      0
      分享至

        今天是元旦,DeepSeek 又扔了個王炸。

        本來準備躺平過節(嗯,是真的躺著了),結果睜眼發現一篇新論文 mHC(流形約束超連接)突然刷屏。

        我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。

        

        圖:DeepSeek CEO 梁文峰署名

        熟悉 DeepSeek 的都知道,這位 CEO 極少在技術論文上親自署名。

        老板親自掛帥,還選在新年第一天發,說明這事兒絕對不簡單。

        讀完我才發現,他們這次竟然要革深度學習祖師爺 ResNet 的命。

        聽起來很狂?但我研究了一下原理,發現這幫人是真有東西。

        01|從何愷明的“神來之筆”說起

        要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

        2016年,大神何愷明(Kaiming He) 團隊提出了 ResNet,徹底解決了深層網絡訓練不動的難題。

        其中的核心設計叫“恒等映射”。

        

        圖:何愷明,深度殘差網絡(ResNet)的主要發明者

        打個比方,這就像在迷宮里修了一條“直通車道”。信號可以無腦地從這一層傳到下一層,不被中間商賺差價。

        正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來。

        但問題是,對于現在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。

        于是,學術界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。

        HC 的想法很美好:既然單車道不夠,那我就擴建成多車道唄!

        它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來提升模型的能力。

        

        圖:三代架構進化史:(a) 是經典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

        但問題來了,這一擴建,出事了。

        原來的 ResNet 是“直通車”,很穩。現在的 HC 變成了“無紅綠燈的超級路口”。

        論文里的數據特別嚇人:在 HC 的架構下,信號在網絡里傳著傳著,就會因為缺乏管束而瘋狂膨脹。

        看原論文里的數據,HC 的信號增益幅度峰值直接干到了 3000!(下圖右側)

        

        圖:HC 的信號增益幅度峰值直接干到了 3000

        這意味著啥?意味著信號被放大了 3000 倍。

        這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“信號爆炸”。

        結果就是:模型訓練極其不穩定,錯誤率(Loss) 說炸就炸,根本沒法在大規模模型上用。

        02|DeepSeek 的解法:數學暴力美學

        面對這種“車禍現場”,一般人的思路可能是:“那我就少修兩條路吧。”

        但 DeepSeek 的思路是:路我要修,但我要請一個懂數學的交警。

        這就是 mHC(流形約束超連接)的核心邏輯。

        他們發現,只要把那些負責指揮交通的矩陣,強行按在一個叫“雙隨機矩陣”的數學規則里,問題就解決了。

        別被這個數學名詞嚇跑,它的原理其實也挺簡單,就像“能量守恒定律”:

        不管你在路口怎么變道、怎么混合,進來的流量總和,必須嚴格等于出去的流量總和。

        既不允許車子憑空消失(信號衰減),也不允許憑空變出車來(信號爆炸)。

        為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

        不管這矩陣原來長啥樣,經過這個算法一處理,它就必須變得老老實實,行和列的加和都得等于1。

        這就很漂亮了。

        它保留了多車道互聯帶來的信息豐富度(性能提升),又把信號嚴格限制在了一個安全的范圍內(穩定性),完美致敬了何愷明當年追求的“恒等映射”精神。

        03. 效果怎么樣?直接看療效

        理論吹得再好,還得看實驗。

        還記得剛才說 HC 的信號增益飆到了 3000 嗎?

        用了 mHC 之后,這個數字被死死按在了 1.6 左右。

        

        從 3000 到 1.6,這是直接降低了三個數量級!

        這也直接體現在了訓練曲線上:

        穩如老狗: mHC 的訓練 Loss 曲線(藍線)極其平滑,跟基線模型幾乎一樣穩。

        

        圖:mHC 的訓練 Loss 曲線極其平滑

        性能更強: 在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務上,提升非常明顯。

        

        圖:在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。

        04. 不止是數學,更是工程上的“摳門”

        讀 DeepSeek 的論文,你永遠能感覺到他們那種“把算力榨干到最后一滴”的執著。

        因為把路修寬,本來是一件非常費顯存、費時間的事。

        如果不做優化,內存訪問成本(I/O)會增加好幾倍,這誰受得了?

        所以 mHC 不僅僅是一個數學創新,還是一套工程優化方案。

        算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合并成一步,減少 GPU 讀寫內存的次數。

        重計算(Recomputing): 為了省顯存,他們選擇在反向傳播時重新計算中間結果,而不是一直存著。

        通信重疊: 利用 DualPipe 策略,把額外的通信時間“藏”在計算時間里。

        結果就是:在擴展率為 4 的情況下,mHC 帶來的額外訓練時間開銷,僅僅只有 6.7%。

        用極小的代價,換來了模型性能和穩定性的雙重提升。

        這種“又好又省”的風格,確實很 DeepSeek。

        說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術,而是他們“死磕底層”的態度。

        特別是在現在,大家都忙著卷應用、卷 Agents 的時候,他們愿意回過頭去修補 AI 的“地基”。

        ResNet 已經統治了深度學習這么多年,大家都覺得它是完美的。

        但 mHC 告訴我們:只要你不迷信權威,哪怕是地基,也有重修的可能。

        mHC 這種架構,或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。

        對于 DeepSeek 這種“硬核”的數學暴力美學,你怎么看?歡迎在評論區聊聊。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

      蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

      云舟史策
      2026-04-24 07:18:26
      天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

      天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

      側身凌空斬
      2026-04-24 05:31:46
      好消息,勇士隊和斯蒂芬·庫里在續約問題上已達成共識

      好消息,勇士隊和斯蒂芬·庫里在續約問題上已達成共識

      好火子
      2026-04-24 05:52:12
      女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

      女優背后壓力揭秘:行業內幕遠比你想象的更殘酷!

      孤獨的獨角獸影視
      2026-04-23 09:20:10
      51歲徐靜蕾美國超市被拍,胖到不敢認!旁邊黃立行頭發花白?

      51歲徐靜蕾美國超市被拍,胖到不敢認!旁邊黃立行頭發花白?

      老吳教育課堂
      2026-04-23 14:11:28
      大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

      大一女生泰國參加潑水節被賣到緬甸電詐園區,家屬稱園區已同意放人,正協商時間地點;與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進食

      極目新聞
      2026-04-23 15:05:28
      比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

      比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

      流蘇晚晴
      2026-04-22 19:05:45
      百萬粉博主喊話經紀人霍汶希:張敬軒演唱會開得成,我跟你姓

      百萬粉博主喊話經紀人霍汶希:張敬軒演唱會開得成,我跟你姓

      一盅情懷
      2026-04-23 19:01:44
      元朝給中國帶來了什么?若沒有元朝,中國將變成另一個分裂的歐洲

      元朝給中國帶來了什么?若沒有元朝,中國將變成另一個分裂的歐洲

      舊史新譚
      2026-04-22 01:58:49
      中美聯合國激烈交鋒,美逼中國買單,中方拒絕接受,對美反將一軍

      中美聯合國激烈交鋒,美逼中國買單,中方拒絕接受,對美反將一軍

      健身狂人
      2026-04-22 20:37:47
      黑絲姐姐的穿搭博弈:一場用戶心理的精準拿捏

      黑絲姐姐的穿搭博弈:一場用戶心理的精準拿捏

      時光慢郵啊
      2026-04-23 15:55:03
      局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰區行動了

      局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰區行動了

      云舟史策
      2026-04-23 07:32:35
      警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

      警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

      田先生籃球
      2026-04-23 10:07:58
      上交所、深交所、北交所,同日公告

      上交所、深交所、北交所,同日公告

      澎湃新聞
      2026-04-23 22:59:08
      拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

      拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

      懂球帝
      2026-04-23 23:24:51
      廣東一出租屋:1男與2名女子合租,3人衣服一起洗,男子不樂意?

      廣東一出租屋:1男與2名女子合租,3人衣服一起洗,男子不樂意?

      川渝視覺
      2026-04-23 22:10:56
      中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

      中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

      芳姐侃社會
      2026-04-21 16:37:18
      美國女游客在印度民宿遭老板下藥,員工趁機性侵,被限制求救3天

      美國女游客在印度民宿遭老板下藥,員工趁機性侵,被限制求救3天

      小魚愛魚樂
      2026-04-23 22:07:16
      1937年陳獨秀出獄求回延安,毛澤東定下三個硬條件,曾經的建黨元老為何轉身就走?

      1937年陳獨秀出獄求回延安,毛澤東定下三個硬條件,曾經的建黨元老為何轉身就走?

      史海孤雁
      2026-04-23 23:36:28
      世錦賽戰報:5-10,首輪中國4勝7負收官,史上最激烈的8強競逐來了

      世錦賽戰報:5-10,首輪中國4勝7負收官,史上最激烈的8強競逐來了

      求球不落諦
      2026-04-24 05:16:04
      2026-04-24 08:24:49
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      726文章數 669關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

      頭條要聞

      特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

      體育要聞

      給文班剃頭的馬刺DJ,成為NBA最佳第六人

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      普華永道賠償10億 恒大股東見到"回頭錢"

      汽車要聞

      預售30.29萬起 嵐圖泰山X8配896線激光雷達

      態度原創

      游戲
      藝術
      健康
      手機
      公開課

      《刺客信條4:黑旗 記憶重置》前瞻:總有一天我會回到你身邊"/> 主站 商城 論壇 自運營 登錄 注冊 《刺客信條4:黑旗 記憶重置》前瞻:總有一天我會...

      藝術要聞

      罕見曝光!毛澤東 36 幅經典對聯,每一幅都是絕品!

      干細胞如何讓燒燙傷皮膚"再生"?

      手機要聞

      vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品午夜福利短视频一区| 成人无号精品一区二区三区| 性色综合| 天堂网中文字幕| 夜夜高潮夜夜爽高清完整版1| 国产日韩一区二区三区在线观看| 二区三区国产在线观看| 国产美女亚洲精品久久久毛片| 午夜被窝网| 欧美精品一产区二产区| 久久久久无码精品国产| 久久香蕉国产线看观看猫咪av| 欧美色人妻| 久久夜色国产噜噜亚洲av| 日韩肏屄| 国产精品18禁久久久久久白浆 | 欧美国产精品不卡在线观看| 91成人视频在线观看| 自拍视频亚洲精品在线| 安新县| 日本污视频在线观看| 老色鬼在线精品视频在线观看 | 国产偷久久久精品专区| 国产av一区二区久久蜜臀| 精品日韩亚洲av无码| 亚洲熟女豪乳视频| 国产在线观看网址不卡一区| 中国亚州女人69内射少妇 | 日韩国产av一区二区三区精品| 福利cosplayh裸体の福利| 国产成人av乱码在线观看| 亚洲乱妇熟女爽到高潮的片| 亚洲国产综合AV| 人人妻人人玩人人澡人人爽| 国产免费人成在线视频网站| 国产精品xxx| 激情图区| 91视频免费观看| 成在线人永久免费视频播放| 亚洲色欲在线播放一区| 欧美成人午夜精品免费福利|