<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒的新論文,要革何愷明們的命?

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      果然,只要一到假期,DeepSeek就會更新點什么。

      這個元旦,DeepSeek發表了一篇新論文《mHC: Manifold-Constrained Hyper-Connections》提出了一種新的架構——流形約束超連接,以解決傳統架構在大模型訓練中的不穩定問題。

      更值得關注的是,論文作者最后一位赫然寫著梁文鋒的大名。


      在此之前,梁文鋒幾乎很少在技術論文中署名,最多是掛個通訊作者。這次直接參與論文撰寫,足以可見DeepSeek對這篇論文的重視程度。

      而細讀之后才發現,這篇論文可以稱得上是一場革命性的創新,革的正是何愷明們建立的深度學習基石ResNet的命。

      作為計算機視覺領域的頂尖科學家,何愷明畢業于清華大學物理系,現任麻省理工學院電氣工程與計算機科學系副教授(終身教職)。其最著名的成就,就是提出了ResNet架構,解決了深度神經網絡中“越深越難訓練”的根本性問題,ResNet也被稱為現代深度學習發展史上的一座里程碑。


      十年未變的“底層共識”被改變

      要理解DeepSeek這篇論文分量,我們得回到十年前。如果把那時的神經網絡比喻成一座高塔,在當時,隨著塔的層數堆疊過多,地基傳來的信號往往在半路就消失殆盡,很容易導致塔身崩塌。

      直到何愷明等人提出了劃時代的ResNet(殘差網絡),這個問題才被解決。

      在 ResNet之前,深度神經網絡有一個致命問題,那就是網絡一深,反而學不會了。原因很簡單,梯度會在層層傳遞中消失或爆炸,前面的信息傳不到后面。

      于是當時還在微軟亞洲研究院的何愷明等人就發表了一篇名為《Deep Residual Learning for Image Recognition》的論文,這篇論文也是AI歷史上引用率最高的殿堂級論文之一。

      可以這樣理解,原本信息過神經網絡層時會被攔截處理,可以理解為一條高速公路中有很多收費站,導致信號像公路上的車流一樣不停被收費站攔截,運行不暢。

      而ResNet相當于在旁邊修了一條直通的“快速通道”,哪怕收費站處理得不好,信息也可以通過快速通道原封不動地傳到下一站,這也被稱為恒等映射(Identity Mapping)。

      于是,自2016 年何愷明提出ResNet開始,殘差連接迅速成為深度神經網絡的默認配置。它解決了深層網絡難以訓練的問題,使得模型深度可以從幾十層擴展到上百層,甚至更深。

      后來出現的 Transformer,看似是一種全新的架構,但LayerNorm + Residual的基本形式,本質也是繼承了ResNet的思想。ResNet也成為了后來幾乎所有大模型的基石。

      然而,隨著模型參數邁向萬億級別,研究者開始覺得單車道的信息吞吐量太小了,它限制了模型思考的廣度。既然單車道不夠用,為什么不把它拓寬成八車道、十六車道?

      一種新的架構HC也就應運而生。這種被稱為“超連接”(Hyper-Connections,簡稱HC)的新架構由字節Seed團隊在論文《Hyper-Connections》中提出。


      它試圖打破傳統的束縛,將原本單一的殘差流拓寬數倍,并允許信息在不同的通道間自由穿插、混合。也就是說,原本的高速路加快車單行道直接變成了一個巨大的、沒有紅綠燈的多層立交橋。

      在 HC 架構中,模型維護多條并行的殘差流,每一層輸出都是這些殘差流的線性組合。這也就意味著,信息不必被壓縮進單一通道,結果就是網絡的表示能力顯著增強。

      在中小規模實驗中,HC的表現確實亮眼,在相同參數量和計算量下,HC模型往往能取得更低的 loss,或者在下游任務上表現更優。

      但問題,很快就暴露出來。HC 在大規模模型訓練中,存在系統性的不穩定問題。

      這種不穩定并不是偶然的訓練失敗,而是隨著層數和訓練步數增加,幾乎必然發生的結構性風險。



      mHC掀起架構革命

      當模型規模放大,HC就開始“失控”了。在DeepSeek的新論文里認為,從數學角度看,這種失控的問題出在殘差的恒等映射被破壞了。

      在 ResNet 中,殘差連接的核心價值不在于加法本身,而在于不論網絡其他部分如何變化,都至少存在一條不被放大的信息通路。

      但在 HC 中,每一層的殘差更新,本質上是一個可學習矩陣對多條殘差流的線性變換。當這種矩陣在層與層之間不斷相乘時,就有可能導致梯度在反向傳播中迅速失控,訓練在某個時間點突然崩掉。

      論文給出的實驗非常直觀,在 27B 參數規模的模型中,HC 架構在訓練早期看似正常,但在約一萬多步后,出現了突發的損失激增,梯度范數也表現出劇烈波動。


      研究團隊計算了復合映射對信號的放大倍數,在HC架構中,這個值的峰值達到了3000,意味著信號在層間傳播時可能被放大數千倍,也可能直接衰減至幾乎消失。


      換句話說,HC 的問題并不是效果不好,而是它缺乏一個像ResNet那樣的安全底座。

      DeepSeek論文的核心思路是將殘差映射矩陣約束到一個特定的流形上,一個由雙隨機矩陣構成的Birkhoff多面體。

      他們認為HC的“多車道”思路是對的,但不能讓車亂跑。于是他們在 HC 的基礎上,加了一套嚴格的數學約束也就是雙隨機矩陣。

      DeepSeek的工作,可以看作是給這個多車道高速路裝上了智能紅綠燈和導流線,規則是你可以變道,但必須保證出來的總車流量等于進去的總車流量。

      這樣既享受了HC帶來的高吞吐量和性能提升,又像ResNet一樣極其穩定,恢復了恒等映射。

      具體來看,在mHC中所有用于混合多條殘差流的矩陣,都必須滿足三個條件:每一行元素之和等于1;每一列元素之和等于1;所有元素非負。

      這類矩陣被稱為雙隨機矩陣。

      乍一看,這是一個非常強的約束,但正是這一約束,帶來了mHC的核心優勢。從穩定性角度看雙隨機矩陣的譜半徑被嚴格限制在1以內,這意味著它不會放大信號,多層相乘后,依然保持有界,梯度既不會爆炸,也不會消失。

      同時,雙隨機矩陣等價于對多條殘差流做加權平均,在本質上仍然保留了ResNet的內核,信息可以自由混合,但不會被無限放大。

      mHC架構其實并非紙上談兵,DeepSeek團隊論文之所以有諸多好評,很大程度上也源于他們在工程可行性上的能力。


      算力壓榨到極致

      在原始HC設計中,多殘差流意味著更高的內存占用和訪問成本,顯存帶寬是現代AI芯片最昂貴的資源,如此高昂的成本在大模型時代是很難讓人接受的。

      DeepSeek團隊展現了他們作為頂級AI實驗室的工程素養,他們沒有停留在算法層面,而是深入到了底層的算子優化。

      團隊為此開發了一系列基礎設施優化,他們使用TileLang框架實現了多個融合內核,將原本分散的操作合并執行以減少內存訪問次數。

      針對Sinkhorn-Knopp算法,他們設計了專門的前向和反向內核,在芯片上重新計算中間結果以避免存儲開銷。

      同時,他們還提出了DualPipe并行策略。在大模型訓練中,計算和通信往往是串行的,也就導致了GPU在等待數據傳輸時經常處于閑置狀態。

      DualPipe巧妙地構建了一個雙向流水線,利用前向傳播和反向傳播在時間上的錯位,讓計算任務和通信任務實現了完美重疊。

      在算力、數據和參數規模不斷膨脹的今天,模型性能的提升越來越像一場刷榜游戲。在這樣的背景下,像mHC 這樣直指底層結構的工作,就顯得尤為重要。

      對于用戶來說,mHC或許不如一個新的模型、新的智能體對生活的改變大,但至少讓人們看到了一群死磕AI底層架構的工程師們的執著,這群修補地基的人,或許才是AI時代最稀缺的人才。



      運營編輯 |曹倩審核|孟莎莎




      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我剛從臺灣回來:說實話很難聽,但這就是真實的臺灣省現狀了

      我剛從臺灣回來:說實話很難聽,但這就是真實的臺灣省現狀了

      媛來這樣
      2025-06-01 00:20:57
      50歲男子酷愛喝濃茶,茶葉能占半個杯子!連續5年確診腎結石,痛到打滾如生孩子!醫生提醒→

      50歲男子酷愛喝濃茶,茶葉能占半個杯子!連續5年確診腎結石,痛到打滾如生孩子!醫生提醒→

      大象新聞
      2026-02-26 13:45:08
      山東高鐵全面爆發!2026年預計雙線通車,魯西魯北告別繞行時代

      山東高鐵全面爆發!2026年預計雙線通車,魯西魯北告別繞行時代

      瓜哥的動物日記
      2026-02-27 16:21:14
      “普通人長這樣已經不錯了”,高中女孩自拍引爭議,被流量害苦了

      “普通人長這樣已經不錯了”,高中女孩自拍引爭議,被流量害苦了

      蝴蝶花雨話教育
      2026-02-21 02:15:03
      【2026.2.26】爆姐的飯后爆料:生命不止,爆料不息!

      【2026.2.26】爆姐的飯后爆料:生命不止,爆料不息!

      娛樂真爆姐
      2026-02-26 23:04:39
      黑社會去哪了?原來都藏在這4個場所,老百姓千萬別惹

      黑社會去哪了?原來都藏在這4個場所,老百姓千萬別惹

      小彭的燦爛筆記1
      2026-02-05 18:20:18
      柬埔寨國王太后赴華體檢 汪文斌大使送行

      柬埔寨國王太后赴華體檢 汪文斌大使送行

      看看新聞Knews
      2026-02-27 16:04:02
      立春后,這菜要多吃!一補陽、二通便、三護眼,包餃子吃,真鮮美

      立春后,這菜要多吃!一補陽、二通便、三護眼,包餃子吃,真鮮美

      江江食研社
      2026-02-26 18:30:03
      日本跌出前十!春節出境游目的地大洗牌,榜首是……

      日本跌出前十!春節出境游目的地大洗牌,榜首是……

      中國日報
      2026-02-25 19:16:33
      澳門的賭臺,大面積關停!不是沒人去,而是被“算法”割廢的?

      澳門的賭臺,大面積關停!不是沒人去,而是被“算法”割廢的?

      原廣工業
      2026-02-28 00:58:20
      被裁判針對,男籃為何得罪國際籃聯?姚明埋禍根,郭振明兩招補救

      被裁判針對,男籃為何得罪國際籃聯?姚明埋禍根,郭振明兩招補救

      籃球看比賽
      2026-02-27 13:43:42
      中國發撤離令,美軍果然行動了,兩條消息表明,特朗普要玩把大的

      中國發撤離令,美軍果然行動了,兩條消息表明,特朗普要玩把大的

      Ck的蜜糖
      2026-02-28 00:45:08
      悲催!不自量力把婚離了,飯碗也碎了,50多歲保險女如今欲哭無淚

      悲催!不自量力把婚離了,飯碗也碎了,50多歲保險女如今欲哭無淚

      火山詩話
      2026-02-27 06:14:00
      湖南一女子在網吧騷擾男性玩家,涉事網吧回應:一開始以為情侶爭吵,了解清楚立即制止了

      湖南一女子在網吧騷擾男性玩家,涉事網吧回應:一開始以為情侶爭吵,了解清楚立即制止了

      大象新聞
      2026-02-26 18:53:03
      醫生警告:每天吃一把堅果,可能等于喝了兩勺油,真的假的?

      醫生警告:每天吃一把堅果,可能等于喝了兩勺油,真的假的?

      阿兵科普
      2026-01-24 09:42:35
      原來每個省過年都有專屬飲品!河北露露是標配,江西才需8毛錢

      原來每個省過年都有專屬飲品!河北露露是標配,江西才需8毛錢

      北緯的咖啡豆
      2026-02-27 17:05:06
      封神的大胡子!哈登加盟騎士即封神,歷史第一人竟還是他自己

      封神的大胡子!哈登加盟騎士即封神,歷史第一人竟還是他自己

      體育閑話說
      2026-02-22 15:54:20
      河北一漫水橋發生坍塌,橋面碎裂如“拼圖”,當地回應:因去年雨季上游泄洪沖刷致橋地基受損,已申請資金啟動修復程序

      河北一漫水橋發生坍塌,橋面碎裂如“拼圖”,當地回應:因去年雨季上游泄洪沖刷致橋地基受損,已申請資金啟動修復程序

      大象新聞
      2026-02-27 18:53:43
      司機:“不好意思,你差評有點多,不敢接”,乘客當場破防!

      司機:“不好意思,你差評有點多,不敢接”,乘客當場破防!

      寶哥精彩賽事
      2026-02-27 01:37:35
      WTT大滿貫:國乒小將淘汰世界冠軍,蒯曼首敗早田,陳熠首勝橋本

      WTT大滿貫:國乒小將淘汰世界冠軍,蒯曼首敗早田,陳熠首勝橋本

      十點街球體育
      2026-02-27 19:30:15
      2026-02-28 04:28:49
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號
      4699文章數 9180關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      郭晶晶霍啟剛現身香港藝術節盡顯恩愛

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      本地
      親子
      游戲
      數碼
      軍事航空

      本地新聞

      津南好·四時總相宜

      親子要聞

      驚呆了!12歲小女孩抱弟弟如同媽媽般自然,背后真相感人至深!

      Oi朋友!你聽說過大只切的故事嗎?

      數碼要聞

      Omdia:時隔5年,小米去年再度回歸可穿戴設備出貨榜首

      軍事要聞

      美國11架F-22隱形戰機抵達以色列

      無障礙瀏覽 進入關懷版