<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      【梁文鋒署名】DeepSeek新論文:所有人都覺得沒必要改的東西,他們改了

      0
      分享至

      2025年的最后一天,DeepSeek又發論文了。


      過去一年,很多人都在問同一個問題:DeepSeek為什么能用更少的錢,做出更強的模型?

      答案當然不止一個。但這篇論文透露了其中一個思路:去優化那些所有人都覺得"已經是最優解"的東西

      這次他們動的是殘差連接——一個深度學習領域用了十年、幾乎沒人質疑過的基礎設計。

      論文名字有點硬核:mHC(Manifold-Constrained Hyper-Connections),翻譯過來就是"流形約束的超連接"。但核心思想其實不復雜,今天試著用人話講清楚。

      先說背景:殘差連接統治了深度學習十年

      經常訓練大模型的朋友,一定聽過"殘差連接"(Residual Connection)這個詞。

      2015年,何愷明團隊提出ResNet,核心創新就是這個殘差連接。簡單說就是:每一層的輸出 = 這一層學到的東西 + 上一層的輸入。

      用公式表示:

      x_{l+1} = x_l + F(x_l)

      這個設計看起來簡單,但解決了一個大問題:網絡太深就訓不動

      為什么?因為梯度消失。信號在幾十上百層網絡里傳遞,越傳越弱,最后弱到模型根本學不到東西。

      殘差連接的妙處在于:它給信號開了一條"快車道"。不管中間那些層學到了什么,原始信號都能直接傳到后面。這就是所謂的恒等映射(Identity Mapping)——淺層的信息可以原封不動地傳到深層。

      從2015年到現在,不管是GPT、LLaMA還是Gemini,幾乎所有大模型都在用這個設計。十年了,沒人動過它。

      DeepSeek的第一次嘗試:Hyper-Connections

      2024年9月,DeepSeek發了一篇論文,提出了Hyper-Connections(HC),第一次對殘差連接動刀。

      核心思想是:既然殘差連接的權重是固定的(1:1),為什么不讓模型自己學習最優的連接方式?

      HC做了兩件事:

      1. 把殘差流從1條擴展到n條(通常n=4)

      2. 引入可學習的連接矩陣,讓模型自己決定怎么混合這些信號

      效果確實好。論文數據顯示:

      • 訓練收斂速度提升1.8倍

      • ARC-Challenge任務提升6個百分點

      這個提升挺猛的。但HC有一個致命缺陷——訓練不穩定

      HC的問題:信號放大了3000倍

      這是論文里最直觀的一張圖。


      看左邊那條藍線(HC),在第12000步左右,損失突然飆升。這對大規模訓練來說是致命的——你可能已經燒了幾百萬的算力,結果模型突然崩了。

      為什么會這樣?

      論文里有詳細分析。核心原因是:HC破壞了恒等映射的特性

      還記得殘差連接的公式嗎?x_{l+1} = x_l + F(x_l)。這里的x_l是"1倍"傳遞到下一層的。但HC引入了可學習的權重矩陣H,信號傳遞變成了:

      x_{l+1} = H * x_l + ...

      問題來了:H是可學習的,沒有任何約束。

      當網絡有60層時,信號要經過60個H矩陣的連乘。如果每個H的"放大倍數"稍微大于1,連乘60次會發生什么?

      指數爆炸

      論文測量了這個"放大倍數"(Amax Gain Magnitude)。理想情況下應該是1(信號不放大也不縮小)。但HC在27B模型上的實測結果是——

      峰值達到3000

      信號被放大了3000倍,梯度也被放大了3000倍。難怪訓練會崩。

      mHC的解法:雙隨機矩陣

      現在問題清楚了:H矩陣太"自由"了,沒有約束,所以會亂來。

      那怎么約束它?

      最簡單的方法是讓H = I(單位矩陣),這樣就退化回原始的殘差連接了。但這樣就失去了HC的性能優勢。

      DeepSeek的解法很優雅:把H約束在"雙隨機矩陣"上

      什么是雙隨機矩陣?簡單說就是滿足兩個條件的矩陣:

      1. 所有元素都 ≥ 0

      2. 每行之和 = 1,每列之和 = 1

      舉個例子,這是一個2×2的雙隨機矩陣:

      [0.3, 0.7]
      [0.7, 0.3]

      每行加起來是1,每列加起來也是1。

      為什么這個約束有效?

      因為雙隨機矩陣做的事情本質上是"加權平均"

      當你用雙隨機矩陣乘以一個向量時,結果向量的每個元素都是輸入向量的凸組合(加權平均)。加權平均有一個天然的性質:結果不會超出輸入的范圍

      這就從數學上保證了信號不會爆炸。

      更妙的是,雙隨機矩陣還有一個"封閉性":兩個雙隨機矩陣相乘,結果還是雙隨機矩陣

      這意味著不管網絡有多深,60層、100層、1000層,信號經過多少個H矩陣的連乘,結果仍然是一個雙隨機矩陣,仍然滿足"不會爆炸"的性質。

      論文用了一個算法叫Sinkhorn-Knopp來做這個投影。具體細節不展開了,核心就是迭代地調整矩陣的行和列,讓它們都歸一化到和為1。

      效果:穩定性提升三個數量級

      mHC的效果怎么樣?


      先看穩定性。同樣是27B模型,同樣的訓練配置:

      指標

      HC

      mHC

      Amax Gain峰值

      3000

      1.6

      從3000降到1.6,降低了三個數量級。說實話,看到這個數字的時候我愣了一下——這個改進幅度有點離譜。

      訓練曲線也變得平滑了,再也沒有那個可怕的"損失飆升"。

      再看性能。mHC不僅比原始的殘差連接強,甚至比不穩定的HC還要強:

      Benchmark

      Baseline

      HC

      mHC

      BBH

      43.8

      48.9

      51.0

      DROP

      47.0

      51.6

      53.9

      GSM8K

      46.7

      53.2

      53.8

      MMLU

      59.0

      63.0

      63.4

      mHC在大多數任務上都比HC更好,特別是推理任務(BBH +2.1%,DROP +2.3%)。

      穩定性提升了,性能也提升了。那代價呢?

      只增加了6.7%的訓練時間

      這個數字挺關鍵的。HC雖然不增加FLOPs(浮點運算量),但因為擴展了殘差流寬度,內存訪問成本大幅增加。DeepSeek在論文里花了大量篇幅講基礎設施優化——內核融合、選擇性重計算、通信重疊——才把開銷控制在這個水平。

      為什么這個方法優雅?

      讀完這篇論文,我覺得mHC的設計挺漂亮的,主要體現在三個地方:

      1. 問題定義精準

      很多研究會籠統地說"訓練不穩定",但DeepSeek精確地定位到了問題根源:恒等映射特性的喪失導致信號在多層傳播時爆炸。有了這個精準定義,解決方案才能有的放矢。

      2. 解決方案有數學保證

      雙隨機矩陣不是拍腦袋想出來的,而是有嚴格的數學性質支撐:

      • 譜范數 ≤ 1(不會放大信號)

      • 組合封閉性(多層仍然穩定)

      • Birkhoff多面體的幾何解釋(是所有置換矩陣的凸組合)

      這種有數學保證的方法,比"試了一百種trick發現這個work"要可靠得多。

      3. 工程和理論并重

      很多論文只講理論創新,對工程實現一筆帶過。但DeepSeek的論文花了相當篇幅講基礎設施優化:怎么融合內核、怎么減少內存占用、怎么和DualPipe調度配合。這才是能真正落地的研究。

      往大了說:DeepSeek在找什么?

      回到開頭的問題:DeepSeek為什么能用更少的錢做出更強的模型?

      這篇論文給出了一個側面的答案:他們在找那些"所有人都覺得已經是最優解"的東西,然后證明它不是

      過去十年,大模型的架構創新主要集中在"微觀設計"——Attention怎么改、FFN怎么改、位置編碼怎么改。但殘差連接?從2015年到現在,幾乎原封不動。大家默認它沒什么可優化的了。

      mHC證明了這個假設是錯的。

      更重要的是,這種優化的特點是:不增加計算量,只改變信息流動的方式。同樣的FLOPs,更好的效果。

      這可能就是DeepSeek的技術哲學之一:不是比誰燒的錢多,而是比誰能在同樣的資源下榨取更多性能。

      當然,mHC還解決了一個實際問題:讓HC能穩定訓練。HC本身是個好方法,但因為不穩定沒法用。mHC修復了這個缺陷,讓這條架構創新的路能走下去。

      論文最后一句話說得挺直接的:

      "我們希望mHC能重新激發社區對宏觀架構設計的興趣。"

      翻譯一下:過去大家都在卷Attention、卷FFN、卷MoE。現在DeepSeek說,層與層之間怎么連接,這塊也有金礦。

      最后

      這篇論文給我最大的啟發是:當你發現一個方法有效但不穩定時,不要放棄,而是去找約束條件

      雙隨機矩陣就是這樣一個約束——它保留了HC的表達能力(可學習的連接權重),同時通過數學性質保證了穩定性(加權平均不會爆炸)。在自由和約束之間找平衡,這個思路可能在很多領域都適用。

      回到開頭的問題:DeepSeek為什么能做到別人做不到的事?

      這篇論文給出的答案是:去質疑那些"所有人都覺得沒必要改"的東西。殘差連接用了十年,不代表它是最優解。

      2025年最后一天發這篇論文,DeepSeek給2026年開了個好頭。

      參考資料

      • mHC論文:https://arxiv.org/abs/2512.24880

      • Hyper-Connections論文:https://arxiv.org/abs/2409.19606

      • DeepSeek-V3技術報告:https://arxiv.org/abs/2412.19437

      @Deepseek 用我奶奶也能懂的方式,用100字解釋下這篇論文。

      奶奶,你想啊,AI訓練就像帶熊孩子。 以前的規矩是:拉著手走,一步都不許亂動。安全,但孩子啥也學不會。 后來有人說:放開讓他跑吧。結果跑著跑著就跑丟了。 DeepSeek的辦法:讓孩子自己跑,但只能在圍欄里跑。怎么跑都行,反正跑不出去。 給自由畫個圈,這就是mHC。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      拾石村媽祖被替后續: 女孩賬號曝光,當了八年被選定,今年滿18歲

      離離言幾許
      2026-02-20 14:02:55
      楊瀚森4分無緣對位偶像!掘金狂勝開拓者54分 約基奇32+9+7

      楊瀚森4分無緣對位偶像!掘金狂勝開拓者54分 約基奇32+9+7

      醉臥浮生
      2026-02-21 13:28:41
      狂炫5斤車厘子和紅燒肉,12歲男孩進了重癥監護室

      狂炫5斤車厘子和紅燒肉,12歲男孩進了重癥監護室

      現代快報
      2026-02-21 13:58:06
      42死300傷!北海道暴雪困住中國游客,有人喊話:祖國包機來接人

      42死300傷!北海道暴雪困住中國游客,有人喊話:祖國包機來接人

      青眼財經
      2026-02-20 23:31:25
      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權難保

      安德魯王子跪地與小男孩玩“乳房”球,畫面不適,王位繼承權難保

      譯言
      2026-02-21 04:42:00
      男子打麻將連續自摸胡牌后突然癱倒在牌桌前!送醫時血壓飆到201/115mmHg

      男子打麻將連續自摸胡牌后突然癱倒在牌桌前!送醫時血壓飆到201/115mmHg

      閃電新聞
      2026-02-20 22:54:48
      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實拍

      神似原版:微軟WinXP壁紙Bliss拍攝地30年后實拍

      IT之家
      2026-02-21 09:37:20
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區域直播很正常,律師:公共區域未經允許直播同樣涉嫌侵權

      大象新聞
      2026-02-20 21:52:07
      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      男子拿錯快遞,把白糖當底沙倒進魚缸!網友:魚要崩潰了……

      環球網資訊
      2026-02-21 16:00:42
      特斯拉新車曝光:無方向盤、無踏板、無后視鏡

      特斯拉新車曝光:無方向盤、無踏板、無后視鏡

      澎湃新聞
      2026-02-21 02:12:18
      貝加爾湖7名遇難中國游客遺體已被發現,目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機為當地44歲男子,或涉違規私下接單

      貝加爾湖7名遇難中國游客遺體已被發現,目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機為當地44歲男子,或涉違規私下接單

      每日經濟新聞
      2026-02-21 12:38:14
      湛江媽祖事件持續發酵!許老板坐不住了,得罪兩廣、福建的生意人

      湛江媽祖事件持續發酵!許老板坐不住了,得罪兩廣、福建的生意人

      火山詩話
      2026-02-21 05:13:01
      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      “趕緊還錢!”關稅政策被判違法后,加州州長呼吁美政府立即“連本帶利”退還稅款

      環球網資訊
      2026-02-21 09:38:25
      實測44臺手機撕碎行業遮羞布:除蘋果,國產全線作弊?

      實測44臺手機撕碎行業遮羞布:除蘋果,國產全線作弊?

      小兔子發現大事情
      2026-02-21 10:44:54
      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優勢

      兩名女孩扶人被索賠22萬,媒體公眾皆反對,但老太太占盡法律優勢

      讀鬼筆記
      2026-02-21 09:37:52
      湖北省文旅廳認定那藝娜(翟革英)為劣跡藝人,叫停演出

      湖北省文旅廳認定那藝娜(翟革英)為劣跡藝人,叫停演出

      環球網資訊
      2026-02-20 23:33:11
      罄!告急!有跨省回上海返程機票高達11560元

      罄!告急!有跨省回上海返程機票高達11560元

      新民晚報
      2026-02-21 12:30:00
      特朗普暗示違法征收的關稅不退了

      特朗普暗示違法征收的關稅不退了

      財聯社
      2026-02-21 06:46:21
      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續:律師發聲,案件焦點已明,賠償跑不掉了

      愛下廚的阿釃
      2026-02-21 06:55:42
      2026-02-21 17:04:49
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      142文章數 64關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      家居
      健康
      房產
      教育
      游戲

      家居要聞

      本真棲居 愛暖伴流年

      轉頭就暈的耳石癥,能開車上班嗎?

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      教育要聞

      新春走基層 | 慢飛天使捏出 “年的形狀”

      萬幸中的不幸!男子情人節收到游戲 但沒有光盤!

      無障礙瀏覽 進入關懷版