訓練一個大模型要多久?
小模型幾天,大模型幾周,頂級模型可能要幾個月。
現在想象一下:你的團隊花了兩周時間、燒掉幾百萬美元的算力,眼看模型快要訓練完成,突然,原本應該不斷降低的loss曲線開始暴漲,所有數據全部作廢,一切從頭再來。
2025年的最后一天,DeepSeek悄悄發了一篇論文《mHC: Manifold-Constrained Hyper-Connections》,解決了這個問題。
一個讓工程師崩潰的bug
這篇論文一發布,海外AI圈就炸了。
Hugging Face上,mHC論文直接登上了 " Paper of the day",獲得73個專業點贊。
X上,AI研究者Alexander Doria的解讀帖引發了大量轉發。他寫道:
"這實際上是一篇工程論文...論文的核心是'高效訓練設計',他們用混合精度策略最大化數值精度,用算子融合減少內存帶寬瓶頸...整體非常優雅。"
![]()
Hugging Face Paper of the day
這篇論文到底解決了什么問題?為什么能引起這么大的關注?
故事要從去年說起。字節跳動提出了一種叫Hyper-Connections(HC)的新技術。
簡單說,傳統的AI模型像一條單行道,信息排隊通過。
HC把它拓寬成了4條并行車道,讓信息可以同時在多個"通道"里流動和交換。
效果非常驚艷:根據字節跳動的論文,訓練速度最高提升1.8倍,在ARC-Challenge基準上提升了6分。
![]()
Hyper-Connections論文結果圖(訓練loss與ARC-Challenge表現)
全世界的AI團隊都想用這個技術,但很快,大家發現了一個致命的問題:訓練到12000步左右,模型會突然"發瘋"。
代表AI錯誤率的loss曲線,本來穩步下降,突然毫無征兆地飆升。前面十幾天的訓練,全部白費。
更可怕的是,這個問題沒有規律可循。有時候能撐過去,有時候撐不過去,工程師們只能碰運氣。
3000倍 → 1.6倍
DeepSeek的工程師們研究后發現了問題所在:4條"車道"之間的信息交換,沒有任何約束。
就像高速公路上的車可以隨意變道,而且每次變道車的數量還會隨機變化。
幾十次變道之后,有的車道上擠了幾千輛車,有的車道空無一車。系統必然崩潰。
在AI模型里,這個"變化"有多夸張?信號放大倍數最高達到3000倍。
DeepSeek的解決方案非常優雅:加一個數學約束,讓每次"變道"后,總車數保持不變。
他們用的工具是一個1967年就有的老算法:Sinkhorn-Knopp。
這個算法能保證信息在通道之間流動時"守恒",不會無限放大,也不會逐漸消失。
結果:信號放大倍數從3000倍降到1.6倍,訓練過程穩定,不再隨機崩盤。
額外的計算開銷? 僅6.7%,推理能力還額外提升了2%以上。
用一個58年前的老算法,解決了2025年最前沿的工程難題。
沒有什么驚天動地的理論突破,都是工程師的智慧:找到問題的本質,用最簡單的方法解決它。
研究,早已不在象牙塔里
看完這篇論文,相信你馬上就會明白,為什么AI研究的一線早已不在象牙塔里。
你看這篇論文的內容:
大量篇幅在講"Kernel Fusion"(算子融合):怎么把多個計算合并成一個,減少內存讀寫
詳細描述了"Recomputing"(重計算策略):寧可重新算一遍,也不占用寶貴的顯存
甚至專門討論了"DualPipe Schedule"(流水線調度):怎么讓通信和計算同時進行,不浪費一秒鐘
全是實打實的工程優化。
![]()
DeepSeek
DeepSeek這篇論文的核心貢獻,就是發現了"訓練會崩"這個實際問題,然后用一個58年前的老算法解決了它。
AI的"發動機"已經基本就緒了。
大模型的核心架構、訓練方法、推理框架,都已經相當成熟。
接下來的競爭,不只是"誰能造出更大的發動機",更是"誰能把發動機用得更好"。
而這種"用得更好"的優化,會發生在AI應用的很多環節:
怎么更好的使用AI大模型?
哪些場景中能發揮AI潛力?
怎么用更少的資源做更多的事?
這些問題,不需要你是數學天才,不需要你發明新理論。你只需要:發現真實的問題,找到解決它的方法。
這,就是大多數人的機會。
會"用"比會"造"更重要
吳恩達曾多次表達過類似觀點,大意是:未來最值錢的能力,不是"懂AI原理",是"會指揮AI干活"。
![]()
吳恩達(Andrew Ng)
這和很多人對AI的焦慮形成了鮮明對比:
有人擔心:"我不會寫代碼,是不是就被淘汰了?"
有人擔心:"我數學不好,是不是學不了AI?"
有人擔心:"我不是名校出身,是不是沒機會?"
但現實是:真正稀缺的,是"能解決問題的人"。
我們之前也為大家介紹過,Gabriel Petersson高中輟學,用ChatGPT自學,現在在OpenAI做研究科學家。
一個20歲的中國大學生,靠AI編程工具做了個GitHub熱榜第一的項目,拿到了心儀的實習offer。
他們的共同點就是用AI解決了真實的問題。
給下一代的機會
我們這代人,還在努力適應AI。但下一代,完全可以從小學會"和AI協作"。
就像DeepSeek的工程師們,沒有從零發明了新理論,而是把已有的工具組合起來,解決了實際問題。
這種"解決問題"的能力,越早培養越好。
【前哨AI冬令營】專為8-16歲孩子設計
7天時間,讓孩子親手做出可上線的作品:
? 專屬小游戲(卡牌游戲、闖關冒險游戲)
? 微信小程序(卡路里識別、飯店點餐小程序)
教孩子"AI的原理是什么",更教孩子"怎么用AI解決問題"。
當DeepSeek的工程師用58年前的老算法解決最前沿的難題時,你的孩子也可以學會:用現有的工具,解決真實的問題。
和AI時代一起成長。
? 名額有限,先到先得,掃碼報名 ↓
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.