新年,寫下公眾號第二篇。第一篇有幸10萬+了(),希望這篇也值得大家一讀。
作為相關(guān)背景從業(yè)者(北美PhD,前 Meta AI,目前AI創(chuàng)業(yè)),DeepSeek 帶給我的震撼是巨大的。整個春節(jié)的大部分時間,我都在捧著他們的每一篇論文,一邊拍大腿一邊感嘆:為什么這么牛X?(笑)
冷靜下來思考,發(fā)現(xiàn) DeepSeek 同時顛覆了中國人和美國人對創(chuàng)新的認識。我想這背后一定存在一種深層次的結(jié)構(gòu)性能力,一種新范式,是梁文鋒和團隊有意或者無意間塑造的。
而這,可能才是 DeepSeek 給世界最大的啟示:
DeepSeek的創(chuàng)新三重門:
小天才的規(guī)模化 + 華為式的軍團平推 + 原創(chuàng)(哲學式)思想
小天才們的勝利
讀 DeepSeek 的論文們(Math, V2, V3, R1, Janus),第一感覺是什么呢?一個接一個的原創(chuàng)研究工作,像雨點一樣噼里啪啦打在你的臉上。
大模型訓練是一個相當復雜的軟硬一體的工程,而 DeepSeek 幾乎重新設(shè)計了絕大部分關(guān)鍵組件:MLA,GRPO,DeepSeekMoE,DualPipe,F(xiàn)P8混合精度,R1-Zero,MTP 等等。范圍之廣,密度之大,非常震撼。
從學術(shù)視角看,這些創(chuàng)新中很多單拿出來,都達到頂會最佳論文的水平。所以這第一重門,我們從一張圖說起,DeepSeek 的小天才們。
![]()
這張圖很多人看過,但調(diào)研之后我發(fā)現(xiàn)還有很多人不在其中。其中有許多都擁有國際競賽背景(吳作凡,任之洲,周雨楊,羅煜翔等),好多甚至是實習或者剛開始讀博(DS-Math的作者邵智宏/Peiyi Wang,Zihan Wang等)。對,就是這群年輕人,創(chuàng)造了剛才提到的一系列技術(shù)。
小天才式的創(chuàng)新,更有名的例子來自于美國:GPT 的最早提出者 Alec Radford,思維鏈 CoT 的提出者 Jason Wei,Sora 的主力貢獻者 Bill Peebles,都是初入職場,甚至沒有博士訓練的年輕人。
![]()
我們把這些人稱之為 “小天才們”,因為他們不僅有天才般的 learn 的能力,更重要的是,他們沒有 unlearn 的負擔。
DeepSeek 中小天才式的創(chuàng)新
如果給"小天才式的創(chuàng)新"一個定義,那就是:給定約束,尋找最優(yōu)解的能力。
我們來舉例 DeepSeek 的三個核心算法模塊:
MLA:傳統(tǒng) Attention 內(nèi)存占用太大,怎么辦?改造 Attention 模塊,通過低秩壓縮,讓 KV Cache 的效率達到最優(yōu)。
DeepSeekMoE:傳統(tǒng) MoE 專家不夠精細,激活參數(shù)大,怎么辦?改造 MoE,通過增加共享專家和細粒度專家,大幅提升了 MoE 中的專家學習的效果。
GRPO:傳統(tǒng) PPO 需要訓練兩個模型,效率低,怎么辦?通過去掉 Value Model,引入 Group-Relative 作為 baseline,大大提升了訓練效率。
拋開專業(yè)術(shù)語,用人話來理解背后的模式是:一個非常優(yōu)秀的工程師,遇到問題會嘗試不同的技術(shù)選型,選一個最好的方案。而小天才會說:在座的都不夠好,為什么不重寫一個?然后寫出了行業(yè)最佳方案。
這樣的例子,在 DeepSeek 的文章里非常多,而每一個背后,都站著一個小天才。
小天才的規(guī)模化
相信個人,尤其是年輕人的創(chuàng)造力,在硅谷的文化中非常常見。或許我自己的經(jīng)歷可以佐證:我畢業(yè)后加入 Meta,半年后向主管提出想做一個全新的內(nèi)容理解引擎。一個月后,10人左右的虛擬團隊就成立了。
我想梁文鋒應(yīng)該從 OpenAI 的經(jīng)驗中參考了很多,他在暗涌的采訪中,多次提到類似的觀點:
![]()
![]()
他自己說過,這樣的小天才式的創(chuàng)新,在硅谷每天都在發(fā)生。但這不能抹殺 DeepSeek 出現(xiàn)的意義,因為他不僅證明了中國能孕育硅谷型的創(chuàng)新文化,甚至還可以進一步規(guī)模化這種模式。
畢竟,我們有著全世界最多的小天才們(笑)。
想象一下,這樣的文化,擴散到更多的創(chuàng)新型公司,成為主流,會是怎樣的一種盛況?
這是創(chuàng)新的第一重門。
華為式的軍團平推
如果說,DeepSeek 只是復制了硅谷的小天才模式,為什么會讓那些發(fā)明這個模式的 OpenAI 們,如此緊張?這就要提到第二個關(guān)鍵要素。
當你深度閱讀完 DeepSeek 的論文,尤其是 V3,一種新的感受會慢慢浮現(xiàn):這是一個從底層硬件到上層算法的復雜大系統(tǒng),以優(yōu)雅的頂層設(shè)計環(huán)環(huán)相扣,以大破大立的方式平推完成。
這就是創(chuàng)新的第二重門:軍團式的協(xié)同創(chuàng)新。而這,恰恰就是中國擅長的模式,也是我借用華為之名的原因。
硅谷教父 Peter Thiel,對這種創(chuàng)新有過一個深刻的表述。他認為一個真正的壟斷式創(chuàng)新,需要構(gòu)建 Complex, Vertically Integrated System,許多不同層面的創(chuàng)新必須同時發(fā)生,并以一種高度協(xié)同的方式組合在一起。
他認為 Elon Musk 成功的根本,就來自于對這種協(xié)同復雜系統(tǒng)的追求。而 Elon Musk,也被認為某些方面是最接近中國企業(yè)的(不僅是卷,笑)。
DeepSeek 是如何平推創(chuàng)新的?
在第一重門,我們拿著放大鏡,看 DeepSeek 在三個算法上的極致優(yōu)化。但這些單點優(yōu)化,也容易引入超越算法范疇的問題。
所以讓我們切換視角,從更全局的視角,來重新理解 DeepSeek 的創(chuàng)新結(jié)構(gòu),第一條線是模型的迭代節(jié)奏(這里忽略了很多支線) :
2023年6月,DeepSeek 成立
2024年2月,發(fā)表 DeepSeek-Math,提出 GRPO
2024年5月,推出 V2,提出 MLA 和 DeepSeek-MoE
2024年11月,推出 V3,提出了 MTP 和一整套軟硬一體優(yōu)化方案等
2025年1月,推出 R1,提出 R1-Zero
震撼吧?從 DeepSeek-Math 的第一次推出,到最后走到 R1,不到12個月。但速度甚至都不是我們討論的重點。
而是另一條縱向的主線:他幾乎從基礎(chǔ)設(shè)施搭建,到底層硬件優(yōu)化,到模型算法創(chuàng)新,一整個自己重做了一套。更關(guān)鍵的是,他們是高度協(xié)同優(yōu)化,逢山開路,遇水搭橋,充滿了整體的邏輯性。我來盡最大努力,試著梳理一下:
注:不用糾結(jié)技術(shù)術(shù)語,因為我寫的時候也似懂非懂。
(0) 首先構(gòu)建自己的集群(螢火),為了更高效的并行訓練,那就自研 HAI LLM訓練框架
(1) 發(fā)現(xiàn)傳統(tǒng) Attention 的 KV Cache 開銷太大,那就用 low-rank 來重新設(shè)計 MLA,緩存量下降 90% 以上
(2) 發(fā)現(xiàn)傳統(tǒng) MoE 缺乏共享專家和細粒度專家,涌現(xiàn)能力不夠,那就設(shè)計自己的 DeepSeekMoE 解決專家精細度和共享知識問題
(3) 發(fā)現(xiàn)引入的細粒度專家在訓練中負載均衡有挑戰(zhàn),那就自研專家偏好的路由算法,保證每個專家都訓練充分
(4) 發(fā)現(xiàn) MoE 在管線并行(大模型不同層次分卡訓練)中很多通信帶寬和計算帶寬無法對齊,造成浪費,那自己設(shè)計 DualPipe 算法解決
(5) 為了確保上面的帶寬完全對齊,直接寫 PTX 這種底層語言來繞過 CUDA 限制,來精準控制 GPU SM 的數(shù)量和 Warp 數(shù)量做通信處理
(6) 發(fā)現(xiàn) NVLink 和 IB 的帶寬有三倍差距,那就確保 MoE 算法設(shè)計中只路由四個節(jié)點的專家,每個節(jié)點內(nèi)平均訪問三個專家來對齊帶寬
(7) 發(fā)現(xiàn) Tensor Parallelism 通信開銷大,通過在 MLA 上重計算等方法釋放顯存來直接跳過 TP 步驟
(8) 為了進一步提升訓練效率,開發(fā)了精細化的 FP8 混合精度(細粒度量化),在保證訓練效果的情況下大幅減少計算和通信
(9) 為了更進一步提升訓練表現(xiàn),在訓練過程中引入 MTP 讓每次訓練密度更高
(10) 為了提高 V3 的推理能力,那就拿 R1 來 distill V3 的推理
(11) 為了在強化學習中少訓練一個 Value Model,開發(fā)出 GRPO
(12) 為了解決小推理模型 Self-play 推理學習的不足,就把大模型學出來的推理通過 Distill 注入到小模型里
(13) .... more
然后高潮來了:在介紹完方案的最后,V3 專門開辟章節(jié),提出了一系列對硬件廠商設(shè)計下一代芯片的方案,包含大量的對通信,量化算子的設(shè)想。
![]()
于是我恍然大悟,在 DeepSeek 的腦海中,是把創(chuàng)造 AGI 這件事情,看成一個大藍圖的,而這個藍圖是沒有邊界的。算法?通信?數(shù)據(jù)?硬件?都在我需要解決的范疇內(nèi),而且高度協(xié)同的平推下去。我甚至覺得,如果給他們足夠的精力和錢,他們會做自己的硬件,造自己的電網(wǎng)。
這是真正創(chuàng)新者的樣子,就像喬布斯說過:
真正在乎軟件的人,應(yīng)該去制造屬于自己的硬件
背后的中國元素
和小天才模式不同,這種模式恰恰是硅谷文化中相對忽視的,馬斯克除外。
2019年我回國,發(fā)現(xiàn)字節(jié)和快手的推薦能力比 Meta 強,當時很意外。然后我開始了解到華為,到今天,以華為為代表的中國式組織,在國際競爭中釋放了巨大的能量,電動車、內(nèi)容分發(fā)、智能硬件甚至電商。
只不過,今天是 AGI 這個會改變文明走向的領(lǐng)域,DeepSeek 以如此迅猛的姿態(tài)登場,再一次刷新了全世界的認知。
這就是創(chuàng)新的第二重門。
可以看到在 DeepSeek,當我們把創(chuàng)新的第一重門(小天才式)和第二重門(體系協(xié)同式)融合在一起,Boom!威力相當大。
原創(chuàng)(哲學性)思想
那是否還可以繼續(xù)往下挖掘?是否存在一種更底層的創(chuàng)新元素?一個類似 o1 或者 R1 這樣的顛覆式創(chuàng)新系統(tǒng),構(gòu)建于什么基礎(chǔ)之上?
答案是一個原創(chuàng)的、全新的系統(tǒng)結(jié)構(gòu)。那這個原創(chuàng)的結(jié)構(gòu),又從何而來?
回答這個,我想引用一段我很喜歡的 Ilya 的話(視頻前2分鐘):
我喜歡思考非常基本的問題...幾乎可以將這些問題視為哲學問題。例如,什么是學習?什么是經(jīng)驗?什么是思考?... 我認為技術(shù)就像是一種自然力量,但看起來我們可以通過設(shè)計算法,來做有用的事情,同時解答這些(哲學問題)。這就像是一種 應(yīng)用哲學。
沒錯,第三重門的答案,是一種近乎哲學式的,原創(chuàng)的思想。
如果我們把視角拉遠,看一下過去十年 AI 的創(chuàng)新源頭。分別是:Google 2017年的Transformer,DeepMind 2017年的AlphaZero,以及 OpenAI 2018年的自回歸模型GPT。
但是這不僅僅是三個模型啊,內(nèi)核是三個哲學性思想,關(guān)于“學習”的本質(zhì):
(1) 用什么結(jié)構(gòu)來理解世界萬物,和他們的內(nèi)在關(guān)系(Transformer)
(2) 如何通過不斷的預測,把世界萬物的復雜性壓縮到直覺中(GPT)
(3) 怎么基于直覺構(gòu)建深度思考,完成對世界的進一步抽象(Zero)
我們今天看到的 OpenAI o1,或者 DeepSeek R1,都是這三個哲學性思想,組合后的產(chǎn)物。從思想出發(fā),先搭建了一個基礎(chǔ)的系統(tǒng)結(jié)構(gòu),然后通過第一重門和第二重門的創(chuàng)新,把這個結(jié)構(gòu)極致的打磨和再組合,顯化成今天改變世界的產(chǎn)品。
哲學性思想的創(chuàng)造為何如此美妙?因為他們并不是為了找到一個優(yōu)秀的解法,而是為了問出更本質(zhì)的問題。
DeepSeek 跨越第三重門了嗎?
我想梁文鋒可能也會說,今天的 DeepSeek,還沒有展現(xiàn)出這種原創(chuàng)(哲學性)的創(chuàng)新。但我卻在讀他們的文字中,瞥見了藏在背后的希望。
第一個例子,是關(guān)于 MLA 的產(chǎn)生,來源于一個研究者 “總結(jié)了 Attention 架構(gòu)的演進規(guī)律”:
![]()
第二個例子,是 DeepSeek-Math 文章中很大篇幅,分享了對所有后訓練過程的統(tǒng)一框架的認識。盡管有類似的思想存在過,但你似乎可以感受到那些背后無邊界的熱烈討論。
![]()
第三個例子,則是他們在 R1 中展開的 R1-Zero 的探索,這個大膽的嘗試,希望跳過所有的后訓練步驟,讓大模型在直覺模型的基礎(chǔ)上,完全不依賴標注數(shù)據(jù),自我演進成一個有思維能力的模型。R1-Zero 沒有用到最終的 R1產(chǎn)品 中,但論文中卻濃墨重彩的探討他的啟發(fā)意義。對,以及那個 Aha Moment,原文是這樣寫的:“這不僅僅是模型的 Aha,也是觀察模型的研究者的 Aha!”
所以,你感受到了嗎?在克制的技術(shù)語言背后,藏著一種無法掩蓋的興奮和熱愛。這是無邊界的好奇心的味道,這是迫不及待想和世界分享的味道。
是原創(chuàng)的、哲學式的思想,呼之欲出的味道。
最后一塊拼圖
我不知道梁文鋒是不是中國的 Ilya Sutskever,但我堅信一個跨過創(chuàng)新三重門的組織,需要一個思想性的領(lǐng)袖。說到這里,今天 OpenAI 最缺的,不就是這個嗎?(寫第一篇時的心情重現(xiàn))
誰都無法預測未來。但也許哪一天,在 DeepSeek 的新論文中,會出現(xiàn) Transformer 和 AlphaZero 級別的全新思想。
更大膽一點,如果我們在 DeepSeek 的啟發(fā)下,產(chǎn)生了許多全新時代的創(chuàng)新型組織,在各自的領(lǐng)域跨過創(chuàng)新的第一重門和第二重門,并進一步產(chǎn)生了一批顛覆式的思考者,和原創(chuàng)的、哲學性的思想。
再大膽一點,如果這些思想和創(chuàng)新成果,以透明和開放的方式分享給全世界。這樣的世界,你會更愿意參與嗎?
我想這才是 DeepSeek,會真正讓歷史記住的東西。
注:本文的參考資料主要來自于 DeepSeek V2/V3/R1/Math 論文及行業(yè)人士對 DeepSeek 的解讀,而非嚴格的事實論證,存在錯誤請 DeepSeek 團隊見諒。
MindCode 文兄的讀后感:這篇文章讓我對我自己最近思考的一問題有了進一步的洞察,那個問題就是:AI是否能形成壟斷,以及,如果能,那這個壟斷會是怎樣的形式?
你有什么收獲,啟發(fā),敢想嗎?歡迎在下面留言區(qū)發(fā)表。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.