作者|子川
來源|AI先鋒官
作為明星產品,必須得用放大鏡看!
正值DeepSeek-R1 發布一周年之際,DeepSeek 在 GitHub 上悄悄更新了一波代碼。
結果,眼尖的開發者在 DeepSeek 核心的推理優化庫FlashMLA中,發現了一個此前從未公開過的神秘代號:“MODEL1”。
![]()
目前,行業內普遍猜測,這極有可能就是DeepSeek即將發布的下一代旗艦模型。
而這次曝光的“MODEL1”,到底是什么來頭?
首先,我們要知道它是怎么被發現的。
這次泄露的源頭,來自DeepSeek的一個開源項目——FlashMLA。
可能大家對FlashMLA不太熟悉,這里給大家簡單介紹一下。
這是DeepSeek自研工具,專門為英偉達GPU做深度優化。
正是有了它,DeepSeek才能在模型架構層面減少內存占用,把GPU硬件的性能榨干到極致,從而實現了“低成本高性能”。
而在最近更新的代碼中,開發者們發現在橫跨114個文件中,有28處都明確提到了“MODEL1”這個新標識符。
在代碼邏輯里,“MODEL1”是與“V32”(也就是DeepSeek-V3.2)并列存在的。
![]()
這意味著,它絕不是V3版本的簡單修補,而是一個采用了全新架構的獨立模型。
根據技術大神的深度分析,“MODEL1”的核心變化主要體現在“回歸標準”和“極致效率”上。
以前的V3模型,為了追求極致性能,采用了一種比較特殊的576維設計,而“MODEL1”則切換回了512維的標準配置。
這樣做的好處非常明顯:它能更好地適配英偉達下一代Blackwell(SM100)芯片。
不僅如此,“MODEL1”還引入了更高級的“稀疏化”技術。
在代碼中,出現了大量針對FP8(8位浮點數)數據格式的解碼支持,以及鍵值(KV)緩存的優化。
它能在處理極長內容時,智能地跳過不重要的計算步驟,同時利用FP8格式把記憶內容進行高保真壓縮。
這直接帶來的結果就是:內存占用大幅降低,計算效率成倍提升。
這意味著,可以用更便宜的顯卡,就能跑得動更強的模型。
那么,這個“MODEL1”到底是傳說中的V4,還是推理模型R2?
目前行業內主要有兩種看法。
一種觀點認為,它是DeepSeek V4。
按照 DeepSeek 的命名慣例,在 V3.2 之后的旗艦級架構跨越,邏輯上即為 V4。
并且此前就有外媒報道,DeepSeek計劃在2月(春節前后)發布新一代旗艦模型V4,且內部測試顯示其編程能力已經超越了市場上的頂級模型。
另一種觀點則認為,它是DeepSeek R2。
最近一個月,DeepSeek團隊連續發布了兩篇重磅技術論文,介紹了一種名為“優化殘差連接(mHC)”的新訓練方法,以及一種模仿生物大腦的“AI記憶模塊(Engram)”。
如果“MODEL1”整合了這些最新的黑科技,讓AI擁有了類似人類的記憶機制,那它極有可能就是備受期待的“推理之王”R2。
不論是V4還是R2,至少有一點可以確定,DeepSeek的新模型快發布了!
結合目前模型文件結構來看,“MODEL1”很可能已接近訓練完成或推理部署階段,正等待最終的權重凍結和測試驗證。
這意味著,新模型的上線時間越來越近了。
那個曾在全球掀起波瀾的“DeepSeek時刻”還會在今年重現嗎?我們拭目以待!
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.