在 DeepSeek-R1 發布一周年之際,官方 GitHub 代碼庫意外曝光了代號為「MODEL1」的全新模型線索。
在代碼邏輯結構中,「MODEL1」是作為與「V32」(即 DeepSeek-V3.2)并列的獨立分支出現的,這一細節意味著「MODEL1」并不共享 V3 系列的參數配置或基礎架構,而是一個全新的、獨立的技術路徑。
結合之前的爆料和泄露的代碼片段,我們梳理了「MODEL1」可能存在的技術特征:
·代碼顯示其采用了與現行模型完全不同的 KV Cache 布局策略,并在稀疏性(Sparsity)處理上引入了新機制。
·在 FP8 解碼路徑上有多處針對性的內存優化調整,預示著新模型在推理效率和顯存占用上可能有更好的表現。
·此前爆料稱,V4 的代碼表現已超越 Claude 和 GPT 系列,并且具備處理復雜項目架構和大規模代碼庫的工程化能力。
·業界普遍推測,DeepSeek 近期發表的兩篇重磅論文——關于優化殘差鏈接的 「mHC」 以及 AI 記憶模塊 「Engram」,極有可能被整合進「MODEL1」的架構中,從而解決長上下文記憶和計算效率的核心痛點。
此前有傳聞稱,DeepSeek 計劃在 2 月中旬(春節前后) 發布下一代旗艦模型 V4。此次 GitHub 代碼的提前部署,在時間線上與該傳聞高度吻合。如果屬實,這將是繼 R1 之后,DeepSeek 推出的第二個重要模型。
值得一提的是,全球最大的 AI 開源社區 Hugging Face 最近也專門發文復盤了 R1 發布這一年的影響,核心觀點就是「中國 AI 真的站起來了」。
他們認為 R1 的出現是個分水嶺,證明了哪怕算力受限,靠開源也能實現技術上的彎道超車,讓中國 AI 產業從封閉走向了開源爆發。在他們看來,R1 的真正價值在于降低了門檻:
·技術上: 公開推理細節,讓高級能力可復用。
·應用上: 寬松協議(MIT)讓模型迅速融入商業落地。
·心理上: 建立了中國 AI 從「追隨」到「引領」的自信。
2025 年,中國開源模型的下載量在全球都占據了主導地位,不僅國內的大廠和創業公司都在全面擁抱開源,甚至國外現在很多所謂的新模型,實際上都建立在中國開源模型的基礎之上。
附上博客地址:https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.