2月11日,DeepSeek在其App與網頁端悄然開啟新一輪灰度測試,將模型上下文窗口從V3.1版本的128K token,直接提升至1M(百萬)token。DeepSeek稱可以一次性處理《三體》三部曲,并理解和分析其內容。
![]()
另外,升級了模型知識庫截至日期和增強的文件處理能力。模型知識庫更新至2025年5月,即便在離線狀態下,也能準確回應2025年上半年的各類新聞事件。支持上傳圖像、PDF、Word、Excel、PPT、TXT,能從文件中提取文字信息并深度分析。
這一系列密集升級,被業內看作是其新一代旗艦模型V4即將亮相的重要信號。
此次測試版本仍為純文本形態,暫不支持視覺輸入及多模態識別功能,但成功補齊了長文本處理的核心短板,直接對標Google Gemini的百萬級上下文能力。
官方沒有正式公布更新,但有部分用戶在試用時吐槽,“丟掉了DeepSeek最有靈魂的東西”“現在這版本小說文筆巨差,以前的文筆我認為是業界巔峰,比什么gptgrok都強,就是2月11號后一切都變了。”“不知道的還以為在寫詩呢,一句話一段你知道我看得多崩潰嗎?”
![]()
![]()
也有用戶認為這只是新版本測試,后續會根據反饋優化的。
![]()
DeepSeek的更新開年以來一直在鋪墊。
早在2025年下半年,受生態布局薄弱、產品能力偏科等因素影響,DeepSeek的用戶規模和活躍度均出現明顯下滑,外界對其發展前景一度提出質疑。對此,DeepSeek團隊并未急于回應,而是選擇低調深耕技術,陸續發布V3.2系列模型、數學專用模型及OCR工具,為新一輪技術突破默默蓄力。
1月,DeepSeek以罕見的頻率連續發布兩篇關鍵技術論文,為這次灰度測試的順利推進筑牢了技術根基。其中,元旦當天發布的mHC流形約束超連接架構,解決了大規模模型訓練過程中的穩定性難題。
1月中旬,開源的Engram條件記憶模塊,則采用哈希查找替代高成本的神經網絡計算,實現“查算分離”,可將超大參數表遷移至CPU內存,推理延遲控制在3%以內,天然適配百萬級長上下文場景,大幅降低了長序列推理的算力開銷。
不到一個月前,DeepSeek自研解碼核心庫FlashMLA更新時,社區開發者意外發現了代號為“Model 1”的全新模型標識。該標識獨立于現有V3.2架構,在KV緩存布局、稀疏性處理以及FP8數據格式解碼等方面,都與V3.2版本存在明顯差異,這意味著DeepSeek正在進行一次底層架構的全面重構,而非簡單的版本迭代。
據悉,DeepSeek 下一代旗艦模型預計將是一款萬億參數級別的基礎模型,正因規模大幅躍升,訓練速度明顯放緩,導致發布進程有所延后。但野村證券2月10日發布的報告里提到,預測DeepSeek V4會在2月中旬發布。
DeepSeek將全面整合mHC與Engram兩項核心技術,摒棄盲目堆砌參數的行業慣性,重點提升模型的推理、編程以及長文本處理效率。
目前,DeepSeek并未對此次灰度測試作出回應。
來源:星河商業觀察
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.