DeepSeek終于發(fā)布新版本了!
雖然不是大家期待的V4或者R2,但這個3.1的版本,仍然帶來了一些小驚喜。
![]()
我們來簡要總結(jié)下,這個DeepSeek V3.1都有哪些更新↓
1. 混合推理架構(gòu)
一個模型同時支持 思考模式(Think)與 非思考模式(Chat)。用戶可在官方 App/網(wǎng)頁端自由切換“深度思考”按鈕。
當然這不是DeepSeek首創(chuàng),今年4月阿里Qwen3發(fā)布的時候,就濃墨重彩的宣傳了一下這種架構(gòu)。
我們還寫了一個科普:漫畫趣解:什么是混合推理模型?有啥好處?
2. 更高的思考效率
相比 DeepSeek-R1-0528,V3.1-Think速度更快,能在更短時間內(nèi)給出答案。
DeepSeek通過「思維鏈壓縮訓練」,在 減少20%-50% token輸出的情況下,性能與0528持平。
說白了,就是去掉無效推理、合并推理步驟、保留關(guān)鍵邏輯,但干貨質(zhì)量不變,少浪費token。
![]()
另外,素輸出也做了優(yōu)化,廢話更少了,非思考模式下,輸出長度得到有效控制,相比V3更精簡,性能保持不變。
3. 更強的Agent能力
現(xiàn)在智能體概念太火,DeepSeek當然不想錯過。
經(jīng)過Post-Training優(yōu)化,V3.1在工具調(diào)用與 智能體任務(wù)中表現(xiàn)提升明顯。
編程智能體:在SWE、Terminal-Bench 測評中,修復和復雜終端任務(wù)能力顯著增強。(能跟Claude叫板么)
![]()
搜索智能體:在browsecomp、HLE等復雜搜索與跨學科難題測試上性能大幅提升。
![]()
4. API功能升級
API 區(qū)分「非思考模式」和「思考模式」,支持128K上下文窗口。
同時增加了對Anthropic API 格式的支持,可接入Claude Code框架(好消息)。
5. 開源與訓練更新
V3.1的Base模型在V3的基礎(chǔ)上重新做了外擴訓練,一共增加訓練了840B tokens。
Base 模型與后訓練模型均已在 Huggingface 與魔搭開源。
特別重要的一點是這一版的DeepSeek調(diào)整了分詞器與chat template,這意味著如果需要做模型微調(diào),需要對齊新的分詞器,API調(diào)用也需要更新chat template。
另外官方特別說明,模型采用了UE8M0 FP8 Scale 參數(shù)精度,比V3更進了一步:參數(shù)、激活在訓練與推理中大規(guī)模切換到FP8,通過動態(tài)scale避免溢出/精度損失。
這真是N記H卡B卡的舒適區(qū),菊卡就很難辦。
6. 價格調(diào)整,取消優(yōu)惠
2025年9月6日凌晨起,啟用新價格表,夜間優(yōu)惠沒了,晝夜同價。
![]()
遺憾的是,V4還沒來,R2還沒來。
而且,這一版本仍然偏重文本(Chat、Reasoning、Agent),
在多模態(tài)交互、應(yīng)用場景拓展上,DeepSeek 還沒跟上。
生態(tài)與工具鏈成熟度也差點火候,雖然增加了Function Calling+Agent優(yōu)化,但生態(tài)仍然有限。
另外通過「思維鏈壓縮」達到高效推理是一種相對激進的方案,如果面對“復雜推理+工具協(xié)同”場景時,可能會大腦短路。
而這個場景,恰恰是Agentic AI的重度需求。
目前,DeepSeek官方網(wǎng)頁端、App、小程序及 API 開放平臺所調(diào)用模型均已同步更新。
大家趕緊去試起來吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.