DeepSeek 果然又在過節(jié)搞事情了!
今天, DeepSeek-V3.2-Exp 版本正式發(fā)布。
該版本是基于公司此前發(fā)布的 DeepSeek-V3.1-Terminus 模型,升級而來。
版本命名中,Exp 是“實(shí)驗(yàn)版”的意思。
作為其下一代架構(gòu)探索的關(guān)鍵中間步驟,新模型的核心亮點(diǎn)在于,引入了自主研發(fā)的 DeepSeek Sparse Attention (DSA) 稀疏注意力機(jī)制,以大幅優(yōu)化長文本處理的訓(xùn)練和推理效率。
![]()
具體啥意思呢?
就是說,AI 在讀一篇萬字長文時(shí),不再會(huì)一個(gè)字一個(gè)字去死記硬背,而是“劃重點(diǎn)”,以把精力花在最關(guān)鍵的信息上。
那這樣會(huì)不會(huì)影響閱讀效果呢?
為確保評估的嚴(yán)謹(jǐn)性,DeepSeek-V3.2-Exp 的訓(xùn)練配置與 V3.1-Terminus 嚴(yán)格對齊。
根據(jù) DeepSeek 提供的公開評測集數(shù)據(jù),V3.2-Exp 的綜合性能表現(xiàn),與前代 V3.1-Terminus 基本持平,這就驗(yàn)證了,新機(jī)制在維持模型效果方面的有效性。
![]()
效率提升了,價(jià)格也就下降了。
DeepSeek 宣布稱,對其 API 服務(wù)價(jià)格大幅下調(diào),幅度 為 50% 以上。
![]()
好東西,必須分享!
模型和論文都已開源,以下為地址:
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
魔搭 (ModelScope):
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
論文傳送門:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
此外,DeepSeek 還把TileLang & CUDA 算子也開源了,方便社區(qū)小伙伴門一起研究和迭代。
新版本已經(jīng)在DeepSeek 官方App、網(wǎng)頁端、小程序全面上線,API 也已同步更新。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.