![]()
歡迎來到北茗的AI茶館
ChatGPT發布三周年之際,DeepSeek搞了個突然襲擊。
剛剛發布了「DeepSeek-V3.2 」和「 DeepSeek-V3.2-Speciale」兩款模型。
![]()
模型有多強呢?
一句話你就懂了:超越GPT-5,與Gemini3 Pro不相上下。
![]()
![]()
分別介紹一下。
DeepSeek-V3.2,適合日常場景,平衡了推理能力與輸出長度。
在推理測試中,比Gemini3 Pro稍差一點,但能和GPT-5打個平手。
DeepSeek-V3.2- Speciale,不裝了,達到開源模型的最強推理能力。
在各大測試中的表現,媲美最強模型Gemini3 Pro。
![]()
IMO 2025(國際數學奧林匹克)、CMO 2025(中國數學奧林匹克)、ICPC World Finals 2025(國際大學生程序設計競賽全球總決賽)、IOI 2025(國際信息學奧林匹克)這些頂級競賽的金牌隨便拿!
![]()
這次的新模型有什么不同呢?
DeepSeek-V3.2將思考融入了工具使用。思考和非思考模式下,都能實現工具調用。
這簡直就是為智能體而生的呀!
DeepSeek團隊還提出了一種大規模Agent訓練數據合成方法。
他們用大量的難以解答,但容易驗證的任務,進行強化學習訓練。
這樣可以大幅提高模型的泛化能力。
下面是DeepSeek-V3.2在智能體工具調用方面評測的表現。
![]()
開源模型中的top one。
官方給出一個示例:

深度思考加上工具調用,回答效果大大提升。
此外,DeepSeek-V3.2引入的DSA機制(DeepSeek Sparse Attention)也有不小功勞。
想要了解DSA的小伙伴,可以看之前寫的這篇:
或者直接看DeepSeek的新模型技術報告:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
總的來說,DSA大幅提高了模型在長文本上的表現,并且幾乎不降低輸出質量。

最后,附上兩個版本的開源地址:
DeepSeek-V3.2
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2 ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale
同時期待DeepSeek早日發布R2模型!
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.