大家好,我是 Ai 學習的老章
昨天大模型世界很熱鬧,其實最近新模型一直不斷,尤其是 Qwen,中間我也有測試,時間緊張沒有發文
DeepSeek-V3.1-Terminus
這是 V3.1 的一次小升級,核心應該是解決之前爆出的“極”bug 還有多語言混在問題
DeepSeek-V3.1 上線后,有用戶反饋在用 API 調用模型時,會偶爾出現一個嚴重 Bug:模型會不受控地隨機輸出“極”、“極”、“extreme”等字樣,嚴重影響日常使用,如果未經仔細檢查就使用含有這一 Bug 的代碼,很可能導致編譯失敗。
基準
DeepSeek-V3.1
DeepSeek-V3.1-Terminus
無工具使用推理模式
MMLU-Pro
84.8
85.0
GPQA-Diamond
80.1
80.7
huanity's last test
15.9
21.7
LiveCodeBench
74.8
74.9
Codeforces
2091
2046
Aider-Polyglot
76.3
76.1
代理工具使用
BrowseComp
30.0
38.5
BrowseComp-zh
49.2
45.0
SimpleQA
93.4
96.8
SWE Verified
66.0
68.4
SWE-bench 多語言
54.5
57.8
Terminal-bench
31.3
36.7
Terminius 最突出的表現是Agent 能力,Code Agent 與 Search Agent 的表現都有提高。
不過,眼見的網友應該發現了,升級后的模型在 Codeforces 和 Aider-Polyglot 這兩個編程相關的競技場上的表現居然都有小幅下降。不過無傷大雅,最起碼修復“極”bug 后可用性大幅增加。
目前訪問https://chat.deepseek.com/就是最新的 Terminius 模型了
模型也已開源:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
![]()
模型文件 689 GB!
這玩意太大,本地部署我是玩不轉,我有一臺 500GB 內存的超級電腦準備 llama.cpp 純內存模型啟動一下量化模型試試。
不過這要等到 unsloth 放出 Terminius 量化版模型之后了,我還是蠻強期待的。 unsloth 之前的V3.1量化版號稱:
1 位 Dynamic 量化 DeepSeek-V3.1 從671GB 壓縮至 192GB(體積減少 75%),其無思考模式性能超越 GPT-4.1(2025 年 4 月版)、GPT-4.5 和 DeepSeek-V3-0324。
3 位Unsloth DeepSeek-V3.1(思考模式)GGUF:性能超越 Claude-4-Opus(思考模式)。
最后,V4 國慶節會來嗎?以往慣例,每逢佳節,DeepSeek必發新模型。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.