![]()
剛剛,DeepSeek完成模型兩連發。
實驗版DeepSeek-V3.2-Exp發布兩個月后,正式版終于熬出來了↓
?DeepSeek-V3.2:兼顧推理能力和輸出長度的性能平衡版,適用于問答、通用Agent等場景。對標GPT-5,略低于Gemini3.0Pro。
?DeepSeek-V3.2-Speciale:長思考增強版,還有極強的數學能力,指令更順、數學證明和邏輯驗證能力強,性能對標Gemini3.0Pro,碾壓GPT5.0,參考圖1。
該版本主要有以下技術創新點↓
(以下基于最新技術報告整理)
1. 核心突破:既要馬兒跑,又讓馬吃草
為了解決長文本處理慢、算力消耗大的問題,團隊引入了DeepSeek 稀疏注意力 (DSA)。結果就是推理速度飆升,性能不下降,成本暴降。
關于DSA,我們以前做過解讀
導致DeepSeek價格暴降,「稀疏注意力機制」,到底是個啥?。
2. 變強秘籍:強化學習與合成數據
DeepSeek-V3.2之所以能變得更“聰明”,主要歸功于后訓練階段的策略升級↓
2.1 下血本搞強化學習:
建立了可擴展的強化學習框架,大幅增加了后訓練階段的算力投入(超過了預訓練成本的 10%);
2.2 海量合成數據:
為了讓模型學會使用工具(比如寫代碼、搜網頁),團隊開發了一套流水線,自動生成了海量的訓練數據。例如,通過模擬GitHub 的問題修復來訓練代碼能力,通過構建虛擬的旅行計劃任務來訓練通用Agent能力。
在論文中,DeepSeek團隊也很誠實地列出了這一版的不足↓
知識廣度不夠: 因為訓練的總計算量不如那些閉源巨頭,所以在世界知識的覆蓋面上還有差距。
有點話癆:為了達到高水平的推理,模型往往需要生成很長的思考過程。好比為了做對一道題,它可能需要寫很長的草稿,推理成本相對較高(但已經不錯了)。
復雜任務仍有差距:在解決極度復雜的任務時,相比最頂尖的閉源模型仍稍遜一籌。
總之,這一版更新,可謂誠意滿滿了,還不趕緊用起來?
(注:正式版已經官網可用,Speciale版僅以臨時API提供,不知道第三方MaaS能不能快速上線呢?)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.