ChatGPT 誕生三周年之際,DeepSeek 送上「慶生禮物」。
:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。這兩個模型不僅在推理能力上直逼 GPT-5 和 Gemini-3.0-Pro,更重要的是,它們解決了一個困擾開源模型很久的問題:
怎么讓 AI 既會深度思考,又會熟練使用工具?
![]()
新模型省流版如下
DeepSeek-V3.2(標準版):主打性價比與日常使用,推理能力達到 GPT-5 水平,比 Kimi-K2-Thinking 輸出更短、更快且更省成本,并首次實現「邊思考邊用工具」。官網、APP、API 均已升級到該版本,適用于日常問答、寫作和 Agent 任務。
DeepSeek-V3.2-Speciale(終極增強版):面向 AI 能力上限探索,性能媲美 Gemini-3.0-Pro,在 2025 IMO、IOI、ICPC 中均獲金牌(IOI 排人類第 10,ICPC 排第 2)。僅提供臨時 API,思考鏈長、Token 消耗大、成本高,不支持工具調用,也未優化日常對話,服務至 2025 年 12 月 15 日截止。
兩個模型的權重都已經在 HuggingFace 和 ModelScope 上開源,你可以下載到本地部署。
慢、笨、呆?DeepSeek V3.2 上新黑科技
過去幾個月,AI 圈出現了一個明顯的趨勢:閉源模型越跑越快,開源模型卻有點跟不上節奏了。DeepSeek 團隊分析后發現,開源模型在處理復雜任務時有三個核心瓶頸:架構問題、資源分配以及智能體能力。
針對這三個問題,DeepSeek 這次拿出了三個大招。
如果你用過一些 AI 模型處理超長文檔,可能會發現速度越來越慢,甚至直接卡死。這就是傳統注意力機制的鍋。
傳統注意力機制的邏輯是:每個字都要和之前所有的字計算相關性。文檔越長,計算量就越大。就像你在一個有 1000 人的微信群里找人聊天,每次說話前都要挨個確認這 1000 個人是不是你要找的那個,這顯然是一件十分費勁的事情。
DeepSeek 這次引入的 DSA(稀疏注意力機制)換了個思路:不需要關注每一個字,只關注那些真正重要的部分。
![]()
它的核心是一個叫「閃電索引器」的東西。
這個索引器會快速給每個字打個分,然后只挑出分數最高的那些字來計算注意力。就像你在 1000 人的群里,先用搜索功能篩出名字里帶「張」的,然后再從這 50 個人里找你要的那個張三,效率立馬上去了。
更聰明的是,閃電索引器使用的計算資源很少,而且支持 FP8 精度計算 (一種低精度但高效的計算方式),所以它本身不會成為新的性能瓶頸。
實際效果呢?V3.2 支持 128K 上下文長度,相當于一本中篇小說的長度,但處理速度和效率都大幅提升。而且根據官方在各種場景下的測試,DSA 版本的表現完全不輸傳統注意力機制,有些場景甚至更好。
V3.2 是在上一版 V3.1-Terminus 的基礎上,通過持續訓練引入 DSA 的。整個過程分兩個階段,都用了和 V3.1-Terminus 擴展到 128K 時一模一樣的數據分布,保證了模型能力的平滑過渡。
![]()
此外,光有好架構還不夠,訓練也得跟上。
開源模型和閉源模型之間的另一道鴻溝在于:開源模型在訓練后期投入的計算資源太少了。就像蓋房子,預算花完了,裝修就隨便搞搞,最后住進去發現到處是問題。
技術報告顯示,DeepSeek 在后訓練階段投入的計算預算超過了預訓練成本的 10%。但砸錢也是門技術活。DeepSeek 構建了一個「穩定且可擴展的強化學習訓練框架」,這個框架有兩個特點。
一是穩定。強化學習訓練本身就不太穩定,容易出現訓練崩潰、性能波動等問題。DeepSeek 的框架能在大規模計算下保持訓練穩定,這本身就是技術突破。
二是可擴展。這個框架允許后訓練階段的計算預算大幅超過傳統做法,從而釋放出模型的高級能力。
具體訓練流程分兩步走。
第一步是「專家蒸餾」。他們在數學、編程、邏輯推理、智能體任務等六大專業領域,分別訓練出專用的專家模型。每個專家模型都在大規模強化學習計算下訓練完成,而且分別針對「思維模式」(長鏈式思考) 和「非思維模式」(直接回答) 生成訓練數據。
![]()
專家模型訓練好后,就用它們來生成最終模型的訓練數據。實驗結果顯示,用這些專家蒸餾數據訓練出的模型,性能只是略低于對應的專家模型,而且這點差距在后續的強化學習訓練中可以被抹平。
第二步是「混合強化學習訓練」。DeepSeek 繼續使用 GRPO(Group Relative Policy Optimization) 作為主要訓練算法,把推理任務、智能體任務和人類偏好對齊任務統一整合到一個強化學習階段。
這種統一訓練的好處是既能提升不同任務領域的性能,又能避免傳統多階段訓練中常見的「災難性遺忘」問題。你可以把它理解為:AI 在學新技能的同時,不會把舊技能忘掉。
在推理和智能體任務中,他們用基于規則的結果獎勵、輸出長度懲罰、語言一致性獎勵來引導模型學習。而在通用任務中,則用生成式獎勵模型,根據每個提示分別定義評價標準。
V3.2 就是在這種混合強化學習下,經過上千步訓練得到的穩定版本。而 Speciale 版本則更激進,它只在推理任務數據上訓練,降低了輸出長度懲罰,還引入了 DeepSeekMath-V2 的數據集和獎勵機制,進一步增強數學證明能力。
結果就是:V3.2 的推理能力直接追上了 GPT-5,而 Speciale 版本因為放開了思考長度限制,性能更是逼近 Gemini-3.0-Pro。
思考+工具調用:AI 學會「邊想邊做」了
以前的 DeepSeek 模型有個尷尬的問題:進入「思考模式」后,就不能調用搜索、代碼執行等工具了。就像一個人陷入沉思后,手就不會動了。這顯然不符合我們解決復雜問題的方式。
現實中我們遇到難題時,往往是邊想邊查資料,邊分析邊驗證,思考和行動是交織在一起的。AI 也應該如此。
DeepSeek 團隊發現,如果直接復刻 DeepSeek-R1 的策略 (收到第二輪消息后丟棄此前的推理內容),會嚴重降低 Token 使用效率。這種方法會迫使模型在每次調用工具時都要從頭開始重復推理整個問題,造成資源浪費。
![]()
他們專門為工具調用場景設計了一套「思考上下文管理機制」。
核心邏輯是:只有在用戶發出新消息時,歷史推理內容才會被清除。如果只是追加了工具相關的信息 (比如工具輸出結果),則保留此前的推理內容,讓推理過程可以持續。
同時,當推理內容被移除時,工具調用歷史和工具返回的結果仍會保留在上下文中,確保模型在后續推理中仍能基于已有信息進行判斷。
這樣一來,AI 就可以:先思考一會兒,調用工具 (比如搜索、運行代碼),看到結果后繼續思考,再調用工具,如此往復。而且歷史推理內容會保留,不需要每次調工具后都從頭重新思考。
官方給的例子很生動:規劃一個復雜的三天旅行,要滿足各種預算約束、評分要求、不重復原則。比如第二天,如果訂了豪華酒店 (800 元以上),那午餐晚餐總費用不能超過 350 元,餐廳評分都要 4.0 分以上,下午景點門票要低于 120 元。如果是中高檔酒店 (500 到 800 元),至少一家餐廳評分要達到 4.0 分,景點門票要低于 180 元。
這種任務需要 AI 反復查詢酒店、餐廳、景點信息,同時進行邏輯推理和約束檢查。V3.2 可以邊搜索邊思考,最終給出完美答案。
![]()
不過要注意一點:有些智能體框架 (比如 Roo Code 或 Terminus) 是通過用戶消息來模擬工具交互的。這種架構由于其上下文管理方式,可能無法充分利用推理內容保留機制的優勢。對于這類系統,官方建議優先使用「非思維模式」。
V3.2 的思考模式已經支持 Claude Code,可以在命令行工具中使用。但 Cline、RooCode 等使用非標準工具調用的組件還不太適配,使用時要注意。
在實現「思考+工具調用」的過程中,DeepSeek 還做了一個巧妙的設計叫「冷啟動」。考慮到手頭已有兩類數據 (一種是帶推理過程的非智能體數據,另一種是沒有推理過程的智能體任務數據),他們通過精心設計提示詞把兩者結合起來。
他們認為,模型已經具備了較強的指令理解能力,只需通過明確的指令,就能讓模型在推理過程中自然地整合工具的執行。這使得「工具使用」可以無縫融入到「推理過程」之中,實現冷啟動階段的能力融合。
大規模智能體任務:讓 AI 自己訓練自己
在提升大模型能力這件事上,DeepSeek 走了一條不太一樣的路——不是人類教 AI,而是讓 AI 自己訓練自己。
他們搭建了一條大規模的智能體任務流水線,創造了超過 1800 個虛擬環境和 8 萬多條任務。這些任務有個共同特點:難解答,但容易驗證。什么意思?就是題目很復雜,但答案對不對,一查就知道。這樣一來,AI 就可以無限制地刷題、改題、復盤,不斷強化自己的推理能力。
![]()
在這條流水線上,不同智能體扮演著不同角色:有的負責從互聯網挖掘知識、提出問題;有的負責生成各種答案;還有的負責驗證答案是否正確。只有通過驗證的數據,才會進入訓練集。這讓模型越訓越聰明,而且不會學偏。
更硬核的是代碼領域。DeepSeek 直接從 GitHub 上抓取真實的 Issue 和修復補丁,讓智能體搭建測試環境、安裝依賴、運行測試用例,確保修 bug 真的有效、沒有引入新問題。經過這一輪又一輪的自動化淬火,模型在多種編程語言里獲得了可實戰的能力。
最后,是最令人驚嘆的部分——通用智能體。它不僅能解題,還能自動生成任務、工具和驗證邏輯。給它一個任務類型,比如旅行規劃,它會自己搜集數據、生成工具、提升難度、迭代解法,直到形成完整的任務體系。最終,它創造出上千個環境和任務,真正實現了 AI 生成訓練 AI 的世界。
一句話總結:DeepSeek 把訓練過程從「人喂數據」變成了「AI 創造數據、驗證數據、用數據變強」。這不僅提升了模型的邏輯能力,也讓 AI 開始具備一種以前不存在的特征——自我進化。
測試結果有多炸裂?
![]()
在推理能力測試上,V3.2 在 MMLU-Pro、GPQA Diamond、LiveCodeBench 等多個基準測試中的表現可與 GPT-5 和 Kimi-k2-thinking 媲美。而 Speciale 版本在這些測試中的得分則接近甚至超過 Gemini-3.0-Pro。
![]()
在智能體能力測試上,V3.2 在開源模型中達到了最高水平,大幅縮小了與閉源模型的差距。在 τ2-Bench 測試中,V3.2 讓模型本身充當用戶智能體,在航空類別得了 63.8 分,零售類別 81.1 分,電信類別 96.2 分。
![]()
對于 MCP 基準測試,他們使用函數調用格式。
測試過程中發現 V3.2 經常進行冗余的自我驗證操作,導致生成的操作軌跡過長。這種行為在 MCP-Mark GitHub 和 Playwright 評估等任務中,容易使上下文長度超出 128K 的限制,從而影響最終性能表現。
不過通過引入上下文管理策略,可以進一步提升模型表現。
即便存在這個問題,V3.2 的整體表現仍顯著優于當前所有開源模型。而且這些基準測試中使用的環境和工具集,并未出現在模型的強化學習訓練階段,說明 V3.2 具備將推理策略泛化到「領域外智能體任務」的能力。
Speciale 版本的表現更是驚人。它通過支持更多推理 Token,取得了超越 Gemini-3.0-Pro 的性能。在未進行任何專項訓練的前提下,就在 2025 年 IOI、ICPC 世界總決賽拿到金牌水平的成績。
在 ICPC 世界總決賽中,Speciale 排名第 2;在 IOI 中排名第 10。而且結合 DeepSeekMath-V2 的方法后,Speciale 在復雜數學證明任務中的表現也非常出色,在 2025 年 IMO 和 CMO 也達到金牌門檻。
![]()
官方評估的是 CMO 2025 的英文版本。IMO 2025 與 CMO 2025 的題目及模型推理代碼已經在 GitHub 上開源。
不過 Speciale 的 Token 使用效率顯著低于 Gemini-3.0-Pro。在訓練官方版本 V3.2 時,他們引入了更嚴格的 Token 限制,以降低部署成本與響應延遲,在性能與效率之間找到最優平衡。
為驗證「AI 訓練 AI」到底有沒有用,他們做了兩組實驗。
第一組從合成的智能體任務里隨機抽了 50 個實例,讓各種前沿模型去做題,結果 V3.2-Exp 只答對了 12%,閉源最強也只有 62%,這說明這些任務不是「拼字游戲」,是真的難。
第二組實驗更狠,他們把 V3.2 的基礎模型放進去,只用合成任務做強化學習,不引入鏈式思考或其他訓練數據。最后結果顯示:基于合成數據的大規模強化學習顯著提升了模型在泛化任務上的表現。
![]()
那么 DeepSeek V3.2 還有改進空間嗎?
有的。
官方承認,V3.2 與頂級閉源模型 (比如 Gemini-3.0-Pro) 仍存在一定差距。
訓練總浮點運算量更少,導致 V3.2 在世界知識覆蓋廣度方面仍略顯不足。他們計劃在未來版本中通過擴大預訓練階段的計算資源投入,來逐步彌補這個短板。
Token 效率也是一個挑戰。和 Gemini-3.0-Pro 等模型相比,V3.2 往往需要更長的生成路徑 (也就是更多的 Token) 才能達到相似的輸出質量。未來的工作重點之一,是優化模型推理鏈中的「智能密度」,提升效率。
在解決復雜任務方面,V3.2 仍然不及最前沿模型,這也促使他們進一步優化底層基礎模型與后訓練方法。(所以這是不是在暗示 V4? )
![]()
但考慮到這是開源模型,V3.2 的表現已經相當炸裂了。
從 R1 到現在的 V3.2,DeepSeek 一直在證明一件事:開源模型不是閉源的廉價替代品,而是可以真正接近甚至超越閉源模型的存在。
這次 V3.2 的發布,不僅在推理能力上追平了 GPT-5,還實現了「思考+工具調用」的完美融合,同時在世界級競賽中拿到金牌。
更重要的是,這一切都是開源的。
任何人都可以部署到自己的服務器上,研究它的架構,甚至基于它做二次開發。AI 的未來,可能真的屬于開源。
技術報告已發布,感興趣的讀者可以在 DeepSeek 官網或 HuggingFace 查看完整論文:
DeepSeek-V3.2:https://huggingface.co/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
技術報告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.