DeepSeek全年壓軸的來了。
今天,它同時發布了兩個正式版模型:DeepSeek-V3.2 ,與GPT-5有得一拼;和 DeepSeek-V3.2-Speciale,勝過GPT-5,推理熟練程度達到了Gemini-3.0-Pro的水平 ,在國際奧數等比賽中達到金牌水準。
經過整整一年,DeepSeek從年初以最快的速度和最低的成本復刻出推理模型o1,到年底追上OpenAI,號稱推理模型全球領先。不過,它以后需要對標更強的Gemini、對標它長期學習的DeepMind了。而且,算力正在限制中國開源模型進一步追趕的后勁,在預訓練和后訓練方面已經表現出來。
今年,雖然沒有發布期待中的V4,但是,DeepSeek用V3一直打到年底,也基本完成了使命。正如它所說:“DeepSeek-V3.2 模型在智能體評測中達到了當前開源模型的最高水平,大幅縮小了開源模型與閉源模型的差距。”在公開的推理類基準測試中,DeepSeek-V3.2 達到了 GPT-5的水平,僅略低于 Gemini-3.0-Pro。
![]()
DeepSeek-V 3.2-Speciale,要展示出它才是2025年真正的學霸。在Gemini和OpenAI先后都達到了奧數等一系列中學生頂級競賽冠軍水平之后,Speciale也迅速展示出,它在國際、中國、美國一系列最頂級的競賽中,都可以達到最高水平。
![]()
中國的開源模型,以往與美國先進閉源模型相比,在回答相同難度的問題時,耗費的token。
這一次,它部分改掉了“啰嗦”的毛病。大家以后日常使用的V3.2 ,在問答和通用智能體任務中,可以平衡推理能力與輸出長度。相比 Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。
不過它也提醒,在高度復雜任務上,Speciale模型大幅優于標準版本,但消耗的Tokens也顯著更多,成本更高。目前,DeepSeek-V3.2-Speciale僅供研究使用,不支持工具調用,暫未針對日常對話與寫作任務進行專項優化。
好在通過DSA(DeepSeek稀疏注意力)機制,DeepSeek能控制住推理中的每百萬token成本。結合優化實現,DSA在長上下文場景中實現了端到端的顯著加速。下圖展示了DeepSeek-V3.1-Terminus 與 DeepSeek-V3.2 的 token 計算成本隨序列中 token 位置的變化關系。這些成本數據來自H800GPU真實部署服務的基準測試估算,租賃價格為每GPU小時2美元。
![]()
DeepSeek指出,盡管中國正在主導的開源社區很熱鬧,如 MiniMax、月之暗面、智譜等,仍在持續推進研究和模型能力,但美國的閉源的專有大模型(Anthropic、DeepMind、OpenAI)的性能曲線“在近幾個月以更陡峭的速度加速攀升。”
人們一直以為,開源模型將逐步逼近并最終追平閉源模型,但實際上,開源模型與閉源模型之間的性能差距并沒有收斂,反而呈現出擴大的趨勢。DeepSeek警告中國開源模型:“在越來越復雜的任務中,專有閉源系統展現出了顯著更強的能力優勢,并在處理高復雜、多步驟、交互式問題時體現出的領先幅度在擴大。”
DeepSeek分析了開源模型的三項關鍵缺陷:第一,在架構層面,開源模型對原版注意力機制(vanilla attention mechanisms)的主要依賴,極大地限制了其在處理長序列任務中的效率。這種低效性成為可擴展部署和有效后訓練的重大障礙。第二,在資源配置方面,開源模型在后訓練階段缺乏足夠的計算資源投入,從而限制了其在高難任務上的表現。最后,在AI智能體方面,開源模型在泛化能力和指令追隨能力上明顯落后于閉源的專有模型,這阻礙了其在真實部署中的實際效果。
為了解決這些關鍵的局限,DeepSeek首先提出了DSA,大幅降低計算復雜度,有效緩解了效率瓶頸,即便在長上下文場景中也能保持模型性能。第二,開發了一套穩定且可擴展的強化學習協議,使得在后訓練階段可以大幅擴展計算投入。值得注意的是,該框架分配的后訓練計算預算超過了預訓練成本的10%,從而解鎖了更高級的能力。
但更重要的是,V3.2首次將思考融入工具使用,并且同時支持思考模式與非思考模式的工具調用。“我們提出了一種大規模Agent訓練數據合成方法,構造了大量「難解答,易驗證」的強化學習任務(1800+ 環境,85,000+ 復雜指令),大幅提高了模型的泛化能力。”
如下表所示,V3.2 在智能體評測中達到了當前開源模型的最高水平。值得說明的是,它并沒有針對這些測試集的工具進行特殊訓練,所以“我們相信,V3.2 在真實應用場景中能夠展現出較強的泛化性。”
![]()
智能體能力,光當學霸拼考分不行,還要看下實際解決問題的能力。V3.2還特意演示了一個旅行助手提供的杭州西溪濕地的旅游攻略生成過程。那些動不動能解奧數題的智能體,目前面對的最大挑戰,其實是能不能讓外賣小哥送上一杯奶茶。智能體完成真實世界里真實任務的能力,正在日益變得比獲得高分更重要。
DeepSeek也承認了自己的不足,尤其是與Gemini-3.0-Pro等前沿閉源模型相比,仍然存在一些局限。
第一,由于總體訓練FLOPs更少,V3.2在世界知識的覆蓋廣度上仍落后于領先的專有閉源模型。我們計劃在后續迭代中通過擴大預訓練算力規模來彌補這一知識差距。
第二,token效率仍然是一項挑戰。V3.2通常需要更長的生成軌跡(即更多tokens)才能達到像Gemini-3.0-Pro這樣的模型所具備的輸出質量。未來的工作將聚焦于提升模型推理鏈的智能密度,以改善效率。
第三,在解決復雜任務的能力上,它的表現仍不及前沿模型,這驅使我們繼續改進基礎模型并優化后訓練方法。
參考:
V3.2技術報告
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.