網易首頁 > 網易號 > 正文申請入駐

梁文鋒署名論文，DeepSeek最強開源Agent模型炸場

2025-12-02 00:29:12　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯云鵬

智東西12月2日報道，昨晚，DeepSeek發布了兩款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。這是DeepSeek當前性能最強大的模型，在推理、智能體等多領域基準測試中斬獲全球開源模型第一的表現。

DeepSeek稱，標準版的DeepSeek-V3.2在公開的推理類基準測試中，達到了GPT-5的水平，僅略低于Gemini-3.0-Pro；相比Kimi-K2-Thinking，V3.2的輸出長度大幅降低，顯著減少了計算開銷與用戶等待時間。

長思考增強版DeepSeek-V3.2-Speciale結合了DeepSeek-Math-V2的定理證明能力，具備較強的指令跟隨、數學證明與邏輯驗證能力，在主流推理基準測試上的性能表現媲美Gemini-3.0-Pro。

在開源世界里，DeepSeek-V3.2也是領先的存在。據權威大模型測評平臺Artificial Analysis數據顯示，在未計入DeepSeek-V3.2時，當前業內智能水平最高的開源模型是Kimi-K2-Thinking。

在DeepSeek-V3.2和Kimi-K2-Thinking兩款模型均公布結果，且測試設置相同的基準測試上，DeepSeek-V3.2均領先于Kimi-K2-Thinking。

▲DeepSeek-V3.2和Kimi-K2-Thinking基準測試對比，數據來源為官方渠道

DeepSeek-V3.2還是DeepSeek推出的首個將思考融入工具使用的模型，并且同時支持思考模式與非思考模式的工具調用。

DeepSeek-V3.2模型在智能體評測中達到了當前開源模型的最高水平，大幅縮小了開源模型與閉源模型的差距。值得說明的是，V3.2并沒有針對這些測試集的工具進行特殊訓練，這意味著V3.2在真實應用場景中能夠展現出較強的泛化性。

此外，DeepSeek-V3.2-Speciale模型還成功斬獲IMO 2025（國際數學奧林匹克）、CMO 2025（中國數學奧林匹克）、ICPC World Finals 2025（國際大學生程序設計競賽全球總決賽）及 IOI 2025（國際信息學奧林匹克）金牌。其中，ICPC與IOI成績分別達到了人類選手第二名與第十名的水平。

在高度復雜任務上，Speciale模型大幅優于標準版本，但消耗的Tokens也顯著更多，成本更高。目前，DeepSeek-V3.2-Speciale僅供研究使用，不支持工具調用，暫未針對日常對話與寫作任務進行專項優化。

目前，DeepSeek官方網頁端、App和API均已更新為正式版DeepSeek-V3.2。Speciale版本目前僅以臨時API服務形式開放，以供社區評測與研究。DeepSeek-V3.2系列模型已經開源，技術報告同期發布。

值得一提的是，在技術報告的作者名單里，我們能看到不少熟悉的名字，比如DeepSeek創始人兼CEO梁文鋒、前段時間代表DeepSeek在烏鎮世界互聯網大會上發聲的研究員陳德里等。

技術報告：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

開源鏈接：

DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

一、開源模型、閉源模型差距越來越大？DeepSeek找到三個原因

過去幾個月，開源模型和專有模型的差距為什么在不斷擴大？這是DeepSeek團隊一直在思考的問題。

DeepSeek團隊認為，限制開源模型在復雜任務中能力的因素，主要有三點。

首先，在架構上，開源模型主要依賴于原始注意力機制，這嚴重限制了長序列處理的效率。這種低效性對規模化部署和有效的訓練后階段都構成了重大障礙。

其次，在資源分配方面，開源模型在訓練后階段的算力投入不足，限制了其在困難任務上的表現。

最后，在智能體應用場景中，與專有模型相比，開源模型在泛化能力和指令遵循能力上表現出明顯滯后，這阻礙了其在真實部署中的有效性。

為了解決這些關鍵限制，DeepSeek首先引入了DSA（DeepSeek Sparse Attention），這是一種高效的稀疏注意力機制，旨在顯著降低計算復雜度。該架構有效解決了效率瓶頸，即使在長上下文場景下也能保持模型性能。

其次，DeepSeek開發了一個穩定且可擴展的強化學習協議，允許在訓練后階段進行大規模算力擴展。值得注意的是，該框架分配的訓練后算力預算超過了預訓練成本的10%，這在業內是較為少見的，從而解鎖了模型的高級能力。

第三，DeepSeek提出了一種新穎的流程來促進工具使用場景中的泛化推理。研發團隊利用DeepSeek-V3方法實施冷啟動階段，將推理和工具使用統一在單一軌跡中。

隨后，推進到大規模的智能體任務合成，生成了超過1800個不同的環境和85000個復雜提示。這些廣泛合成的數據驅動了強化學習過程，顯著增強了模型在智能體上下文中的泛化能力和指令遵循能力。

二、基于DeepSeek-V3.1最終版打造，DSA讓模型計算更聰明

DeepSeek-V3.2使用的架構與此前發布的實驗版DeepSeek-V3.2-Exp完全相同。與DeepSeek-V3.1系列的最后一版DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2唯一的架構改動是通過持續訓練引入了DSA。

傳統的注意力機制在處理一個token時，需要和它前面所有的toekn進行計算，這在長文本中非常耗時。DSA的思路就是先快速篩選出最重要的幾個token，然后只對這些token進行詳細分析。

這一選擇是通過閃電索引器（lightning indexer）實現的。閃電索引器計算查詢token與前序token的索引分數，以決定應該選擇哪些token進行計算。鑒于閃電索引器頭數少且可在FP8下實現，其計算效率非常出色。

給定每個查詢token的索引分數后，細粒度令牌選擇機制僅檢索與top-k索引分數對應的鍵值條目，并計輸出。

DeepSeek-V3.2的訓練從上下文長度已擴展到128K的DeepSeek-V3.1-Terminus基礎檢查點開始。

在繼續預訓練過程中，模型先經歷“密集預熱”，即保持完整注意力不變，只訓練索引器，使其學會模仿原注意力的分布。

隨后進入稀疏訓練階段，引入真正的令牌選擇機制，并同時優化整個模型。通過這種逐步過渡的方式，模型能夠平穩從密集注意力遷移到稀疏結構，而不會導致性能崩塌。

在能力評估方面，DeepSeek-V3.2-Exp在標準基準測試、人類偏好評估以及多項長上下文任務中均表現出與前代相當甚至更優的結果。

無論是ChatbotArena的Elo得分，還是AA-LCR與Fiction.liveBench等長序列測試，皆顯示其在引入稀疏注意力后并未犧牲模型質量，反而在長序列推理中獲得明顯優勢。

在實際推理成本上，DSA將模型的核心注意力復雜度從平方級降低為近似線性增長，使得序列越長，節省越明顯。雖然索引器本身仍需處理全局信息，但其開銷遠小于原MLA。

結合工程優化，DeepSeek-V3.2在H800 GPU上實現了顯著的端到端加速，并在短上下文下利用專門的掩碼模式進一步提升效率。總體而言，DeepSeek-V3.2在保持能力不降質的同時，有效突破了長上下文推理的性能瓶頸。

▲DeepSeek-V3.2在H800 GPU上實現了顯著的端到端加速

三、打造6類專屬模型，讓模型給自己造后訓練數據

DeepSeek-V3.2的后訓練階段是在持續預訓練之后進行的，它的目標是把一個規模龐大但尚未定型的基礎模型，進一步塑造成兼具推理、工具使用、代理任務和對齊能力的最終版本。

整個過程延續了DeepSeek-V3.2-Exp的做法，并依然基于稀疏注意力進行高效訓練。后訓練主要依靠兩條路線：一條是專家蒸餾，一條是混合式強化學習，兩者結合起來，使模型在不同領域都能獲得穩定且均衡的能力提升。

專家蒸餾的核心思想是，不同任務由專門的專家模型來承擔學習，再將這些專家的能力匯聚到統一的大模型中。

團隊首先從同一個DeepSeek-V3.2基礎檢查點出發，為數學、編程、邏輯推理、通用智能體、智能體編程和智能體搜索等六類專業任務分別訓練專屬模型，這些模型擁有思考模式和直接作答模式兩類數據，并利用大規模RL進行強化，以保證每個專家在自己的領域達到高水準。

隨后，這些專家會負責生成高質量的領域數據，用來訓練一個統一的大模型。實驗表明，用專家數據蒸餾出來的大模型性能已經非常接近各個專家本身，再輔以后續的RL微調，殘余的差距也可以基本消除。

混合式強化學習環節繼續采用GRPO（Group Relative Policy Optimization）算法，把推理、智能體與人類對齊的訓練整合到同一個階段，從而避免多階段訓練中常見的災難性遺忘。

推理和智能體任務主要依賴規則獎勵、長度懲罰以及語言一致性獎勵；而通用任務則由生成式獎勵模型根據特定rubric評分。這樣做的好處是，模型不會偏向某一類任務，而能在整體上保持穩健的能力平衡。

為了讓強化學習能夠在大規模計算下穩定推進，團隊還對GRPO做了多項改進，使得大模型在長時間、高強度的訓練下依然能保持良好的收斂特性。

在后訓練中，DeepSeek-V3.2著重解決“思考模式與工具使用如何結合”的難題。為了避免模型在多輪工具調用中頻繁重復推理，他們設計了一套新的上下文管理機制：只有當出現新的用戶消息時才會清除思考軌跡，而工具輸出的追加并不會導致推理內容被丟棄。

同時，工具調用歷史仍會被完整保留，確保模型能夠連續地利用已有推理繼續完成后續動作。在訓練早期，由于推理數據與代理數據來源不同，模型需要一個冷啟動方式把“邊思考邊用工具”的模式拼接起來，因此團隊設計了特定的系統提示，讓模型在推理軌跡中自然嵌入工具調用，為后續RL提供可學習的示例軌跡。

例如，在回答問題1過程中（請求1.1-1.3），模型進行了多次思考+工具調用后給出答案。在這個過程中，用戶需回傳思維鏈內容（reasoning_content）給 API，以讓模型繼續思考。在下一個用戶問題開始時（請求2.1），需刪除之前的思維鏈，并保留其它內容發送給API。

▲工具調用歷史保存機制

真正的能力提升則來自大規模的代理任務RL，它們覆蓋搜索、代碼修復、代碼解釋以及由自動環境生成器創建的各種可驗證任務——這些任務往往具有復雜性高、可驗證性強的特點，非常適合作為RL的訓練素材。

最終形成的DeepSeek-V3.2是在經過大量專家蒸餾數據、混合RL訓練和工具思考機制增強之后得到的統一模型，融合思考和非思考能力，而另一個實驗版本DeepSeek-V3.2-Speciale則進一步在推理方向上加重訓練，以探索更長推理路徑的潛力。

結語：平衡計算效率與推理能力，知識廣度和token效率仍有提升空間

DeepSeek-V3.2是一個平衡了計算效率與高級推理能力的模型。 DSA在不犧牲長上下文性能的前提下解決了關鍵的計算復雜度問題。隨著計算預算的提升，DeepSeek-V3.2在推理基準測試上達到了可與GPT-5相媲美的性能。

此外，DeepSeek集成的大規模智能體任務合成流水線，顯著增強了工具使用能力，為構建穩健且具備泛化能力的開源大模型智能體打開了新的可能性。

不過，DeepSeek也承認，由于整體訓練FLOPs較少，DeepSeek-V3.2的世界知識廣度仍落后于領先的專有模型。DeepSeek計劃在未來的迭代中通過擴大預訓練計算量來縮小這一知識差距。

其次，token效率仍是一項挑戰；DeepSeek-V3.2通常需要更長的生成軌跡（即更多的tokens）才能達到與Gemini-3.0-Pro等模型相似的輸出質量。未來的工作將聚焦于優化模型推理鏈的“智能密度”，以進一步提高效率。

第三，在解決復雜任務方面，DeepSeek-V3.2與前沿模型相比仍有差距，DeepSeek稱會進一步完善基礎模型以及后訓練處理方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.