網易首頁 > 網易號 > 正文申請入駐

開源和閉源模型的差距在拉大：這是 DeepSeek 論文揭示的殘酷真相

2025-12-07 09:58:22　來源: 硅星人

北京舉報

分享至

12月2日，DeepSeek 發布了 V3.2 技術報告。在這篇論文里，他們做了一件罕見的事：明確指出開源大模型與閉源模型的性能差距不是在縮小，而是在擴大。

這是基于大量實測數據的冷靜判斷。

差距正在拉大，這是事實

2024年，當 DeepSeek、Qwen、GLM 等開源模型接連發布時，社區充滿樂觀情緒。"8個月時間差"的說法廣為流傳，許多人相信開源正在追上閉源。但進入2025年，情況發生了變化。

DeepSeek 在論文引言部分直言不諱地寫道：“過去幾個月出現了明顯的分化。雖然開源社區持續進步，但閉源專有模型的性能提升速度顯著更快。結果是，兩者的差距非但沒有縮小，反而在擴大，閉源系統在復雜任務上展現出越來越強的優勢。”

這個觀察有數據支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準測試上的表現。在 MMLU-Pro（多學科知識測試）中，DeepSeek V3.2 得分 85.0，GPT-5 是 87.5，而 Gemini 3.0 Pro 達到了 90.1。在 GPQA Diamond（研究生級別科學問題）測試中，三者的得分分別是 82.4、85.7 和 91.9。

更明顯的差距體現在 HLE（Human Last Exam，極難的文本推理測試）中。DeepSeek V3.2 的得分是 25.1，GPT-5 是 26.3，而 Gemini 3.0 Pro 高達 37.7——這個差距已經不是"接近"能形容的了。

值得注意的是，DeepSeek V3.2 已經是目前最強的開源模型，在大部分開源模型的對比中都處于領先位置。但即便如此，它與頂級閉源模型之間仍然存在明顯差距，尤其是在需要深度推理和復雜任務處理的場景中。

差距為何在拉大？三個結構性問題

論文通過系統分析，識別出限制開源模型在復雜任務上能力的三個關鍵缺陷。這些不是表面問題，而是深層次的結構性困境。

第一個問題在于架構層面。

開源模型普遍依賴傳統的 vanilla attention 機制，這種機制在處理長序列時效率極低。

論文指出，這種架構上的依賴"嚴重限制了長序列的效率，對可擴展部署和有效的后訓練構成了實質性障礙"。當閉源模型已經在探索更高效的注意力機制時，開源模型還在用五年前的技術架構，這本身就是一個巨大的劣勢。

第二個問題是資源投入的鴻溝，尤其體現在后訓練階段。

后訓練是讓模型從"會說話"變成"會思考"的關鍵環節，需要通過強化學習讓模型學會推理、工具使用和遵循復雜指令。論文透露，DeepSeek V3.2 的后訓練計算預算超過了預訓練成本的 10%。要知道，預訓練本身就是天價投入，而大部分開源模型的后訓練預算可能連 1% 都不到。這種資源投入上的差距，直接導致了性能上的代際差異。

第三個問題是 AI Agent 能力的滯后。

在真實應用場景中，開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個關鍵的 Agent 測評基準：在 MCP-Mark 中，DeepSeek V3.2 得分 45.9，Gemini 3.0 Pro 是 51.0；在 MCP-Universe 中，前者是 80.3，后者是 87.9；在 Tool-Decathlon 中，差距更加明顯。這些數字背后反映的是開源模型在復雜多輪交互、工具調用、長期規劃等場景下的能力不足。

論文總結道："開源模型在泛化能力和指令跟隨能力方面展現出明顯滯后，這阻礙了它們在實際部署中的有效性。"這是一個誠實且殘酷的判斷。

DeepSeek 的應對：技術路線的根本性改變

認識到問題后，DeepSeek 沒有選擇簡單地堆砌參數或增加數據量，而是在三個核心維度上進行了根本性的技術創新。

在架構層面，DeepSeek 引入了 DSA（DeepSeek Sparse Attention）機制。

傳統注意力機制的計算復雜度是 O(L2)，序列長度翻倍，計算量就要翻四倍。DSA 通過"閃電索引器"（Lightning Indexer）快速計算每個 token 的重要性評分，然后只選擇 top-k 個最重要的 token 參與注意力計算（論文中 k=2048），將復雜度從 O(L2) 降至 O(L×k)。

這個改進不僅僅是理論上的優化。論文通過實測數據表明，在 128K 上下文長度下，DSA 大幅降低了推理成本，而性能幾乎沒有損失。更令人意外的是，在 AA-LCR（長文本推理基準）和 Fiction.liveBench（小說理解測試）中，V3.2 的表現甚至優于使用傳統注意力機制的 V3.1。這證明 DSA 不僅更快，在某些場景下質量還更好。

在資源投入層面，DeepSeek 做出了超常規的決定。

論文明確寫道："近幾個月來，性能提升與擴展的 RL 訓練預算持續相關，該預算已超過預訓練成本的 10%。"這個數字在開源界極為罕見。具體來說，DeepSeek 為數學、編程、推理、Agent 等六大領域分別訓練了專家模型，每個都單獨進行大規模強化學習訓練。在持續預訓練階段，模型經歷了 943.7B tokens 的訓練（在 128K 上下文長度下），然后采用 GRPO（Group Relative Policy Optimization）算法進行混合訓練，整合推理、Agent 和人類對齊三類任務。

在 Agent 能力強化方面，DeepSeek 開發了系統化的任務合成流程。

他們合成了超過 1800 個多樣化環境和 85,000 條復雜提示，涵蓋各種真實場景。具體包括 24,667 個代碼 Agent 任務、50,275 個搜索 Agent 任務、4,417 個通用 Agent 任務和 5,908 個代碼解釋器任務。這些合成數據不是隨機生成的，而是通過冷啟動階段學習推理與工具使用的統一模式，然后在規模化階段系統地生成高質量訓練場景。

效果是顯著的。在 Agent 相關的測試中，DeepSeek V3.2 顯著縮小了與閉源模型的差距，在 MCP-Universe 上達到了 80.3% 的成功率，雖然仍低于 Gemini 的 87.9%，但已經是開源模型中的最佳表現。論文總結說：“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇，顯著縮小了開源與前沿閉源模型之間的性能差距。”

論文最后寫了一句耐人尋味的話："如果 Gemini 3.0 證明了持續擴展預訓練的潛力，DeepSeek V3.2-Speciale 則證明了在大規模上下文環境中強化學習的可擴展性。"言下之意很明顯：閉源巨頭有資源堆預訓練，但開源可以找到自己的路——通過更高效的架構和更科學的后訓練，用更少的資源實現接近的效果。

這或許是開源 AI 唯一的生存之道：不是硬碰硬拼資源，而是拼技術路線的創新。至少在這一次，DeepSeek 證明了這條路是走得通的。

論文鏈接：https://arxiv.org/html/2512.02556v1

整理：周華香

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.