<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相

      0
      分享至


      12月2日,DeepSeek 發布了 V3.2 技術報告。在這篇論文里,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴大。

      這是基于大量實測數據的冷靜判斷。

      1

      差距正在拉大,這是事實

      2024年,當 DeepSeek、Qwen、GLM 等開源模型接連發布時,社區充滿樂觀情緒。"8個月時間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進入2025年,情況發生了變化。

      DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個月出現了明顯的分化。雖然開源社區持續進步,但閉源專有模型的性能提升速度顯著更快。結果是,兩者的差距非但沒有縮小,反而在擴大,閉源系統在復雜任務上展現出越來越強的優勢。”

      這個觀察有數據支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準測試上的表現。在 MMLU-Pro(多學科知識測試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達到了 90.1。在 GPQA Diamond(研究生級別科學問題)測試中,三者的得分分別是 82.4、85.7 和 91.9。


      更明顯的差距體現在 HLE(Human Last Exam,極難的文本推理測試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達 37.7——這個差距已經不是"接近"能形容的了。

      值得注意的是,DeepSeek V3.2 已經是目前最強的開源模型,在大部分開源模型的對比中都處于領先位置。但即便如此,它與頂級閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和復雜任務處理的場景中。

      1

      差距為何在拉大?三個結構性問題

      論文通過系統分析,識別出限制開源模型在復雜任務上能力的三個關鍵缺陷。這些不是表面問題,而是深層次的結構性困境。

      第一個問題在于架構層面。

      開源模型普遍依賴傳統的 vanilla attention 機制,這種機制在處理長序列時效率極低。

      論文指出,這種架構上的依賴"嚴重限制了長序列的效率,對可擴展部署和有效的后訓練構成了實質性障礙"。當閉源模型已經在探索更高效的注意力機制時,開源模型還在用五年前的技術架構,這本身就是一個巨大的劣勢。

      第二個問題是資源投入的鴻溝,尤其體現在后訓練階段。

      后訓練是讓模型從"會說話"變成"會思考"的關鍵環節,需要通過強化學習讓模型學會推理、工具使用和遵循復雜指令。論文透露,DeepSeek V3.2 的后訓練計算預算超過了預訓練成本的 10%。要知道,預訓練本身就是天價投入,而大部分開源模型的后訓練預算可能連 1% 都不到。這種資源投入上的差距,直接導致了性能上的代際差異。

      第三個問題是 AI Agent 能力的滯后。

      在真實應用場景中,開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個關鍵的 Agent 測評基準:在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數字背后反映的是開源模型在復雜多輪交互、工具調用、長期規劃等場景下的能力不足。

      論文總結道:"開源模型在泛化能力和指令跟隨能力方面展現出明顯滯后,這阻礙了它們在實際部署中的有效性。"這是一個誠實且殘酷的判斷。

      1

      DeepSeek 的應對:技術路線的根本性改變

      認識到問題后,DeepSeek 沒有選擇簡單地堆砌參數或增加數據量,而是在三個核心維度上進行了根本性的技術創新。

      在架構層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機制。

      傳統注意力機制的計算復雜度是 O(L2),序列長度翻倍,計算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計算每個 token 的重要性評分,然后只選擇 top-k 個最重要的 token 參與注意力計算(論文中 k=2048),將復雜度從 O(L2) 降至 O(L×k)。

      這個改進不僅僅是理論上的優化。論文通過實測數據表明,在 128K 上下文長度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長文本推理基準)和 Fiction.liveBench(小說理解測試)中,V3.2 的表現甚至優于使用傳統注意力機制的 V3.1。這證明 DSA 不僅更快,在某些場景下質量還更好。


      在資源投入層面,DeepSeek 做出了超常規的決定。

      論文明確寫道:"近幾個月來,性能提升與擴展的 RL 訓練預算持續相關,該預算已超過預訓練成本的 10%。"這個數字在開源界極為罕見。具體來說,DeepSeek 為數學、編程、推理、Agent 等六大領域分別訓練了專家模型,每個都單獨進行大規模強化學習訓練。在持續預訓練階段,模型經歷了 943.7B tokens 的訓練(在 128K 上下文長度下),然后采用 GRPO(Group Relative Policy Optimization)算法進行混合訓練,整合推理、Agent 和人類對齊三類任務。

      在 Agent 能力強化方面,DeepSeek 開發了系統化的任務合成流程。

      他們合成了超過 1800 個多樣化環境和 85,000 條復雜提示,涵蓋各種真實場景。具體包括 24,667 個代碼 Agent 任務、50,275 個搜索 Agent 任務、4,417 個通用 Agent 任務和 5,908 個代碼解釋器任務。這些合成數據不是隨機生成的,而是通過冷啟動階段學習推理與工具使用的統一模式,然后在規模化階段系統地生成高質量訓練場景。

      效果是顯著的。在 Agent 相關的測試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達到了 80.3% 的成功率,雖然仍低于 Gemini 的 87.9%,但已經是開源模型中的最佳表現。論文總結說:“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距。”

      論文最后寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續擴展預訓練的潛力,DeepSeek V3.2-Speciale 則證明了在大規模上下文環境中強化學習的可擴展性。"言下之意很明顯:閉源巨頭有資源堆預訓練,但開源可以找到自己的路——通過更高效的架構和更科學的后訓練,用更少的資源實現接近的效果。

      這或許是開源 AI 唯一的生存之道:不是硬碰硬拼資源,而是拼技術路線的創新。至少在這一次,DeepSeek 證明了這條路是走得通的。


      論文鏈接:https://arxiv.org/html/2512.02556v1

      整理:周華香

      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陜西包工頭發現漂亮妻子出軌,在臥室裝監控,情夫身份讓他暴走

      陜西包工頭發現漂亮妻子出軌,在臥室裝監控,情夫身份讓他暴走

      紀實錄
      2024-04-16 20:15:05
      無緣女籃名單,張子宇遺憾,名單曝光,宮魯鳴選擇意外,原因曝光

      無緣女籃名單,張子宇遺憾,名單曝光,宮魯鳴選擇意外,原因曝光

      樂聊球
      2025-12-30 11:52:45
      鄰居砌起一堵三米高墻擋我采光,我沒鬧,在墻根種了一排爬山虎

      鄰居砌起一堵三米高墻擋我采光,我沒鬧,在墻根種了一排爬山虎

      故事那點事
      2025-12-21 14:00:09
      一頓飯11個菜,客廳大得能打球,哭窮的閆學晶害慘“啃老”的兒子

      一頓飯11個菜,客廳大得能打球,哭窮的閆學晶害慘“啃老”的兒子

      娛小北
      2025-12-28 23:49:54
      24GB + 1TB!新機官宣:12月31日,已開啟預售!

      24GB + 1TB!新機官宣:12月31日,已開啟預售!

      科技堡壘
      2025-12-31 12:11:41
      破案了!同是延誤發球,周琦卻不用吃T原因找到,怪少杰學藝不精

      破案了!同是延誤發球,周琦卻不用吃T原因找到,怪少杰學藝不精

      后仰大風車
      2025-12-31 09:05:13
      三所里戰役:志愿軍換上美式武器后的戰斗力有多強?

      三所里戰役:志愿軍換上美式武器后的戰斗力有多強?

      呂彏極限手工
      2025-12-29 19:46:00
      外媒:向朝鮮運輸潛艇核反應堆的俄羅斯貨船被擊沉!

      外媒:向朝鮮運輸潛艇核反應堆的俄羅斯貨船被擊沉!

      劍道萬古似長夜
      2025-12-29 14:29:57
      父親工傷賠錢了30萬,隔天表姑全家跪地借20萬:我兒子要做手術

      父親工傷賠錢了30萬,隔天表姑全家跪地借20萬:我兒子要做手術

      船長與船1
      2025-12-31 10:59:05
      現在很多企業裁員降薪,但有些人收入還是很高,月入十八萬

      現在很多企業裁員降薪,但有些人收入還是很高,月入十八萬

      微微熱評
      2025-12-31 00:25:36
      鐘南山做夢沒想到,自己89歲高齡的妻子,如今能再次為他“爭光”

      鐘南山做夢沒想到,自己89歲高齡的妻子,如今能再次為他“爭光”

      做一個合格的吃瓜群眾
      2025-12-30 17:57:37
      生日夜慘敗!詹姆斯17中6僅得17分!湖人被打爆,東契奇30+11

      生日夜慘敗!詹姆斯17中6僅得17分!湖人被打爆,東契奇30+11

      體壇小李
      2025-12-31 14:24:32
      為啥你養我小容易我養你老那么難?網友:把兒子都熬沒了

      為啥你養我小容易我養你老那么難?網友:把兒子都熬沒了

      深度報
      2025-12-28 22:57:05
      今冬最冷時間表出爐了,啥時候最冷?2026年春節冷不冷?早了解

      今冬最冷時間表出爐了,啥時候最冷?2026年春節冷不冷?早了解

      阿龍美食記
      2025-12-27 18:45:06
      不出中國所料:日本的幫手已到,難怪特朗普按兵不動,他留了一手

      不出中國所料:日本的幫手已到,難怪特朗普按兵不動,他留了一手

      關權教授聊經濟
      2025-12-24 11:28:38
      56歲竇唯在河北一家服裝店買衣服,他看起來胖了好多,禿頂嚴重。

      56歲竇唯在河北一家服裝店買衣服,他看起來胖了好多,禿頂嚴重。

      芭比衣櫥
      2025-12-31 12:40:41
      女子出軌被外甥意外發現,外甥:保密可以,但你要答應我一個條件

      女子出軌被外甥意外發現,外甥:保密可以,但你要答應我一個條件

      林林故事揭秘
      2024-12-12 10:55:59
      看誰敢插手,大陸圍島演習的同時,俄方出手,用行動支持中國統一

      看誰敢插手,大陸圍島演習的同時,俄方出手,用行動支持中國統一

      博覽歷史
      2025-12-30 18:35:49
      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      都市快報橙柿互動
      2025-12-30 08:21:38
      “退貨羽絨服口袋現機票”引爭議!買家遭網暴喊冤:衣服疑二次銷售,自己只穿過一次,已報警!銷售方稱視頻系供貨廠家發布

      “退貨羽絨服口袋現機票”引爭議!買家遭網暴喊冤:衣服疑二次銷售,自己只穿過一次,已報警!銷售方稱視頻系供貨廠家發布

      每日經濟新聞
      2025-12-30 16:18:06
      2025-12-31 14:36:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2758文章數 10424關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      敏感時刻 美國駐華大使在北京“硬刷存在感”

      頭條要聞

      敏感時刻 美國駐華大使在北京“硬刷存在感”

      體育要聞

      2025全球射手榜:姆巴佩66球 梅西第6C羅第9

      娛樂要聞

      告別2025年!大S、方大同離世青春退場

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      奇瑞QQ3量產版曝光! 軸距2米7配8155芯片

      態度原創

      本地
      旅游
      房產
      健康
      公開課

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      旅游要聞

      元旦又有新去處,海淀2026AI國潮文化節開幕

      房產要聞

      搶瘋了!三亞灣唯一現房地王,這個項目憑什么高踞銷售榜首?

      這些新療法,讓化療不再那么痛苦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色欲综合天天天综合网站亚洲图片| 这里只有精品在线播放| 日韩精品国产另类专区| 熟久久| 中文字幕在线日亚洲9| 久久国产成人午夜av影院| 国产国语性生话播放| 亚洲无码免费在线观看| 屏边| 激情综合一区二区三区| 麻豆一区二区99久久久久| 亚洲精品国产字幕久久麻豆| 中文字幕av久久波多野结| 国产高清一区二区三区视频| 亚洲国产精品va在线看黑人| 一本久久a久久精品综合| 欧美一区二区三区在线观看| 国产色视频一区二区三区| 人妻在卧室被老板疯狂进入| 久久国产乱子伦免费精品无码 | 久久www免费人成一看片| 久久精品国产久精国产果冻传媒| 五月花成人网| 中文字幕人妻少妇引诱隔壁| 国产精品美女久久久久久久| 午夜精品区| 乐东| 无码人妻丰满熟妇啪啪| 夜夜高潮夜夜爽高清完整版1| 超碰AV在线| jizz精品| 狠狠色噜噜狠狠狠狠色综合久av| 少妇又紧又色又爽又刺激视频| 波多野结衣AV不卡无码| 中文无码色综合久久久| 久久香蕉国产线看观看精品yw| 欧美三级不卡在线观线看高清| 人妻人人做人碰人人添| 久久精品国产99国产精品导航| 亚洲熟妇色自偷自拍另类| 成人精品无码成人亚洲|