1
大家好,這里是小銳的科技觀察專欄。今天我們要剖析的是2025年底大模型賽道上演的一場驚天逆轉——當所有人都以為閉源時代將徹底封王之際,Google Gemini 3 Pro強勢登場,掀起“開源已至天花板”的輿論風暴,仿佛開源陣營只能淪為技術演進中的配角。
2
就在這一片唱衰聲中,DeepSeek于12月1日突然亮劍:其V3.2版本推理能力直逼GPT-5水準,而Speciale分支更是在國際數學奧林匹克競賽中斬獲金牌,得分高達35分。令人震驚的是,其所依賴的算力資源遠遜于科技巨頭,這場逆襲究竟是偶然爆發,還是揭示了開源突破閉源壁壘的深層密碼?
![]()
3
從“極限論”到“并跑證明”
4
回顧2025年的大模型格局,堪稱閉源體系的巔峰之年。隨著Gemini 3 Pro橫空出世,在多項權威基準測試中全面壓制開源對手,原本關于“Scaling Law是否觸頂”的學術探討,迅速演變為行業對“開源生存空間”的集體憂慮。
5
當時近三成研究機構對開源前景表示悲觀,有觀點甚至斷言:“開源只能承接閉源不愿深耕的邊緣場景。”正是在這種壓抑氛圍下,DeepSeek的發布如同一道閃電劃破陰霾,重新點燃了整個生態的信心。
![]()
6
發布當日,DeepSeek一口氣推出兩款核心模型:V3.2在復雜推理任務中與GPT-5比肩,雖稍弱于Gemini 3 Pro,但已穩超Kimi K2 Thinking,創下國產開源模型的新高紀錄;
7
而Speciale則在數學證明、邏輯推導及多輪工具協同方面表現驚艷,IMO測試中以35分摘得金牌,這組硬核數據直接擊碎了“開源已達性能天花板”的迷思。
![]()
8
在算力投入明顯不占優勢的前提下,竟能與頂級閉源模型同臺競技,意義遠超單一性能突破。更重要的是,它向世界宣告:開源并非注定追隨,而是具備獨立進化的可能性。
9
過去普遍認為,開源唯有通過復制閉源路徑才能追趕,但DeepSeek用實證說明:無需盲目堆疊參數和計算資源,也能實現跨越式創新。而這背后所蘊藏的,正是打破閉源壟斷的關鍵鑰匙。
![]()
10
架構革新讓算力“花在刀刃上”
11
DeepSeek之所以能夠逆襲,根本原因不在規模擴張,而在算力使用效率的革命性提升,這一點在其自研的稀疏注意力機制DSA(Dynamic Sparse Attention)中體現得淋漓盡致。
12
行業熟知的事實是,傳統Transformer架構存在一個致命瓶頸:注意力運算復雜度隨序列長度呈平方增長,處理長文本時極易引發算力崩塌,尤其是面對128K級別的上下文,成本急劇飆升。
![]()
13
DeepSeek的DSA架構則引入了一種“智能篩選引擎”——即閃電索引器。該模塊采用FP8低精度運行多個輕量級索引頭,快速識別輸入中最關鍵的token關聯對,僅對這些核心片段進行高精度精算,其余部分則跳過冗余計算。
14
經此優化,注意力機制的計算負擔由O(n2)降至接近線性O(n log n),即便處理超長文檔,系統負載依然保持平穩,極大釋放了長上下文的應用潛力。
![]()
15
更為巧妙的是,DeepSeek并未貿然切換底層結構,而是設計了“密集預熱—稀疏過渡”雙階段訓練流程:初期保留完整注意力模式,專注于訓練索引器模擬原始行為;
16
待收斂后再逐步啟用稀疏連接,實現架構遷移的無縫銜接。這種漸進式策略既保障了模型穩定性,又顯著提升了推理效率,在Fiction.liveBench等長文本測評中,V3.2的信息召回率與上下文連貫性均有明顯躍升。
![]()
17
除了架構層面的突破,任務執行邏輯的重構也帶來了能效倍增。以往模型調用外部工具遵循“思考→調用→終止”的單向鏈條,每次交互都需重啟推理過程,造成大量token浪費。
18
DeepSeek提出的“Thinking in Tool-Use”新范式,則構建起“思考→調用→再思考→再調用”的閉環流程,將歷史推理軌跡持續保留在上下文中,工具返回新信息后可直接延續原有思維路徑。
![]()
19
實測數據顯示,企業利用V3.2批量處理工單時,重復推理產生的token消耗下降約30%,因狀態丟失導致的邏輯中斷頻率也大幅降低。
20
正是這種“架構+邏輯”的雙重升級,徹底重塑了大模型的競爭維度:過去拼的是“誰更大”,如今比的是“誰更高效”與“誰更會思考”。DeepSeek已然成為這場效率革命的領航者。
![]()
21
Agent成為能力躍遷的核心引擎
22
如果說DSA架構是支撐性能飛躍的“硬件底座”,那么將Agent從輔助功能升維為核心執行中樞,則是DeepSeek最具戰略遠見的布局,這一步不僅契合市場需求,更精準踩中了開源落地的關鍵節點。
23
許多人尚未察覺,2025年的產業風向已經發生根本轉變:企業不再為“能聊天”的對話機器人買單,轉而青睞那些真正“能辦事”的智能體。
![]()
24
自動生成報告、批量修復代碼缺陷、自動化處理客戶服務請求——這些具備實際執行力的功能,正成為AI商業變現的核心支柱。相關統計顯示,當年企業對Agent類產品的付費意愿同比增長達120%,遠遠甩開傳統對話模型的增長曲線。
25
DeepSeek早已洞察趨勢,在V3.2的研發中傾注大量資源打造Agent能力體系:構建了1800個多樣化智能體仿真環境,生成85000條高難度任務指令,且全部由自動化環境生成器與評分系統完成標注,再結合強化學習形成反饋閉環。
![]()
26
相較于依賴人工對話語料的傳統訓練方式,這套方法更能錘煉真實場景下的任務完成能力,最終使Agent成功率相較同類開源模型高出25%以上。
27
為了進一步提升穩定性,團隊自主研發GRPO(Generalized Reward Policy Optimization)強化學習算法,將推理一致性、語言準確性和任務達成度統一量化為綜合獎勵信號,有效防止訓練過程中出現能力退化或邏輯漂移。
![]()
28
另一大關鍵設計是上下文狀態持久化機制:只有當用戶發送全新請求時才會重置思維鏈路,而在工具調用過程中,所有中間推理結果均被完整保留。例如在跨部門財務報表整合任務中,模型無需反復重建分析框架,效率自然大幅提升。
29
從系統架構來看,DeepSeek已將Agent視為“模型操作系統”的核心組件:主模型作為內核,Agent承擔進程調度角色,工具則是可插拔的功能模塊。誰能率先確立Agent的技術標準,誰就有可能掌握下一代AI平臺的話語權。這一戰略布局的價值,遠超短期性能指標的提升。
![]()
30
后訓練讓開源“以弱勝強”
31
當然,DeepSeek并未回避自身短板:V3.2在常識覆蓋廣度上仍不及最新閉源模型,Speciale版本因推理深度過高導致token開銷過大,難以普及至日常應用場景。
32
但它所提供的應對方案,恰恰體現了開源陣營“以巧破力”的智慧路徑:既然無法在資源上抗衡,那就把訓練做得更深、更精、更聚焦。這套被稱為“后訓練三件套”的方法論,堪稱開源提效的教科書級實踐。
![]()
33
第一式為專家蒸餾法:針對V3.2定制開發數學、編程、邏輯推理等六大領域專屬“專家模型”,每個子模型都在特定任務上訓練至極致水平,隨后將其輸出的高質量推理軌跡反哺主模型。
34
這種做法既規避了多任務混合訓練帶來的能力稀釋問題,又通過共享隱層表征維持了跨領域的知識遷移能力,效果遠優于通用語料混訓。
![]()
35
第二式為多軌強化學習:將相當于預訓練10%的算力投入到后訓練階段,這在開源項目中極為罕見。整個過程無需人工干預,依靠任務環境自動反饋打分,形成“設定目標→執行→評估→優化”的自主進化循環。
36
這類基于結構化任務的訓練樣本稀缺且實用性強,所培養出的能力更具實戰價值,遠非閑聊式對話所能比擬。
![]()
37
第三式為工具與思維鏈深度融合:為解決模型“不懂何時調用工具”的難題,DeepSeek設計了冷啟動提示模板,在初始推理流中嵌入典型工具使用案例,引導模型逐步習得“邊思考邊調用”的習慣。
38
再配合“工具調用不重置狀態”的機制設計,避免每次交互都從零開始,實測中token冗余率下降超過40%。這些看似細微的工程調整,實則共同指向一個終極目標:最大化單位token的智能產出密度,將有限資源集中于最關鍵的認知環節。
![]()
39
歸根結底,Gemini 3 Pro代表的是“更大、更快、更強”的規模驅動路線,而DeepSeek開辟的是一條“更輕、更穩、更聰明”的效率優先路徑。
40
2025年末的這場技術反轉充分證明:開源模型不必在資源消耗上與閉源硬碰硬,只要在架構設計、戰略定位和訓練工藝上持續深耕,完全有能力撕裂封閉系統的護城河。對于整個AI生態而言,這種“以智取勝”的發展模式,或許才是真正可持續的未來方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.