網易首頁 > 網易號 > 正文申請入駐

2025 年大模型盤點：DeepSeek 時刻、Llama 失寵、刷榜泛濫...

2025-12-31 15:21:01　來源: 賽博禪心

北京舉報

分享至

測試集發布之后，它就無效了

首先，感謝 minghao 老司機，閱篇無數，精準推薦

本文基于老司機推薦的年終盤點《The State Of LLMs 2025: Progress, Problems, and Predictions》

https://magazine.sebastianraschka.com/p/state-of-llms-2025

這篇文章的原始作者叫 Raschka，長期在 Substack 輸出技術內容。他的書被翻譯成 9種 語言，被多所大學用作教材

以下這些，是他對 2025 年大模型領域的觀察和判斷，在這里我做了一些重寫&刪改

推理模型、RLVR 與 GRPO 之年

2025 年 1 月，DeepSeek R1 發布，帶來兩個簡單但重要的發現：

? 模型先說思路再給答案，準確率更高
? 這種習慣，可以用強化學習養成

短回答 vs. 包含中間推理步驟的長回答 DeepSeek 時刻

R1 引發關注，原因有三

其一
R1 以開源權重發布，性能與當時最好的閉源模型相當

其二
R1 論文讓投資者和媒體重新審視 2024 年 12 月的 DeepSeek V3 論文

結論被修正：訓練頂級模型的成本可能接近 $500萬，而非 $5000萬 或 $5億

DeepSeek V3 論文中的訓練成本估算

R1 的補充材料顯示：在 V3 基礎上訓練 R1，只需額外 $29.4萬

R1 訓練成本估算

當然，$500萬 只算了最終跑模型的算力，不包括研究人員薪資和實驗成本

其三
論文同時提出了 RLVR + GRPO 這套新方法

此前不管是 SFT 還是 RLHF，都綁定在人工標注上，成本高、規模有限

RLVR 換了個思路：如果答案本身可以被驗證，就不需要人來判斷對錯

數學和代碼是最典型的場景，但這個邏輯可以延伸

強化學習應用時機概覽可驗證獎勵的簡單示例

今年大模型開發基本被 RLVR 和 GRPO 主導。幾乎每個主要玩家，都在 R1 之后發布了推理版本的模型

大模型發展重心演變

如果要簡潔總結每年大模型開發的重點：

? 2022 RLHF + PPO
? 2023 LoRA SFT
? 2024 中期訓練
? 2025 RLVR + GRPO

歷年大模型開發的重點領域，這是累積的

那么下一步是什么？

Raschka 認為 2026 年會看到更多 RLVR 相關的工作。目前 RLVR 主要用在數學和代碼上，下一步是擴展到其他領域

另一個方向是「解釋評分」：不光看最終答案對不對，還要評判中間推理過程。這在過去叫「過程獎勵模型」（PRM），但目前還不太成功

Raschka 對 2026、2027 的預判：

? 2026 RLVR 擴展 + 更多推理時擴展
? 2027 持續學習

推理時擴展的意思是：訓練完之后，在生成答案時花更多時間和算力

這是一個權衡：延遲、成本、準確率之間的取舍。但在某些場景，準確率比延遲更重要，極端的推理擴展完全值得

比如 DeepSeekMath-V2 在數學競賽基準上達到了金牌級表現

兩種推理時擴展方法的結合：自一致性和自優化

持續學習是指在新數據上訓練模型，不從頭來。挑戰是災難性遺忘：學新東西會忘舊東西。今年同行討論很多，但還沒有實質性突破

2. GRPO：年度研究寵兒

在大模型昂貴的時代，學術研究不太好做。但仍能做出重要發現

近年典型例子：LoRA（2021）用于參數高效微調，DPO 用于無獎勵模型對齊

基于代碼的 LoRA 教程基于代碼的 DPO 教程

今年的亮點是 GRPO。雖然出自 DeepSeek R1 論文，但對研究者來說仍是激動人心的一年：RLVR 和 GRPO 概念上有趣，實驗成本也還能接受

今年大模型文獻中出現了很多 GRPO 的改進，后來被納入頂級大模型的訓練流程

Olmo 3 采用的改進：

零梯度信號過濾、主動采樣、Token 級別損失、無 KL 損失、更高的裁剪閾值、截斷重要性采樣、無標準差歸一化

DeepSeek V3.2 采用的改進：

領域特定 KL 強度的 KL 調優（數學為零）、重新加權的 KL、離策略序列掩碼、保持 top-p / top-k 的采樣掩碼、保持原始 GRPO 優勢歸一化

Raschka 確認這些修改在實踐中影響巨大。采用后，壞的更新不再破壞訓練，不再需要定期重載檢查點

從零開始 GRPO 訓練代碼的部分結果 3. 大模型架構：分叉口？

頂級模型仍然用經典的 Decoder 風格 Transformer

但今年，開源大模型基本趨同于：MoE（混合專家）層 + 至少一種效率優化的注意力機制（GQA、滑動窗口注意力或 MLA）

更激進的效率優化也出現了，目標是讓注意力機制的復雜度隨序列長度線性增長。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets，以及 NVIDIA Nemotron 3 中的 Mamba-2 層

大模型架構大比較

Raschka 的預測：至少在頂級性能方面，未來幾年仍會繼續用 Transformer

但效率和工程優化會越來越多，如 Gated DeltaNet 和 Mamba 層。在大模型的規模下，從財務角度看這是必然

替代方案也有。比如文本擴散模型，目前屬于實驗性。但 Google 宣布將發布 Gemini Diffusion 模型，不追求頂級建模質量，但會非常快，適合低延遲場景

兩周前開源的 LLaDA 2.0 發布，最大的 1000億 參數版本是迄今最大的文本擴散模型，與 Qwen3 30B 持平

4. 推理擴展和工具調用之年

通過擴展訓練數據和架構來改進大模型，是一個持續有效的公式

但今年，這不再是唯一有效的方法

GPT 4.5（2025 年 2 月）就是例子。傳言它比 GPT 4 大得多，但單純擴展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好，但增加的訓練預算被認為「性價比不高」

相反，更好的訓練流程（更多關注中期和后訓練）以及推理擴展，驅動了今年的大部分進展

另一個主要改進來自工具調用

幻覺是大模型最大的問題之一。幻覺率在持續改善，Raschka 認為這很大程度上歸功于工具調用

比如被問到 1998 年世界杯誰贏了，大模型可以用搜索引擎查，從可靠網站抓取信息，而不是靠記憶

OpenAI 的 gpt-oss 是今年早些時候發布的專門為工具調用開發的開源模型之一

gpt-oss 模型卡論文的表格

遺憾的是，開源生態還沒完全跟上，很多工具仍默認以非工具調用模式跑這些大模型

一個原因是這是新范式，工具需要適配。另一個原因是安全：給大模型不受限制的工具調用權限，可能出問題

Raschka 認為，未來幾年本地跑大模型時啟用工具調用會越來越普遍

5. 年度詞匯：刷榜

如果要選一個描述今年大模型開發的詞，那就是「刷榜」（benchmaxxing）

刷榜意味著強烈關注推高排行榜數字，有時到了 benchmark 表現本身成為目標的程度

典型例子是 Llama 4，在很多 benchmark 上得分極高。但用戶和開發者上手后發現，這些分數并不反映實際能力

如果測試集是公開的，它就不是真正的測試集

現在的問題是，測試集數據不僅成為訓練語料的一部分，還經常在大模型開發過程中被直接優化

2019 年 Do ImageNet Classifiers Generalize to ImageNet? 論文的注釋圖

過去，即使公開測試集上的分數被夸大，至少模型排名還是保持的

在大模型開發中，這已經到了 benchmark 數字不再是性能可靠指標 的地步

但 Raschka 認為 benchmark 仍是必要門檻：如果一個大模型在某 benchmark 上得分低于 X，就知道它不行。但如果得分高于 X，這并不意味著它比另一個得分高于 X 的大模型好多少

另一個問題是：圖像分類器只有一個任務。但大模型用于翻譯、總結、寫代碼、頭腦風暴、解數學題等等。評估起來復雜得多

除了在實踐中嘗試和不斷生成新 benchmark，暫時沒有解決方案

6. AI 用于編程、寫作和研究

Raschka 把大模型視為給某些職業的人「超能力」的工具。用好的話，可以顯著提高生產力，消除日常工作中的摩擦

編程

Raschka 仍然自己寫大部分他關心的代碼

比如設置一個大模型訓練腳本，他會自己實現并仔細檢查訓練邏輯。這是為了確保它在做正確的事，同時保持自己在這個任務上的專長

但他現在用大模型來添加周圍更瑣碎的代碼，比如 argparse 樣板

使用提示詞「給 training-script.py 所有超參數選項添加 argparse」

他也越來越依賴大模型來發現問題、建議改進或檢驗想法

大模型對核心專長以外的任務極其有價值。他最近寫了工具來提取和備份 Substack 文章為 Markdown，大模型還幫他清理了網站的 CSS

訣竅是識別何時用、何時不用

代碼庫

大模型寫代碼越來越好了，但 Raschka 不認為代碼會變得短暫或過時

大模型給人們超能力來生成某些編程項目。但純大模型生成的代碼庫，不能取代專家精心打造的代碼庫

一個了解好的設計模式和權衡、研究過、見過、構建過很多平臺的專家全棧 Web 開發者，能夠構建比一個隨機人員提示大模型更好的平臺

精彩的是：現在一個隨機人員也能構建一個平臺，即使不是最好的

但用大模型只能走這么遠，平臺質量可能會停滯

技術寫作和研究

Raschka 不認為大模型會讓技術寫作過時

寫一本好的技術書需要數千小時和對主題的深刻熟悉。核心工作仍然依賴人類的判斷和專業知識

大模型幫 Raschka 在之前的文章中發現并修復錯誤

從讀者角度，用大模型學習一個話題對快速問題和入門級解釋效果不錯。但當你想建立更深層理解時，這種方法很快變得混亂

到那時，不如跟隨專家設計的結構化學習路徑

也許經驗法則是：

? 如果這篇文章完全由人類生成，它本可以進一步改進
? 如果這篇文章可以僅通過提示大模型生成，那它可能不夠新穎和深入

大模型與倦怠

Raschka 認為有一個較少被討論的缺點：如果模型做所有事情而人類主要是監督，工作可能開始感覺空洞

有些人喜歡專注于管理系統和編排工作流。但對于喜歡親自動手做事的人，這種工作模式可能加速倦怠

與一個難題搏斗最終看到它成功，有一種特殊的滿足感。當大模型一次搞定答案時，沒有同樣的感覺

也許一個類比是國際象棋

國際象棋引擎幾十年前就超過了人類棋手，但人類玩的職業國際象棋仍然活躍且繁榮

現代棋手用 AI 來探索不同想法、挑戰直覺、以前所未有的深度分析錯誤

這是思考 AI 在其他智力工作中如何使用的有用模型

用得好，AI 可以加速學習、擴展單個人能合理承擔的范圍。應該更多地把它當作伙伴而不是替代品

但如果 AI 被用來完全外包思考和編程，它有破壞動機和長期技能發展的風險

大模型降低了入門門檻，讓程序員更有生產力 7. 優勢：私有數據

大模型的通用編程、知識問答和寫作能力在持續提升

這很大程度上是因為擴展仍然帶來正向投資回報

但這在某個時候會開始停滯，除非不斷發明新的訓練方法和架構

大模型目前能解決很多通用任務和相對容易的問題。但要在某些行業深入扎根，需要更多領域專業化

大模型提供商很想獲得高質量的領域專用數據。目前看來這將是一個挑戰

大多數被接洽的公司都拒絕了數據交易，正是因為數據是專有的、是其業務差異化的核心

把有價值的專有數據賣給 OpenAI 或 Anthropic，可能有點短視

有用的行業和數據類型示例

目前大模型開發在規模上成本高昂且有挑戰，這就是為什么只有少數大公司開發頂級大模型

但 Raschka 認為大模型開發正變得越來越商品化

大模型開發者頻繁在雇主之間輪換，最終會被更大的金融機構、生物技術公司等有預算的企業雇用，開發受益于其私有數據的內部大模型

這些大模型甚至不需要完全從頭訓練；許多頂級大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在發布，可以被適配和進一步后訓練

8. 2025 年的意外與 2026 年預測 2025 年值得注意的意外

1. 幾個推理模型已在主要數學競賽中達到金牌水平（OpenAI 的一個未命名模型、Gemini Deep Think、開源的 DeepSeekMath-V2）。Raschka 不驚訝這發生，但驚訝這在 2025 年就發生了，而不是 2026 年
2. Llama 4（或整個 Llama 系列）在開源社區幾乎完全失寵，Qwen 在流行度上超過了 Llama
3. Mistral AI 在其最新旗艦 Mistral 3 模型中用了 DeepSeek V3 架構（2025 年 12 月宣布）
4. 除了 Qwen3 和 DeepSeek R1/V3.2，開源頂級模型競賽中出現了許多其他競爭者：Kimi、GLM、MiniMax、Yi
5. 更便宜、高效的混合架構已成為領先實驗室的更大優先級（Qwen3-Next、Kimi Linear、Nemotron 3），而不是由獨立實驗室開發
6. OpenAI 發布了開源權重模型（gpt-oss）
7. MCP 已成為 Agent 風格大模型系統中工具和數據訪問的標準。Raschka 預期生態系統在 2025 年會保持更碎片化，至少到 2026 年

2026 年預測

1. 很可能會看到一個工業規模的、面向消費者的擴散模型，用于廉價、可靠、低延遲的推理，Gemini Diffusion 可能會先行
2. 開源社區會緩慢但穩定地采用本地工具調用和越來越多 Agent 能力的大模型
3. RLVR 會更廣泛地擴展到數學和代碼以外的領域 （比如化學、生物等）
4. 傳統 RAG 會逐漸不再是文檔查詢的默認解決方案。開發者會更多依賴更好的長上下文處理，尤其是隨著更好的「小型」開源模型出現
5. 大量大模型 benchmark 和性能進展將來自改進的工具和推理時擴展，而非訓練或核心模型本身 。看起來大模型在變得更好，但這主要是因為周圍應用在改進

如果 2025 年有一個元教訓，那就是大模型的進展不是關于單一突破

改進是通過多條獨立路徑在多個方面進行的：架構調整、數據質量改進、推理訓練、推理擴展、工具調用

同時，評估仍然困難，benchmark 不完美，對何時以及如何使用這些系統的良好判斷仍然至關重要

新年快樂

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.