測試集發布之后,它就無效了
首先,感謝 minghao 老司機,閱篇無數,精準推薦
本文基于老司機推薦的年終盤點《The State Of LLMs 2025: Progress, Problems, and Predictions》
![]()
https://magazine.sebastianraschka.com/p/state-of-llms-2025
這篇文章的原始作者叫 Raschka,長期在 Substack 輸出技術內容。他的書被翻譯成 9種 語言,被多所大學用作教材
以下這些,是他對 2025 年大模型領域的觀察和判斷,在這里我做了一些重寫&刪改
推理模型、RLVR 與 GRPO 之年
2025 年 1 月,DeepSeek R1 發布,帶來兩個簡單但重要的發現:
? 模型先說思路再給答案,準確率更高
? 這種習慣,可以用強化學習養成
R1 引發關注,原因有三
其一
R1 以開源權重發布,性能與當時最好的閉源模型相當
其二
R1 論文讓投資者和媒體重新審視 2024 年 12 月的 DeepSeek V3 論文
結論被修正:訓練頂級模型的成本可能接近 $500萬,而非 $5000萬 或 $5億
![]()
DeepSeek V3 論文中的訓練成本估算
R1 的補充材料顯示:在 V3 基礎上訓練 R1,只需額外 $29.4萬
![]()
R1 訓練成本估算
當然,$500萬 只算了最終跑模型的算力,不包括研究人員薪資和實驗成本
其三
論文同時提出了 RLVR + GRPO 這套新方法
此前不管是 SFT 還是 RLHF,都綁定在人工標注上,成本高、規模有限
RLVR 換了個思路:如果答案本身可以被驗證,就不需要人來判斷對錯
數學和代碼是最典型的場景,但這個邏輯可以延伸
![]()
強化學習應用時機概覽
可驗證獎勵的簡單示例
今年大模型開發基本被 RLVR 和 GRPO 主導。幾乎每個主要玩家,都在 R1 之后發布了推理版本的模型
大模型發展重心演變
如果要簡潔總結每年大模型開發的重點:
? 2022 RLHF + PPO
? 2023 LoRA SFT
? 2024 中期訓練
? 2025 RLVR + GRPO
那么下一步是什么?
Raschka 認為 2026 年會看到更多 RLVR 相關的工作。目前 RLVR 主要用在數學和代碼上,下一步是擴展到其他領域
另一個方向是「解釋評分」:不光看最終答案對不對,還要評判中間推理過程。這在過去叫「過程獎勵模型」(PRM),但目前還不太成功
Raschka 對 2026、2027 的預判:
? 2026 RLVR 擴展 + 更多推理時擴展
? 2027 持續學習
推理時擴展的意思是:訓練完之后,在生成答案時花更多時間和算力
這是一個權衡:延遲、成本、準確率之間的取舍。但在某些場景,準確率比延遲更重要,極端的推理擴展完全值得
比如 DeepSeekMath-V2 在數學競賽基準上達到了金牌級表現
![]()
兩種推理時擴展方法的結合:自一致性和自優化
持續學習是指在新數據上訓練模型,不從頭來。挑戰是災難性遺忘:學新東西會忘舊東西。今年同行討論很多,但還沒有實質性突破
2. GRPO:年度研究寵兒
在大模型昂貴的時代,學術研究不太好做。但仍能做出重要發現
近年典型例子:LoRA(2021)用于參數高效微調,DPO 用于無獎勵模型對齊
![]()
基于代碼的 LoRA 教程
基于代碼的 DPO 教程
今年的亮點是 GRPO。雖然出自 DeepSeek R1 論文,但對研究者來說仍是激動人心的一年:RLVR 和 GRPO 概念上有趣,實驗成本也還能接受
今年大模型文獻中出現了很多 GRPO 的改進,后來被納入頂級大模型的訓練流程
Olmo 3 采用的改進:
零梯度信號過濾、主動采樣、Token 級別損失、無 KL 損失、更高的裁剪閾值、截斷重要性采樣、無標準差歸一化
DeepSeek V3.2 采用的改進:
領域特定 KL 強度的 KL 調優(數學為零)、重新加權的 KL、離策略序列掩碼、保持 top-p / top-k 的采樣掩碼、保持原始 GRPO 優勢歸一化
Raschka 確認這些修改在實踐中影響巨大。采用后,壞的更新不再破壞訓練,不再需要定期重載檢查點
![]()
從零開始 GRPO 訓練代碼的部分結果 3. 大模型架構:分叉口?
頂級模型仍然用經典的 Decoder 風格 Transformer
但今年,開源大模型基本趨同于:MoE(混合專家)層 + 至少一種效率優化的注意力機制(GQA、滑動窗口注意力或 MLA)
更激進的效率優化也出現了,目標是讓注意力機制的復雜度隨序列長度線性增長。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets,以及 NVIDIA Nemotron 3 中的 Mamba-2 層
![]()
大模型架構大比較
Raschka 的預測:至少在頂級性能方面,未來幾年仍會繼續用 Transformer
但效率和工程優化會越來越多,如 Gated DeltaNet 和 Mamba 層。在大模型的規模下,從財務角度看這是必然
替代方案也有。比如文本擴散模型,目前屬于實驗性。但 Google 宣布將發布 Gemini Diffusion 模型,不追求頂級建模質量,但會非常快,適合低延遲場景
兩周前開源的 LLaDA 2.0 發布,最大的 1000億 參數版本是迄今最大的文本擴散模型,與 Qwen3 30B 持平
4. 推理擴展和工具調用之年
通過擴展訓練數據和架構來改進大模型,是一個持續有效的公式
但今年,這不再是唯一有效的方法
GPT 4.5(2025 年 2 月)就是例子。傳言它比 GPT 4 大得多,但單純擴展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好,但增加的訓練預算被認為「性價比不高」
相反,更好的訓練流程(更多關注中期和后訓練)以及推理擴展,驅動了今年的大部分進展
另一個主要改進來自工具調用
幻覺是大模型最大的問題之一。幻覺率在持續改善,Raschka 認為這很大程度上歸功于工具調用
比如被問到 1998 年世界杯誰贏了,大模型可以用搜索引擎查,從可靠網站抓取信息,而不是靠記憶
OpenAI 的 gpt-oss 是今年早些時候發布的專門為工具調用開發的開源模型之一
![]()
gpt-oss 模型卡論文的表格
遺憾的是,開源生態還沒完全跟上,很多工具仍默認以非工具調用模式跑這些大模型
一個原因是這是新范式,工具需要適配。另一個原因是安全:給大模型不受限制的工具調用權限,可能出問題
Raschka 認為,未來幾年本地跑大模型時啟用工具調用會越來越普遍
5. 年度詞匯:刷榜
如果要選一個描述今年大模型開發的詞,那就是「刷榜」(benchmaxxing)
刷榜意味著強烈關注推高排行榜數字,有時到了 benchmark 表現本身成為目標的程度
典型例子是 Llama 4,在很多 benchmark 上得分極高。但用戶和開發者上手后發現,這些分數并不反映實際能力
如果測試集是公開的,它就不是真正的測試集
現在的問題是,測試集數據不僅成為訓練語料的一部分,還經常在大模型開發過程中被直接優化
![]()
2019 年 Do ImageNet Classifiers Generalize to ImageNet? 論文的注釋圖
過去,即使公開測試集上的分數被夸大,至少模型排名還是保持的
在大模型開發中,這已經到了 benchmark 數字不再是性能可靠指標 的地步
但 Raschka 認為 benchmark 仍是必要門檻:如果一個大模型在某 benchmark 上得分低于 X,就知道它不行。但如果得分高于 X,這并不意味著它比另一個得分高于 X 的大模型好多少
另一個問題是:圖像分類器只有一個任務。但大模型用于翻譯、總結、寫代碼、頭腦風暴、解數學題等等。評估起來復雜得多
除了在實踐中嘗試和不斷生成新 benchmark,暫時沒有解決方案
6. AI 用于編程、寫作和研究
Raschka 把大模型視為給某些職業的人「超能力」的工具。用好的話,可以顯著提高生產力,消除日常工作中的摩擦
編程
Raschka 仍然自己寫大部分他關心的代碼
比如設置一個大模型訓練腳本,他會自己實現并仔細檢查訓練邏輯。這是為了確保它在做正確的事,同時保持自己在這個任務上的專長
但他現在用大模型來添加周圍更瑣碎的代碼,比如 argparse 樣板
![]()
使用提示詞「給 training-script.py 所有超參數選項添加 argparse」
他也越來越依賴大模型來發現問題、建議改進或檢驗想法
大模型對核心專長以外的任務極其有價值。他最近寫了工具來提取和備份 Substack 文章為 Markdown,大模型還幫他清理了網站的 CSS
訣竅是識別何時用、何時不用
代碼庫
大模型寫代碼越來越好了,但 Raschka 不認為代碼會變得短暫或過時
大模型給人們超能力來生成某些編程項目。但純大模型生成的代碼庫,不能取代專家精心打造的代碼庫
一個了解好的設計模式和權衡、研究過、見過、構建過很多平臺的專家全棧 Web 開發者,能夠構建比一個隨機人員提示大模型更好的平臺
精彩的是:現在一個隨機人員也能構建一個平臺,即使不是最好的
但用大模型只能走這么遠,平臺質量可能會停滯
技術寫作和研究
Raschka 不認為大模型會讓技術寫作過時
寫一本好的技術書需要數千小時和對主題的深刻熟悉。核心工作仍然依賴人類的判斷和專業知識
![]()
大模型幫 Raschka 在之前的文章中發現并修復錯誤
從讀者角度,用大模型學習一個話題對快速問題和入門級解釋效果不錯。但當你想建立更深層理解時,這種方法很快變得混亂
到那時,不如跟隨專家設計的結構化學習路徑
也許經驗法則是:
? 如果這篇文章完全由人類生成,它本可以進一步改進
? 如果這篇文章可以僅通過提示大模型生成,那它可能不夠新穎和深入
Raschka 認為有一個較少被討論的缺點:如果模型做所有事情而人類主要是監督,工作可能開始感覺空洞
有些人喜歡專注于管理系統和編排工作流。但對于喜歡親自動手做事的人,這種工作模式可能加速倦怠
與一個難題搏斗最終看到它成功,有一種特殊的滿足感。當大模型一次搞定答案時,沒有同樣的感覺
也許一個類比是國際象棋
國際象棋引擎幾十年前就超過了人類棋手,但人類玩的職業國際象棋仍然活躍且繁榮
現代棋手用 AI 來探索不同想法、挑戰直覺、以前所未有的深度分析錯誤
這是思考 AI 在其他智力工作中如何使用的有用模型
用得好,AI 可以加速學習、擴展單個人能合理承擔的范圍。應該更多地把它當作伙伴而不是替代品
但如果 AI 被用來完全外包思考和編程,它有破壞動機和長期技能發展的風險
![]()
大模型降低了入門門檻,讓程序員更有生產力 7. 優勢:私有數據
大模型的通用編程、知識問答和寫作能力在持續提升
這很大程度上是因為擴展仍然帶來正向投資回報
但這在某個時候會開始停滯,除非不斷發明新的訓練方法和架構
大模型目前能解決很多通用任務和相對容易的問題。但要在某些行業深入扎根,需要更多領域專業化
大模型提供商很想獲得高質量的領域專用數據。目前看來這將是一個挑戰
大多數被接洽的公司都拒絕了數據交易,正是因為數據是專有的、是其業務差異化的核心
把有價值的專有數據賣給 OpenAI 或 Anthropic,可能有點短視
![]()
有用的行業和數據類型示例
目前大模型開發在規模上成本高昂且有挑戰,這就是為什么只有少數大公司開發頂級大模型
但 Raschka 認為大模型開發正變得越來越商品化
大模型開發者頻繁在雇主之間輪換,最終會被更大的金融機構、生物技術公司等有預算的企業雇用,開發受益于其私有數據的內部大模型
這些大模型甚至不需要完全從頭訓練;許多頂級大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在發布,可以被適配和進一步后訓練
8. 2025 年的意外與 2026 年預測 2025 年值得注意的意外
1. 幾個推理模型已在主要數學競賽中達到金牌水平(OpenAI 的一個未命名模型、Gemini Deep Think、開源的 DeepSeekMath-V2)。Raschka 不驚訝這發生,但驚訝這在 2025 年就發生了,而不是 2026 年
2. Llama 4(或整個 Llama 系列)在開源社區幾乎完全失寵,Qwen 在流行度上超過了 Llama
3. Mistral AI 在其最新旗艦 Mistral 3 模型中用了 DeepSeek V3 架構(2025 年 12 月宣布)
4. 除了 Qwen3 和 DeepSeek R1/V3.2,開源頂級模型競賽中出現了許多其他競爭者:Kimi、GLM、MiniMax、Yi
5. 更便宜、高效的混合架構已成為領先實驗室的更大優先級(Qwen3-Next、Kimi Linear、Nemotron 3),而不是由獨立實驗室開發
6. OpenAI 發布了開源權重模型(gpt-oss)
7. MCP 已成為 Agent 風格大模型系統中工具和數據訪問的標準。Raschka 預期生態系統在 2025 年會保持更碎片化,至少到 2026 年
1. 很可能會看到一個工業規模的、面向消費者的擴散模型,用于廉價、可靠、低延遲的推理,Gemini Diffusion 可能會先行
2. 開源社區會緩慢但穩定地采用本地工具調用和越來越多 Agent 能力的大模型
3. RLVR 會更廣泛地擴展到數學和代碼以外的領域 (比如化學、生物等)
4. 傳統 RAG 會逐漸不再是文檔查詢的默認解決方案。開發者會更多依賴更好的長上下文處理,尤其是隨著更好的「小型」開源模型出現
5. 大量大模型 benchmark 和性能進展將來自改進的工具和推理時擴展,而非訓練或核心模型本身 。看起來大模型在變得更好,但這主要是因為周圍應用在改進
如果 2025 年有一個元教訓,那就是大模型的進展不是關于單一突破
改進是通過多條獨立路徑在多個方面進行的:架構調整、數據質量改進、推理訓練、推理擴展、工具調用
同時,評估仍然困難,benchmark 不完美,對何時以及如何使用這些系統的良好判斷仍然至關重要
![]()
新年快樂
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.