<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      2025 年大模型盤點:DeepSeek 時刻、Llama 失寵、刷榜泛濫...

      0
      分享至


      測試集發布之后,它就無效了

      首先,感謝 minghao 老司機,閱篇無數,精準推薦

      本文基于老司機推薦的年終盤點《The State Of LLMs 2025: Progress, Problems, and Predictions》


      https://magazine.sebastianraschka.com/p/state-of-llms-2025

      這篇文章的原始作者叫 Raschka,長期在 Substack 輸出技術內容。他的書被翻譯成 9種 語言,被多所大學用作教材

      以下這些,是他對 2025 年大模型領域的觀察和判斷,在這里我做了一些重寫&刪改

      推理模型、RLVR 與 GRPO 之年

      2025 年 1 月,DeepSeek R1 發布,帶來兩個簡單但重要的發現:

      • ? 模型先說思路再給答案,準確率更高

      • ? 這種習慣,可以用強化學習養成

      短回答 vs. 包含中間推理步驟的長回答 DeepSeek 時刻

      R1 引發關注,原因有三

      其一
      R1 以開源權重發布,性能與當時最好的閉源模型相當

      其二
      R1 論文讓投資者和媒體重新審視 2024 年 12 月的 DeepSeek V3 論文

      結論被修正:訓練頂級模型的成本可能接近 $500萬,而非 $5000萬$5億


      DeepSeek V3 論文中的訓練成本估算

      R1 的補充材料顯示:在 V3 基礎上訓練 R1,只需額外 $29.4萬


      R1 訓練成本估算

      當然,$500萬 只算了最終跑模型的算力,不包括研究人員薪資和實驗成本

      其三
      論文同時提出了 RLVR + GRPO 這套新方法

      此前不管是 SFT 還是 RLHF,都綁定在人工標注上,成本高、規模有限

      RLVR 換了個思路:如果答案本身可以被驗證,就不需要人來判斷對錯

      數學和代碼是最典型的場景,但這個邏輯可以延伸


      強化學習應用時機概覽 可驗證獎勵的簡單示例

      今年大模型開發基本被 RLVR 和 GRPO 主導。幾乎每個主要玩家,都在 R1 之后發布了推理版本的模型

      大模型發展重心演變

      如果要簡潔總結每年大模型開發的重點:

      • ? 2022 RLHF + PPO

      • ? 2023 LoRA SFT

      • ? 2024 中期訓練

      • ? 2025 RLVR + GRPO

      歷年大模型開發的重點領域,這是累積的

      那么下一步是什么?

      Raschka 認為 2026 年會看到更多 RLVR 相關的工作。目前 RLVR 主要用在數學和代碼上,下一步是擴展到其他領域

      另一個方向是「解釋評分」:不光看最終答案對不對,還要評判中間推理過程。這在過去叫「過程獎勵模型」(PRM),但目前還不太成功

      Raschka 對 2026、2027 的預判:

      • ? 2026 RLVR 擴展 + 更多推理時擴展

      • ? 2027 持續學習

      推理時擴展的意思是:訓練完之后,在生成答案時花更多時間和算力

      這是一個權衡:延遲、成本、準確率之間的取舍。但在某些場景,準確率比延遲更重要,極端的推理擴展完全值得

      比如 DeepSeekMath-V2 在數學競賽基準上達到了金牌級表現


      兩種推理時擴展方法的結合:自一致性和自優化

      持續學習是指在新數據上訓練模型,不從頭來。挑戰是災難性遺忘:學新東西會忘舊東西。今年同行討論很多,但還沒有實質性突破

      2. GRPO:年度研究寵兒

      在大模型昂貴的時代,學術研究不太好做。但仍能做出重要發現

      近年典型例子:LoRA(2021)用于參數高效微調,DPO 用于無獎勵模型對齊


      基于代碼的 LoRA 教程 基于代碼的 DPO 教程

      今年的亮點是 GRPO。雖然出自 DeepSeek R1 論文,但對研究者來說仍是激動人心的一年:RLVR 和 GRPO 概念上有趣,實驗成本也還能接受

      今年大模型文獻中出現了很多 GRPO 的改進,后來被納入頂級大模型的訓練流程

      Olmo 3 采用的改進:

      零梯度信號過濾、主動采樣、Token 級別損失、無 KL 損失、更高的裁剪閾值、截斷重要性采樣、無標準差歸一化

      DeepSeek V3.2 采用的改進:

      領域特定 KL 強度的 KL 調優(數學為零)、重新加權的 KL、離策略序列掩碼、保持 top-p / top-k 的采樣掩碼、保持原始 GRPO 優勢歸一化

      Raschka 確認這些修改在實踐中影響巨大。采用后,壞的更新不再破壞訓練,不再需要定期重載檢查點


      從零開始 GRPO 訓練代碼的部分結果 3. 大模型架構:分叉口?

      頂級模型仍然用經典的 Decoder 風格 Transformer

      但今年,開源大模型基本趨同于:MoE(混合專家)層 + 至少一種效率優化的注意力機制(GQA、滑動窗口注意力或 MLA)

      更激進的效率優化也出現了,目標是讓注意力機制的復雜度隨序列長度線性增長。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets,以及 NVIDIA Nemotron 3 中的 Mamba-2 層


      大模型架構大比較

      Raschka 的預測:至少在頂級性能方面,未來幾年仍會繼續用 Transformer

      但效率和工程優化會越來越多,如 Gated DeltaNet 和 Mamba 層。在大模型的規模下,從財務角度看這是必然

      替代方案也有。比如文本擴散模型,目前屬于實驗性。但 Google 宣布將發布 Gemini Diffusion 模型,不追求頂級建模質量,但會非常快,適合低延遲場景

      兩周前開源的 LLaDA 2.0 發布,最大的 1000億 參數版本是迄今最大的文本擴散模型,與 Qwen3 30B 持平

      4. 推理擴展和工具調用之年

      通過擴展訓練數據和架構來改進大模型,是一個持續有效的公式

      但今年,這不再是唯一有效的方法

      GPT 4.5(2025 年 2 月)就是例子。傳言它比 GPT 4 大得多,但單純擴展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好,但增加的訓練預算被認為「性價比不高」

      相反,更好的訓練流程(更多關注中期和后訓練)以及推理擴展,驅動了今年的大部分進展

      另一個主要改進來自工具調用

      幻覺是大模型最大的問題之一。幻覺率在持續改善,Raschka 認為這很大程度上歸功于工具調用

      比如被問到 1998 年世界杯誰贏了,大模型可以用搜索引擎查,從可靠網站抓取信息,而不是靠記憶

      OpenAI 的 gpt-oss 是今年早些時候發布的專門為工具調用開發的開源模型之一


      gpt-oss 模型卡論文的表格

      遺憾的是,開源生態還沒完全跟上,很多工具仍默認以非工具調用模式跑這些大模型

      一個原因是這是新范式,工具需要適配。另一個原因是安全:給大模型不受限制的工具調用權限,可能出問題

      Raschka 認為,未來幾年本地跑大模型時啟用工具調用會越來越普遍

      5. 年度詞匯:刷榜

      如果要選一個描述今年大模型開發的詞,那就是「刷榜」(benchmaxxing)

      刷榜意味著強烈關注推高排行榜數字,有時到了 benchmark 表現本身成為目標的程度

      典型例子是 Llama 4,在很多 benchmark 上得分極高。但用戶和開發者上手后發現,這些分數并不反映實際能力

      如果測試集是公開的,它就不是真正的測試集

      現在的問題是,測試集數據不僅成為訓練語料的一部分,還經常在大模型開發過程中被直接優化


      2019 年 Do ImageNet Classifiers Generalize to ImageNet? 論文的注釋圖

      過去,即使公開測試集上的分數被夸大,至少模型排名還是保持的

      在大模型開發中,這已經到了 benchmark 數字不再是性能可靠指標 的地步

      但 Raschka 認為 benchmark 仍是必要門檻:如果一個大模型在某 benchmark 上得分低于 X,就知道它不行。但如果得分高于 X,這并不意味著它比另一個得分高于 X 的大模型好多少

      另一個問題是:圖像分類器只有一個任務。但大模型用于翻譯、總結、寫代碼、頭腦風暴、解數學題等等。評估起來復雜得多

      除了在實踐中嘗試和不斷生成新 benchmark,暫時沒有解決方案

      6. AI 用于編程、寫作和研究

      Raschka 把大模型視為給某些職業的人「超能力」的工具。用好的話,可以顯著提高生產力,消除日常工作中的摩擦

      編程

      Raschka 仍然自己寫大部分他關心的代碼

      比如設置一個大模型訓練腳本,他會自己實現并仔細檢查訓練邏輯。這是為了確保它在做正確的事,同時保持自己在這個任務上的專長

      但他現在用大模型來添加周圍更瑣碎的代碼,比如 argparse 樣板


      使用提示詞「給 training-script.py 所有超參數選項添加 argparse」

      他也越來越依賴大模型來發現問題、建議改進或檢驗想法

      大模型對核心專長以外的任務極其有價值。他最近寫了工具來提取和備份 Substack 文章為 Markdown,大模型還幫他清理了網站的 CSS

      訣竅是識別何時用、何時不用

      代碼庫

      大模型寫代碼越來越好了,但 Raschka 不認為代碼會變得短暫或過時

      大模型給人們超能力來生成某些編程項目。但純大模型生成的代碼庫,不能取代專家精心打造的代碼庫

      一個了解好的設計模式和權衡、研究過、見過、構建過很多平臺的專家全棧 Web 開發者,能夠構建比一個隨機人員提示大模型更好的平臺

      精彩的是:現在一個隨機人員也能構建一個平臺,即使不是最好的

      但用大模型只能走這么遠,平臺質量可能會停滯

      技術寫作和研究

      Raschka 不認為大模型會讓技術寫作過時

      寫一本好的技術書需要數千小時和對主題的深刻熟悉。核心工作仍然依賴人類的判斷和專業知識


      大模型幫 Raschka 在之前的文章中發現并修復錯誤

      從讀者角度,用大模型學習一個話題對快速問題和入門級解釋效果不錯。但當你想建立更深層理解時,這種方法很快變得混亂

      到那時,不如跟隨專家設計的結構化學習路徑

      也許經驗法則是:

      • ? 如果這篇文章完全由人類生成,它本可以進一步改進

      • ? 如果這篇文章可以僅通過提示大模型生成,那它可能不夠新穎和深入

      大模型與倦怠

      Raschka 認為有一個較少被討論的缺點:如果模型做所有事情而人類主要是監督,工作可能開始感覺空洞

      有些人喜歡專注于管理系統和編排工作流。但對于喜歡親自動手做事的人,這種工作模式可能加速倦怠

      與一個難題搏斗最終看到它成功,有一種特殊的滿足感。當大模型一次搞定答案時,沒有同樣的感覺

      也許一個類比是國際象棋

      國際象棋引擎幾十年前就超過了人類棋手,但人類玩的職業國際象棋仍然活躍且繁榮

      現代棋手用 AI 來探索不同想法、挑戰直覺、以前所未有的深度分析錯誤

      這是思考 AI 在其他智力工作中如何使用的有用模型

      用得好,AI 可以加速學習、擴展單個人能合理承擔的范圍。應該更多地把它當作伙伴而不是替代品

      但如果 AI 被用來完全外包思考和編程,它有破壞動機和長期技能發展的風險


      大模型降低了入門門檻,讓程序員更有生產力 7. 優勢:私有數據

      大模型的通用編程、知識問答和寫作能力在持續提升

      這很大程度上是因為擴展仍然帶來正向投資回報

      但這在某個時候會開始停滯,除非不斷發明新的訓練方法和架構

      大模型目前能解決很多通用任務和相對容易的問題。但要在某些行業深入扎根,需要更多領域專業化

      大模型提供商很想獲得高質量的領域專用數據。目前看來這將是一個挑戰

      大多數被接洽的公司都拒絕了數據交易,正是因為數據是專有的、是其業務差異化的核心

      把有價值的專有數據賣給 OpenAI 或 Anthropic,可能有點短視


      有用的行業和數據類型示例

      目前大模型開發在規模上成本高昂且有挑戰,這就是為什么只有少數大公司開發頂級大模型

      但 Raschka 認為大模型開發正變得越來越商品化

      大模型開發者頻繁在雇主之間輪換,最終會被更大的金融機構、生物技術公司等有預算的企業雇用,開發受益于其私有數據的內部大模型

      這些大模型甚至不需要完全從頭訓練;許多頂級大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在發布,可以被適配和進一步后訓練

      8. 2025 年的意外與 2026 年預測 2025 年值得注意的意外

      1. 1. 幾個推理模型已在主要數學競賽中達到金牌水平(OpenAI 的一個未命名模型、Gemini Deep Think、開源的 DeepSeekMath-V2)。Raschka 不驚訝這發生,但驚訝這在 2025 年就發生了,而不是 2026 年

      2. 2. Llama 4(或整個 Llama 系列)在開源社區幾乎完全失寵,Qwen 在流行度上超過了 Llama

      3. 3. Mistral AI 在其最新旗艦 Mistral 3 模型中用了 DeepSeek V3 架構(2025 年 12 月宣布)

      4. 4. 除了 Qwen3 和 DeepSeek R1/V3.2,開源頂級模型競賽中出現了許多其他競爭者:Kimi、GLM、MiniMax、Yi

      5. 5. 更便宜、高效的混合架構已成為領先實驗室的更大優先級(Qwen3-Next、Kimi Linear、Nemotron 3),而不是由獨立實驗室開發

      6. 6. OpenAI 發布了開源權重模型(gpt-oss)

      7. 7. MCP 已成為 Agent 風格大模型系統中工具和數據訪問的標準。Raschka 預期生態系統在 2025 年會保持更碎片化,至少到 2026 年

      2026 年預測
      1. 1. 很可能會看到一個工業規模的、面向消費者的擴散模型,用于廉價、可靠、低延遲的推理,Gemini Diffusion 可能會先行

      2. 2. 開源社區會緩慢但穩定地采用本地工具調用和越來越多 Agent 能力的大模型

      3. 3. RLVR 會更廣泛地擴展到數學和代碼以外的領域 (比如化學、生物等)

      4. 4. 傳統 RAG 會逐漸不再是文檔查詢的默認解決方案。開發者會更多依賴更好的長上下文處理,尤其是隨著更好的「小型」開源模型出現

      5. 5. 大量大模型 benchmark 和性能進展將來自改進的工具和推理時擴展,而非訓練或核心模型本身 。看起來大模型在變得更好,但這主要是因為周圍應用在改進

      如果 2025 年有一個元教訓,那就是大模型的進展不是關于單一突破

      改進是通過多條獨立路徑在多個方面進行的:架構調整、數據質量改進、推理訓練、推理擴展、工具調用

      同時,評估仍然困難,benchmark 不完美,對何時以及如何使用這些系統的良好判斷仍然至關重要


      新年快樂

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

      一對夫妻自駕從新疆喀什到重慶,因晚5秒錯過免費高速時間付1700余元,“當時又好笑又好氣,當長教訓了”

      大象新聞
      2026-02-25 23:41:07
      7場造7球!3500萬歐元買來邊路最強爆點,馬競冬窗撿漏非洲先生

      7場造7球!3500萬歐元買來邊路最強爆點,馬競冬窗撿漏非洲先生

      體壇老球迷
      2026-02-25 16:10:13
      孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

      孩子走丟到小賣鋪求助,老板好心給其父母打電話,卻被5人按倒

      另子維愛讀史
      2026-02-25 23:35:20
      血型決定壽命長短?60萬人研究發現:A型血或“天生”更易中風

      血型決定壽命長短?60萬人研究發現:A型血或“天生”更易中風

      奇妙的本草
      2026-02-26 12:00:24
      燒光10億,下載暴跌!騰訊元寶,輸慘了!

      燒光10億,下載暴跌!騰訊元寶,輸慘了!

      功夫財經
      2026-02-25 08:57:30
      平頂山打人后續: 鑒定已出,家屬拒和解,打人夫妻結局大快人心

      平頂山打人后續: 鑒定已出,家屬拒和解,打人夫妻結局大快人心

      觀察鑒娛
      2026-02-26 10:44:49
      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      當韓國人知道韓國很小中國很大后,是完全顛覆他們認知的!

      夜深愛雜談
      2026-02-25 21:23:43
      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      行程有變,默茨訪華縮短一天?德國發出警告,中方身份發生變化

      無情有思ss
      2026-02-25 14:59:41
      國企開始“軟裁員”:沒等來辭退書,卻等來了一把鈍刀子

      國企開始“軟裁員”:沒等來辭退書,卻等來了一把鈍刀子

      時尚的弄潮
      2026-02-24 19:53:20
      哈登傷病最新進展!名記:骨折發生在拇指尖端,無需手術

      哈登傷病最新進展!名記:骨折發生在拇指尖端,無需手術

      大眼瞄世界
      2026-02-26 12:23:44
      天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

      天文學家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結的

      三農老歷
      2026-02-25 19:18:27
      310億對臺軍售懸了?特朗普松口背后,全是中方的硬核反制!

      310億對臺軍售懸了?特朗普松口背后,全是中方的硬核反制!

      林子說事
      2026-02-26 13:14:51
      小米汽車工廠官宣:卡丁車體驗中心將于3月1日營業,首發價69元

      小米汽車工廠官宣:卡丁車體驗中心將于3月1日營業,首發價69元

      PChome電腦之家
      2026-02-26 14:37:47
      突發!2026年全國第一巨額搶劫案在江蘇發生了,197萬,疑犯已捕

      突發!2026年全國第一巨額搶劫案在江蘇發生了,197萬,疑犯已捕

      離離言幾許
      2026-02-26 10:14:26
      人還沒到,就涼了?曝遼寧新簽悍將賽季報銷,26歲前鋒傷情出爐

      人還沒到,就涼了?曝遼寧新簽悍將賽季報銷,26歲前鋒傷情出爐

      萌蘭聊個球
      2026-02-26 14:34:56
      日本游客:盡管中日關系不太好,但中國人很友好

      日本游客:盡管中日關系不太好,但中國人很友好

      日本物語
      2025-12-29 21:23:17
      跨境襲擊白俄羅斯,破壞俄軍通訊系統!澤連斯基揭穿盧卡申科本質

      跨境襲擊白俄羅斯,破壞俄軍通訊系統!澤連斯基揭穿盧卡申科本質

      鷹眼Defence
      2026-02-25 18:40:24
      黃曉明帶新女伴新加坡旅游,紳士給女方撐傘,身材不如楊穎葉珂

      黃曉明帶新女伴新加坡旅游,紳士給女方撐傘,身材不如楊穎葉珂

      觀察鑒娛
      2026-02-26 09:30:39
      節后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫生緊急提醒

      節后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫生緊急提醒

      環球網資訊
      2026-02-26 07:26:21
      徐夢桃婆婆郭麗圈粉,50歲凍齡顏值,十年追賽護子格局令人敬佩

      徐夢桃婆婆郭麗圈粉,50歲凍齡顏值,十年追賽護子格局令人敬佩

      生命中最美的奇跡
      2026-02-26 09:51:00
      2026-02-26 15:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      縣委書記抖音賬號成民情留言板 當地:她本人回復網友

      頭條要聞

      縣委書記抖音賬號成民情留言板 當地:她本人回復網友

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      人民幣升破6.85,創3年新高

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      家居
      手機
      數碼
      公開課
      軍事航空

      家居要聞

      歸隱于都市 慢享自由

      手機要聞

      傳音還是王者,榮耀成最大黑馬,小米排名第三

      數碼要聞

      安卓最強釘子戶:英偉達Shield TV推送9.2.4更新

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版