<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4即將發布?先讀懂梁文峰這份86頁的技術底牌

      0
      分享至

      最近DeepSeek V4的傳言越來越多了。

      據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


      去年R1也是春節前一周發布的,直接引發了全球市場一萬億美元的震動。在大型節假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

      但在V4發布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁

      我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。


      這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區先完全理解R1的技術細節;二是用行動回應之前"只開源權重不給訓練細節"的質疑。

      說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

      所以我今天再挑戰下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

      先說更新了什么

      v1版本發布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。

      v2版本發布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

      我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

      • A: GRPO和PPO的詳細對比

      • B: 訓練細節(這部分最長,約50頁)

      • C: 推理行為分析

      • D: 基準測試詳情 + 10頁安全報告

      • E: 綜合分析(與V3對比、test-time scaling等)

      • F: 推理能力遷移

      說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。

      之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節,這算什么開源"。現在DeepSeek把這塊補上了。

      294K美元的訓練賬單

      論文新增了Table 7,第一次公開了完整的訓練成本:


      階段

      GPU小時

      成本

      DeepSeek-R1-Zero

      101K

      $202K

      SFT數據創建

      5K

      $10K

      DeepSeek-R1

      41K

      $82K

      總計

      147K

      $294K

      這個成本是按H800租賃價格$2/GPU hour算的。

      29.4萬美元,訓練一個媲美OpenAI o1的推理模型。

      29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊。現在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。

      具體怎么訓的?論文給了精確配置:

      • R1-Zero: 64×8張H800 GPU,跑了198小時

      • R1: 同樣的GPU配置,80小時(約4天)

      64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。

      數據配方首次公開

      這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:


      數學:26k題

      • 從區域競賽到國際奧林匹克級別

      • 包括代數、微積分、概率、幾何

      • 排除了數學證明(因為難以自動驗證)

      代碼:17k + 8k

      • 17k算法競賽題(Codeforces、LeetCode風格)

      • 8k GitHub真實bug修復問題

      STEM:22k選擇題

      • 化學占46.5%(最多)

      • 生物30.7%

      • 物理15.5%

      • 其他7.3%

      邏輯:15k題

      • 真實世界:腦筋急轉彎、經典邏輯謎題

      • 合成數據:Code-IO問題、Zebra puzzle等

      通用:66k + 12k

      • 66k評估helpfulness(創意寫作、編輯、問答、角色扮演)

      • 12k評估harmlessness

      總共約150k條數據。

      為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

      更有意思的是Cold Start數據的創建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:

      1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

      2. 過濾:保留答案正確、格式可讀的

      3. 用sympy驗證數學表達式

      4. 用DeepSeek-V3重寫,讓推理過程更"人話"

      5. 人工二次驗證

      論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

      這種細節,以前根本不會公開。

      失敗也寫進論文

      v1版本有一小節叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


      Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

      這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。

      論文原文的解釋是:

      "如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

      PRM(Process Reward Model)的問題也講得更清楚了:

      1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定

      2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規模化

      3. 必然導致reward hacking:只要引入模型做判斷,就會被exploit

      所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

      為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區"這條路我們走過了,不通",比只展示成功更有價值。

      基礎設施首次披露

      Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:

      1. Rollout Module

      • 用vLLM做推理

      • 對MoE架構實現expert parallelism,減少內存訪問開銷

      • 部署熱點expert的冗余副本來負載均衡

      • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

      2. Inference Module

      • 加載reward model和reference model

      • 對rollout階段生成的樣本做forward pass

      3. Rule-based Reward Module

      • 統一接口:代碼執行器、答案匹配器、格式檢查器

      • 異步調度,和前兩個模塊overlap執行

      4. Training Module

      • 支持PPO、GRPO、DPO等算法

      • 數據打包策略:先按長度排序,再用Best-Fit裝箱

      • 集成了DualPipe算法做pipeline parallelism

      還有一個細節:每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。

      這些基礎設施細節以前只有DeepSeek內部知道。現在寫進論文,其他團隊可以照著搭。

      10頁安全報告

      Supplementary D.3是一份完整的安全評估報告,包括:

      1. 風控系統:公開了完整的risk review prompt(Listing 8)

      2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

      3. 分類測試:基于自研安全測試集的細分評估

      4. 多語言安全:不同語言下的安全表現

      5. Jailbreak魯棒性:對抗攻擊下的表現

      風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

      對想部署R1的企業來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。

      為什么選擇現在更新?

      論文更新的時間點是2026年1月4日。

      結合V4的發布傳言,時間線就很清晰了:

      • 2025年1月20日:R1發布,春節前一周

      • 2026年1月4日:R1論文v2發布,詳細補全技術細節

      • 2026年2月中旬(傳聞):V4發布,又是春節前后

      DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發布下一代

      這對社區的好處是顯而易見的——當V4發布時,研究者已經完全理解R1的技術細節,可以更清晰地看出V4到底改進了什么。

      當然,這也可能是回應之前"只開源權重不給訓練細節"的批評。不管出于什么原因,結果很實在——社區拿到了一份真正可復現的技術報告。

      最后

      回到"Open"這個詞。

      大多數公司的Open是什么?開源權重,開源推理代碼,發個技術博客。

      DeepSeek的Open是什么?

      • 訓練成本精確到GPU小時

      • 數據配方精確到每個類別的數量和來源

      • 失敗嘗試寫進論文,告訴你哪條路不通

      • 基礎設施架構圖,告訴你怎么搭RL系統

      • 安全評估報告,告訴你怎么做風控

      這才是讓社區能真正復現和改進的Open。

      之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"。現在看來,他們對"開源"這件事的理解也是一樣——不是做到行業平均水平就夠了,而是要做到讓別人能真正用起來。

      從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。

      至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

      但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。

      參考資料

      • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

      • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

      • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      烏克蘭首次使用英國馬洛伊T-150重型無人機,兩個月摧毀堅固橋梁

      烏克蘭首次使用英國馬洛伊T-150重型無人機,兩個月摧毀堅固橋梁

      六子吃涼粉
      2026-04-09 09:43:45
      發現一個殘酷真相:被美軍抓走的馬杜羅,已經被徹底遺忘?

      發現一個殘酷真相:被美軍抓走的馬杜羅,已經被徹底遺忘?

      興史興談
      2026-04-08 14:41:06
      全紅嬋后續:警方固定證據,4人已被帶走調查,同行有人被點名!

      全紅嬋后續:警方固定證據,4人已被帶走調查,同行有人被點名!

      眼光很亮
      2026-04-09 12:55:07
      藤蔓,不要再讀téng màn了!丟不起那個人!

      藤蔓,不要再讀téng màn了!丟不起那個人!

      未央看點
      2026-04-08 05:50:07
      重大勝利!美國高層召開新聞發布會,介紹針對伊朗行動的重大戰果

      重大勝利!美國高層召開新聞發布會,介紹針對伊朗行動的重大戰果

      小蘿卜絲
      2026-04-08 22:17:45
      今天,A股突然縮量下跌,做好準備了,不出意外,很可能這樣走

      今天,A股突然縮量下跌,做好準備了,不出意外,很可能這樣走

      丁丁鯉史紀
      2026-04-09 11:58:26
      廣東知名中學黨委原書記被查

      廣東知名中學黨委原書記被查

      南方都市報
      2026-04-09 11:22:35
      做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

      做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

      涵豆說娛
      2026-04-08 21:40:01
      弟弟命案二審,姐姐剃光了頭發

      弟弟命案二審,姐姐剃光了頭發

      中國新聞周刊
      2026-04-09 10:45:15
      馬斯克:特斯拉FSD V15安全性將遠超人類水平

      馬斯克:特斯拉FSD V15安全性將遠超人類水平

      IT之家
      2026-04-09 12:03:05
      79年撤軍真相:越南用了十年才想明白中國拆走的不止是8000噸設備

      79年撤軍真相:越南用了十年才想明白中國拆走的不止是8000噸設備

      掠影后有感
      2026-04-08 10:00:45
      看完伊朗停火聲明,忍不住潸然淚下,這是一個了不起的民族

      看完伊朗停火聲明,忍不住潸然淚下,這是一個了不起的民族

      清沐執筆
      2026-04-08 16:22:11
      又炸了!一覺醒來,都清醒了,霍爾木茲海峽繼續關閉。

      又炸了!一覺醒來,都清醒了,霍爾木茲海峽繼續關閉。

      販財局
      2026-04-09 09:40:41
      恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

      恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

      溫讀史
      2026-04-08 17:38:05
      王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

      王立群教授:用權力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

      深度知局
      2026-04-08 07:41:14
      二胎三胎催不動!國家換打法,馬光遠方案火了

      二胎三胎催不動!國家換打法,馬光遠方案火了

      陳博世財經
      2026-04-08 10:43:24
      哈佛大學:每月“釋放精子”21次防前列腺癌?好處可不止這些

      哈佛大學:每月“釋放精子”21次防前列腺癌?好處可不止這些

      仰臥撐FTUer
      2026-04-08 08:02:07
      哪個大聰明想出來的,用瓶蓋收納雞蛋!

      哪個大聰明想出來的,用瓶蓋收納雞蛋!

      新住家居
      2026-04-09 07:06:35
      全紅蟬遭網暴后續:警方發現最新線索!體育總局回應:絕不姑息

      全紅蟬遭網暴后續:警方發現最新線索!體育總局回應:絕不姑息

      影像溫度
      2026-04-09 12:45:47
      豐田社長警告484家供應商:中國電車面前,不改革就滅亡

      豐田社長警告484家供應商:中國電車面前,不改革就滅亡

      不掉線電波
      2026-04-09 10:29:44
      2026-04-09 15:23:02
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      181文章數 109關注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      頭條要聞

      陳麗華告別儀式舉辦 馬德華:遲重瑞心里很難過

      頭條要聞

      陳麗華告別儀式舉辦 馬德華:遲重瑞心里很難過

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      談判基礎已被破壞!霍爾木茲海峽關閉

      汽車要聞

      8155芯片+L2智駕 瑞虎5運動版上市 置換補貼價6.79萬元起

      態度原創

      游戲
      本地
      時尚
      藝術
      房產

      《Starfield》現已登陸PlayStation 5 +“Terran Armada”DLC及“Free Lanes”更新

      本地新聞

      建水Color Walk | 古城慢調,掉進春天的調色盤里

      ED網紅病,正在掏空年輕女性

      藝術要聞

      龐茂琨 2026油畫寫生新作

      房產要聞

      超級卷王登場!海口首個抬板四代宅,徹底刷新認知!

      無障礙瀏覽 進入關懷版