<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4即將發布?先讀懂梁文峰這份86頁的技術底牌

      0
      分享至

      最近DeepSeek V4的傳言越來越多了。

      據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


      去年R1也是春節前一周發布的,直接引發了全球市場一萬億美元的震動。在大型節假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

      但在V4發布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁。

      我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。


      這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區先完全理解R1的技術細節;二是用行動回應之前"只開源權重不給訓練細節"的質疑。

      說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

      所以我今天再挑戰下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

      先說更新了什么

      v1版本發布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。

      v2版本發布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

      我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

      • A: GRPO和PPO的詳細對比

      • B: 訓練細節(這部分最長,約50頁)

      • C: 推理行為分析

      • D: 基準測試詳情 + 10頁安全報告

      • E: 綜合分析(與V3對比、test-time scaling等)

      • F: 推理能力遷移

      說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。

      之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節,這算什么開源"。現在DeepSeek把這塊補上了。

      294K美元的訓練賬單

      論文新增了Table 7,第一次公開了完整的訓練成本:


      階段

      GPU小時

      成本

      DeepSeek-R1-Zero

      101K

      $202K

      SFT數據創建

      5K

      $10K

      DeepSeek-R1

      41K

      $82K

      總計

      147K

      $294K

      這個成本是按H800租賃價格$2/GPU hour算的。

      29.4萬美元,訓練一個媲美OpenAI o1的推理模型。

      29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊?,F在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。

      具體怎么訓的?論文給了精確配置:

      • R1-Zero: 64×8張H800 GPU,跑了198小時

      • R1: 同樣的GPU配置,80小時(約4天)

      64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。

      數據配方首次公開

      這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:


      數學:26k題

      • 從區域競賽到國際奧林匹克級別

      • 包括代數、微積分、概率、幾何

      • 排除了數學證明(因為難以自動驗證)

      代碼:17k + 8k

      • 17k算法競賽題(Codeforces、LeetCode風格)

      • 8k GitHub真實bug修復問題

      STEM:22k選擇題

      • 化學占46.5%(最多)

      • 生物30.7%

      • 物理15.5%

      • 其他7.3%

      邏輯:15k題

      • 真實世界:腦筋急轉彎、經典邏輯謎題

      • 合成數據:Code-IO問題、Zebra puzzle等

      通用:66k + 12k

      • 66k評估helpfulness(創意寫作、編輯、問答、角色扮演)

      • 12k評估harmlessness

      總共約150k條數據。

      為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

      更有意思的是Cold Start數據的創建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:

      1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

      2. 過濾:保留答案正確、格式可讀的

      3. 用sympy驗證數學表達式

      4. 用DeepSeek-V3重寫,讓推理過程更"人話"

      5. 人工二次驗證

      論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

      這種細節,以前根本不會公開。

      失敗也寫進論文

      v1版本有一小節叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


      Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

      這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。

      論文原文的解釋是:

      "如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

      PRM(Process Reward Model)的問題也講得更清楚了:

      1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定

      2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規?;?/p>

      3. 必然導致reward hacking:只要引入模型做判斷,就會被exploit

      所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

      為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區"這條路我們走過了,不通",比只展示成功更有價值。

      基礎設施首次披露

      Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:

      1. Rollout Module

      • 用vLLM做推理

      • 對MoE架構實現expert parallelism,減少內存訪問開銷

      • 部署熱點expert的冗余副本來負載均衡

      • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

      2. Inference Module

      • 加載reward model和reference model

      • 對rollout階段生成的樣本做forward pass

      3. Rule-based Reward Module

      • 統一接口:代碼執行器、答案匹配器、格式檢查器

      • 異步調度,和前兩個模塊overlap執行

      4. Training Module

      • 支持PPO、GRPO、DPO等算法

      • 數據打包策略:先按長度排序,再用Best-Fit裝箱

      • 集成了DualPipe算法做pipeline parallelism

      還有一個細節:每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。

      這些基礎設施細節以前只有DeepSeek內部知道?,F在寫進論文,其他團隊可以照著搭。

      10頁安全報告

      Supplementary D.3是一份完整的安全評估報告,包括:

      1. 風控系統:公開了完整的risk review prompt(Listing 8)

      2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

      3. 分類測試:基于自研安全測試集的細分評估

      4. 多語言安全:不同語言下的安全表現

      5. Jailbreak魯棒性:對抗攻擊下的表現

      風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

      對想部署R1的企業來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。

      為什么選擇現在更新?

      論文更新的時間點是2026年1月4日。

      結合V4的發布傳言,時間線就很清晰了:

      • 2025年1月20日:R1發布,春節前一周

      • 2026年1月4日:R1論文v2發布,詳細補全技術細節

      • 2026年2月中旬(傳聞):V4發布,又是春節前后

      DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發布下一代。

      這對社區的好處是顯而易見的——當V4發布時,研究者已經完全理解R1的技術細節,可以更清晰地看出V4到底改進了什么。

      當然,這也可能是回應之前"只開源權重不給訓練細節"的批評。不管出于什么原因,結果很實在——社區拿到了一份真正可復現的技術報告。

      最后

      回到"Open"這個詞。

      大多數公司的Open是什么?開源權重,開源推理代碼,發個技術博客。

      DeepSeek的Open是什么?

      • 訓練成本精確到GPU小時

      • 數據配方精確到每個類別的數量和來源

      • 失敗嘗試寫進論文,告訴你哪條路不通

      • 基礎設施架構圖,告訴你怎么搭RL系統

      • 安全評估報告,告訴你怎么做風控

      這才是讓社區能真正復現和改進的Open。

      之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"?,F在看來,他們對"開源"這件事的理解也是一樣——不是做到行業平均水平就夠了,而是要做到讓別人能真正用起來。

      從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。

      至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

      但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。

      參考資料

      • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

      • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

      • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      恒大集團創始人許家印的靠山體系

      恒大集團創始人許家印的靠山體系

      地產微資訊
      2026-02-21 18:49:14
      貝加爾湖底的七名中國游客,本來是可以不用死的

      貝加爾湖底的七名中國游客,本來是可以不用死的

      未來展望
      2026-02-21 00:23:41
      特斯拉前兩天開始量產一輛不像車的車,為何全世界安靜了?

      特斯拉前兩天開始量產一輛不像車的車,為何全世界安靜了?

      沙雕小琳琳
      2026-02-20 15:14:36
      為啥我們五次申請CPTPP都失?。吭蛟谟诘谒臈l

      為啥我們五次申請CPTPP都失敗?原因在于第四條

      老籣說體育
      2026-02-21 12:00:33
      民企已經到了“斬殺線”:25%躺平,38%絕望,80%內卷

      民企已經到了“斬殺線”:25%躺平,38%絕望,80%內卷

      蘇格拉高
      2026-02-21 19:53:50
      湛江媽祖事件后續,福建老板集體放話:以后絕不跟姓許的打交道!

      湛江媽祖事件后續,福建老板集體放話:以后絕不跟姓許的打交道!

      社會日日鮮
      2026-02-21 06:53:41
      美國U-2偵察機全球共被擊落7架,其中5架敗于我軍之手,百歲院士張履謙披露詳情

      美國U-2偵察機全球共被擊落7架,其中5架敗于我軍之手,百歲院士張履謙披露詳情

      極目新聞
      2026-02-21 21:45:52
      突發訃告:張和平去世

      突發訃告:張和平去世

      溫百君
      2026-02-21 16:49:31
      王濛氣到落淚:花那么多錢,就把隊伍弄成這樣?成天鎖大門蒙眼睛

      王濛氣到落淚:花那么多錢,就把隊伍弄成這樣?成天鎖大門蒙眼睛

      風過鄉
      2026-02-21 08:03:36
      多國敦促在伊朗公民盡快撤離

      多國敦促在伊朗公民盡快撤離

      每日經濟新聞
      2026-02-21 10:10:52
      美專家:美軍可在全球任何地方打勝仗,但在臺海面對解放軍時除外

      美專家:美軍可在全球任何地方打勝仗,但在臺海面對解放軍時除外

      議紀史
      2026-02-20 23:25:03
      冬奧會最大遺憾:中國隊獲得第1名卻拿不到金牌!韓國狂拿1金2銀

      冬奧會最大遺憾:中國隊獲得第1名卻拿不到金牌!韓國狂拿1金2銀

      何老師呀
      2026-02-21 07:14:25
      伊朗已經下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰車上

      伊朗已經下定決心,搶在美國動手之前,把俄羅斯牢牢綁在戰車上

      東極妙嚴
      2026-02-20 15:17:46
      48歲歐陽夏丹父母雙亡獨自過年,一個人吃7道菜,大口吃飯不矯情

      48歲歐陽夏丹父母雙亡獨自過年,一個人吃7道菜,大口吃飯不矯情

      離離言幾許
      2026-02-20 23:38:28
      湛江媽祖事件到發生了什么?后續女孩回應來了,福建老板集體拉黑

      湛江媽祖事件到發生了什么?后續女孩回應來了,福建老板集體拉黑

      社會日日鮮
      2026-02-21 06:56:42
      媽祖事件真相大白,紅衣女孩已做多年乩童,這三年來變化越來越大

      媽祖事件真相大白,紅衣女孩已做多年乩童,這三年來變化越來越大

      觀察鑒娛
      2026-02-21 10:51:24
      早已殺青卻播出無望的7部劇,禁播理由個個離譜,尤其是最后一部

      早已殺青卻播出無望的7部劇,禁播理由個個離譜,尤其是最后一部

      小Q侃電影
      2026-02-21 22:05:04
      接事業運,瑞典女選手跳出44分收獲冬奧會銀牌

      接事業運,瑞典女選手跳出44分收獲冬奧會銀牌

      懂球帝
      2026-02-21 20:03:15
      沉迷宏大敘事,就是最大的愚蠢

      沉迷宏大敘事,就是最大的愚蠢

      浪子說
      2026-02-21 18:14:37
      湛江媽祖事件升級!小媽祖直播報平安,一句“我很好”看哭不少人

      湛江媽祖事件升級!小媽祖直播報平安,一句“我很好”看哭不少人

      火山詩話
      2026-02-21 06:44:08
      2026-02-22 01:03:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      142文章數 64關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      美軍戰機選在大年初二挑釁解放軍 韓國防長抗議了

      頭條要聞

      美軍戰機選在大年初二挑釁解放軍 韓國防長抗議了

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      藝術
      旅游
      游戲
      家居
      公開課

      藝術要聞

      他的肖像畫和人體畫,竟讓人贊嘆不已!

      旅游要聞

      海南三亞返程機票過萬元,三亞飛上海要9000元:機票太貴回不去了

      卡婊總算玩明白了,《安魂曲》雙主角盤活生化30周年

      家居要聞

      本真棲居 愛暖伴流年

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版