<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4報告亮了!V4發布延遲的秘密,終于曝光了

      0
      分享至


      新智元報道

      編輯:Aeneas 好困

      【新智元導讀】DeepSeek-V4的技術報告,簡直誠實得令人震驚。V4發布延遲的秘密,被正式透露了!這顆大雷的背后,究竟是指誰?研究者們已經紛紛展開了猜測。并且,論文中用硬核工程暴力重構Agent的操作,也讓社區直呼:國產之光,實至名歸。

      昨天,是名副其實的AI圈「春晚」。

      DeepSeek-V4的技術報告一出,近60頁的篇幅,從架構到訓練到后訓練全部攤開。

      484天,對這個團隊來說不尋常。V3從V2到發布只用了不到8個月。V4為什么多花了將近一倍的時間?

      認真研讀完這篇報告,我們發現了背后可能的原因,以及這家「國產之光」令人震撼的工程底色實。

      可以說,DeepSeek-V4真正令人深思的,不是它堆了多少算力,而是它在Agent訓練、工程底座、以及處理「訓練震蕩」時的那種近乎殘酷的理性和透明。

      今天,我們直接拆開V4的引擎蓋,看看里面藏著哪些不為人知的硬核細節。

      33T Token + 萬億參數

      難度直接拉滿

      距離V3發布整整484天,V4才以「preview version」的姿態上線。

      論文里雖然沒有解釋這個時間跨度,但有一段內容或許能提供線索。


      V3用了14.8T token做預訓練,V4直接翻倍,V4-Flash訓了32T,V4-Pro訓了33T。參數量同樣大幅擴張,V4-Pro總參數1.6T,V4-Flash也有284B。

      數據翻倍、參數翻倍,訓練穩定性的難度也跟著上了一個量級。

      報告里非常誠實:DeepSeek明確點名了「訓練穩定性挑戰」。


      谷歌DeepMind研究者Susan Zhang表揚說:這種透明的做法值得稱贊。這個說法還得到了龍蝦之父的轉發

      在超大規模集群上,當參數量和訓練數據達到某個臨界點時,硬件的細微誤差會被無限放大。

      論文里,「stability」這個詞出現了十余次。

      放在一篇技術報告里,這個頻率本身就是信號。正常情況下,穩定性是默認前提,不值得反復提。反復提,說明它確實是個問題。


      具體來看,DeepSeek發現MoE層中的數值異常值(outlier)會通過路由機制不斷放大,形成惡性循環,最終觸發loss spike,訓練曲線突然飆升。

      團隊祭出的主要補救措施是兩招。

      第一招叫Anticipatory Routing。它本質上就是在路由階段使用稍早版本的參數,把骨干網絡和路由網絡的更新解耦,打破兩者之間的惡性循環。

      第二招是SwiGLU Clamping。它直接把SwiGLU的數值范圍鉗制在[-10, 10]以內,從源頭壓制異常值,雖然暴力但很有效。


      當前大模型訓練已進入硬件底層、編譯器棧、以及數學架構三位一體的無人區

      論文里有個細節很耐琢磨。

      Anticipatory Routing和SwiGLU Clamping,DeepSeek確認「顯著有效」,但緊跟一句「底層機理仍是open question」。

      連Q/KV歸一化這種已經被廣泛驗證的基礎操作,論文的措辭都只敢寫「may improve training stability」。

      一個「may」字,足以說明在萬億參數MoE的訓練里,沒有什么是百分百靠得住的。


      從15T到33T,數據量翻倍帶來的不是線性增長的困難,而是指數級放大的系統性風險。

      每一層網絡、每一個梯度更新、每一次通信同步,都在更大的規模下被放大成潛在的崩潰點。

      而DeepSeek選擇把這些全寫進論文里,這在業內幾乎沒有先例。

      硬件的鍋,還是軟件的鍋?

      所以,技術報告中明確提出的「訓練穩定性挑戰」,指的到底是誰家的硬件?

      雖然論文里沒有明確點名任何硬件平臺,但已經有嗅覺敏銳的人開始猜測了。

      有觀點直接指出:所謂「訓練穩定性挑戰」,很可能就是算力平臺的問題。而且不只是DeepSeek一家踩坑,各大廠商都遇到過。

      xAI在一次發布會上,Macrohard項目的負責人曾隱晦提到,英偉達最新的芯片給他們造成了「不小的麻煩」,不得不重新開發硬件適配程序。這或許也解釋了xAI進度突然放緩的原因之一。


      不過,這件事當然沒那么簡單。

      大型算力集群涉及的變量太多:芯片本身、互連架構、散熱系統、電力供應、驅動版本、編譯棧適配。訓練不穩定未必等于芯片級缺陷,也可能是系統集成層的問題。

      不過,目前還沒有任何官方文件給出答案。

      一切都還在猜測之中。


      Agent訓練體系

      工程能力讓人肅然起敬

      如果說V4的預訓練是在和硬件博弈,那么它的Post-training則展現了教科書級別的工程審美。

      可以說,Agent能力的工程化路徑,是V4論文里最值得細讀的部分。

      以往我們認為Agent能力是「教」出來的,但DeepSeek認為,Agent能力應該是「長」出來的。


      拒絕「硬遷移」,預訓練階段的「血脈注入」

      行業內大部分的做法是,先訓一個對話模型,再硬遷移成Agent。DeepSeek看來,這太低效了。

      在V4的mid-training階段,他們就注入了海量的Agentic Data。

      這意味著,模型在基礎學習階段,就已經見過長任務鏈、環境反饋和文件修改模式。它還沒學會寫詩,就已經見過了Linux命令行的報錯。

      這就是一種地基層面的設計。

      獨創的Specialist Training(專家特訓法)

      另一大亮點,就是DeepSeek獨創的專家特訓法。

      V4沒有直接練一個全能戰士,而是先練出了數學專家、代碼專家、Agent專家、指令跟隨專家。

      這種分階段的Specialist Training保證了每個領域的上限被拉到最高。

      最后,再通過OPD(Multi-teacher On-Policy Distillation,多教師在線策略蒸餾),將這些專家的靈魂聚合成一個統一的模型。

      這里工程上的難度在于,同時加載十多個萬億參數級的教師模型做在線推理不現實。

      V4的方案是不緩存教師的logits(顯存裝不下),只緩存教師最后一層的隱藏狀態,訓練時按需通過prediction head重建logits。

      然后,按教師索引排序訓練樣本,確保每個教師的prediction head只加載一次。KL散度計算則用TileLang編寫的專用kernel加速。

      告別傳統Reward Model

      另外,對于「難以驗證(hard-to-verify)」的任務,傳統的標量獎勵模型(Scalar Reward Model)已經力不從心。

      對此,DeepSeek選擇引入了Generative Reward Model (GRM)。

      它不再簡單地給一個0到1的分數,而是根據預設的Rubric(評估準則)生成詳細的評估報告。

      更關鍵的是,DeepSeek對GRM本身也做了RL優化,讓actor網絡同時充當生成式獎勵模型,評判能力和生成能力在同一個模型中聯合優化。

      把Agent做成一套分布式系統

      不僅如此,DeepSeek還為V4專門自研了一套底座。

      DSec:生產級沙箱集群

      為了訓練Agent的實操能力,DeepSeek搭建了一個名為DSec的平臺。

      3FS分布式文件系統,確保了數據的極速存?。粩凳f并發Sandbox實例,則意味著V4在訓練時,同時有幾十萬臺「虛擬電腦」在跑代碼、測Bug。

      MegaMoE:通信計算一體化

      在MoE層,DeepSeek把通信和計算融合進單個pipeline kernel,專家按wave調度,通信延遲完全隱藏在計算之下。

      結果就是,通用場景加速1.5到1.73倍,RL rollout等延遲敏感場景最高1.96倍。

      自研DSML:拒絕轉義失敗

      工具調用方面,DeepSeek干脆自己設計了一套類似XML的DSL(領域特定語言)。

      這套協議簡單高效,直接把工具調用的成功率從「看運氣」提升到了「工業級穩健」。


      Reasoning Effort分模式訓練

      還有一個精細的設計,就是V4支持不同的思考模式。

      Non-think模式是簡單的工具選擇,秒回。High/Max則針對長文檔、重構、復雜Bug,拉滿推理算力。

      這種「能省則省,該狠則狠」的策略,也是V4成本能做到Claude 1/4的關鍵。

      社區的很多研究者讀完這部分后,膜拜得五體投地:「DeepSeek的工程能力,依舊扎實得讓人沒話說」。


      Interleaved Thinking升級

      V3.2在每個新用戶消息到來時會丟棄之前的思考痕跡,V4在Tool-Calling場景下保留了完整的跨輪次推理歷史,讓Agent在長時程任務中維持連貫的推理鏈。

      普通對話場景仍每輪清空,保持上下文精簡。

      硬幣的另一面,是94%的幻覺率

      Artificial Analysis的實測給出了一個更立體的畫面。

      跑完Intelligence Index的全量基準測試,V4 Pro只花了1071美金,比Claude Opus 4.7的4811美金便宜了四倍多。

      Agent能力方面,V4 Pro Max在GDPval-AA實測(面向真實工作任務的Agent基準)中拿到了1554分,全面領先一眾開源模型。



      然而,天下沒有免費的午餐。

      Aritificial Analysis的報告里也非常坦誠地指出了這種做法的代價:V4 pro在AA-Ominiscience上的幻覺率高達94%。


      這揭示了一個結構性困境:要在有限算力預算下逼近頂級性能,就不得不在某些維度上做取舍。

      DeepSeek選擇把籌碼全壓在推理和Agent能力上,代價,就是知識都準確性。


      為什么我們依然對DeepSeek充滿敬意?

      在這次V4的報告中,有人看到了「訓練不穩」的尷尬,有人看到了「幻覺嚴重」的短板。

      但在我們看來,這份報告最動人的地方在于透明。

      他們敢于承認硬件適配陣痛,敢于披露那些看似「補丁」的解決方案,更敢于展示自己如何用最硬核的工程能力,在幾十萬個沙箱里一點點磨出Agent的靈魂。

      從V3的Multi-head Latent Attention到V4的OPD蒸餾和DSec沙箱,DeepSeek正在用一種近乎偏執的「工程主義」,探索著大模型通往AGI的另一條路徑——

      如果架構還沒完美,那就用工程把墻砌厚;如果算力不夠便宜,那就用算法把效率榨干。

      DeepSeek-V4也許不是最完美的終局,但它絕對是目前最真實的、最充滿活力的「中國AI現場」。

      參考資料:

      https://x.com/suchenzang/status/2047559677316325807

      https://x.com/ArtificialAnlys/status/2047735160544841953

      https://x.com/jakevin7/status/2047578619946664413

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      緬甸總統敏昂萊會見王毅

      緬甸總統敏昂萊會見王毅

      澎湃新聞
      2026-04-26 00:30:11
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      火箭不是不想炒,而是炒不掉?8年8000萬合同烏度卡火箭深度綁定

      火箭不是不想炒,而是炒不掉?8年8000萬合同烏度卡火箭深度綁定

      行舟問茶
      2026-04-26 11:07:13
      10國簽反華協議!沉默一天后,中方出手,不得未經允許接受美資

      10國簽反華協議!沉默一天后,中方出手,不得未經允許接受美資

      清歡百味
      2026-04-25 16:25:29
      女星陶昕然發長文回應被《乘風2026》淘汰,稱“想翻紅沒錯”:紅意味著選擇權,可我也知道這個世界不缺紅的方式,我會愛惜羽毛

      女星陶昕然發長文回應被《乘風2026》淘汰,稱“想翻紅沒錯”:紅意味著選擇權,可我也知道這個世界不缺紅的方式,我會愛惜羽毛

      魯中晨報
      2026-04-25 16:08:13
      開拓者慘遭逆轉!阿夫迪亞打掉牙,楊瀚森創紀錄!主教練要背大鍋

      開拓者慘遭逆轉!阿夫迪亞打掉牙,楊瀚森創紀錄!主教練要背大鍋

      不想長大的莫扎特
      2026-04-25 19:38:09
      世界羽聯會員大會投票通過“15分制”改革,將于2027年實行

      世界羽聯會員大會投票通過“15分制”改革,將于2027年實行

      懂球帝
      2026-04-25 22:23:26
      施大畏文革期間的畫作,他會后悔嗎?事實上卻是他最有價值的作品

      施大畏文革期間的畫作,他會后悔嗎?事實上卻是他最有價值的作品

      文學之私秘
      2026-04-25 00:14:26
      千島湖又面臨兩大困難:鰱鳙放養60多年,“保水魚”保住了什么?

      千島湖又面臨兩大困難:鰱鳙放養60多年,“保水魚”保住了什么?

      花小貓的美食日常
      2026-04-25 00:18:49
      2人合起來100歲!奧沙利文6-2領先希金斯:兩人纏斗36年 全場歡呼

      2人合起來100歲!奧沙利文6-2領先希金斯:兩人纏斗36年 全場歡呼

      風過鄉
      2026-04-26 07:37:42
      德爾加多面臨挖角!魯媒:不去青島,或準備追隨恩師,加盟豪門

      德爾加多面臨挖角!魯媒:不去青島,或準備追隨恩師,加盟豪門

      建哥說體育
      2026-04-26 09:35:53
      俄羅斯罕見讓步!中國30年心結一朝化解!美媒:歐盟幫了中國大忙

      俄羅斯罕見讓步!中國30年心結一朝化解!美媒:歐盟幫了中國大忙

      潮鹿逐夢
      2026-04-25 19:04:10
      CBA最新消息!沈梓捷或離開北控男籃,郭昊文合同到期

      CBA最新消息!沈梓捷或離開北控男籃,郭昊文合同到期

      梅亭談
      2026-04-26 09:59:42
      楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

      楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

      LULU生活家
      2026-04-26 08:37:17
      “單車刺客”?哈啰變速車1.5小時收費45元,游客直呼:騎不起

      “單車刺客”?哈啰變速車1.5小時收費45元,游客直呼:騎不起

      上觀新聞
      2026-04-25 15:09:07
      普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

      普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

      裝修秀
      2026-04-20 10:50:03
      晉級概率86%變7% 美媒預測KD近4年3次被橫掃 名嘴不滿他無凝聚力

      晉級概率86%變7% 美媒預測KD近4年3次被橫掃 名嘴不滿他無凝聚力

      顏小白的籃球夢
      2026-04-26 07:27:25
      73年鄧小平復出后訪問韶山,午飯時點名喝茅臺:為毛主席健康干杯

      73年鄧小平復出后訪問韶山,午飯時點名喝茅臺:為毛主席健康干杯

      文史季季紅
      2026-04-26 09:30:03
      金正恩自己都沒想到,下令出兵俄羅斯后,會給朝鮮帶來這么多驚喜

      金正恩自己都沒想到,下令出兵俄羅斯后,會給朝鮮帶來這么多驚喜

      混沌錄
      2026-04-11 20:56:12
      250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

      250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

      天天熱點見聞
      2026-04-25 06:27:01
      2026-04-26 11:35:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15066文章數 66806關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

      頭條要聞

      牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      本地
      時尚
      家居
      健康
      公開課

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

      家居要聞

      自然肌理 溫潤美學

      干細胞如何讓燒燙傷皮膚"再生"?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久久厕拍| 国产成年码av片在线观看| 国产真实乱对白精彩久久老熟妇女| 99在线国内在线视频22| 亚洲午夜香蕉久久精品| 上海av电影在线观看| 兴山县| 亚洲精品大秀视频| 亚洲欧美人成人让影院 | 男人天堂手机在线| 免费日本黄色| 中文字幕久区久久中文字幕| 国内精品久久久久久| 国产人妖视频一区在线观看| 亚洲踪合一二三| 麻豆人人妻人人妻人人片av | 成人影片在线观看网站18| 天天爽夜夜爽夜夜爽| 在线观看特色大片免费视频| 无遮挡边吃摸边吃奶边做| 狠狠亚洲婷婷综合色香五月| 亚洲粉嫩av一区二区黑人| AV无码一区二区三区| 色屁屁www影院免费观看入口| 无码人妻一区二区三区线曰卧| 最近2019中文字幕大全第二页| 伊人色色| 国产精品久久久久影院老司| 成人欧美亚洲人妻| 日本熟妇人妻xxxx| 在线精品自拍亚洲第一区| 欧美色图综合| 国产亚洲精品美女久久久久| www.亚洲精品长腿丝袜| 岚皋县| 国产免费无码av在线观看| 日韩亚洲国产一区情侣| 精品九九视频| 级毛片内射视频| 国产女人被狂躁到高潮小说| 日本精品视频|