<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      0
      分享至


      交付質量接近 Opus 4.6 非思考模式,與思考模式存在一定差距。

      作者丨梁丙鑒

      編輯丨馬曉寧

      越過數個發布窗口,4 月 24 日,DeepSeek 最新一代旗艦模型 DeepSeek-V4 終于正式發布。

      此次發布的 DeepSeek-V4 主打百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均表現亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上線了專家模式和快速模式,外界一度猜測是 V4 的不同版本。這一猜測得到了官方確認,按參數量大小,V4 此次同步推出了 pro 及 flash 兩個版本。


      相較于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評測中,已達到當前開源模型最佳水平,且在其它 Agent 相關評測中同樣表現優異。DeepSeek 內部評測反饋顯示,DeepSeek-V4-Pro 使用體驗優于 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

      此外在 SimpleQA Verified、HLE 等知識推理類基準測試中,DeepSeek V4 的表現均居于前列,特別是在ApexShortlist、Codeforces 兩項測試中分別以 90.2 和 3206 的成績登頂,表現出了頂級的推理性能和世界知識儲備。


      價格方面,pro 版本和 flash 版本采取了階梯定價。更小更快的 flash 版本繼承了前代模型便宜大碗路線的,同時 pro 版本的降價也被官方排上日程,預計會隨著今年下半年昇騰 950 超節點的批量上市實現大幅下調。


      值得注意的是,DeepSeek-V4 針對昇騰等國產芯片進行了深度適配,實現推理環節全面兼容,有傳聞稱利用率可達 85% 以上。而據路透社報道,此前 DeepSeek 也拒絕向包括英偉達在內的美國芯片制造商提供 V4 模型的早期訪問權限。

      在美國對華出臺高端 GPU 禁令、限制技術交流的背景下,DeepSeek 選擇以技術對等的姿態回應,和美方的脫鉤構成了一種有趣的鏡像關系。而回到國內,DeepSeek-V4 的背書證明了國產芯片足以支持第一梯隊大模型的推理部署,開始完成從“可用”到“好用”的跨越。同時被國產算力托住的 V4,也或可視為一個備戰“全華班模型生態”的起點。

      01


      架構創新,破解模型推理“不可能三角”

      DeepSeek-V4 的上下文窗口跨越式地來到了 100 萬 Token 大關,并宣稱這此后將是 DeepSeek 所有官方服務的標配。

      據官方技術文檔介紹,這種長文本能力的成熟源于 DeepSeek 開創的一種全新注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),此舉不僅實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。


      DeepSeek 對長文本能力的探索早有跡象。在 V4 遲遲沒有問世的時間里,DeepSeek 低調發布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》,和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》,被外界視為其在長文本方面的有力技術儲備。

      在長文本推理任務中,大模型長期存在著成本、速度、精度的不可能三角,但 Engram 架構提供了一種破局思路。該架構包含一個靜態知識檢索模塊,和一個動態推理協同模塊,前者通過哈希查找機制,將事實性知識存儲在廉價的 CPU 內存中,節省了對推理尤其寶貴的 GPU 顯存,后者負責判斷檢索到的記憶是否應該調用,并在必要時將其無縫融入推理過程。

      這種設計的本質是將模型的記憶和計算分離,通過對信息存儲進行更精細的分層管理,使大模型能用上廉價、大容量的 CPU 內容,并確保 GPU 顯存“好鋼用在刀刃上”,在其擅長的動態并行計算中發揮出更大價值,最終在降低計算成本的同時保證關鍵信息不會丟失。其結果是當 MoE 的“專家”們再進行推理時,會像是配備了一位專門的助理,確保他們得到的信息及時、相關且準確。

      DeepSeek-V4 的另一項底層創新,是其在訓練中使用 的 mHC(流形約束超連接)技術。

      V4 的參數總量達到了 1.6T,這種超大規模的神經網絡訓練,本身就是一個富于挑戰的問題。傳統的 Transformer 架構中,信息會在層層傳遞中呈指數級放大,模型參數量越大、層數越深,這種“信號爆炸”越嚴重,最終可能導致梯度爆炸,訓練崩潰。

      mHC 技術正是為解決“信號爆炸”現象提出,其核心思想是用嚴格的幾何約束來控制信息流動,而不是放任自由連接。

      這個防爆設計由三個環節組成。流形約束會把層間連接矩陣投影到雙隨機矩陣流形,強制規定每個節點的"輸入總和"和"輸出總和"必須守恒,具體的投影過程通過 Sinkhorn-Knopp 算法執行,兩者共同把信號增益嚴格限制在合理倍數。最后的多流殘差設計在擴展殘差流寬度的同時,通過非負約束避免信號相互抵消,既能增強模型表達能力,又兼顧了復雜度和穩定性。

      想象信息是一條奔騰的大河,多流殘差拓寬了河道,流形約束和 Sinkhorn-Knopp 算法就是一道道閘門,三者的配合保證了大規模訓練時的信息洪流不會引發梯度爆炸。

      而 mHC 技術更深刻的意義在于,它和 MoE 架構、Engram 架構等技術共同為后 Scaling Law 時代的大模型擴展提供了一種可能的范式,也就是在參數規模、數據量的傳統維度之外,轉向追求更高的連接、參數和記憶效率。區別于前者的暴力美學,DeepSeek-V4 呈現了精致工程的魔力。

      02


      模型之爭的工程轉向

      用流形約束防止信號爆炸的架構理論創新得以落地,離不開算子融合、選擇性重計算、通信重疊等工程手段。參數量和穩定性之間的沖突曾經是制約大模型繼續擴展的根本矛盾,而 mHC 技術對此的突破,建立在頂級的工程優化之上。

      Engram 架構也有著類似的啟示。內存訪問如何精準配合 GPU 的計算過程,多級緩存需要什么樣的精細管理……Engram 架構在 V4 上落地伴隨的種種工程挑戰,才是底層技術創新能否轉化為模型能力關鍵。

      智能的使用應有其邊界,記憶管理的精細程度直接影響模型性能,這一范式重新詮釋了對智能上限的追求。未來最聰明的模型,或許是最經濟地界定了智能使用邊界的模型。

      DeepSeek-V4 問世之后,我們和應用爆發之間的距離或許又近了一大步。

      原生多模態架構、百萬 Token 上下文窗口紛紛走向成熟,背后是代碼、法律和金融等場景的巨大想象空間。而 V4 所展現的頂級工程能力,和模型智能迭代逐漸放緩的背景合流,更便宜、可得的智能產品也會不斷涌現。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      魔術力克活塞總分2-1:班凱羅25+12+9 坎寧安27+9+9失誤

      魔術力克活塞總分2-1:班凱羅25+12+9 坎寧安27+9+9失誤

      醉臥浮生
      2026-04-26 03:53:07
      48小時內,美日都打算派高層訪華,特朗普皺著眉說:我不生中國氣

      48小時內,美日都打算派高層訪華,特朗普皺著眉說:我不生中國氣

      風笛悠揚聲
      2026-04-26 01:17:05
      國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

      國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

      小徐講八卦
      2026-04-25 10:20:20
      海牙做出審判,老杜回國無望,人民日報一錘定音:中國不救菲律賓

      海牙做出審判,老杜回國無望,人民日報一錘定音:中國不救菲律賓

      老謝談史
      2026-04-24 23:07:48
      若最后4輪全勝,拜仁將以凈勝球優勢創造德甲單賽季最佳戰績

      若最后4輪全勝,拜仁將以凈勝球優勢創造德甲單賽季最佳戰績

      懂球帝
      2026-04-25 14:27:02
      特朗普還沒啟程訪華,北京先送美國一份重禮,中美之間不只有對抗

      特朗普還沒啟程訪華,北京先送美國一份重禮,中美之間不只有對抗

      聞識
      2026-04-25 11:18:38
      體壇反腐迎來高潮!48歲國羽掌門人被查,難怪王勵勤接手2大項目

      體壇反腐迎來高潮!48歲國羽掌門人被查,難怪王勵勤接手2大項目

      小徐講八卦
      2026-04-25 14:56:13
      A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

      A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

      云鵬敘事
      2026-04-26 00:00:07
      真解氣!新娘接至家門口,拒下車臨時加價,新郎牽母親轉身回家!

      真解氣!新娘接至家門口,拒下車臨時加價,新郎牽母親轉身回家!

      川渝視覺
      2026-04-25 21:11:42
      砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

      砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

      娛樂圈的筆娛君
      2026-03-26 12:15:32
      親媽夜里偷偷來和兒子睡,兒子翻身抱住她的時候,媽媽心暖了

      親媽夜里偷偷來和兒子睡,兒子翻身抱住她的時候,媽媽心暖了

      大熊歡樂坊
      2026-04-23 19:43:53
      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      “只顧自己紋眉,不管女兒死活?”14歲女孩生日照,臉上全是槽點

      蝴蝶花雨話教育
      2026-04-25 00:45:03
      訪陸后寶島民調大變天!蕭旭岑直言:國民黨已走上"鄭麗文路線"

      訪陸后寶島民調大變天!蕭旭岑直言:國民黨已走上"鄭麗文路線"

      似水流年忘我
      2026-04-25 18:48:15
      上海一市民通過12345“隨申拍”舉報地鐵站臺吸煙者,收到答復:巡視員未發現,若發現會制止,不配合會報警,市民:理解但希望加強巡視

      上海一市民通過12345“隨申拍”舉報地鐵站臺吸煙者,收到答復:巡視員未發現,若發現會制止,不配合會報警,市民:理解但希望加強巡視

      縱相新聞
      2026-04-25 01:04:05
      賴清德剛被摁住,24小時不到,29國公開為臺撐腰,大陸送出一句話

      賴清德剛被摁住,24小時不到,29國公開為臺撐腰,大陸送出一句話

      夢史
      2026-04-26 04:41:26
      國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      國家電網第二批錄了10500人,清華才7個,一所你沒聽過的學校進了444人

      老滿說高考
      2026-04-24 20:13:49
      俄朝圖們江二橋主體正式合攏!比一橋更矮,摯友關系似乎更貼近了

      俄朝圖們江二橋主體正式合攏!比一橋更矮,摯友關系似乎更貼近了

      歷史擺渡
      2026-04-25 22:30:03
      蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

      蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

      福建睿平
      2026-04-25 11:54:44
      浙江足協:我們不怕技不如人,但怕看到迷茫的眼神和松散的隊形

      浙江足協:我們不怕技不如人,但怕看到迷茫的眼神和松散的隊形

      懂球帝
      2026-04-25 22:23:26
      2026-04-26 06:03:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7222文章數 20749關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      游戲
      家居
      時尚
      本地
      旅游

      金發美少女魔王和我是鄰居!新游首曝美女角色太吸睛

      家居要聞

      自然肌理 溫潤美學

      這些穿搭適合春天!外套彩色內搭白色、褲子穿基礎款,舒適大方

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      旅游要聞

      美猴王VS水蜜桃,連云港、無錫文旅“雙向奔赴”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 极品少妇被弄得高潮不断| 国产精品18禁久久久久久白浆| 国产亚洲av夜间福利香蕉149| 精品福利一区二区三区免费视频| 91综合网| 在线高清亚洲精品二区| 亚洲色大成网站www永久| 信丰县| 激情久久av一区av二区av三区| 日韩乱码人妻无码中文字幕视频| 一本色道久久综合亚洲精品不卡| 波多野结衣av无码久久一区| 欧美一区二区三区欧美日韩亚洲| 十八禁在线观看视频播放免费| 91亚洲色图| 国产色亚洲| 老司机性色福利精品视频| 国产对白老熟女正在播放| 无码专区人妻系列日韩精品| 佛教| 日韩人妻无码精品系列| 黑丝91大神| 黄色99| 亚洲精品日韩中文字幕| 日本乱人伦aⅴ精品潮喷| 久久精品国产亚洲av热一区| 久久精品青草社区| 国产精品无需播放器在线观看 | 精品丝袜人妻久久久久久| 永平县| 好吊妞视频这里有精品| 国内精品熟女亚洲精品熟女| 大香蕉欧美| 婷婷丁香五月亚洲中文字幕| 精品亚洲成a人在线看片| 人妻二区| 成人免费无码毛片黄网| 婷婷五月综合激情| 人妻人人操| 亚洲精品国偷自产在线99人热| 亚洲夂夂婷婷色拍WW47|