<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      FlagOS完成DeepSeekV4八款芯片Day0 適配,實現三重技術突破

      0
      分享至

      DeepSeek今日發布了DeepSeek-V4-Pro 1.6T 旗艦模型(1.86萬億參數)及DeepSeek-V4-Flash 284B 高效模型(2840億)。由智源研究院牽頭研發的眾智FlagOS第一時間對兩個“巨無霸”模型進行全量適配,已經完成 DeepSeek-V4-Flash在8款以上 AI 芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數、英偉達(FP8)等芯片。FlagOS 同時正在推進 DeepSeek-V4-Pro 模型在多個芯片的遷移適配,后續即將開源。

      首先完成在八款芯片適配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列兩大模型之一,采用混合專家(MoE)架構,總參數量 284B,激活參數僅 13B,支持 100 萬 token上下文長度。該模型在架構上引入了混合注意力機制(結合壓縮稀疏注意力CSA與高度壓縮注意力HCA,大幅提升長上下文效率)、流形約束超連接(mHC,增強跨層 信號傳播穩定性)以及Muon優化器(加速收斂、提升訓練穩定性)。預訓練數據超過32Ttoken,后訓練采用兩階段范式——先通過SFT和GRPO強化學習獨立培養領域專家,再通過在線策略蒸餾將多領域能力統一整合到單一模型中。在最大推理力度模式(Flash-Max)下,給予更大思考預算使其推理能力可接近Pro版本水平;受限于參數規模,在純知識類任務和最復雜的Agent工作流上略遜于 Pro。 整體性能參考如下官方評測結果:



      圍繞DeepSeek-V4-Flash多芯適配,此次FlagOS系統軟件技術棧突破了三大關鍵技術:FlagGems全算子替代(實現多芯片統一適配)為o-group采用獨立張量并行策略解鎖更多低顯存場景、以及“FP4+FP8混合精度”的原生權重到 FP8/BF16 的精度路徑轉換。當下國內出貨的AI芯片,都沒有FP4的支持。英偉達也只有在Blackwell及之后的高端芯片才支持FP4。這三項關鍵技術,使得DeepSeekV4能夠在當前各種廠商的主流AI芯片上穩定運行,而非僅限于支持 FP4 和大顯存的少數高端AI加速卡。

      三大技術突破:為什么對支持多種AI芯片十分重要

      突破一:FlagGems 提供支持8種以上芯片的全算子替代——真正意義上的跨芯方案

      本次DeepSeek-V4-Flash的適配,FlagGems 實現了模型推理鏈路中全部算子的替代。這意味著什么?

      徹底脫離 CUDA 算子依賴:DeepSeek-V4-Flash的 MoE 專家調度、Attention 計算、RMSNorm、TopK 路由等全部核心計算模塊,均由 FlagGems 基于 Triton/Triton-TLE語言重新實現,不調用任何 cuDNN/cuBLAS 等NVIDIA私有庫。

      無需芯片廠商逐一適配:傳統模式下,每款新模型上線,芯片廠商需要投入工程團隊做算子適配。現在通過FlagGems+FlagTree編譯器的組合,新模型的算子可以直接編譯到多款芯片后端,芯片廠商不需要做任何額外工作。

      新算子即時可用:DeepSeek-V4-Flash引入的新計算模式(如 o-group 相關的分組路由機制),FlagGems 已經實現了對應的新算子,并通過 FlagTree 編譯器統一編譯到所有支持的芯片后端。

      FlagGems 作為全球最大的 Triton 單一算子庫,已擁有超過400 個大模型常用算子,并已正式進入 PyTorch 基金會生態合作項目。在 40 個主流模型上,推理任務算子覆蓋度達到 90%~100%,完整支持 DeepSeek-V4-Flash的全部計算需求。

      突破二:為o-group采用獨立并行策略——解除張量并行最多單機8卡限制

      DeepSeek-V4-Flash為了進一步降低計算開銷采用了分組輸出投影技術(Grouped Output Projection),配置為o-group=8,這導致在傳統的張量并行時候,最多切8份。而當前一些主流國產芯片的單卡顯存為 32GB 或 64GB,尤其在BF16格式情況下,需要張量并行大于8份才能放的下。為了解除這個限制,FlagOS專門針對o-groups進行了單獨張量并行策略設計和實現,確保o-groups切分不超過8份的前提下,能夠讓模型其他部分還采用經典的張量并行策略,并且實現超過8份的切分。通過不同的張量并行策略組合,能夠實現多于8臺設備的張量并行運行。

      FlagOS 團隊對o-group張量并行改動有:

      獨立的并行策略:獨立于已有的張量并行通信組之外,為o-group單獨構建所需要的張量并行通信組,確保其他模型結構張量并行切分超過8的情況下,o-group的張量并行在8以內。

      參數轉換調整:對o-group相關的參數,也進行了對應單獨的張量并行切分處理,以確保在新的獨立張量并行策略下,也能夠被正確加載。

      覆蓋面擴展:這一優化能夠將 DeepSeek-V4-Flash在單獨采用張量并行策略下,將可運行芯片范圍從"僅限單機80GB以上顯存的個別高端卡"擴展到"多機64GB/32GB的更多主流國產芯片",包括海光、沐曦、天數智芯等廠商的主力產品線。

      突破三:從“FP4+FP8混合精度” 到 BF16的精度轉換——打通主流芯片的計算路徑

      DeepSeek-V4-Flash模型發布時首次采用 FP4+FP8混合精度,該精度只有在Blackwell及之后的英偉達最新硬件上才有支持,但當前所有國內非英偉達 AI 芯片都未能支持,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

      FlagOS 完成了從 FP4 到 BF16 的完整精度轉換:

      權重反量化:將 FP4 量化權重轉換為 BF16 格式。這不是簡單的類型轉換,而是需要根據 DeepSeek 的量化方案進行逆量化計算,確保數值精度。

      計算路徑重建:FP4 和 BF16 在底層計算上有本質差異——FP4 的動態范圍更窄,累加精度、溢出處理策略均不同。FlagOS 對推理鏈路中的 GEMM、Attention、MoE 路由等關鍵計算節點逐一適配了 BF16 路徑。

      精度對齊驗證:經過標準評測集驗證,BF16 版本與 FP4 原生版本在核心能力指標上保持對齊,確保精度轉換不引入業務層面的效果損失。

      本次,FlagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是"只有最新 NVIDIA 卡才能跑"的模型,而是真正可以部署在 FP8 及 BF16 生態的主流國產芯片上。

      FlagGems開源高性能新算子 全面支持 DeepSeek-V4-Flash

      本次新發布的DeepSeek-V4-Flash共有大約67個算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5個新算子,實現了對DeepSeek-V4-Flash的全面支持,也為跨芯適配打下重要基礎。

      FlagGems 支持 DeepSeek-V4-Flash 新算子的性能對比

      為了支持更多AI芯片的使用,FlagOS對DeepSeek-V4-Flash中使用的新算子使用Triton語言進行重新實現,基于FlagTree統一編譯器,性能全部超過原生性能。



      C++Wrapper技術是FlagOS技術社區專門為提升基于Triton語言的算子內核調用效率而打造的技術。目前已經支持了該技術的芯片包括華為昇騰、寒武紀、摩爾線程、平頭哥真武、及英偉達等。使用了C++ Wrapper技術,在普通的Transformers框架下,可以顯著提升使用了Triton算子的模型的端到端效率,實現跨芯普適、和高效推理的雙重目標。通過端到端效果評測(NV H20,DeepSeek-V4-Flash FP8),C++ Wrapper + Triton 比 TileLang 快11%,比 Python Wrapper 版快 39%。



      開發者極致體驗:"發布即多芯" + "極簡部署"

      1. 核心能力與原生版本對齊

      經 GPQA_Diamond、AIME等權威評測集驗證,FlagOS 適配后的 DeepSeek-V4-Flash,在語言理解、復雜推理、代碼生成、數學計算等核心能力上,與 CUDA 原生版本對齊,可放心應用于金融、教育、政企服務、代碼開發等場景,無需擔心適配導致業務效果折損。

      評測數據:



      注:本測試結果僅用于對遷移前(Nvidia-Origin)和遷移后(-FlagOS)版本的互相對齊驗證,并不代表 DeepSeek 模型的官方性能,DeepSeek 模型的官方性能以 DeepSeek 官方公布數據為準。

      2. 極簡部署:開箱即用,底層優化無感知

      FlagOS將核心算子庫、編譯器等技術組件前置內置到 DeepSeek-V4-Flash代碼框架中,開發者加載模型時,底層優化代碼自動生效,無需手動添加任何 FlagOS 初始化代碼。同時,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本,標準化 Docker 鏡像 + 一鍵加速命令,解決了開發者最頭疼的環境配置、效果對齊、性能優化等問題。

      FlagOS 2.0 技術底座:從大模型到智能體時代的全棧升級

      DeepSeek-V4-Flash的三重突破,依托的是 FlagOS 2.0 統一多芯片系統軟件棧的全鏈路能力。從算子層、編譯層、框架層到工具層,全鏈路為大模型跨芯適配提供技術支撐,將原本數周的適配周期縮短至數天,真正實現極速落地。



      FlagOS:面向多種 AI 芯片的系統軟件棧

      1. 高性能算子庫 FlagGems:核心算子深度適配,釋放硬件算力

      FlagGems 作為 FlagOS核心的高性能通用大模型算子庫,基于 Triton 語言實現,針對 DeepSeek-V4-Flash推理鏈路的核心算子進行了深度適配與優化,包括 MoE 專家調度、Attention 計算、RMSNorm 等關鍵計算模塊,同時原生支持 NVIDIA、摩爾線程、沐曦、清微智能、天數等接近 20 家 AI 芯片。

      2. 統一 AI 編譯器 FlagTree:一次編寫,多芯編譯

      FlagTree 是 FlagOS 面向多 AI 芯片后端的統一編譯器,基于 Triton 深度定制,可將 DeepSeek-V4-Flash的核心算子編譯為英偉達、摩爾線程等十多種不同 AI 芯片后端可識別的指令,徹底解決不同芯片編譯器生態割裂的問題,大幅降低算子跨芯片適配的開發成本。

      3. 模型跨芯遷移發布工具 FlagRelease:半自動實現模型跨芯遷移與版本發布

      依托 FlagOS 全棧技術能力,FlagRelease 已完成 DeepSeek-V4-Flash在多種芯片上的模型遷移、精度對齊與版本發布,覆蓋 HuggingFace、魔搭等開源社區平臺。開發者可直接下載使用,無需自行遷移。截至本文發布,FlagRelease 已發布覆蓋 10+ 家芯片廠商、12+ 款硬件、70+ 個開源模型實例的跨芯適配版本。

      4. 統一多芯片接入插件 vLLM-plugin-FL:無縫兼容原生使用習慣

      vLLM-plugin-FL是 FlagOS 為 vLLM 推理服務框架打造的專屬插件,基于 FlagOS 統一多芯片后端開發,在完全不改變 vLLM 原生接口與用戶使用習慣的前提下,實現多芯片推理部署。目前 vLLM-plugin-FL 已經支持了英偉達、摩爾線程、海光、沐曦、平頭哥真武、天數智芯、昆侖芯、華為等多家芯片。

      開源共建:FlagOS持續做開發者的“跨芯適配后盾”

      當下,"異構算力協同、大模型普惠落地"已成為全球開源開發者社區的核心熱點,打破硬件生態隔離、讓大模型在不同算力平臺高效低成本運行,是無數開發者的核心訴求。FlagOS 從誕生之初就將開源開放、眾智共建刻入技術基因,始終以開發者為中心,通過全棧開源的統一系統軟件棧,把復雜的"M×N"硬件適配問題降維為"M+N",做每一位開發者最可靠的跨芯適配后盾。

      目前,FlagOS 已形成完整的開源技術體系,所有核心組件均已開源在 GitHub,同時開放了數十款最新的主流基礎大模型、十多款 AI 芯片的適配方案與最佳實踐,開發者可自由獲取、深度定制: 四大核心技術庫:FlagGems通用大模型算子庫、FlagTree 統一 AI 編譯器、FlagScale 訓練推理并行框架、FlagCX 統一通信庫,覆蓋算子開發、編譯優化、并行計算、跨芯片通信全鏈路; 三大開源工具平臺:FlagRelease大模型自動遷移發版平臺、KernelGen 算子自動生成工具、FlagPerf 多芯片評測工具,提供從模型適配、性能評測到工程落地的一站式工具鏈; 全場景擴展生態:vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增強組件,以及 FlagOS-Robo 具身智能工具包,覆蓋大模型訓練、推理、應用全場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北京公交專用道行駛時間,又有新調整!

      北京公交專用道行駛時間,又有新調整!

      BRTV新聞
      2026-04-28 12:40:41
      我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

      我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

      千秋文化
      2026-04-20 19:55:30
      三分球23投0中!廣東祭出最強死亡五鐵:杜鋒恐被他們打下課?

      三分球23投0中!廣東祭出最強死亡五鐵:杜鋒恐被他們打下課?

      籃球快餐車
      2026-04-29 03:01:53
      有人說:打麻將和性生活是縣城的底色?

      有人說:打麻將和性生活是縣城的底色?

      燈錦年
      2026-04-21 12:32:46
      尤伯杯:國羽3連勝!王祉怡力克世錦賽冠軍,陳雨菲橫掃世界第39

      尤伯杯:國羽3連勝!王祉怡力克世錦賽冠軍,陳雨菲橫掃世界第39

      釘釘陌上花開
      2026-04-28 06:54:31
      公開反歧視,TA:至少一位俱樂部主席聯系了孔帕尼,表達欽佩

      公開反歧視,TA:至少一位俱樂部主席聯系了孔帕尼,表達欽佩

      懂球帝
      2026-04-29 04:34:07
      哭窮了!一線男1號片酬跌至巔峰期3折,網友:待遇比醫生差才合理

      哭窮了!一線男1號片酬跌至巔峰期3折,網友:待遇比醫生差才合理

      火山詩話
      2026-04-28 07:27:33
      苑瓊丹遭東北親戚“道德綁架”!97歲姑奶隔空喊話,態度早就表明

      苑瓊丹遭東北親戚“道德綁架”!97歲姑奶隔空喊話,態度早就表明

      裕豐娛間說
      2026-04-27 22:41:52
      燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

      燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

      匹夫來搞笑
      2026-04-20 13:24:51
      “望月鱔劇毒,誤食必死”,望月鱔比毒蛇還要毒?什么是望月鱔?你們有遇到過嗎?

      “望月鱔劇毒,誤食必死”,望月鱔比毒蛇還要毒?什么是望月鱔?你們有遇到過嗎?

      農夫也瘋狂
      2026-04-26 11:01:20
      雨水連綿氣溫跳水!江蘇先冷后暖,五一當天直沖26℃

      雨水連綿氣溫跳水!江蘇先冷后暖,五一當天直沖26℃

      現代快報
      2026-04-28 22:19:32
      “盡快撤離”!廣州緊急提醒:今晚雨更大

      “盡快撤離”!廣州緊急提醒:今晚雨更大

      南方都市報
      2026-04-28 18:24:45
      經常睡覺的房間,盡量別放這3樣東西!并非迷信,轉告家人

      經常睡覺的房間,盡量別放這3樣東西!并非迷信,轉告家人

      芹姐說生活
      2026-04-26 16:29:18
      公安部回應,紅綠燈7月1日起全國取消?不要再被帶偏了!

      公安部回應,紅綠燈7月1日起全國取消?不要再被帶偏了!

      牛鍋巴小釩
      2026-04-28 11:36:03
      英足總和英超聯賽應感到尷尬——他們讓瓜迪奧拉別無選擇

      英足總和英超聯賽應感到尷尬——他們讓瓜迪奧拉別無選擇

      綠茵情報局
      2026-04-29 01:51:06
      李想稱理想L9 Livis比上汽大眾ID.ERA 9X至少領先兩代,大眾高管回應:理想僅價格和營銷水平領先,我們絕不會自稱是“500萬內最好”產品

      李想稱理想L9 Livis比上汽大眾ID.ERA 9X至少領先兩代,大眾高管回應:理想僅價格和營銷水平領先,我們絕不會自稱是“500萬內最好”產品

      魯中晨報
      2026-04-27 11:28:06
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      夜深愛雜談
      2026-04-28 21:44:29
      我入住養老院6年,勸告想來養老的老人,要先看自己能否做到這4點

      我入住養老院6年,勸告想來養老的老人,要先看自己能否做到這4點

      小馬達情感故事
      2026-04-26 18:50:03
      打起來了,以軍不宣而戰;內塔尼亞胡迎來勁敵,或被關進大牢!

      打起來了,以軍不宣而戰;內塔尼亞胡迎來勁敵,或被關進大牢!

      說歷史的老牢
      2026-04-27 23:23:31
      女子花4080元,溢價買男團演唱會門票,想退退不了,票還被他人用了!二手平臺稱處理無誤,上海警方出手了!

      女子花4080元,溢價買男團演唱會門票,想退退不了,票還被他人用了!二手平臺稱處理無誤,上海警方出手了!

      大風新聞
      2026-04-28 19:46:03
      2026-04-29 05:03:00
      前沿在線 incentive-icons
      前沿在線
      前沿在線官方賬號,關注AI、機器人、智能車等前沿領域;
      182文章數 1235關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      體育要聞

      魔術黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      中央政治局會議定調,八大看點速覽!

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      房產
      藝術
      本地
      公開課
      軍事航空

      房產要聞

      紅利爆發!海南,沖到全國人口增量第4省!

      藝術要聞

      京東浙江總部公示,99.99米高,中國第一民企落子民營大省!

      本地新聞

      用青花瓷的方式,打開西溪濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      德國總理默茨:美國正遭受伊朗領導層的羞辱

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻熟女一二三区夜夜爱| 人妻中文字幕精品系列| 欧美内射深喉中文字幕| 国产内射性高湖| 欧美亚洲另类自拍偷在线拍| 免费av网站| 扎鲁特旗| 亚洲国产精品久久电影欧美| 日日麻批免费40分钟无码| 亚洲欧洲无码线中字幕| 人妻少妇白浆| 久久婷婷五月综合97色直播| 亚洲成人无码AV| 最新A片| 免费A片国产毛无码A片| 国产欧美日韩视频一区二区三区| free性欧美精品videos| 国产人人人| 国产精品久久久久免费观看| 无码人妻一区二区三区一| 99人体免费视频| 极品午夜剧场| 久久精品午夜一区二区福利| 亚洲成av在线免费不卡| 国产口爆吞精在线视频| 国产看黄网站又黄又爽又色| 亚洲avav| 国产精品福利自产拍在线观看| 国内精品久久久久影院日本| 国产成人高清亚洲综合| 人妻激情综合| 久久午夜电影网| 久久99精品久久久久麻豆| 操操人妻| 熟妇丰满人妻av无码区| 国产亚洲精品超碰| 又爽AV| 国产又粗又猛又爽又黄的视频在线观看动漫 | 亚洲色av性色在线观无码| 国产精品亚洲综合久久小说| 国内精品熟女亚洲精品熟女|