文/王新喜
2026年4月7日,中國AI圈炸了。全球頂級大模型DeepSeek官方宣布:DeepSeek下一代旗艦模型V4將完全運行于華為昇騰950PR芯片,技術架構從CUDA全面轉向CANN框架。
而最新消息,DeepSeek創始人梁文鋒近日在內部溝通中透露,DeepSeekV4將于4月下旬發布,中國AI產業在去“CUDA化”路上邁出關鍵一步。
![]()
deepseek V4跟國產AI芯片的適配,這將使得deepseek成為國內首個在推理階段徹底擺脫英偉達算力依賴的萬億級參數大模型。
![]()
回到2025年初,DeepSeek以低成本訓練的V3和R1模型震動全球,其極低的開發成本與接近甚至OpenAI的性能表現,打破了“算力決定一切”的固有認知,為全球AI發展提供了新思路,這引發美股科技板塊大幅拋售,市場開始重新評估英偉達等AI算力基礎設施公司的估值邏輯。
![]()
但那一輪沖擊背后,DeepSeek使用的算力硬件仍然相當程度上依賴英偉達的芯片,包括出口限制相對寬松的H800型號。
隨后,美國進一步收緊出口管制,英偉達最頂級的H100、H200,B200全部禁用,后來連英偉達的H20芯片也被禁止向中國出售。這實質上切斷了中國AI公司通過"降規格版本"獲取高性能算力的渠道。DeepSeek已經用算法優化把有限算力的性能壓榨到了極致——他們早期用"混合專家"架構,把模型推理成本砍掉了90%,震驚了全球。
DeepSeek需要的不是更好的芯片,而是有自主可控的芯片可用。如今,華為已經滿足了DeepSeek的訴求。
![]()
2026年4月6日,據The Information等媒體爆料,DeepSeek下一代旗艦模型V4已全面遷移至華為昇騰950PR,底層代碼從CUDA重寫為CANN框架。
按照行業慣例,新模型發布前通常會提前數月向芯片廠商開放測試權限,進行針對性性能優化。但DeepSeek這次選擇了完全不同的路徑:他們直接拒絕了英偉達的早期訪問請求,反而把模型優先開放給華為和寒武紀等國產芯片廠商。
這種做法在AI圈幾乎是反著來,信號卻再明確不過:V4從一開始就是為國產算力量身定制,英偉達被排除在外,要徹底擺脫對美國芯片的依賴。
華為昇騰950PR芯片早在2026年3月21日就正式發布,并配套華為自研的Atlas 350加速卡方案。
根據華為公開的技術規格和第三方機構Digitimes的評測,Ascend 950PR的算力性能接近被禁英偉達H20芯片的三倍,多模態生成速度快60%,自研HBM容量達112GB,算力利用率從行業平均60%提升至85%以上,部署成本降至英偉達方案的1/3。
值得一提的是,華為昇騰950PR芯片配套華為自研的Atlas 350加速卡方案。這張加速卡,使用的是全新昇騰950PR(Ascend 950PR)處理器。其性能方面,Atlas 350的單卡算力達到了英偉達H20的2.87倍,更是國內唯一支持FP4低精度的推理產品。
![]()
FP4是一種“用精度換效率”的技術,能讓大型AI模型在更少的顯存中運行。原本需要4張加速卡才能支撐的700億參數模型,現在1張卡即可輕松容納。以700億參數的大模型為例,原本需要140GB顯存,使用FP4后僅需35GB就能流暢運行。
這意味著在相同的硬件條件下,可以部署更大規模的模型,或者支持更多的并發推理請求。
在當前“Token通脹”的時代背景下——OpenClaw的Token消耗量一個月內從806億飆升至3580億,增長了約3.4倍——FP4帶來的效率提升,直接轉化為成本優勢。
華為計劃2026年全年出貨約75萬顆該型號芯片,并已于今年1月開始向字節、阿里等主要客戶發送樣品測試。這么多合作伙伴支持,意味著這不只是一次技術升級,更是一次戰略性的"換芯手術",國內一眾廠商是真的有意識選擇另外一個生態圈了。
DeepSeek V4與華為Ascend 950PR的組合,也將成為國產算力能否支撐頂級前沿模型訓練的一次真實檢驗。
給世界第二個選擇,AI大模型生態迎來iOS與安卓之爭
因為美國出口管制,英偉達的高端芯片對中國市場的供應一直在收緊,DeepSeek是被現實逼出來的生存選擇——誰手里有自主可控的芯片,誰就能第一時間通過自家云服務把模型跑起來,集成進AI應用里,不用看任何人的臉色,不用怕任何突如其來的管制。
![]()
DeepSeek 盡管訓練端仍依賴英偉達(華為訓練芯片950DT預計Q4上市),軟件生態也需完善,但“昇騰+DeepSeek”組合已為國產AI開辟了成本可控、安全自主的新路徑。據知情人士說,在V4訓練和推理上,昇騰950PR的表現達到了預期,否則DeepSeek不會拍板全面遷移。
國產AI產業正從"被迫適應"到"主動選擇"的歷史性轉變,這個信號會帶動一批人跟進,整個國產芯片的軟件生態就能慢慢活起來。
![]()
DeepSeek帶頭做模型原生適配,華為做芯片和底層框架,國內大廠拿訂單鋪場景,中國AI有望第一次形成“上游芯片-中游模型-下游應用”全鏈條的完整閉環。從硬件到軟件,從訓練到落地,全流程都握在自己手里。
而更大的意義,還在于給出世界第二個選擇。在去年,DeepSeek橫空出世通過技術優勢在世界舞臺上大放光芒,通過開源策略與低價API服務,推動全球開發者生態建設,DeepSeek是全球被引用最多的開源AI模型之一,有大量開發者在用它的代碼和框架。
如果V4在昇騰上跑起來效果好,可能會在全球范圍內吸引開發者順著這條路,開始認真評估昇騰方案。
以前,搞AI大模型,基本繞不開英偉達的芯片與CUDA生態,現在華為昇騰+CANN的出現,全世界的客戶有了第二選項,這意味著所有雞蛋不用放在一個籃子里了。當年安卓替代塞班,不是因為安卓更先進,是因為給了整個行業另一個選擇。
![]()
DeepSeek V4接入了華為芯片,它其實就是中國AI行業的"安卓時刻",一旦在中國打開局面,或將風靡全球,包括歐洲、東南亞的一些國家和企業,都有了一個性能同樣強大的AI生態備選項。
原來圍著英偉達的CUDA轉的圈子,會慢慢被華為的昇騰生態吸附過來,未來的AI競爭,也將形成兩大生態之爭,這就像全球手機市場生態系統之爭,逐步形成蘋果iOS和谷歌安卓生態,形成雙雄競爭的格局,以后AI芯片與算力的競爭,也將變成兩大生態的競爭。
![]()
相比英偉達方案,華為芯片加V4組合,硬件采購成本降低40%,推理成本降低60%,而且在美國芯片出口管制下,國產芯片與國產模型組合能實現全鏈路自主可控。
也就是說,在AI硬件成本與供應鏈安全可控層面,中國的AI路線反而有自己的優勢。這對應了東南亞、歐洲等一些國家追求降本增效,且避免被美國未來出口管制掣肘的風險。
因此,這一次DeepSeek與華為的雙向奔赴的結果如何,不僅關系到DeepSeek一家公司的技術路線,也將在相當程度上決定整個中國AI產業的發展以及市場客戶對國產芯片的信心走向。今天的昇騰與英偉達的差距客觀存在,但這是一場持久戰,關鍵意義在于,今天這扇門被真正推開了一條縫,接下來就能越開越大。
中國AI在未來3~5年實現算力自主,這種"應用生態突圍+硬件換道"的組合拳,可能有望進一步打破算力囚牢困境,并且有望通過這條路線的成功,在全球市場打開新的局面,中美AI兩大生態的較量將拉開序幕,我們拭目以待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.