![]()
給國產芯片多一些時間
文/林書
編輯/劉宇翔
2025年12月17日,沐曦股份在科創板上市,首日收盤價829.90元,較發行價104.66元上漲725.24%,沐曦專注于高性能GPU芯片研發,產品覆蓋人工智能計算、通用計算及圖形渲染領域。
就在不到兩周前的12月5日,摩爾線程正式登陸科創板,成為“國產GPU第一股”,是2025年科創板募資額最大的IPO,從受理到過會僅用88天,發行價為114.28元/股,上市首日漲幅達425.46%。
國產GPU 廠商的密集上市并備受市場追捧,某種程度上,對“狼又回來了”的回應。據媒體報道,2025年12月8日,美國總統特朗普在社交媒體宣布:美國將允許英偉達向中國"經批準的客戶"出口H200人工智能芯片,但需將銷售收入的25%上繳美國政府。
美國智庫進步研究所報告顯示,H200的性能幾乎是H20的六倍,但仍與最新的Blackwell芯片存在代際差距——這恰好卡在"能用但不先進"的甜蜜點上。因此美國解禁 H200其實是其"溫水煮青蛙"策略的延續——“傾銷”性能相對落后但仍具競爭力的H200芯片,試圖延緩中國國產替代的進程。
更有意思的是,黃仁勛曾直言不諱地表示,增加對華芯片銷售額既能讓中國企業依賴其技術,又能為公司帶來更多研發資金。這種"以戰養戰"的思路,與美國鷹派的"技術依賴論"不謀而合。
但這場"溫水煮青蛙"的意圖能否得逞,還要看我國接不接招。從加快國產 GPU 廠商上市來看,顯然,我國并不上鉤。
01
沒有H200的日子
2022年至2025年,美國對華半導體出口管制政策層層加碼。2025年4月,美國進一步收緊管制,導致英偉達為中國市場定制的特供版H20芯片被迫停售,公司因此承受了約45億美元的庫存損失及80億美元的潛在收入損失。英偉達CEO黃仁勛在2025年10月公開表示,受出口管制影響,英偉達在中國的市場份額從95%驟降至0%,公司"100%離開了中國市場"。
這三年,被業界稱為中國AI芯片產業的"至暗時刻",但也正是這三年,催生了國產芯片的加速崛起。面對外部封鎖,國產GPU廠商采取了"三管齊下"的突圍策略:
在單卡性能暫時無法與英偉達匹敵的情況下,國產廠商通過堆面積、堆晶體管、堆芯片的方式來彌補性能差距。華為昇騰910C采用雙Die設計,FP16算力達到800 TFLOPS,性能逼近英偉達H100的80%;寒武紀思元590綜合性能達到英偉達A100的70-80%;海光信息深算二號FP16算力達1024 TFLOPS,接近A100的90%。
由于能效比較差,國產卡普遍采用"電力+工程能力"硬頂的方式解決功耗問題。摩爾線程的"平湖"架構支持單芯片最高1000W TDP動態功耗管理,通過液冷等工程手段確保穩定運行。雖然每瓦性能仍落后英偉達約30%,但國產卡低功耗版已經正流片。
說白了,在這段時期,國產卡往往采用用更密集的液冷,堆更多服務器機架,試圖以更強的工程能力來補落后的能效。
最后是"生態兼容+編譯層hack"。面對英偉達CUDA生態的壟斷地位,國產廠商采取了兼容策略。海光DCU通過ROCm生態實現對CUDA的"軟兼容",實測遷移效率可達85%。華為CANN架構采用"指令翻譯+動態調度"技術,實現對CUDA API的80%覆蓋。
這里的“兼容 CUDA”,從技術上來說,相當于做了一層翻譯器,讓國內 GPU 能跑英偉達的指令語言,例如英偉達的函數叫 CUDA_X,國產的函數叫 BR_X(比如壁仞),→ 相當于就做一張“對應關系表”,代碼調用 CUDA_X 時自動轉成 BR_X。就像查字典一樣,把“英偉達語”翻譯成“國產語”,通過合并算子、分拆算子、調整執行順序等一系列手段,將CUDA中的算式變得更適合本地語法。
但問題也顯而易見:永遠慢半拍——因為對方不斷更新語言,你永遠要追新詞,英偉達每次更新CUDA、更新架構,國產廠商立刻要做新的翻譯器,這在戰略上十分被動。
H200 被擋在門口的三年,國產 GPU 技術路線呈現出非常鮮明的“中國式風格”——在工藝受限的情況下,通過“架構取巧、集群堆疊、算子融合、軟件兼容”這些工程學上的努力,硬生生把落后的硬件打磨到可用、能上規模、適配大模型訓練的程度。
這套路線不是工程上的最優解,但在封鎖環境下,是現實可行的最優解。
02
差距到底在哪?
要評估國產GPU與英偉達H200的技術差距,需要用統一的標準進行量化對比。根據美國商務部工業與安全局(BIS)定義的"總處理性能"(TPP)指標,可以對主流AI芯片進行橫向比較,作為參考。
這里的TPP指標,指的是解析:TPP = 2 × MacTOPS × 操作位長,通常以TFLOPS(FP16)× 16計算。根據伯恩斯坦研究2025年12月發布的報告,各芯片TPP性能對比如下:
- 英偉達H200:60,000 TPP(基于Hopper架構,141GB HBM3e,4.8TB/s帶寬)
- 英偉達H20:15,832 TPP(特供版,性能僅為H200的26%)
- 華為昇騰910C:36,912 TPP(性能約為H200的61.5%,國產最高)
- 寒武紀思元590:29,360 TPP(性能約為H200的49%)
- 海光BW1000/DCU3:14,688 TPP(性能約為H200的24.5%)
- 摩爾線程S4000:約20,000 TPP(性能約為H200的33%)
從公開數據可以看出,國產頂級芯片在單卡性能上仍落后H200約1.6-2倍,但已經超越了H20,達到了"可用"的水平。
然而,在訓練能力方面,國產卡單卡仍落后2-3倍,但所幸的是,集群層面可通過"堆卡+高速互聯"彌補部分差距。
華為CloudMatrix 384集群(384張昇騰910C)性能接近英偉達GB200 NVL72,在部分大模型訓練任務中表現良好。但需要注意的是,由于工藝制程限制(國產芯片普遍采用7nm,H200采用4nm),每瓦性能仍落后30%左右。
推理能力方面,國產Top卡已持平甚至超越閹割版H20。華為昇騰910B2的INT8算力達到762 TOPS,在推理階段處理低精度數據效率較高;寒武紀思元590在推理場景中也表現優異,KV-Cache放得下、帶寬夠用。沐曦曦云C550的顯存帶寬達到1600-1800GB/s,超越H200的4.8TB/s,在大規模推理任務中具有優勢。
成本和功耗方面,目前海光BW100采購價格約10萬元/張,寒武紀590價格從最初8.5萬元降至6-7萬元,華為910C約18萬元,均顯著低于H200的30-40萬元。更重要的是,H200還需額外支付25%的"美國稅",使得國產卡在成本上具有約50%的優勢。功耗方面,雖然國產卡單卡功耗較高,但考慮到H200的700W TDP,實際差距并不懸殊。
生態進度是國產芯片最大的短板,但也是進步最快的領域。
目前,華為昇騰的CANN 工具鏈已支持與 MindSpore 深度協同和 PyTorch 一鍵遷移。其他國產平臺也在做類似深度編譯器與中間表示 (IR) 適配,讓開發者可以更少手動改代碼地運行大模型。
![]()
其中的主要原因,在于不同國產芯片廠商、云廠商、軟件團隊、科研院校都在合作推動生態規范標準化、工具共享、適配案例共享。
這種產業協同在生態建設上是少見優勢。
綜合來看,國產芯片與H200在訓練方面的差距依舊存在,但在推理方面,已收斂到"能用+成本更低+可控"的水平。
現階段,國產芯片正從"勉強及格"向"好用"的爬坡階段邁進,根據根據伯恩斯坦的推測,預計2026-2027年,將在部分場景實現與H200的全面競爭。
03
未來的較量
在產業方面,從技術演進來看,英偉達剛剛發布的Blackwell Ultra系列仍延續"堆料漲性能"的路線,賭的是摩爾定律(或"黃氏定律")尚未終結。所謂“黃氏定律”,不是什么物理學定律,而是英偉達CEO黃仁勛提出的'GPU性能每兩年翻一倍'的經驗法則。
這種“定律”與其說是自然規律,不如說是英偉達研發投入和市場策略的體現——每年投入超過70億美元的研發費用,讓競爭對手望塵莫及。
但國產芯片沒有直接硬碰硬,而是采用"架構取巧+多芯片封裝+集群堆疊"的迂回戰術。華為昇騰采用雙Die設計,通過先進封裝技術提升集成度;摩爾線程"平湖"架構實現Chiplet可擴展架構,支持計算Die、HBM3e存儲Die與IODie靈活配置;沐曦曦云C700系列進一步擴展對FP4等低精度的計算支持,對標H100。
總體上來看,在先進工藝受限的情況下,國產芯片通過架構創新實現了性能突破。華為昇騰910C采用達芬奇架構3.0,集成32個自研AI Core,支持原生CANN異構計算;寒武紀思元590采用MLUarch架構,通過指令集優化提升計算效率;海光深算三號采用x86+GPGPU的Chiplet封裝,通過2.5D封裝實現HBM2e內存直連,帶寬達1.6TB/s。
這些技術創新使得國產芯片在特定場景下能夠實現與英偉達相媲美的性能表現。
并且從應用層面看,國產AI芯片已經找到了自己的"舒適區",而且干得相當不錯。
例如智算中心這類場景,現在已經成了華為的“主場”。截至2025年,全國600多個智算中心項目中,超過300套Atlas 900超節點已經商用部署,華為昇騰在智算中心領域可以說是"一枝獨秀"。涵蓋互聯網、電信、制造等多個行業。中國電信粵港澳大灣區的智算昇騰超節點,更是成為全球首個商用的超節點項目。
同樣地,在面向國內大生態的專用場景,例如智能安防、金融風控、OCR / 文本語義檢索、音視頻內容處理(如自動剪輯、AI 轉碼)等任務中,國產卡可針對特定算法做深度定制優化。
通過自研編譯器和算子庫直接對接國內框架如MindSpore,在“我只要這個任務跑得快就夠了”的場景下,專用定制往往比通用 GPU 效率更高。
而在低延遲/ 小規模邊緣場景,例如邊緣 AI、工控設備、機器人本地推理等場景,國產 NPU/ASIC 方案比通用 GPU 效率更高。因為架構從一開始就針對推理做到低功耗,不依賴重型 CUDA 生態
![]()
說到底,國產芯片的優勢場景都有一個共同點:對成本、功耗、供應鏈安全敏感。在這些場景,性能不是唯一指標,性價比和自主可控才是王道。
總結而言,H200的有限解禁是美國"技術依賴"策略的體現,試圖通過提供次高端產品維持中國對美國技術的依賴。但這一策略為時已晚——在H200“斷供”的封鎖期內,中國AI芯片產業已經建立起從硬件到軟件、從單卡到集群的完整解決方案。
而這套日益牢固的基本盤,不是一塊H200 就能輕易“打回原形”的。
更重要的是,大模型越來越穩定,訓練次數變少的當下,最貴的訓練不再那么頻繁,但推理量是每天都在爆炸,國產卡能不能吃掉訓練,短期不重要,只要把推理吃死,整個產業也就立住了。
在進入“戰略相持”階段的當下,倘若再多給國產芯片一些時間,假以時日,國產訓練卡也將"上桌掰手腕"。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.