![]()
![]()
解析曦望新一代推理GPU芯片啟望S3。
作者|王藝
編輯|王博
國產GPU又有新發布。
1月27日,國產GPU廠商曦望(Sunrise)在杭州發布新一代推理GPU芯片啟望S3,并同步推出面向大模型推理的超節點方案及推理云計劃。這是曦望在近一年累計完成約30億元戰略融資后的首次系統性技術亮相。
曦望是國產全棧自研人工智能算力芯片企業,前身是商湯大芯片部門,2024年底分拆獨立運營,專注于高性能GPU及多模態場景推理芯片的研發與商業化。
曦望聯席CEO王勇身穿皮衣、牛仔褲走上舞臺,作為一位芯片技術老兵,這個場景他并不陌生。王勇曾任AMD dGPU首席架構師、昆侖芯核心架構師,2020年加入商湯科技領導大芯片部門,為曦望的前身奠定技術基礎。
這一次,他和團隊目標很明確——極致推理性價比。
![]()
啟望S3是一款面向大模型推理深度定制的GPGPU芯片,其設計進行了系統級重構。
在算力層面,啟望S3支持從FP16到FP4的多精度靈活切換。模型在保證效果的前提下,最大化釋放低精度推理效率。
在存儲層面,啟望S3采用LPDDR6顯存方案,成為國內首款采用該方案的芯片。相比HBM(高帶寬內存)路線,LPDDR6更強調容量與能效比。
系統級重構,也體現在推理成本上。在DeepSeek V3/R1滿血版等主流大模型推理場景中,啟望S3單位Token推理成本較上一代產品下降約90%。
“當推理成為主要算力消耗場景后,GPU的商業價值不再取決于參數指標,而是單位Token的真實成本。”王勇說。
這并不是在“畫餅”。「甲子光年」了解到,曦望2025年推理GPU芯片交付量已突破1萬片,這說明其推理GPU路線已完成從工程驗證到規模化交付的關鍵跨越。
而新發布的啟望S3目前已完成內部研發,預計將于今年年中流片,年底回片量產。
賣芯片不是一錘子買賣,如何把算力轉化為可交付的生產力,是所有國產GPU廠商都需要回答的問題。
1.死磕推理成本
硅谷早期風險投資機構Benchmark的合伙人Everett Randle在2025年底接受采訪時表示,AI應用會有大量的AI推理成本計入COGS(銷售成本),導致毛利率低于傳統SaaS。
“人們因此認為AI應用不是一門好生意。”Everett Randle說,“但如果關注單客絕對毛利率,AI應用的絕對毛利潤可以達到普通SaaS公司的四到五倍,擁有比SaaS公司大得多的潛在市場。”
以剛剛上市的智譜為例,招股書顯示,智譜在2022~2024年毛利率分別為54.6%、64.6%、56.3%,2025年上半年回落至50%,這雖然高于傳統項目制公司,但和傳統SaaS行業相比并不突出。
就在今年的CES上,英偉達創始人&CEO黃仁勛宣布新一代Rubin平臺通過“極端協同設計”整合六款芯片(GPU、CPU、NVLink 6、DPU等),這將加速agentic AI、高級推理以及大規模混合專家(MoE)模型推理,其每token成本比Blackwell平臺降低了多達10倍。
![]()
黃仁勛在CES 2026演講,圖片來源:「甲子光年」拍攝
降低推理成本已逐漸成為行業共識。
在這次曦望的發布會上,曦望董事長徐冰把行業的變化概括為三句話:需求變了、場景變了、成本結構變了。AI正在從“被訓出來”走向“能被用起來”的實戰階段。智能體、物理AI、3D/視頻生成等場景爆發,會讓推理從配角變成主力。
“誰能持續降低推理成本,誰就掌握了AI產業的成本曲線。”徐冰說。
徐冰此前是商湯集團聯合創始人、執行董事及董事會秘書。去年,徐冰辭去商湯集團執行董事、董事會秘書職位。后來徐冰擔任曦望董事長,開始掌舵這家國產GPU公司。
“如果我們能夠讓推理的成本下降90%,并且可以提供穩定的服務,那我們的競爭不是市面上的又多一個芯片選擇,而是說我們可以真正重寫中國AI產業的損益表,助力全行業盈利增收。”徐冰說。
但這次發布會,曦望并沒有公布啟望S3更為具體的性能參數,僅用一張綜合性能指標表格進行了對比。
![]()
啟望S3綜合性能指標,圖片來源:「甲子光年」拍攝
不過,「甲子光年」根據圖中的信息可以解讀出,啟望S3的綜合性能與摩爾線程的S系列智算加速卡相當,高于昇騰910B、英偉達A系列,低于昇騰910C、英偉達H系列。
對比來看,以摩爾線程大模型智算加速卡MTT S4000為例,其采用第三代MUSA架構,配備了Tensor核心,單卡支持48GB顯存和768GB/s的顯存帶寬。
王勇在現場更多強調的是成本,啟望S3的單卡成本預計在2~4萬元之間,比友商更具性價比。
那么,如何降低推理成本?曦望進行了一場架構革命,王勇稱之為“重新定義推理GPU”。
![]()
啟望S3架構進化,圖片來源:「甲子光年」拍攝
PPA是芯片設計核心指標,代表Power(功耗)、Performance(性能)、Area(面積)。王勇介紹,啟望S3追求極致的PPA,在架構上揚棄了所有與訓練相關的比較重且貴的技術組件,而采用了比較新的針對推理極致優化的架構和技術組件。
在IP層面,團隊融合了國際主流GPU架構的最新特性,引入Warp調度優化與Tensor Memory等先進設計,并在合規前提下采用目前最先進的國際工藝節點,同時集成國際巨頭的高速接口IP。
啟望S3最顯著的差異化在于顯存方案。由于HBM與先進封裝強綁定,這會大幅推高訓推一體芯片的成本,在做了非常多的架構研究后,曦望發現LPDDR6才是當前推理的最優解。
如果說HBM是為訓練而生,追求極限帶寬,不惜成本,那么LPDDR6就是為推理而生,追求容量與能效比,極致成本控制。
因此啟望S3成為國內首款采用LPDDR6方案的芯片。官方數據顯示,S3的顯存容量較上一代產品提升4倍,有效緩解了大模型推理中普遍存在的顯存駐留與訪存瓶頸。
而從本質上來看,曦望團隊是在“性能-成本-功耗”的不可能三角中,針對推理負載特性(非連續計算、大容量需求、成本敏感)做出的精準取舍。
啟望S3還擁有“黃金訪存比”,這也是團隊在研究大模型本身特點后的發現,達到訪存比的“甜點”意味著不浪費每一分的算力和帶寬。
最后是核心性能。王勇介紹,Flash Attention算子計算效率高達98%;GEMM算子TensorCore利用率更達99%,基于這些數據,王勇稱:“曦望的研發和架構能力遙遙領先。”
2.不止芯片
圍繞啟望S3,曦望同步發布了面向大模型推理的寰望SC3超節點解決方案。
寰望SC3從一開始即面向千億、萬億級參數多模態MoE推理的真實部署需求進行設計。該方案支持單域256卡一級互聯,可高效支撐PD分離架構與大EP(Expert Parallelism)規模化部署,顯著提升推理階段的系統利用率與穩定性,適配長上下文、多并發、多專家并行等復雜推理場景。
在交付形態上,寰望SC3采用全液冷設計,具備極致PUE表現,并支持模塊化交付與快速部署。在同等推理能力量級下,該方案可將整體系統交付成本從行業常見的億元級,降低至千萬元級,實現一個數量級的下降。
![]()
寰望SC3超節點,圖片來源:「甲子光年」拍攝
除了寰望,S3的產品矩陣還包括智望系列的PCIe卡與OMS卡、辰望系列的PCIe服務器與OMS服務器,以及熙望系列的AIPC(液冷工作站)。
![]()
S3產品矩陣,圖片來源:「甲子光年」拍攝
在軟件層面,曦望構建了與CUDA兼容的基礎軟件體系,覆蓋驅動、運行時API、開發工具鏈、算子庫和通信庫,降低推理應用的遷移門檻。目前,該體系已適配ModelScope平臺90%以上主流大模型形態,包括DeepSeek、通義千問等。
![]()
曦望軟硬協同,圖片來源:「甲子光年」拍攝
此外,曦望團隊在卡間互聯方面也做了很多工作,支持高帶寬、低延時的Scale-Up、Scale-Out互聯架構,這種原生支持的互聯架構可以讓寰望超節點產品,不僅是256卡,也可以向下覆蓋。
“這取決于我們的客戶的需求,可以做到16到256卡這樣的超節點產品。同時,當我們把多個超節點通過我們直出的RDMA(遠程直接內存訪問)連接起來的時候,我們可以做到千卡甚至幾千卡的互聯集群。”王勇說。
在曦望看來,推理GPU的競爭并不止于芯片本身,而在于能否將硬件能力穩定轉化為可交付、可計價的推理算力。
3.曦望憑什么能站穩腳跟?
國產AI芯片已經是一個擁擠而殘酷的賽道。
昇騰、摩爾線程、沐曦、寒武紀、億鑄、燧原等都已在某些層面證明了自己的實力,這意味著,目前的時間點競爭已充分激烈,對技術路線和資本競爭等關系公司戰略的重大事項,決策的容錯率會大大降低。
而面對國內外的競爭,曦望憑什么能站穩腳跟?
徐冰對于這個問題的回答簡單而直接:“我們不是在做又一個GPU,而是從底層架構就為推理場景重新設計,徹底重寫。”
在徐冰看來,啟望S3徹底拋棄了傳統的訓推一體GPU為訓練準備的那些冗余設計,不追求峰值TFLOPS這種紙面數據,“我們是把真實業務場景中的每個token的成本,每個token的能耗,還有實實在在的穩定性,作為所有設計決策的根本出發點。”
芯片設計不能紙上談兵,必須結合真實業務場景,滿足各種客戶需求。2025年全球大模型token的消耗量激增,其中推理消耗占了很大一部分比例,這種結構性改變也堅定了團隊研發的方向。
過去的2025年,在徐冰看來是團隊“最忙的一年”,整個團隊幾乎是“沒日沒夜全速研發”。
目前曦望已擁有三百多人的團隊,聚攏了行業中一批芯片研發精英,他們來自英偉達、AMD、昆侖芯、商湯等。核心的技術骨干平均有15年的行業經驗。徐冰形容這是“一支真正懂芯片,懂AI能落地的特種部隊”。
「甲子光年」從曦望內部了解到,公司里有這樣一句話:我們不做“向上管理”,我們要“求真務實”。
團隊曾經去一家AI公司調研發現,這家AI公司的GPU的峰值使用率有85%,但是日均使用率只有28%。GPU的長期空閑率達到40%,每月浪費的算力成本,可以買兩臺新的服務器。
一個推理集群往往由眾多的服務器組成的,這些服務器在不同的推理算力的需求下會呈現出一個問題——資源利用率低,而曦望就是要解決這樣的問題。
此外,還有模型適配問題,這也是行業當中很多客戶都會遇到的問題。曦望團隊的解法是專門做一個MaaS(Model as a Service)平臺,方便模型調用和定制優化。
從成功量產啟望S1和S2,到發布S3,展示S4和S5的路徑圖,曦望在在一步步靠近AI推理時代。過去一年,國內已經有一些廠商把大模型的推理價格做到了百萬token一元甚至幾毛錢,曦望的目標是在這個基礎上,把成本再壓一個數量級,把“百萬token一分錢”變成行業新基準。
![]()
徐冰介紹曦望的目標,圖片來源:「甲子光年」拍攝
如果說啟望S3回答的是“推理算力如何更便宜”,那么曦望與商湯科技、第四范式等生態伙伴探索的推理云平臺,則試圖解決“推理算力如何更好用”。
通過GPU池化與彈性調度,曦望將底層算力整合為統一的推理算力池,并以 MaaS(Model as a Service)作為核心入口,使企業無需關注底層硬件配置與集群運維,即可按需調用大模型推理能力。這一體系也成為“百萬Token一分錢”推理成本合作的重要技術基礎。
「甲子光年」了解到,曦望在過去一年內順利完成了近30億元戰略融資,投資方的陣容也很強大,包括三一集團旗下華胥基金、范式智能、杭州數據集團、正大機器人、協鑫科技、游族網絡、北京利爾等產業投資方,無極資本、IDG 資本、心資本、高榕創投、中金資本、普華資本、松禾資本、易方達資本、工銀投資、海通開元、越秀產業基金、銀泰投資、國元基金、粵民投、華民投等國內知名VC/PE機構,同時獲得誠通混改基金、杭州金投、杭州高新金投等國資背景資本的加持。
當然,推理算力價值的實現離不開協同,需要芯片設計、系統集成、軟件開發到產業應用的全鏈條協作。曦望在生態打造、商業化等方面還有很長一段路需要走。
與各類算力廠商和芯片廠商深度合作,成為現有算力系統的推理分流是曦望的一個務實的選擇。
“曦望的使命只有一個,”徐冰說,“就是把大模型推理這件事做到極致。”
(封面圖來源:曦望)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.