![]()
智東西
作者 陳駿達
編輯 漠影
2026年,AI產業的重心遷移,愈發清晰。隨著AI全面進入規模化落地階段,驅動AI推理需求快速增長的“三駕馬車”正在成型。
其一,應用全面鋪開是最直接的動力。產業已從百模大戰步入了應用競賽與價值驗證階段,高頻交互與內容生成持續發生,形成穩定而龐大的推理需求基礎——國內的頭部AI應用,日均Token消耗已達到約50萬億規模,成為推理負載快速累積的一個典型樣本。
其二,推理模型范式的興起從結構上抬升了推理需求。新一代推理模型不只追求快速作答,更是依賴多步推演與鏈式思考來提升準確性,使單次調用的推理token顯著增加。海外大模型調用平臺OpenRouter的統計顯示,2025年,來自推理模型的用量在2024年初尚可忽略,但至年底已占平臺總用量的60%以上,直觀體現了推理需求的結構性上升。
![]()
其三,Agentic AI開啟長期增長空間。以年初OpenClaw等為代表的Agent產品熱度不斷攀升,它們具備自主規劃與長時間執行能力,需要在持續運行中不斷推理與反饋,推理由單次請求演變為連續過程,推理需求進一步呈現指數級放大。
三股力量相互疊加,推動推理走向產業中心,也促使算力結構從以訓練為核心,轉向以高性價比、低延遲和能效優化為導向的推理時代。
這一轉變不僅推動全球科技巨頭重新布局算力戰略,也成了多家國內AI芯片企業重點發力的方向。未來五至十年,或許將成為AI推理芯片的關鍵發展期。
一、海外巨頭加速布局,推理芯片成下一個風口
全球科技巨頭,都在競相加碼AI推理芯片這一賽道。
去年4月,谷歌發布了其第七代TPU芯片Ironwood。谷歌分管全球AI和基礎設施團隊的副總裁Amin Vahdat強調,這是谷歌史上最節能的TPU,專為支持思考、推理類模型的大規模應用而設計。
谷歌認為,Ironwood代表著AI及對應基礎設施的重大轉變,從提供實時信息供人類解讀的響應式AI,轉變為主動生成解讀的下一代AI,迎來“推理時代”。
在大規模推理場景下中,TPU在成本、效率上對傳統GPU架構形成實質性競爭,因此甚至吸引了Anthropic、Meta等頂級客戶的關注,并已斬獲數十億美元的訂單。
無獨有偶,去年12月,英偉達的一項重磅交易,在AI芯片產業內引發了廣泛關注。
英偉達與美國AI芯片創企Groq達成價值約200億美元非獨家授權協議,并吸納Groq的聯合創始人Jonathan Ross、總裁Sunny Madra以及Groq團隊的其他成員。這項協議的核心,正是AI推理技術。
黃仁勛稱,英偉達計劃將Groq的低延遲處理器集成到英偉達AI工廠架構中,以服務于更廣泛的AI推理和實時工作負載。
值得注意的是,Groq創始人兼CEO Jonathan Ross曾是谷歌TPU創始成員。在谷歌率先驗證了專用芯片在AI訓練與推理中的規模化價值后,英偉將這一關鍵技術路徑及其核心人才納入體系之中,某種程度上體現出其對推理時代技術范式轉向的主動回應。
由此可見,AI推理芯片的技術路線正加速走向多元化。相較性能強但成本高企的通用GPU,面向特定推理負載優化的專用芯片在能效、延遲與邊際成本上具備清晰的經濟合理性。
英偉達選擇通過引入Groq技術來拓展架構邊界,表明其并不滿足于單一GPU路徑,而是在推理時代到來之前,主動構建更具彈性的算力體系與生態縱深。
二、算力瓶頸已成制約因素,GPNPU或成國內破局關鍵
把視角轉向國內,由于貿易限制等各方面因素,高效的推理芯片對國內AI產業的價值,有過之而無不及。
我們能從不少國內AI頭部玩家的動向中找到蛛絲馬跡。今年1月,阿里千問大模型負責人林俊旸向外界披露了一個行業可能共同面臨的窘境:交付工作占據了大量算力資源,甚至在某種程度上擠壓了科研空間。
剛剛發布Kimi K2.5的月之暗面,也在為算力發愁。有海外觀察者指出,Kimi K2.5目前最大的瓶頸是算力,而不是模型質量。沒有足夠算力,就無法提高每秒生成的token數量(TPS),而TPS直接影響著用戶體驗。
對此,月之暗面聯合創始人兼算法團隊負責人周昕宇回應道:“流量每天都在飆升,我們正竭盡全力爭取更多算力。”
![]()
林俊旸、周欣宇談到的現實情況只是一個切片,這揭示了推理成本與效率已經成為國內不少AI企業面臨的挑戰,即便是他們這樣的頭部玩家。
若無法擊穿推理成本的壁壘,就很難將AI轉化為普惠的生產力,也難以騰出算力來支持那些需要長線、大規模算力投入的前沿研究。
面臨國內AI產業的現實挑戰,已有一大批AI芯片企業正從不同技術路徑切入,試圖攻克推理效率的難題。其核心思路可以歸納為:在硬件層面通過架構創新提升性能上限,在系統層面通過軟硬協同釋放實際效能。
在這一背景下,長期深耕AI推理芯片的云天勵飛,于昨日的“大算力芯片戰略前瞻會”上,首次對外系統公布了未來三年的大算力AI推理芯片戰略布局。
云天勵飛董事長兼CEO陳寧判斷,在AI大規模落地的階段,產業需要的不再是通過十萬卡/百萬卡互聯提供絕對算力的GPGPU(通用GPU),而是更高性價比的推理芯片。
![]()
與眾多布局GPGPU、更主打訓練市場的國內芯片創企不同,云天勵飛是國內首家聚焦于AI推理芯片的企業,曾推出四代面向終端、邊緣的AI推理芯片。
陳寧透露,在2025年,云天勵飛做出了一個重要的戰略轉向:斬釘截鐵的把芯片戰略聚焦在云端的大算力、大模型的推理芯片。
云天勵飛正在做的,是被定義為“GPNPU”的芯片。GPNPU不只是一個處理器架構,更是一套圍繞大模型推理而構建的技術范式和系統級架構理解,在“好用”和“高效”之間實現某種程度的平衡。
云天勵飛CTO李愛軍談道,云天勵飛的GPNPU在頂層采用具備GPGPU級通用編程能力的架構,通過兼容CUDA,使得當前幾乎所有基于GPU訓練出來的模型和算子,都可以低成本、低門檻地平移到云天勵飛的芯片上,真正做到“一行代碼”完成從GPU到國產芯片的部署遷移,解決國內芯片生態最現實的易用性問題。
另一方面,在底層計算上,GPNPU又充分發揮NPU的優勢,通過自定義指令集和專用計算單元,在單位硅面積上實現遠高于通用GPU的計算密度和能效比,專注于推理場景所追求的極致效率與極低成本。
圍繞大模型推理“內存墻”的核心瓶頸,GPNPU進一步引入國產工藝條件下的3D memory架構,在設計上實現了超過HBM十倍以上的內存帶寬,同時具備10納秒級的訪問時延和更低的綜合成本,從系統層面釋放推理性能。
更重要的是,考慮到國產制程和單Die能力的現實限制,云天勵飛率先提出并持續深耕“算力積木”架構,也就是把多個芯粒像積木一樣組合,實現算力的規模化擴展。
去年,云天勵飛完成了8個算力Die的單芯片封裝的驗證,可實現DeepSeek 671B大模型的推理部署。
GPGPU的通用性、NPU的極致能效、3D memory的超帶寬以及Chiplet算力積木這四個方向的融合,構成了GPNPU的完整內涵,也讓它成為云天勵飛所定義的云端大模型推理芯片的一種最優實現路徑。
三、All in大算力芯片,云天勵飛揭秘三代路線圖
會上,李愛軍透露,未來三年,云天勵飛將面向云推理場景,All in大算力芯片,把資源投入大算力芯片DeepVerse的研發。那么,云天勵飛的打法究竟是什么,又要如何在云推理這一核心戰場上與全球巨頭展開競爭?
云天勵飛已對大模型推理流程進行了重新解構,圍繞prefill與decode兩個階段在計算特性上的顯著差異,提出并落地了PD分離的系統架構:即針對不同階段分別設計專用芯片,從系統層面對傳統推理計算范式進行重構。
這一思路試圖突破通用GPU在推理場景下“兼顧訓練與推理”所帶來的效率瓶頸,為云端大模型推理構建更具針對性的算力基礎。
在架構與微架構層面,云天勵飛圍繞大模型推理中的核心算子進行了深度定制化優化。其中,P芯片主要面向prefill階段計算密集型需求,重點提升百萬上下文場景下的吞吐能力與能效表現;D芯片則針對decode階段訪存密集、低時延的特點,對attention、FFN等關鍵計算路徑進行細粒度優化,以降低單token推理時延。
在系統層面,云天勵飛進一步布局超節點,計劃通過最多1024顆P/D芯片的協同,滿足云端大模型在大規模集群環境下的部署需求。
![]()
云天勵飛已對外披露了較為清晰的芯片演進路線。
今年,他們計劃推出第一代超節點P芯片,重點服務于百萬級長上下文場景,對prefill推理進行專項優化,其整體算力目標對標英偉達Hopper架構的芯片。
明年,云天勵飛將推進第一代超節點D芯片研發,主攻decode階段的超低時延推理,目標算力水平對標英偉達Blackwell架構的芯片。
按照規劃,到2028年,第二代超節點D芯片有望實現毫秒級推理時延,并在整體推理性能上具備對標英偉達下一代Rubin架構的潛力。
針對行業普遍關注的供應鏈安全問題,云天勵飛高級副總裁、CFO兼董秘鄧浩然特別強調,云天勵飛目前是國內屈指可數手握充足國產產能保障的企業之一,這一戰略儲備為后續芯片的大規模量產與交付提供了較高的確定性。
陳寧認為,能源、芯片、基礎設施、模型和應用構成了AI推理的基礎設施,而我國在能源、基建與應用場景上都具有優勢,只要補齊模型與芯片的短板,中國的AI就有巨大的發展的機會,就有可能引領第四次工業革命。
結語:要做智能革命中的“瓦特”和“愛迪生”
在前瞻會上,云天勵飛已經釋放了一些極具沖擊力的信號。陳寧稱,在商業落地方面,他們已拿下16億元的智算大單,并計劃打造賦能城市的千卡集群。
那么,云天勵飛究竟想成為一家什么樣的公司?陳寧回顧第一次工業革命的歷史,向外界展現了云天勵飛的終極愿景:說起工業革命,大家往往想到的是蒸汽機和電力,但事實上,蒸汽機的發明者并不是瓦特,燈泡的發明者也不是愛迪生,他們真正的價值在于將技術進行大規模商業化改良,大幅降低成本,推動技術走向普及。
而云天勵飛,正是希望在人工智能時代,成為人類第一次智能革命中的“瓦特”和“愛迪生”。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.