![]()
芯東西(公眾號:aichip001)
作者 ZeR0
編輯 漠影
芯東西1月29日報道,近日,國內(nèi)AI芯片創(chuàng)企奕行智能分享技術路線及業(yè)務進展。其研發(fā)的國內(nèi)業(yè)界首款RISC-V AI算力芯片Epoch正在大規(guī)模量產(chǎn)出貨中。
該芯片在業(yè)界率先采用RISC-V + RVV(RISC-V向量擴展)指令集架構,結合自研的VISA(虛擬指令集)技術,兼顧了AI計算的通用性與專用性。
奕行智能成立于2022年1月,專注于新一代通用AI計算的芯片設計及解決方案,在2025年完成數(shù)億元A輪融資,累計融資已超過10億元。
該公司已推出數(shù)款AI芯片,最新一代AI計算芯片產(chǎn)品Epoch于2025年啟動量產(chǎn),目前在頭部系統(tǒng)廠商、互聯(lián)網(wǎng),數(shù)據(jù)中心及行業(yè)客戶均取得商業(yè)突破,斬獲巨額在手商業(yè)訂單,迎來規(guī)模化量產(chǎn)。
據(jù)奕行智能分享,Epoch系列產(chǎn)品及計算平臺解決方案2025年開始推向市場,反饋火爆。公司現(xiàn)金流健康,不斷持續(xù)融資,具備很強的造血能力,較早實現(xiàn)規(guī)模可觀的銷售收入,且從2023年以來每年銷售收入都以平均200%左右的速度在增長,公司資本化也在積極規(guī)劃中。
一、創(chuàng)業(yè)受特斯拉BEV算法啟發(fā),研發(fā)類TPU架構RISC-V AI算力芯片
奕行智能管理團隊創(chuàng)業(yè)念頭的萌芽,始于2021年特斯拉AI Day上發(fā)布的BEV算法。BEV算法的底層架構就是Transformer,也就是如今紅遍大江南北的大語言模型的基石。
創(chuàng)業(yè)后,奕行智能團隊在戰(zhàn)略上定位,一定要有自己的AI計算架構作為公司的技術靈魂,所以投入了大量的團隊資源和研發(fā)力量,圍繞Transformer的計算特點,構建了一套包括AI計算架構、AI編譯器以及相應的軟件工具鏈的核心技術棧。
在先后開發(fā)了兩代車載AI芯片并規(guī)模化量產(chǎn)的同時,順應大模型應用場景爆發(fā)式增長的趨勢,奕行智能團隊結合自研的AI計算架構,定義并開發(fā)了Epoch AI計算芯片。
Epoch采用了業(yè)界首款RISC-V +VISA雙融合通用AI計算架構。
該架構與TPU具備較強的相似性,例如同樣采用RISC-V內(nèi)核,并內(nèi)置了性能強大的雙脈動流水矩陣運算引擎及具備復雜矩陣數(shù)據(jù)處理與變換的4D DMA引擎。
根據(jù)奕行智能分享,DeepSeek等大模型廠商對下一代AI計算芯片的很多硬件性能要求,在其芯片中都有前沿布局,例如對分塊量化FP8計算的支持、對FP8累加精度達到34比特以上的精度要求的支持、在芯片中設計專門加速通信流的硬件專用單元、把硬件的縱向擴展和橫向擴展統(tǒng)一成一套網(wǎng)絡體系等。
除了支持傳統(tǒng)的多種浮點及整型數(shù)據(jù)類型以外,其AI芯片還支持DeepSeek所需的基于分塊量化的FP8計算精度,并支持NVFP4、MXFP4、MXFP8、MXINT8等前沿的數(shù)據(jù)格式,可高效釋放算力,大幅降低存儲開銷。
據(jù)其披露的實測產(chǎn)品性能,Epoch產(chǎn)品能和國際競品相比均有優(yōu)勢。在運行ResNet-50、BERT-Base、GPT-J、Llama 2等模型時,Epoch性能比競品高出25%~52%。
在FlashAttention-3等關鍵大模型融合算子,其算力利用率較競品具有明顯優(yōu)勢。
針對AI對算力的需求,奕行智能的方案有三大亮點:
- 規(guī)模化:采用先進芯片架構,實現(xiàn)更高算力密度,并通過ELink互聯(lián)技術支持大規(guī)模擴展;
- 效率提升:采用類TPU架構,兼顧高性能與高效率,并通過深度軟硬協(xié)同,提升算力使用效率;
- 生態(tài)創(chuàng)新:采用RISC-V + RVV開源指令集,賦予硬件靈活擴展能力,并基于軟硬件一體的Tile級動態(tài)調(diào)度架構,通過Tile語義的虛擬指令集提供更友好的編程界面。
![]()
在多芯互聯(lián)方面,奕行智能擁有自研的互聯(lián)技術方案ELink,可支持大規(guī)模互聯(lián)擴展。
ELink能與集成RoCEv2、SUE、EthLink、C-Link協(xié)議的交換設備和芯片進行無縫高效互聯(lián),支持800G/400G/200G可配置以太網(wǎng)標準協(xié)議,支持Scale up超大帶寬與超低延遲傳輸需求,支持全帶寬互聯(lián)等多種互聯(lián)拓撲,兼容內(nèi)存語義與DMA語義,并能配合交換側(cè)支持業(yè)界最前沿的在網(wǎng)計算功能。
二、“CUDA兼容”并非唯一答案,專用領域計算+Tile路線快速發(fā)展
現(xiàn)有AI計算芯片中,英偉達的GPGPU憑借SIMT架構具備強大并行計算能力,依賴強大的CUDA生態(tài),使得GPU成為當前業(yè)界占比最高的算力硬件形態(tài)。
產(chǎn)業(yè)界有不少采用類GPGPU架構的廠家,希望通過CUDA兼容的方式,獲得GPGPU的一部分市場份額。
但因為CUDA是英偉達深度軟硬件協(xié)同的產(chǎn)物,就好比CUDA是把針對英偉達硬件的“鑰匙”,只有用在英偉達的GPGPU上才能發(fā)揮其強大性能,所以CUDA兼容往往只能做到API層面的兼容,看上去很美,實際上卻存在普遍性的水土不服。
同時因為英偉達的硬件不斷往前演進,CUDA兼容可能會出現(xiàn)落后N卡許多年的尷尬之處。
![]()
另一方面,以谷歌TPU為代表的ASIC芯片采用SIMD架構,內(nèi)置針對矩陣運算等AI范式的專用加速單元,在性能與能效上具有比GPGPU更大的優(yōu)勢,但其過去的挑戰(zhàn)主要在于生態(tài)適配成本。
相較于已發(fā)展近20年的CUDA生態(tài),如何吸引開發(fā)者在專用硬件上進行高效編程,成為多數(shù)ASIC廠商面臨的共同問題。
而包括谷歌在內(nèi)的頭部ASIC廠商通過長期投入,已在生態(tài)適配方面取得顯著突破。
以TPU為例,其通過XLA編譯技術,不僅支持谷歌系的TensorFlow和JAX框架,也能適配主流開源框架PyTorch(該框架在全球機器學習開發(fā)應用中占比超過80%),從而有效降低了生態(tài)遷移門檻。
![]()
另一條提升編程友好性和開發(fā)效率的路徑,在于近年來興起的Tile(數(shù)據(jù)分塊)計算范式。AI計算中的數(shù)據(jù)往往具有規(guī)整性,基于Tile的編程模式更貼合這類計算特征,能夠提供更友好的編程接口,提升算子開發(fā)效率。
例如,DeepSeek已采用北大團隊開源的TileLang構建算子,并在新模型中以其作為精度基準;甚至英偉達也在CUDA 13.1中推出了基于Tile編程范式的編程界面CUDA Tile。
![]()
在TPU以極致能耗比搶占市場的同時,專用領域架構(DSA)設計思想也體現(xiàn)在GPU的迭代中。
英偉達在GPGPU中持續(xù)提升DSA的比例,從Volta架構首次引入Tensor Core,到Blackwell架構進一步擴大張量核心規(guī)模并加入針對Transformer的優(yōu)化引擎,體現(xiàn)出向領域定制化演進的趨勢。2025年12月,英偉達吸納AI推理芯片創(chuàng)企Groq的核心團隊,進一步加強在大模型推理定制化方面的布局。
國外巨頭積極布局,體現(xiàn)出DSA(ASIC)+Tile編程范式的興起會成為未來在算力領域的一種重要生態(tài)和力量,軟硬協(xié)同帶來的效率優(yōu)勢在AGI時代具有廣闊市場空間。
DSA與Tile編程范式的結合,也正是奕行智能產(chǎn)品的重要特點和重點布局卡位的技術方向。
三、3項核心技術創(chuàng)新:充分挖掘硬件算力,簡化軟件復雜度
奕行智能的解決方案采用業(yè)界首款RISC-V + VISA雙融合類TPU通用AI計算架構EVAMIND,兼顧高性能與高效率,實現(xiàn)算力密度與吞吐率雙重提升,原生支持卷積指令,契合深度學習演進趨勢。
區(qū)別于傳統(tǒng)的GPGPU和NPU架構,其解決方案擁有3項核心技術創(chuàng)新:
![]()
1、RISC-V開放計算標準
奕行智能率先采用RISC-V+RVV(RISC-V向量擴展)構建AI芯片架構。
RISC-V指令集圖靈完備,保障了通用計算能力,同時其模塊化設計允許廠商自由擴展專用AI計算指令,自定義高效的張量計算加速、超越函數(shù)、數(shù)據(jù)搬運等指令。
RVV原生支持復雜向量計算,支持多種數(shù)據(jù)類型的混合精度計算。
RISC-V有全球生態(tài)基礎,支持RVV 1.0全球標準。谷歌從TPUv5開始采用RISC-V指令集,高通、Meta均收購高性能RISC-V芯片企業(yè),反映出發(fā)展RISC-V已成為科技巨頭的共識。
奕行智能團隊認為,RISC-V是當前最適合構建AI處理器的指令集架構。其特點包括:
- 開放的圖靈完備指令:天然支持復雜控制流,可避免NPU的靈活性短板;
- RVV向量優(yōu)勢:天然契合AI張量計算,掩碼操作原生支持稀疏矩陣;
- 成熟生態(tài)借力:GCC/LLVM主流編譯器已完全支持,主流AI框架正在積極適配;
- 定制化潛力:允許在標準之上擴展專用指令,完美平衡通用性與專用性。
Epoch芯片中的EVAMIND AI內(nèi)核集成多組RISC-V高性能核:
- RISC-V標量計算引擎負責核內(nèi)計算和控制,支持雙發(fā)射核內(nèi)的VISA指令發(fā)射及調(diào)度運行;
- RISC-V向量加速引擎中,圖靈完備的高性能RVV向量加速RV核,超寬的D-length及I-Length利用RVV擴展技術對AI常用的超越函數(shù)硬件指令化,大幅提升AI計算性能。
在SoC頂層,其芯片集成多組片上RISC-V高性能核,擁有芯片級的調(diào)度和控制,以及專用的通信流加速CPU Cluster。
2、VISA虛擬指令架構
奕行智能獨創(chuàng)的虛擬指令(VISA)技術在軟件與硬件之間建立中間抽象層,讓上層的算子及AI編譯器軟件建立在VISA之上,硬件實現(xiàn)了VISA宏指令的順序發(fā)射、亂序執(zhí)行,從而隔離硬件變化對上層軟件的沖擊,有效解決軟件兼容與適配性挑戰(zhàn),巧妙地兼顧了計算通用性與效率,滿足了AI計算所需的抽象。
同時,VISA抽象也降低了AI編譯器與算子的實現(xiàn)難度,提供額外的性能優(yōu)化空間。
該架構可解決三大行業(yè)痼疾:
(1)隔離硬件迭代差異:不同代際芯片存在指令增減、計算單元大小變化、緩存層次及容量變化,為軟件兼容與適配性帶來挑戰(zhàn)。VISA作為中間抽象層可以讓上層算子及編譯器建立在此抽象上,隔離硬件變化對上層軟件帶來的沖擊。
(2)計算的擴展能力:軟件算法持續(xù)更新迭代,對架構計算的可擴展能力是很大的挑戰(zhàn)。EVAS架構在硬件層面通過RVV的向量定制指令提供硬件擴展能力,同時VSA將細粒度指令封裝并優(yōu)化成性能高的微內(nèi)核,提供了軟件層面的向量計算擴展能力,這樣一套軟硬結合的方式解決了通用與效率的兼顧。
(3)解決AI編譯的陡降問題:在AI計算中,將高級的Tensor操作直接編譯到底層SIMD指令時,由于兩者抽象層級差距巨大,會導致嚴重的編譯困難,性能損失。VISA通過使用軟流水、循環(huán)展開方式進行極致優(yōu)化,編譯器及算子實現(xiàn)只需關注到這個層級,簡化了實現(xiàn)難度。
3、Tile級動態(tài)調(diào)度架構
在AI場景下,數(shù)據(jù)大多是比較規(guī)則的,無需太多靈活性。因此,基于Tile的編程模式逐漸興起。
奕行智能獨創(chuàng)的Tile級動態(tài)調(diào)度架構由Tile級虛擬指令集、智能編譯器和硬件調(diào)度器組成,原生適配Tile生態(tài)范式,能夠?qū)崟r適配硬件行為,充分挖掘并行潛力,突破靜態(tài)優(yōu)化的天花板,編程也更為干凈簡潔。
該架構的自動管理指令間依賴、指令順序流水和內(nèi)存切分,大大提高了編程易用性。
![]()
結語:軟件平臺兼容主流AI框架,正與Triton社區(qū)推進重要RISC-V合作
從技術路線來看,奕行智能與現(xiàn)有主流AI芯片的設計思路,既有與專用AI芯片架構的共通之處,又不乏差異點。
最顯著的差異當屬采用RISC-V指令集架構來設計AI芯片,并基于前文所述的3項核心技術創(chuàng)新以及軟件工具鏈,來探索一種追求極致TCO的新型高性能AI加速方案。
奕行智能正在持續(xù)完善軟件棧及生態(tài)。
其軟件開發(fā)平臺采用了自研基礎軟件棧ETK+業(yè)界開源AI框架的方式提供的開放兼容解決方案,全面兼容主流AI框架,提供豐富的深度優(yōu)化高性能算子,并通過獨創(chuàng)的Tile級動態(tài)調(diào)度架構,突破傳統(tǒng)靜態(tài)調(diào)度模式的性能瓶頸,提高編程易用性。
![]()
生態(tài)方面,奕行智能正在積極與全球開源社區(qū)互動,也在與Triton國際社區(qū)構建一個重量級合作,把Triton編譯導流到RISC-V DSA后端,并將開源其虛擬指令集,合力打造針對RISC-V DSA的CUDA生態(tài),這對于RISC-V DSA整個產(chǎn)業(yè)的發(fā)展具有重要的戰(zhàn)略意義。
以TPU為代表的專用領域AI計算架構,以突出的能效比取得了市場成功。奕行智能的Epoch芯片,基于類TPU芯片架構,在國內(nèi)AI芯片的激烈競爭中,有望在這個領域中實現(xiàn)突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.