國產,存算一體,基于 12nm 工藝制程,在 Int8 數據精度下實現高達 256TOPS 的物理算力,典型功耗低至 35W,能效比高達 7.3Tops/W,高計算效率、低計算延時、低工藝依賴……
這是5月10日 ,后摩智能正式發布的首款存算一體智駕芯片鴻途?H30的關鍵參數,是不是讓你眼前一亮?
![]()
△后摩智能創始人兼CEO吳強
這款芯片的關鍵詞有兩個——“存算一體”和“智駕”。
后者并不陌生,且已有特斯拉FSD、英偉達Orin、地平線征程5等代表產品。因此,想要在這些產品中留下印象,“存算一體”是關鍵。
1
什么是存算一體?
存算一體這個概念最早可以追溯到上個世紀,沒有很快興起主要有兩個原因:
一是當時存算一體雖然可以解決部分性能提升問題,但能解決的部分在整個系統中只占10%-20%,意義不大。更重要的一點是,過去幾十年摩爾定律還在持續被驗證,行業并不需要架構的創新,只需要每一到兩年升級一代芯片工藝,就能實現性能的快速提升和成本的同步降低。
但隨著摩爾定律逐漸走到盡頭,以及近幾年云計算和人工智能應用的快速發展,數據洪流撲面而來,數據搬運慢、搬運能耗大等問題成為了計算的關鍵瓶頸。
![]()
△馮諾依曼架構示意圖
在經典的馮諾依曼架構中,數據存儲與數據處理在物理上是兩個相互分離的單元,在數據處理過程中,處理器與存儲器之間需要不斷地通過數據總線交換數據。
從下圖不難看出,算力發展速度遠超存儲器,導致存儲器的數據訪問速度愈發跟不上處理器的數據處理速度,后者性能與效率受到嚴重制約,這就是我們常說的“存儲墻”。
![]()
△截圖來自《存算一體芯片技術及其最新發展趨勢》
另外,從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低。“功耗墻”,同樣成為了限制芯片發展的因素。
解決數據在計算單元和存儲單元之間頻繁的移動問題,成了深度學習加速的最大挑戰。
![]()
過去幾年,行業嘗試了多種方法,例如為了減少數據搬運的大粒度的指令(集)或專用指令(集)、訪存優化(替換/預取)、調度優化、內存/緩存壓縮、低擺幅電路、大緩存技術等;或是提高并行度的SIMD、SIMT、STMD、指令預測等技術;還有降低數據進度、使用新型封裝、器材或材料等方式,但都未能從根本上解決數據密集型算力的問題。
突破兩堵墻,依然是關鍵,此時,存算一體架構開始重入行業視野。
2
以場景做選擇
存算一體可以簡單從字面理解為在存儲單元中潛入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算,從本質上消除不必要的數據搬移的延遲和功耗,大幅提高AI計算效率,降低成本。
從實現路徑上,雖然沒有統一的定義,但根據計算單元與存儲單元的關系主要有查存計算、近存計算、存內計算和存內邏輯,而目前行業中使用最多的是近存計算和存內計算。
前者計算操作由位于存儲區域外部的獨立計算芯片/模塊完成,通過先進的封裝方式以及合理的硬件布局和結構優化,增強二者間通信帶寬,增大數據傳輸速率,進而提高數據處理效率。這種架構設計的代際設計成本較低,適合傳統架構芯片轉入。典型代表是AMD的Zen系列CPU,2021年年末,阿里達摩院推出基于SeDRAM的3D堆疊芯片也是采用了該技術路徑。
而存內計算由位于存儲芯片/區域內部的獨立計算單元完成,存儲和計算可以是模擬也可以是數字。
國外的Mythic,千芯、閃億、知存以及這次發布新產品的后摩智能都是這條路徑上的代表企業。
除了技術路徑,在存儲器選擇上,存算一體芯片也有兩個主要方向:
一、易失性存儲器,但在計算上具有突出的優勢的,主要有SRAM靜態隨機存儲器和DRAM動態隨機存儲器;
二、非易失存儲器,在芯片的成本上具有一定優勢的,主要有RRAM 阻變隨機存儲器、MRAM 磁性隨機存儲器、FeRAM 鐵電隨機存儲器、PCM 相變存儲器、FLASH 閃存等。
世上沒有完美的選擇,自然沒有一種存儲器具備在所有場景下的絕對優勢。因此,芯片企業存儲器件的選擇,以及數字存算還是模擬存算的選擇,都與應用場景密切相關。
![]()
△截圖來自《存算一體芯片技術及其最新發展趨勢》
對于把重點放在智駕的后摩,SRAM顯然是其最優解。
3
以新型架構擴展算力
根據后摩智能聯合創始人兼研發副總裁陳亮介紹,后摩面向智能駕駛場景打造了專用 IPU(處理器架構)——天樞架構,采用多核、多硬件線程的方式擴展算力。
一個芯片里有4個完全相同的IPU核,每個IPU核內部,又由4個完全相同的Tile組成,每個Tile對應一個或者多個硬件線程,每個Tile的內部又包括了CPU、Tensor Engine、Special Function Unit, DMA和Vector Processor等,其中Tensor Engine就是由存算電路和一個Feature Buffer,還有相應的一些控制電路組成,這些計算單元在CPU的統一調度下進行計算。
![]()
“在SRAM電路旁邊,我們加入了一些定制化的電路結構,包括乘法器、加法數、累加器等,這些定制化的電路結構和SRAM的電路整合在一起,就實現高效的存內并行計算。存儲器單元中存儲的數據,可以在同一時刻一起讀出來參與計算。” 陳亮解釋說,“定制化的乘加電路和傳統的SRAM Bit Cell電路完全融合在一起,帶來更加規整的電路結構,因而就有更緊湊的電路設計,面積也就相應減少了。不管是傳統的SRAM電路,還是定制化的計算電路,都是純數字的設計,因而不會有任何的計算誤差。”
現場,陳亮還展示了后摩智能存算一體電路的一些技術參數與業界5nm工藝的對比。后摩這款芯片在采用相對更成熟的12納米制程后,按陳亮的說法,實現了“既要馬兒跑,又讓馬兒少吃草”的結果。
“我們已經在28納米、22納米、16納米、12納米等不同工藝下進行過流片和測試。”
![]()
△后摩智能聯合創始人兼研發副總裁陳亮
據悉,目前鴻途?H30 已成功運行常用的經典CV網絡和多種自動駕駛先進網絡,包括當前業內最受關注的 BEV 網絡模型以及廣泛應用于高階輔助駕駛領域的 Pointpillar 網絡模型。以鴻途?H30 打造的智能駕駛解決方案已經在新石器的無人小車上完成部署,這也是業界第一次基于存算一體架構的芯片成功運行端到端的智能駕駛技術棧。
4
量產,漫長的季節
本次發布會,后摩智能同步推出了基于鴻途?H30 芯片打造的智能駕駛硬件平臺——力馭?,CPU 算力高達200 Kdmips,AI算力達256Tops(INT8物理算力),支持多傳感器輸入。官方介紹,力馭?平臺功耗僅為 85W,可采用更加靈活的散熱方式,實現更低成本的便捷部署,有利于推動大算力智能駕駛場景的普及應用。
此外,為了讓客戶擁有更好的產品使用體驗,后摩智能還基于鴻途?H30 芯片自主研發了一款軟件開發工具鏈——后摩大道?,支持 PyTorch、TensorFlow 、ONNX 等主流開源框架,編程兼容 CUDA 前端語法,同時支持 SIMD 和 SIMT 兩種編程模型,兼顧運行效率和開發效率,以無侵入式的底層架構創新保障了通用性的同時,進一步實現了鴻途?H30 的高效、易用。
據后摩智能聯合創始人兼產品副總裁信曉旭透露,鴻途?H30 將于6月份開始給 Alpha 客戶送測。同時,后摩智能的第二代產品鴻途?H50 已經在全力研發中,將于2024年推出,支持客戶 2025年的量產車型。
![]()
△后摩智能聯合創始人兼產品副總裁信曉旭
行業對大算力芯片需求的激增,給了后來者后摩智能迎頭趕上的空間,不到半年時間完成芯片流片、點亮到發布,后摩對于時代給予的機會展現出了十分積極的姿態。不過這還僅僅是開始,想要進汽車供應鏈,產品送測后還有定點、訂單、小規模試裝,然后才是規模量產,量產后還要看終端的銷量……過程中的變數依然很大。
另一個重大課題,就是讓每一家科技公司都頭痛的工程交付。就像發布會現場一位下游需求方說的,“存算一體是個新的方向和嘗試,但關鍵要看量產落地的能力。”
對于后摩,依然有一個“漫長的季節”,度過之后,將是另一片天地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.