![]()
芯東西(公眾號:aichip001)
作者 ZeR0
編輯 漠影
芯東西2月25日報道,2月24日,由兩位前谷歌工程師創辦的美國AI芯片創企MatX宣布完成5億美元(約合人民幣34億元)B輪融資,其大模型芯片MatX One預計一年內完成流片。
據外媒報道,MatX透露其目前的估值已達數十億美元,也就是已躋身獨角獸行列。
MatX宣稱MatX One能實現遠超其他芯片的吞吐量,同時延遲也最低。這款芯片基于可分割的脈動陣列,兼具大型脈動陣列出色的能效和面積效率,同時在小型矩陣上也能實現高利用率。
據MatX披露,該芯片結合了SRAM優先設計的低延遲和HBM的長上下文支持。這些特性加上對數值計算的新詮釋,使其在大語言模型上的吞吐量高于任何已發布的系統,同時延遲與SRAM優先設計相當。
MatX的測試表明,根據每平方毫米的計算性能指標,其規劃芯片的性能可以超越英偉達即將推出的Rubin Ultra。
2022年,MatX由Reiner Pope和Mike Gunter創辦,目標打造一款最適合大語言模型的芯片。
Reiner Pope曾為谷歌的芯片和AI模型開發軟件,Mike Gunter曾是谷歌TPU的硬件工程師。
如今,MatX的團隊規模已發展到約100人。
由前OpenAI研究員Leopold Aschenbrenner創立的投資公司Situational Awareness與Jane Street領投了MatX的B輪融資。
在Aschenbrenner看來,MatX的芯片非常適合處理預訓練和強化學習,“它很有可能成為這一代最重要的AI芯片公司。”
前特斯拉AI總監、OpenAI聯合創始人Andrej Karpathy,以及Alchip、Marvell等供應鏈上的投資者也參與了本輪融資。
Andrej Karpathy在社交平臺上分享了他參投MatX的想法。
![]()
他認為,token需求激增,為大語言模型的底層內存和計算資源的合理配置提供了絕佳機會。一個根本且不易察覺的限制是,受限于芯片制造工藝,內存池會分為兩個完全不同的池(物理實現方式也不同):1)緊鄰計算單元的片上SRAM,速度極快但容量極低;2)片外DRAM容量很大,但內容難獲取。
此外,還有許多架構細節(例如脈動陣列)、數值計算等因素需要考慮。如何設計最優的物理基礎架構,并在大語言模型的核心工作流程(推理預填充/解碼、訓練/微調等)中合理配置內存和計算資源,以實現最佳吞吐量/延遲/成本比,這或許是當今最具吸引力且回報最高的智力難題之一。
“這一切都是為了快速、低成本地獲取大量token。可以說,最重要的工作流程(在緊湊的智能體循環中對長token上下文進行推理解碼)是目前兩種陣營(HBM優先的英偉達陣營和SRAM優先的Cerebras陣營)最難同時實現的。”Karpathy寫道。
官網顯示,對于大型100層MoE模型,MatX的AI芯片每秒可輸出超過2000個token,其橫向擴展互連能力可支持包含數十萬張芯片的集群。
![]()
當前,英偉達和谷歌的AI芯片都主要依賴HBM來處理訓練AI模型所需的大量計算。還有一些芯片公司采用靜態隨機存取存儲器(SRAM)來更快地處理單個用的查詢,以滿足日益增長的推理需求。
“我們的立場是,實際上可以在同一個產品中同時實現這兩點,而且這樣會得到一個更好的產品。”MatX創始人兼CEO Reiner Pope談道。
他在社交平臺X上回復網友說:“與其他HBM廠商不同,我們擁有足夠的SRAM和互連帶寬,足以支持將權重存儲在SRAM中。HBM中的key值對不會增加延遲,因為密集讀取可以預取,而稀疏讀取的數據量很小。除了內存系統之外,我們還擁有最高的FLOPS/mm2。”
據外媒報道,MatX預計在今年完成芯片的最終設計,并希望在2027年開始出貨。該公司計劃與臺積電合作生產該產品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.