![]()
芯東西(公眾號:aichip001)
編譯 ZeR0
編輯 漠影
芯東西2月11日消息,據外媒今日報道,一家由00后創辦的神秘英國AI芯片創企Olix,已獲得2.2億美元(約合人民幣15億元)融資,估值超過10億美元(約合人民幣69億元),躋身獨角獸企業。
Olix(此前名為Flux Computing)成立于2024年3月,總部位于英國倫敦,由James Dacombe創辦,計劃開發比英偉達GPU更快、更便宜的AI芯片。
James Dacombe今年25歲,同時也是英國腦監測創企CoMind的創始人兼CEO。CoMind是他18歲時創立的,并已融資1億美元(約合人民幣7億元)。
![]()
▲James Dacombe
針對AI推理需求,Olix正在打造一種新型AI芯片,目標是高吞吐量和高交互性,以應對最苛刻的推理工作負載,并且不受當今AI芯片的架構和供應鏈限制。
Olix光學張量處理單元(OTPU)是一款采用新型存儲器和互連架構的光學數字處理器。
其團隊相信,將SRAM架構與光子學相結合,可以在每兆瓦吞吐量和總擁有成本方面超越基于HBM的架構,并且在交互性和延遲方面顯著優于純硅SRAM架構。
該公司已累計獲得2.5億美元(約合人民幣17億元)融資。據知情人士透露,Olix希望最早明年向客戶交付首批產品。這家初創公司拒絕就其融資事宜置評。
Vertex Ventures普通合伙人、前Facebook基礎設施高管Jonathan Heiliger認為,AI推理需要對芯片的制造方式進行徹底的重新思考,系統級架構的大規模重構極其困難,“James和他的團隊的執行速度比擁有十倍資源的公司還要快。”
目前英國芯片公司的融資規模遠遠落后于美國。另一家英國AI芯片創企Fractile昨日宣布,計劃在未來三年投資1億英鎊(約合人民幣9億元),以擴大在其在英國本土的業務。
Olix在官網分享了其芯片設計思路:
現有GPU架構已接近物理極限,當前硬件從根本上來說無法同時為每個用戶提供快速推理。
這種權衡取舍是自TPUv2和V100以來所有主流加速器所采用的內存架構固有的——一個大型邏輯芯片放置在中介層上,旁邊是堆疊的HBM內存。
只有將大量用戶的數據批量處理,充分利用計算資源,并將模型權重通過HBM傳輸到大量輸出token的能耗??分攤,才能實現每個XPU和每兆瓦的高吞吐量。
但大批量處理必然會增加每個用戶的延遲,降低交互性,迫使用戶做出艱難權衡。
推理性能受限于數據傳輸。因此,邏輯效率(FLOPs/W)和吞吐量(每個封裝的FLOP)的持續提升帶來的收益遞減。數據傳輸時間的縮短受到內存墻以及封裝互連邊界長度和封裝尺寸限制的制約。
雖然從HBM2到HBM4的過渡在能效和吞吐量密度方面都取得了顯著提升,但要再次實現如此巨大的改進需要近十年時間,并且需要更加復雜和昂貴的制造技術。
HBM性能提升帶來的能效提升有限,不可避免限制了每個token傳輸KV cache所需的 pJ/bit 能量,從而也限制了當前架構中token總能耗的下限。
過去十年,這種架構擴展提升了系統的整體性能,但進一步擴展無法同時實現高吞吐量和高交互性。從英偉達Hopper到Rubin Ultra,封裝尺寸大約增長了4倍。再增長4倍將接近晶圓級封裝的極限。
更大的封裝可以縮短數據傳輸時間并提高交互性,但無法降低固定數據傳輸延遲。因此,阿姆達爾定律限制了未來通過進一步增大封裝尺寸來提升交互性的可能性。
數據從HBM經由中介層進入計算單元的物理路徑并未發生根本性改變,但隨著跨光罩高帶寬接口的引入,其復雜性卻日益增加。
因此,以每次緩存命中或未命中時間衡量的數據傳輸延遲已接近或達到極限,并逐漸成為每個token延遲中越來越重要的組成部分。
雖然可以通過更大層的張量并行性進一步縮短每層的數據傳輸時間,但這會增加功耗和互連延遲。
此外,高吞吐量編碼方案也會引入編碼和解碼延遲,進一步提高每個token的最低延遲,并限制可實現的交互性。
如果可以通過規模、集成或執行來解決這一權衡問題,那么當今計算生態系統的核心企業將是做這件事的主體。由于預付了數十億美元以確保獲得領先的邏輯節點、HBM和先進封裝能力,這類公司將在軟件、系統集成和供應鏈方面擁有巨大的護城河。
每一代都加倍強化這種方法。系統規模越來越大,集成度越來越高,目標也越來越遠大。絕對性能持續提升,但底層限制卻始終不變,因此仍然無法同時實現高交互性和高吞吐量。
能夠同時提供高吞吐量和高交互性的硬件,必須同時解決大規模數據傳輸效率和延遲問題。任何僅改善其中一個維度的方法都只是改變了權衡的本質。
Olix團隊認為,從供應鏈和制造角度來看,新的架構必須放棄高密度金屬薄膜(HBM)、先進封裝或其他任何受現有廠商供應鏈限制的技術。即便是最大的超大規模數據中心運營商都難以確保產能,初創公司根本無法與之競爭。
從兼容性角度來看,硬件必須支持現有模型。它不應強制要求現有模型具備量子算術能力/物理理論能力,也不應要求采用新的熱力學神經擬態架構,即使這種架構承諾在理論上有所改進。
從設計角度來看,實現這一目標需要系統級思考,從光罩級和晶圓級設計轉向機架級計算和數據傳輸的協同設計,將其作為一個單一的統一系統。
這個領域不乏資金雄厚的挑戰者,但他們都陷入了同樣的兩種失敗模式。
有些芯片仍然采用邏輯芯片-中介層-HBM架構范式,并且在與新一代GPU/TPU競爭時,仍面臨同樣的交互性-吞吐量權衡,而這些GPU/TPU采用的是老一代低端HBM和邏輯芯片。
另一些則做得不夠。他們認識到需要一種新的范式,試圖重新塑造交互性的權衡取舍,但無法擺脫這種權衡取舍,仍然受到僅限硅基方法的局限性的制約。
Olix團隊希望擺脫這些限制,創造前沿AI的下一個范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.