公眾號記得加星標??,第一時間看推送不會錯過。
向一組 AI 張量引擎添加大容量 SRAM 模塊,或者更進一步,采用此類引擎的晶圓級陣列,都能為 AI 推理提供強力加速。這一點已被 AI 新興企業 Cerebras Systems、SambaNova Systems(據傳英特爾在去年年底曾試圖收購該公司)、Groq(剛剛被英偉達以 200 億美元收購)以及 Graphcore(一年半前被軟銀以 6 億美元收購)在與英偉達和 AMD 的 GPU 對比中反復證明。
但今日正式走出隱身模式的初創公司 Taalas 表示,如果你真的想挑戰 AI 推理的極限,那么正確的做法是不再繞圈子,將訓練完成的 AI 推理權重直接編碼到芯片的晶體管中,并去掉那些為了讓計算引擎保持可靈活調整、以便企業不斷微調模型而附帶的所有軟件冗余。
通過這種方式,你還可以從根本上簡化 AI 設備的架構。并且,以 Taalas 所采用的方式,還能夠消除困擾所有串行和并行計算引擎 —— 尤其是 GPU 和 AI XPU—— 的計算與內存之間的壁壘。這些 GPU 和 AI XPU 不得不借助 HBM 堆疊 DRAM,以獲得與其浮點和整數性能相匹配的帶寬。
Taalas 成立已有兩年半時間,已通過三輪風險融資募集超過 2 億美元資金。該公司位于多倫多,這里是 AI 研究的熱門地區之一,同時也擁有大量芯片專業人才,包括 Tenstorrent 公司也坐落于此,而 Taalas 的三位創始人都曾在該公司任職。Ljubisa Bajic 是 Taalas 的聯合創始人兼首席執行官,他作為 Tenstorrent 的創始人而廣為人知。
不太為人所知的是,在互聯網泡沫之后,Bajic 曾花費數年時間在 Teralogic 和 Oak Technology 設計視頻編碼器,之后加入 AMD,并在工程部門逐級晉升,成為該公司面向 PC 和服務器的 CPU?GPU 混合芯片設計的架構師和高級經理。Bajic 曾在英偉達擔任一年高級架構師,之后重返 AMD 擔任了兩年集成電路設計總監,隨后創立了 Tenstorrent。2022 年秋天,當芯片界名人 Jim Keller 加入時,Bajic 決定離開。經過六個月的休整,他開始研究一種完全不同的 AI 推理計算思路,并在多倫多創立了 Taalas。
Lejla Bajic 是 Ljubisa 的妻子,擔任 Taalas 首席運營官。互聯網泡沫過后,她曾在 FPGA 廠商 Altera 擔任軟件工程師,之后加入加拿大 GPU 廠商 ATI(該公司于 2006 年 7 月被 AMD 以 54 億美元收購),并擔任高級工程師。多年來,Lejla Bajic 也在 AMD 工程部門逐級晉升,最終成為系統工程高級經理。她于 2017 年 10 月加入 Tenstorrent 擔任相同職務,并與丈夫一同離職。
Taalas 的第三位聯合創始人是 Drago Ignjatovic,他曾是負責 AMD APU 和 GPU 的高級設計工程師,并在 Ljubisa Bajic 離職創立 Tenstorrent 后接任其 ASIC 設計總監一職。九個月后,Ignjatovic 加入 Tenstorrent 擔任硬件工程副總裁,如今與 Bajic 夫婦共同創立 Taalas 并擔任首席技術官。
值得注意的是,曾擔任谷歌數據中心業務產品管理和營銷高級總監三年,之后擔任谷歌云 AI 基礎設施產品管理總監(負責 GPU 和 TPU 硬件及其軟件棧)的 Paresh Kharya,已加入 Taalas 擔任產品副總裁。該公司目前擁有 25 名員工,其中大部分是曾在 AMD、蘋果、谷歌、英偉達和 Tenstorrent 工作的工程師,擁有從芯片概念到系統落地的豐富經驗。截至今日發布,該公司僅投入 3000 萬美元用于研發,賬上仍有超過 1.7 億美元資金。
融合 ROM 與 SRAM,摒棄 HBM 與復雜 I/O
大多數好點子事后看來都顯而易見。創建一個能夠承載 AI 模型權重和算法的數據流引擎,再將上下文和查詢輸入其中,這也并非新概念。在某種程度上,這正是 FPGA 和第一代 AI 加速器所做的事情,也是 GPU 以及 TPU、Trainium 等專用加速器所做的事情。
目前,Taalas 對其硬編碼推理(Hard Coded Inference)架構的具體工作原理保密,但 Bajic 和 Kharya 向我提供了該架構的高層概述。但在我們展開討論之前,和我們一樣熱愛歷史的 Kharya 展示了一張有趣的圖片,配文非常貼切:“萬變不離其宗”。請看:
![]()
左上角是 1961 年 IBM 7030 Stretch 超級計算機中用于連接晶體管計算單元的巨型銅纜,右下角是 1946 年采用真空管的 ENIAC 超級計算機的一排排機柜,后者最終衍生出 Sperry Rand 計算機業務(如今屬于 Unisys)。
這個玩笑的意思是,當年我們使用巨型銅纜,每機架功耗 150 千瓦,而隨著 GPU 和 XPU 的演進,我們仿佛又回到了過去。(不要過度解讀 —— 這只是個玩笑。)
那么,確切地說,什么是硬編碼推理芯片,它又是如何工作的?
![]()
Kharya 這樣解釋道:
“我們擁有一種基本架構,在這種架構中我們嵌入模型,將模型和權重硬編碼到我們所謂的掩膜 ROM 召回結構中,該結構與 SRAM 召回結構配對。兩者結合,既能夠存儲模型,也能夠完成 KV 緩存的所有計算。我們擁有適配器和定制化能力 —— 這些我們全部支持。這種設計使我們在計算和存儲方面實現超高密度,并且能夠在該存儲上以極快速度執行計算,這正是提升密度、降低成本的關鍵。”
“在當前一代產品中,我們芯片的硬編碼部分可支持 80 億參數,再加上用于實現 KV 緩存、微調等適配功能的 SRAM。在我們的下一代產品中,單顆芯片將能夠支持高達 200 億參數。即便面對萬億級參數模型,我們也只需要幾十顆芯片,與目前市場上的任何其他方案相比,數量都非常非常少。”
在不透露具體架構細節的情況下 ——Taalas 目前希望將其保持為一定程度的黑盒 ——Bajic 補充道:
“我們針對掩膜 ROM 召回結構 —— 也就是硬編碼部分 —— 設計了一套方案,能夠僅用一顆晶體管存儲 4 比特數據,并完成與之相關的乘法運算等所有操作。因此密度極其驚人。這并非核物理技術,而是純數字電路。這只是一個我們暫不希望公開的巧妙設計。但一旦將所有內容硬編碼,你就可以采用與需要支持動態修改完全不同的布局方式。重要的是,我們能夠在一顆晶體管中存儲一個權重并完成與之相關的乘法運算。而你知道,乘法器是計算單元中的核心部分。”
“我們所發明的東西也并非特別困難。這只是一個沒人想到的巧妙思路,因為沒有人走過這條路。我們兩年多前就開始了這項工作,希望徹底消除內存與計算之間的壁壘。這就是整個項目的起源。當時,我們想到的第一種方法 —— 也是我們當時認為唯一能夠在可預期時間內產出產品的方法,因為我們不想成為只做研究的教授,三年后做出無法使用的東西 —— 就是迅速轉向這種基于 ROM 的方案。我們開始詳細研究,隨后發現這種方案實際上比我們想象的還要好。”
“實際上,所有這些東西我們都是在內部從零開始設計的。我們沒有使用任何現成組件,做了大量晶體管級設計和手動布局 —— 基本上,我們的整個研發模式回歸到了上世紀 70 年代。”
顯而易見的是,模型的每一次更新,例如從 Llama 3.1 升級到 Llama 4,都需要重新流片一代 HC 芯片。目前,Taalas 專注于將開源模型的權重蝕刻到其 HC 芯片上,但不難想象 Anthropic 和 OpenAI 會主動聯系,為其模型訂購定制加速器。甚至谷歌也可能愿意嘗試。順便說一句,據我們所知,Taalas 已在 Bajic 名下申請了 14 項專利覆蓋其技術;實際數量可能更多,因為專利檢索效果很差 —— 即使是谷歌專利也是如此。
在 HC 推理引擎上蝕刻新模型只需要修改 HC 芯片設計中的兩層金屬層,而不是完全推翻重來。鑒于模型訓練成本高達數十億美元,支付相對象征性的費用將 HC 推理引擎適配新版模型或全新模型,并不是什么大問題。Kharya 表示,訓練一個模型的成本是從 Taalas 批量定制一顆定制化 HC 芯片成本的 100 倍。
或許同樣重要的是,主流模型版本之間的發布周期正在拉長,用戶也越來越依賴現有模型 —— 例如,當 OpenAI 將用戶從 GPT 4.5 遷移到 GPT 5 時,就引發了大量不滿,因為新版模型顯得有些刻意迎合。鑒于此,訂購數十萬到數百萬片 HC 推理引擎可能是合理的選擇。
借助 Taalas 與臺積電共同打造的 “晶圓廠最優工作流”,客戶可以在兩個月內將模型權重轉化為可部署的 PCI?Express 卡并實際執行推理。
第一代 HC1 芯片采用臺積電 6 納米 N6 工藝制造。其面積為 815 平方毫米,已接近當前芯片的光罩極限(在我們轉向高數值孔徑工藝將光罩尺寸減半之前,而這一點并不理想)。每顆 HC1 芯片在封裝內集成 530 億個晶體管,其中極有可能大部分用于 ROM 和 SRAM。Bajic 表示,單張 HC1 卡功耗約為 200 瓦,一臺搭載十張 HC1 卡的雙路 X86 服務器整機功耗為 2500 瓦。
順便說一句,由于 HC1 卡速度極快,實現低延遲推理不需要對查詢進行批處理,這意味著 Taalas 設備的帶寬壓力很低。低到如果你想將多張卡組合運行更大模型,PCI?Express 總線就足夠了。Taalas 將在今年晚些時候允許客戶通過流水線并行將任務分配到多張 HC 卡上運行。事實上,到今年夏季,該公司將推出硬編碼 200 億參數 Llama 3.1 模型的 HC 芯片;到今年年底,將推出前沿級大語言模型 —— 可能是 Llama,可能是 DeepSeek,也可能兩者都支持 —— 通過多張 HC 卡集群運行推理。該架構將被命名為 HC2。
那么,Taalas HC1 卡到底有多快、多便宜?我們來看一看,首先是 Artificial Analysis 評估的 Llama 3.1 8B 模型最新吞吐性能:
![]()
HC1 的這些初始性能結果由 Taalas 自行測試,而非 Artificial Analysis,但你可以通過此鏈接試用聊天機器人演示,并通過另一鏈接申請開發者 API 權限進行自行測試。
其與英偉達 “布萊克韋爾” B200 GPU(Taalas 自行測試的數據)存在相當大的差距,甚至與 Groq、SambaNova 和 Cerebras 采用高 SRAM 容量 AI 計算引擎所能提供的性能也存在顯著差距。
為了好玩,Taalas 選用 Llama 3.1 8B 和 DeepSeek R1 671B 模型,將英偉達 B200 與其 HC 卡進行了對比。(我們猜測,在 Taalas 系統上運行 DeepSeek R1 671B 大約需要 35 張卡。)以下是它們的對比情況:
![]()
現在,你想知道的是吞吐率、延遲和每 Token 成本,這張圖表將所有信息匯總在一起:
![]()
在 GPU 系統中,交互能力 —— 即你可以同時支持多少用戶發起查詢并獲得回答 —— 取決于你期望的延遲。如果你想要低延遲,就無法支持大量用戶;如果你想要更低成本,就必須以提高輸入或輸出 Token 處理延遲為代價。
正如你所見,在測試的這兩個模型上,Taalas 展示出低得多的成本和極低的延遲。
我們期待 HC 卡量產后的獨立測試,也期待 Taalas 為這些 AI 推理引擎制定的定價。這看起來無疑將顛覆 AI 推理行業。
https://www.nextplatform.com/2026/02/19/taalas-etches-ai-models-onto-transistors-to-rocket-boost-inference/
(來源:nextplatform )
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4323期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.