網易首頁 > 網易號 > 正文申請入駐

又一家AI芯片公司：另辟蹊徑挑戰英偉達

2026-02-20 11:48:03　來源: 半導體行業觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

向一組 AI 張量引擎添加大容量 SRAM 模塊，或者更進一步，采用此類引擎的晶圓級陣列，都能為 AI 推理提供強力加速。這一點已被 AI 新興企業 Cerebras Systems、SambaNova Systems（據傳英特爾在去年年底曾試圖收購該公司）、Groq（剛剛被英偉達以 200 億美元收購）以及 Graphcore（一年半前被軟銀以 6 億美元收購）在與英偉達和 AMD 的 GPU 對比中反復證明。

但今日正式走出隱身模式的初創公司 Taalas 表示，如果你真的想挑戰 AI 推理的極限，那么正確的做法是不再繞圈子，將訓練完成的 AI 推理權重直接編碼到芯片的晶體管中，并去掉那些為了讓計算引擎保持可靈活調整、以便企業不斷微調模型而附帶的所有軟件冗余。

通過這種方式，你還可以從根本上簡化 AI 設備的架構。并且，以 Taalas 所采用的方式，還能夠消除困擾所有串行和并行計算引擎 —— 尤其是 GPU 和 AI XPU—— 的計算與內存之間的壁壘。這些 GPU 和 AI XPU 不得不借助 HBM 堆疊 DRAM，以獲得與其浮點和整數性能相匹配的帶寬。

Taalas 成立已有兩年半時間，已通過三輪風險融資募集超過 2 億美元資金。該公司位于多倫多，這里是 AI 研究的熱門地區之一，同時也擁有大量芯片專業人才，包括 Tenstorrent 公司也坐落于此，而 Taalas 的三位創始人都曾在該公司任職。Ljubisa Bajic 是 Taalas 的聯合創始人兼首席執行官，他作為 Tenstorrent 的創始人而廣為人知。

不太為人所知的是，在互聯網泡沫之后，Bajic 曾花費數年時間在 Teralogic 和 Oak Technology 設計視頻編碼器，之后加入 AMD，并在工程部門逐級晉升，成為該公司面向 PC 和服務器的 CPU?GPU 混合芯片設計的架構師和高級經理。Bajic 曾在英偉達擔任一年高級架構師，之后重返 AMD 擔任了兩年集成電路設計總監，隨后創立了 Tenstorrent。2022 年秋天，當芯片界名人 Jim Keller 加入時，Bajic 決定離開。經過六個月的休整，他開始研究一種完全不同的 AI 推理計算思路，并在多倫多創立了 Taalas。

Lejla Bajic 是 Ljubisa 的妻子，擔任 Taalas 首席運營官。互聯網泡沫過后，她曾在 FPGA 廠商 Altera 擔任軟件工程師，之后加入加拿大 GPU 廠商 ATI（該公司于 2006 年 7 月被 AMD 以 54 億美元收購），并擔任高級工程師。多年來，Lejla Bajic 也在 AMD 工程部門逐級晉升，最終成為系統工程高級經理。她于 2017 年 10 月加入 Tenstorrent 擔任相同職務，并與丈夫一同離職。

Taalas 的第三位聯合創始人是 Drago Ignjatovic，他曾是負責 AMD APU 和 GPU 的高級設計工程師，并在 Ljubisa Bajic 離職創立 Tenstorrent 后接任其 ASIC 設計總監一職。九個月后，Ignjatovic 加入 Tenstorrent 擔任硬件工程副總裁，如今與 Bajic 夫婦共同創立 Taalas 并擔任首席技術官。

值得注意的是，曾擔任谷歌數據中心業務產品管理和營銷高級總監三年，之后擔任谷歌云 AI 基礎設施產品管理總監（負責 GPU 和 TPU 硬件及其軟件棧）的 Paresh Kharya，已加入 Taalas 擔任產品副總裁。該公司目前擁有 25 名員工，其中大部分是曾在 AMD、蘋果、谷歌、英偉達和 Tenstorrent 工作的工程師，擁有從芯片概念到系統落地的豐富經驗。截至今日發布，該公司僅投入 3000 萬美元用于研發，賬上仍有超過 1.7 億美元資金。

融合 ROM 與 SRAM，摒棄 HBM 與復雜 I/O

大多數好點子事后看來都顯而易見。創建一個能夠承載 AI 模型權重和算法的數據流引擎，再將上下文和查詢輸入其中，這也并非新概念。在某種程度上，這正是 FPGA 和第一代 AI 加速器所做的事情，也是 GPU 以及 TPU、Trainium 等專用加速器所做的事情。

目前，Taalas 對其硬編碼推理（Hard Coded Inference）架構的具體工作原理保密，但 Bajic 和 Kharya 向我提供了該架構的高層概述。但在我們展開討論之前，和我們一樣熱愛歷史的 Kharya 展示了一張有趣的圖片，配文非常貼切：“萬變不離其宗”。請看：

左上角是 1961 年 IBM 7030 Stretch 超級計算機中用于連接晶體管計算單元的巨型銅纜，右下角是 1946 年采用真空管的 ENIAC 超級計算機的一排排機柜，后者最終衍生出 Sperry Rand 計算機業務（如今屬于 Unisys）。

這個玩笑的意思是，當年我們使用巨型銅纜，每機架功耗 150 千瓦，而隨著 GPU 和 XPU 的演進，我們仿佛又回到了過去。（不要過度解讀 —— 這只是個玩笑。）

那么，確切地說，什么是硬編碼推理芯片，它又是如何工作的？

Kharya 這樣解釋道：

“我們擁有一種基本架構，在這種架構中我們嵌入模型，將模型和權重硬編碼到我們所謂的掩膜 ROM 召回結構中，該結構與 SRAM 召回結構配對。兩者結合，既能夠存儲模型，也能夠完成 KV 緩存的所有計算。我們擁有適配器和定制化能力 —— 這些我們全部支持。這種設計使我們在計算和存儲方面實現超高密度，并且能夠在該存儲上以極快速度執行計算，這正是提升密度、降低成本的關鍵。”

“在當前一代產品中，我們芯片的硬編碼部分可支持 80 億參數，再加上用于實現 KV 緩存、微調等適配功能的 SRAM。在我們的下一代產品中，單顆芯片將能夠支持高達 200 億參數。即便面對萬億級參數模型，我們也只需要幾十顆芯片，與目前市場上的任何其他方案相比，數量都非常非常少。”

在不透露具體架構細節的情況下 ——Taalas 目前希望將其保持為一定程度的黑盒 ——Bajic 補充道：

“我們針對掩膜 ROM 召回結構 —— 也就是硬編碼部分 —— 設計了一套方案，能夠僅用一顆晶體管存儲 4 比特數據，并完成與之相關的乘法運算等所有操作。因此密度極其驚人。這并非核物理技術，而是純數字電路。這只是一個我們暫不希望公開的巧妙設計。但一旦將所有內容硬編碼，你就可以采用與需要支持動態修改完全不同的布局方式。重要的是，我們能夠在一顆晶體管中存儲一個權重并完成與之相關的乘法運算。而你知道，乘法器是計算單元中的核心部分。”

“我們所發明的東西也并非特別困難。這只是一個沒人想到的巧妙思路，因為沒有人走過這條路。我們兩年多前就開始了這項工作，希望徹底消除內存與計算之間的壁壘。這就是整個項目的起源。當時，我們想到的第一種方法 —— 也是我們當時認為唯一能夠在可預期時間內產出產品的方法，因為我們不想成為只做研究的教授，三年后做出無法使用的東西 —— 就是迅速轉向這種基于 ROM 的方案。我們開始詳細研究，隨后發現這種方案實際上比我們想象的還要好。”

“實際上，所有這些東西我們都是在內部從零開始設計的。我們沒有使用任何現成組件，做了大量晶體管級設計和手動布局 —— 基本上，我們的整個研發模式回歸到了上世紀 70 年代。”

顯而易見的是，模型的每一次更新，例如從 Llama 3.1 升級到 Llama 4，都需要重新流片一代 HC 芯片。目前，Taalas 專注于將開源模型的權重蝕刻到其 HC 芯片上，但不難想象 Anthropic 和 OpenAI 會主動聯系，為其模型訂購定制加速器。甚至谷歌也可能愿意嘗試。順便說一句，據我們所知，Taalas 已在 Bajic 名下申請了 14 項專利覆蓋其技術；實際數量可能更多，因為專利檢索效果很差 —— 即使是谷歌專利也是如此。

在 HC 推理引擎上蝕刻新模型只需要修改 HC 芯片設計中的兩層金屬層，而不是完全推翻重來。鑒于模型訓練成本高達數十億美元，支付相對象征性的費用將 HC 推理引擎適配新版模型或全新模型，并不是什么大問題。Kharya 表示，訓練一個模型的成本是從 Taalas 批量定制一顆定制化 HC 芯片成本的 100 倍。

或許同樣重要的是，主流模型版本之間的發布周期正在拉長，用戶也越來越依賴現有模型 —— 例如，當 OpenAI 將用戶從 GPT 4.5 遷移到 GPT 5 時，就引發了大量不滿，因為新版模型顯得有些刻意迎合。鑒于此，訂購數十萬到數百萬片 HC 推理引擎可能是合理的選擇。

借助 Taalas 與臺積電共同打造的 “晶圓廠最優工作流”，客戶可以在兩個月內將模型權重轉化為可部署的 PCI?Express 卡并實際執行推理。

第一代 HC1 芯片采用臺積電 6 納米 N6 工藝制造。其面積為 815 平方毫米，已接近當前芯片的光罩極限（在我們轉向高數值孔徑工藝將光罩尺寸減半之前，而這一點并不理想）。每顆 HC1 芯片在封裝內集成 530 億個晶體管，其中極有可能大部分用于 ROM 和 SRAM。Bajic 表示，單張 HC1 卡功耗約為 200 瓦，一臺搭載十張 HC1 卡的雙路 X86 服務器整機功耗為 2500 瓦。

順便說一句，由于 HC1 卡速度極快，實現低延遲推理不需要對查詢進行批處理，這意味著 Taalas 設備的帶寬壓力很低。低到如果你想將多張卡組合運行更大模型，PCI?Express 總線就足夠了。Taalas 將在今年晚些時候允許客戶通過流水線并行將任務分配到多張 HC 卡上運行。事實上，到今年夏季，該公司將推出硬編碼 200 億參數 Llama 3.1 模型的 HC 芯片；到今年年底，將推出前沿級大語言模型 —— 可能是 Llama，可能是 DeepSeek，也可能兩者都支持 —— 通過多張 HC 卡集群運行推理。該架構將被命名為 HC2。

那么，Taalas HC1 卡到底有多快、多便宜？我們來看一看，首先是 Artificial Analysis 評估的 Llama 3.1 8B 模型最新吞吐性能：

HC1 的這些初始性能結果由 Taalas 自行測試，而非 Artificial Analysis，但你可以通過此鏈接試用聊天機器人演示，并通過另一鏈接申請開發者 API 權限進行自行測試。

其與英偉達 “布萊克韋爾” B200 GPU（Taalas 自行測試的數據）存在相當大的差距，甚至與 Groq、SambaNova 和 Cerebras 采用高 SRAM 容量 AI 計算引擎所能提供的性能也存在顯著差距。

為了好玩，Taalas 選用 Llama 3.1 8B 和 DeepSeek R1 671B 模型，將英偉達 B200 與其 HC 卡進行了對比。（我們猜測，在 Taalas 系統上運行 DeepSeek R1 671B 大約需要 35 張卡。）以下是它們的對比情況：

現在，你想知道的是吞吐率、延遲和每 Token 成本，這張圖表將所有信息匯總在一起：

在 GPU 系統中，交互能力 —— 即你可以同時支持多少用戶發起查詢并獲得回答 —— 取決于你期望的延遲。如果你想要低延遲，就無法支持大量用戶；如果你想要更低成本，就必須以提高輸入或輸出 Token 處理延遲為代價。

正如你所見，在測試的這兩個模型上，Taalas 展示出低得多的成本和極低的延遲。

我們期待 HC 卡量產后的獨立測試，也期待 Taalas 為這些 AI 推理引擎制定的定價。這看起來無疑將顛覆 AI 推理行業。

https://www.nextplatform.com/2026/02/19/taalas-etches-ai-models-onto-transistors-to-rocket-boost-inference/

（來源：nextplatform ）

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4323期內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.