來源:市場資訊
(來源:DeepTech深科技)
2026 年 2 月 21 日,一家名為 Taalas 的芯片初創公司正式揭開面紗,發布了它的第一款產品:一顆將 Meta 的 Llama 3.1 8B 大語言模型幾乎完整“刻進”硅片的推理芯片 HC1。按照該公司公布的數據,這顆芯片在單用戶場景下可以跑到 17,000 tokens/s 的輸出速度,大約是目前市面上最快競品 Cerebras 的近 9 倍,是 Nvidia Blackwell 架構 GPU 的近 50 倍。構建成本據稱只有同等 GPU 方案的二十分之一,功耗低一個數量級。
![]()
圖丨TaalasHC1(來源:Taalas)
不過這顆芯片的局限也非常明顯,那就是它只能跑 Llama 3.1 8B。要想換個模型?就只能再造一顆芯片。
這是 AI 芯片行業迄今為止最激進的專用化嘗試,沒有之一。
當前主流的推理部署依賴 GPU,尤其是 Nvidia 的 H100/H200 和最新的 Blackwell 系列。GPU 的優勢在于通用性和成熟的軟件生態,但它的架構天然存在一個瓶頸:計算單元和存儲單元是分離的。模型的參數存儲在 HBM(High Bandwidth Memory,高帶寬內存)中,計算核心每次運算都需要從 HBM 搬運數據,這個搬運過程消耗大量能量和時間。
為了緩解這個問題,整個行業在先進封裝、3D 堆疊、液冷散熱、高速互聯等方向上投入了巨大的工程資源。Nvidia 的 GB200 NVL72 機柜級系統就是這種路線的極致體現:72 顆 GPU 通過 NVLink 互聯,單機柜功耗接近 120 kW,需要液冷支持,造價以百萬美元計。
![]()
(來源:Taalas)
Taalas 的做法是把這套復雜性連根拔掉。
他們的核心思路可以概括為三個詞:全面專用化、存算合一、極度簡化。HC1 芯片采用 Mask ROM(掩模只讀存儲器)工藝將模型權重直接編碼在芯片的金屬互連層中,和計算邏輯共存于同一塊硅片上,不再需要外部 DRAM 或 HBM。芯片上保留了一小塊 SRAM(Static Random-Access Memory,靜態隨機存取存儲器),用于存放 KV Cache(鍵值緩存,Transformer 推理時緩存歷史注意力信息的數據結構)和 LoRA(Low-Rank Adaptation,低秩適配)微調權重,提供有限的靈活性,但整體架構的可編程性幾乎為零。
據報道,HC1 基于臺積電 N6 工藝制造,芯片面積 815 mm2,接近光罩極限(reticle limit),單顆芯片即可容納完整的 8B 參數模型。功耗約 250W,10 塊 HC1 板卡裝進一臺服務器總功耗約 2.5 kW,可以在標準風冷機架中運行。這和動輒數十千瓦、必須上液冷的 GPU 服務器差別很大。
Taalas 的 CEO Ljubisa Bajic 是 Tenstorrent 的聯合創始人,曾擔任該公司的 CEO 和 CTO。Tenstorrent 是 AI 芯片領域另一家知名初創企業,走的是基于 RISC-V 架構的可編程 AI 加速器路線,后來由芯片行業傳奇人物 Jim Keller 接任 CEO 并繼續發展。Bajic 離開 Tenstorrent 后大約在 2023 年中創立了 Taalas,走了一條和 Tenstorrent 幾乎完全相反的路:不追求通用性,而是把專用化推到極端。目前,Taalas 團隊規模約 25 人,累計融資超過 2 億美元,但據 Bajic 本人披露,第一款產品實際只花費了約 3000 萬美元。
![]()
圖丨LjubisaBajic(來源:Tenstorrent)
Taalas 的芯片定制流程借鑒了 2000 年代早期結構化 ASIC(Application-Specific Integrated Circuit,專用集成電路)的思路。結構化 ASIC 通過固化門陣列和硬化 IP 模塊,只修改互連層來適配不同工作負載,在成本和性能上介于 FPGA(Field-Programmable Gate Array,現場可編程門陣列)和全定制 ASIC 之間。
Taalas 的做法類似但更進一步:每次為新模型定制芯片時只需更換兩層掩模,這兩層掩模同時決定模型權重的編碼和數據在芯片內部的流動路徑。Bajic 表示,從拿到一個新模型到生成 RTL(Register Transfer Level,寄存器傳輸級描述)大約只需要一周的工程工作量,整個從模型到芯片的周期目標是兩個月。
這個兩個月的周轉速度如果能穩定實現,意味著什么?意味著當一個模型在生產環境中被驗證有效、用戶粘性足夠高、預計至少運行一年時,Taalas 可以在較短時間內為它制造專用硅片,以遠低于 GPU 的成本和功耗來提供推理服務。Bajic 承認,這種模式要求客戶對某個特定模型做出至少一年的承諾,“肯定有很多人不愿意,但會有人愿意”。
那么,這種極端專用化能擴展到更大的模型嗎?Taalas 給出了他們對 DeepSeek R1 671B 的模擬數據。671B 參數的模型需要大約 30 顆芯片協同工作,每顆芯片承載約 20B 參數(采用 MXFP4 格式,并將 SRAM 分離到獨立芯片以提高密度)。30 顆芯片意味著 30 次增量流片,但 Bajic 指出由于每次只改兩層掩模,增量流片成本并不高。
模擬結果顯示,這套 30 芯片系統在 DeepSeek R1 上可以達到約 12,000 tokens/s/user,而當前 GPU 最優水平大約在 200 tokens/s/user。推理成本約 7.6 美分/百萬 token,不到 GPU 吞吐優化方案的一半。
這些數字當然還停留在模擬階段。實際多芯片系統面臨的互聯、同步、良率等工程挑戰不可小覷,30 顆大面積芯片協同工作的驗證復雜度也是指數級增長的。Bajic 自己也提到,因為芯片完全不可編程,“出錯的余地基本為零”,唯一能建立信心的方法就是在流片前對整個模型進行完整的仿真——如何在合理時間內完成 30 顆芯片的聯合仿真,本身就是一個巨大的工程問題。Taalas 聲稱已經建立了可以在大規模計算集群上運行的仿真流程來應對。
還有一個值得關注的細節是,HC1 使用了自定義的 3-bit 基礎數據類型進行激進量化,結合 3-bit 和 6-bit 參數,會帶來相對于標準量化模型的質量損失。Taalas 對此并未回避,承認模型在質量基準測試中會有退化。他們的第二代硅平臺 HC2 將采用標準 4-bit 浮點格式以改善這一問題。第二款產品預計是一個中等規模的推理模型,計劃今年春季在實驗室完成,隨后接入推理服務。基于 HC2 平臺的前沿大模型則計劃冬季部署。
當前 AI 推理芯片市場大致可以按專用化程度排列成一個光譜:一端是 Nvidia GPU 這樣的高度通用方案;中間是 Groq、Cerebras、SambaNova 等,它們設計了針對 LLM 推理優化的定制架構,但仍保留可編程性,能運行多種模型;Etched 更往前走一步,專門針對 Transformer 架構設計芯片,犧牲部分靈活性換效率;而 Taalas 直接站在了最末端,把一個特定模型焊死在硅片里。
![]()
(來源:Gemini生成)
這種極端策略的風險很明顯。AI 領域模型迭代速度極快,去年的前沿模型今年可能就被淘汰。如果一顆芯片只能跑一個模型,而那個模型在芯片壽命結束前就過時了,投資就打了水漂。這也是 Bajic 所說的“為什么之前沒人敢走到這個角落”。但他認為隨著行業成熟,總有一些模型在實際業務中被長期使用。Taalas 產品副總裁 Paresh Kharya(此前曾在 Nvidia 長期任職)也對 EE Times 表示,對于在重要業務場景中運行的模型,用戶粘性可能持續一年甚至更久。
商業模式上 Taalas 還在摸索。Kharya 透露了幾種可能方向:自建基礎設施運行開源模型并提供 API 推理服務;直接向客戶出售芯片;或者與模型開發者合作,為他們的模型定制專用芯片供其自有推理基礎設施使用。哪種模式最終能跑通,取決于市場對這種極端專用化方案的接受程度。
不過從純技術角度來說,Taalas 的方案確實觸及了一個被主流路線忽略的設計空間。存算分離帶來的帶寬墻(memory wall)是當前推理硬件的核心瓶頸,而 Taalas 通過將權重以 Mask ROM 形式與計算邏輯同層集成,從根本上消除了這個瓶頸。代價是靈活性的徹底喪失,但如果應用場景允許這種剛性,換來的性能和成本優勢是實打實的。
Bajic 還透露,Taalas 能用單個晶體管同時存儲 4-bit 模型參數并完成乘法運算。他拒絕透露更多,但確認計算仍然是全數字的。如果屬實,這意味著 Taalas 在電路層面實現了一種極為高效的存內計算(Compute-in-Memory)機制,雖然不同于學術界討論較多的模擬存內計算方案,但目標一致:讓數據就地參與運算,不再搬來搬去。
硬接線芯片還帶來了一個意想不到的副產品:軟件棧的極度簡化。Bajic 說“軟件作為一個東西基本消失了”,公司只有一個工程師負責軟件棧,而且這人還兼顧其他工作。對比當前 GPU 推理系統中 vLLM、TensorRT-LLM、PagedAttention 等復雜軟件優化層的工程投入,這種簡化幾乎是降維式的。當然,這種簡化是以極端硬件專用化為前提的,不具有一般性。
Bajic 在博客中用 ENIAC 到晶體管的演化做類比,暗示當前以 GPU 數據中心為核心的 AI 基礎設施可能只是早期的“笨重原型”,未來終將被更高效的方案取代。這個類比有一定道理,但也不宜過度引申。GPU 數據中心的“暴力”不僅僅是硬件層面的,它背后是整個 CUDA 軟件生態、成熟的開發工具鏈和龐大的工程師社區。顛覆硬件容易,顛覆生態難。Taalas 的芯片或許在特定場景下擁有壓倒性的性能和成本優勢,但要成為主流路線的替代方案,需要的遠不止一顆跑得快的芯片。
不過,Taalas 可能也從未打算成為“替代方案”。Kharya 表示:“模型最優硅片不會取代滿是 GPU 的大型數據中心,但它會適合某些應用。”
參考資料:
1.https://taalas.com/the-path-to-ubiquitous-ai/
2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.