網易首頁 > 網易號 > 正文申請入駐

24人團隊硬剛英偉達！AMD前高管夢之隊出手，新芯片每秒17000個token

2026-02-21 21:41:51　來源: 算法與數學之美

北京舉報

分享至

造芯片的還有高手？

剛剛推出的一款最新芯片，直接沖上硅谷熱榜。

峰值推理速度高達每秒17000個token。

什么概念呢？當前公認最強的Cerebras，速度約為2000 token/s。

速度直接快10倍，同時成本驟減20倍、功耗降低10倍。

這就意味著，LLM真正來到了亞毫秒級的即時響應速度。實機效果be like：

但這塊一夜之間刷屏硅谷的芯片，并非出自英偉達、AMD之手，而是一家成立僅兩年、團隊僅有24人的初創公司——Taalas。

芯片代號HC1，也是公司的首款產品。

不同于所有競爭對手，Taalas選擇了迄今為止最極端的技術方案——

模型不再加載到內存里，而是直接刻在硅片上。換言之，芯片即模型。

結果顯而易見，Taalas撬動了芯片算力護城河：H100買不到，試試HC1又何妨？

速度快10倍，功耗降至10分之一

HC1目前搭載Llama 3.1 8B模型，用戶每秒最高可生成17000 token/s，遠高于主流GPU/ASIC。

其中，在同一模型下Cerebras接近每秒2000個token，SambaNova約為每秒900個token，Groq約為每秒600個，英偉達Blackwell架構的B200為每秒350個。

具體來說，HC1采用臺積電N6工藝，面積為815mm2，體積小巧而且開源，單顆芯片即可滿足8B模型需求。

每顆芯片典型功耗僅為250W，一個服務器如果同時裝配10顆HC1，功耗也才2.5kW，可以直接使用常規空氣冷卻機架部署。

那么是如何做到這么大的性能飛躍的呢？

首先HC1借鑒了2000年代初期的結構化ASIC芯片理念。結構化ASIC芯片采用門陣列和固化IP，然后僅通過改變互連層就能使芯片適應特定的工作負載。

這樣下來，結構化ASIC芯片不僅比全定制ASIC更便宜，也比FPGA性能更優。

HC1則采用類似思路，不改變底層電路，只通過調整兩層掩模，就能低成本快速做出專用AI推理芯片。

它放棄了大多數可編程功能，將模型連同權重一起通過基于掩模ROM的調用架構存儲在芯片上，并保留一個可編程SRAM，用于保存微調后的權重（如LoRA）和KV緩存。其余則全部通過掩模ROM固化執行。

這一策略能在設計成本相對可控的前提下，實現模型到芯片的快速轉化，將芯片生產周期從原先的六個月縮短到兩個月。

而如此激進的量化方式勢必會影響性能，研究團隊也意識到了這一點，所以可以通過LaRA適配器進行重新訓練，以及可配置的上下文窗口，讓芯片的最低限度靈活性得以保留。

換句話說，就是將一個完整大模型通過物理硬連線進芯片中，省去了傳統存算分離的成本，用靈活性換取極致的速度和效率。

除了Llama 3.1，Taalas也嘗試將其它模型集成到HC1上，例如對DeepSeekR1-671B的多芯片解決方案。

將SRAM部分拆分到單獨的芯片上，然后可以將每片HC1的存儲密度提高到約20位參數，總計需要30個定制HC1。

整體處理速度可達到每用戶每秒12000個token，如果考慮到30顆芯片成本為每百萬token是7.6美分，那么該方案成本也不到同等吞吐量的GPU方案的一半。

假設GPU更新周期為四年，而HC1每年都需要重新更換，總成本也仍然具備優勢。

AMD前高管夢之隊

其背后的公司Taalas成立于兩年前，由AMD前集成電路設計總監Ljubi?a Baji?、AMD/ATI/Altera前技術經理和工程師Leila Baji?、AMD前ASIC設計總監Drago Ignjatovi?共同創立，堪稱AMD前高管夢之隊。

其中，Ljubi?a Baji?不僅曾在AMD和英偉達擔任高級職位，負責高性能GPU研發設計，還是Tenstorrent的創始人兼首任CEO。

新公司致力于開發專為AI推理和訓練設計的全新架構，強調分層設計和晶格網絡，能夠讓芯片像大腦一樣根據任務需求動態處理數據。

在2020年，芯片教父Jim Keller也強勢加入Tenstorrent，并接任CEO一職，而Ljubi?a Baji?轉任首席技術官CTO，專注于產品研發。

隨后，他又創立了Taalas，試圖通過類似硅基編譯器的方式，直接將AI模型轉化為硅芯片。

于是首戰告捷，一個僅有24名成員的團隊，產品投入僅3000萬美元，就創造出比通用AI芯片高出幾個數量級的能效比。

目前Taalas已籌集2億美元投資，預計將在春季基于HC1發布第二代變體，將集成一款中等規模的推理大模型。

隨后預計將在冬季部署上線HC2，HC2密度更高、運行速度也會更快。

不過對于HC1，網友們的評價卻是兩極分化。

一方面，網友認為HC1的超低延遲將有益于推動具身智能等領域發展。

另一方面，也有網友實測過后發現，HC1高速推理的背后，卻是糟糕的推理深度：

以及對于迭代周期相當迅速的大模型來說，HC1的硬編碼可能會使芯片很容易過時。

這也是為什么當前芯片廠商都在普遍推出通用型芯片的原因之一。

參考鏈接：
[1]https://x.com/wildmindai/status/2024810128487096357?s=20
[2]https://taalas.com/the-path-to-ubiquitous-ai/
[3]https://chatjimmy.ai/
[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

文章來源：量子位。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.