一家芯片新貴，組團(tuán)對抗英偉達(dá)

2025-12-24 09:55:13　來源: 半導(dǎo)體行業(yè)觀察

上海舉報

分享至

公眾號記得加星標(biāo)??，第一時間看推送不會錯過。

全球人工智能推理芯片初創(chuàng)公司數(shù)量驚人——真的非常驚人，足足有幾十家。但只有一家公司獲得了三大HBM堆疊內(nèi)存制造商中的兩家的投資，并得到了其所在國兩家最大電信公司的支持。考慮到能夠獲得HBM配額的公司可以打造數(shù)據(jù)中心人工智能加速器，盡管韓國初創(chuàng)公司Rebellions AI進(jìn)入這個領(lǐng)域的時間相對較晚，但或許它的時機(jī)恰到好處。

鑒于三星和 SK 海力士不僅為 Rebellions 提供 HBM 內(nèi)存，而且三星還是該公司的代工廠，這些都是 Rebellions 應(yīng)該能夠利用的優(yōu)勢，因為它不僅想在韓國銷售其 AI 加速器，還想向全世界銷售，而全世界都對矩陣數(shù)學(xué)非常著迷。

親眼目睹第一批人工智能初創(chuàng)公司——Groq、Cerebras Systems、SambaNova Systems、Graphcore、Nervana Systems 和 Habana Labs——都遇到了自身架構(gòu)和資金的限制，或者像 Nervana 和 Habana 那樣，消失在曾經(jīng)的巨頭英特爾的巨口中，從此銷聲匿跡，這并沒有什么壞處。

“我經(jīng)常說——第一只老鼠落入陷阱，第二只老鼠才能吃到奶酪，” Rebellions 的首席商務(wù)官M(fèi)arshall Choy告訴The Next Platform。

Choy曾在Sun Microsystems工作十二年，負(fù)責(zé)技術(shù)產(chǎn)品和解決方案工程。2010年Sun被Oracle收購后，他又在Oracle擔(dān)任工程系統(tǒng)方面的職務(wù)超過八年，因此他對互聯(lián)網(wǎng)泡沫以及互聯(lián)網(wǎng)技術(shù)回歸常態(tài)的過程非常了解。Choy也是SambaNova的創(chuàng)始團(tuán)隊成員之一，最初擔(dān)任產(chǎn)品副總裁，之后擔(dān)任首席客戶官，一個月前離開SambaNova加入Rebellions。

“說實(shí)話，第一代人工智能加速器缺乏靈活性和適應(yīng)性，所以從未在市場上取得巨大成功，”Choy繼續(xù)說道。“作為第二代加速器，我們是后起之秀，我們一直很有耐心。生態(tài)系統(tǒng)已經(jīng)發(fā)展成熟，我們正在戰(zhàn)略性地選擇進(jìn)入各個市場的時機(jī)，這降低了整體風(fēng)險。”

Rebellions 于 2020 年 9 月成立，最初的目標(biāo)是為高頻交易公司打造 AI 推理加速芯片。當(dāng)時，Rebellions 的計劃并非與英偉達(dá)、AMD 以及眾多來自超大規(guī)模數(shù)據(jù)中心、云平臺和模型構(gòu)建商的自研 AI 加速器展開競爭。但話說回來，英偉達(dá)最初也是以制造 3D 圖形芯片起家，之后才轉(zhuǎn)向更廣泛的 AI 市場，并在該領(lǐng)域深耕十余年。計劃趕不上變化，有時甚至?xí)h(yuǎn)超預(yù)期。

晨曦之地

（The Land Of The Morning Calm）

Rebellions 的總部位于首爾，首爾是韓國的首都和最大城市。韓國是工業(yè)和金融強(qiáng)國，也是世界第十四大經(jīng)濟(jì)體，預(yù)計 2025 年國內(nèi)生產(chǎn)總值將達(dá)到 1.86 萬億美元。（美國排名第一，預(yù)計為 30.6 萬億美元，其次是中國，為 19.4 萬億美元；歐盟的國內(nèi)生產(chǎn)總值約為 21.1 萬億美元，但顯然它由許多國家組成。）

該公司由四位聯(lián)合創(chuàng)始人組成，其中樸成鉉擔(dān)任首席執(zhí)行官。樸成鉉在韓國科學(xué)技術(shù)院獲得學(xué)士學(xué)位，之后在麻省理工學(xué)院獲得電氣工程和計算機(jī)科學(xué)雙碩士學(xué)位（輔修金融）。畢業(yè)后，樸成鉉曾在英特爾擔(dān)任高級研究科學(xué)家兩年，并在創(chuàng)立Rebellions之前，先后在三星移動擔(dān)任工程師，在SpaceX的星鏈部門擔(dān)任ASIC設(shè)計師，以及在摩根士丹利擔(dān)任超低延遲股票交易系統(tǒng)設(shè)計師。

吳鎮(zhèn)旭是公司的聯(lián)合創(chuàng)始人兼首席技術(shù)官。他本科畢業(yè)于首爾國立大學(xué)電氣工程專業(yè)，并在韓國科學(xué)技術(shù)院（KAIST）獲得高級學(xué)位。KAIST與韓國科學(xué)技術(shù)信息研究院（KISTI）在高性能計算（HPC）和人工智能（AI）研究領(lǐng)域有著緊密的合作關(guān)系。吳鎮(zhèn)旭曾在KAIST擔(dān)任研究員多年，與微軟和德州儀器合作，之后加入IBM研究院，主要研究方向為近似計算、粗粒度可重構(gòu)陣列和神經(jīng)網(wǎng)絡(luò)加速器。Rebellions的聯(lián)合創(chuàng)始人兼首席產(chǎn)品官金孝恩也畢業(yè)于KAIST，獲得電氣工程學(xué)位。他曾在Maxwave和三星電子擔(dān)任工程師，之后加入醫(yī)療設(shè)備制造商Lunit擔(dān)任首席產(chǎn)品官，并在公司創(chuàng)立之初加入Rebellions。最后一位聯(lián)合創(chuàng)始人申成浩也畢業(yè)于首爾國立大學(xué)，是一位人工智能和算法研究員。

Rebellions在2020年和2022年分別完成了A輪融資，共籌集了6100萬美元。2024年，該公司完成了由KT Corp（原韓國電信）領(lǐng)投的B輪融資，沙特阿美的風(fēng)險投資部門也參與了投資。C輪融資則由Arm Holdings（頗為巧合）領(lǐng)投，三星風(fēng)投、和碩聯(lián)合創(chuàng)投、韓國開發(fā)銀行、Korelya Capital、Kindred Ventures和Top Tier Capital也參與了投資。2024年12月，韓國電信旗下的人工智能初創(chuàng)公司Sapeon Korea與Rebellions合并，SK Telecom也因此成為Rebellions的投資者。Sapeon Korea此前曾獲得DRAM和HBM內(nèi)存制造商SK海力士的投資。合并后，Rebellions成為韓國首家人工智能芯片獨(dú)角獸企業(yè)，估值超過10億美元。其估值可能達(dá)到15億美元或更高。

事情是這樣的：SK Telecom 和 SK Hynix 都隸屬于 SK 集團(tuán)，SK 集團(tuán)是韓國第二大財閥。三星集團(tuán)是韓國最大的財閥。這兩家公司都投資了 Rebellions，并為其供應(yīng) HBM 內(nèi)存；三星是 Rebellions 的代工廠合作伙伴。

Rebellions公司最初采用臺積電7納米工藝制造用于高頻交易加速的Ion芯片，之后在后續(xù)的Atom AI推理加速器中轉(zhuǎn)向5納米工藝。目前我們關(guān)注的Rebel系列芯片（因為它們與英偉達(dá)和AMD的數(shù)據(jù)中心級GPU加速器競爭）采用的是三星4納米工藝——事實(shí)上，Rebellions公司正在推動三星的4納米工藝升級，因為IBM在其Power11處理器中沒有選擇4納米工藝，而是堅持使用三星改進(jìn)的7納米工藝。

近幾個月來，Rebellions 與 Arm 達(dá)成合作，成為其 Arm Total Design 生態(tài)系統(tǒng)的一部分。這將使基于 Neoverse 設(shè)計制造 Arm CPU 的公司能夠集成 Rebellions 的 Atom 或 Rebel AI 加速器，并利用三星即將推出的 2 納米工藝創(chuàng)建混合平臺。此外，Rebellions 還與 Marvell 合作，利用其信令 SerDes、芯片間互連和先進(jìn)封裝技術(shù)，為客戶（特別是亞洲、非洲或中東等地區(qū)的自主人工智能中心和區(qū)域性新云平臺）打造定制化的 AI 加速器。這些客戶可能需要購買不受美國出口管制限制的 AI 加速器。

而這最終將我們帶到了第三代 Rebel AI 推理芯片。

他們發(fā)出叛逆的吶喊，

高呼“Coarse Grained Cores”

在混合專家時代初期，Nvidia GPU、Google TPU 和 AWS Trainium 幾乎壟斷了 AI 訓(xùn)練，而推理又是人們試圖賺錢的領(lǐng)域，因此 Rebellions 將其 Rebel 和未來的芯片重點(diǎn)放在推理上也就不足為奇了。

Rebel芯片的架構(gòu)借鑒了其前身Atom芯片，具體來說，它采用了Oh在微軟公司開發(fā)的粗粒度可配置陣列（CGRA：coarse grained configurable array）處理單元設(shè)計方法，并將其與軟件定義片上網(wǎng)絡(luò)相結(jié)合。就像這樣：

采用這種方法，Rebellions 稱之為“神經(jīng)核心”的 Rebel 芯片上任意兩個處理單元之間的路由都是可編程的，這種網(wǎng)狀互連可以擴(kuò)展到多個芯片組，從而構(gòu)建規(guī)模越來越大的計算和存儲復(fù)合體。芯片內(nèi)部以及芯片組之間的路由和調(diào)度可以根據(jù)推理任務(wù)運(yùn)行時的流量模式進(jìn)行自我調(diào)整。

但CGRA架構(gòu)最實(shí)用的部分或許在于，神經(jīng)核心上的緩存、加載存儲單元、張量單元和向量單元都配備了輸入緩沖區(qū)（IBUF），這些緩沖區(qū)擁有自定義指令集，使其可編程。這意味著，在LLM推理的預(yù)填充階段，可以將神經(jīng)核心陣列編程為類似大型脈動陣列的計算密集型操作，將提示信息分解為鍵值對；然后在解碼階段，可以將其重新編程為更注重內(nèi)存帶寬的機(jī)器，以生成查詢的詞元響應(yīng)。如上圖所示，還存在一些中間階段。

簡而言之，CGRA 方法利用了 FPGA 的一些可編程性要素，而無需付出 FPGA 完全編程靈活性所帶來的效率損失。

與其他人工智能計算引擎一樣，Rebel芯片的神經(jīng)網(wǎng)絡(luò)核心也混合使用了多種計算引擎：

目前，Rebel 神經(jīng)網(wǎng)絡(luò)核心上每個計算單元的具體細(xì)節(jié)仍處于保密狀態(tài)，但我們知道每個核心都配備 4 MB 的 L1 SRAM 內(nèi)存，該內(nèi)存連接到一個加載/存儲單元，該單元又連接到一個張量單元和一個向量單元。這些數(shù)學(xué)單元支持 FP16、FP8、FP4、NF4 和 MXFP4 精度，這足以滿足當(dāng)今的推理需求。Rebel Single 的神經(jīng)網(wǎng)絡(luò)核心在 FP16 精度下?lián)碛?16 萬億次浮點(diǎn)運(yùn)算/秒 (teraflops) 的性能，在 FP8 精度下?lián)碛?32 萬億次浮點(diǎn)運(yùn)算/秒 (teraflops) 的性能；我們目前尚不清楚神經(jīng)網(wǎng)絡(luò)核心每個時鐘周期可以執(zhí)行多少次運(yùn)算，因此無法確定其時鐘頻率。但我們預(yù)計其時鐘頻率約為 2 GHz。

為了擴(kuò)展 Rebel 芯片，八個神經(jīng)網(wǎng)絡(luò)核心通過 SRAM 塊以網(wǎng)狀互連的方式連接在一起，這是 CPU、GPU 和 XPU 架構(gòu)中的常見特性。兩個這樣的芯片被放置在一個名為 Rebel Single 的單個芯片組上：

Rebel Single 主板配備一個 PCI-Express 5.0 x16 接口、三個 UCI-Express-A 芯片互連接口以及一個 HBM3E 內(nèi)存控制器。目前，Rebel Single 使用的是三星的 HBM3E 堆疊式內(nèi)存，但它完全可以支持 SK 海力士的 HBM 內(nèi)存，而且完全有理由相信它最終會支持。

HBM3E端口的讀寫速度為1.2 TB/秒，PCI-Express端口的讀寫速度為128 GB/秒，三個UCI-Express端口的讀寫速度均為1 TB/秒。Rebel Single擁有64個神經(jīng)網(wǎng)絡(luò)核心，以及總共64 MB的L1緩存（由這些核心共享）。網(wǎng)狀互連網(wǎng)絡(luò)為緩存分配了16 TB/秒的帶寬，另有16 TB/秒的帶寬分配給神經(jīng)網(wǎng)絡(luò)核心。

在 Rebel Single 芯片的左上角，您會看到一個獨(dú)立的電路模塊，其中包含 TDMA、CP 和 Sync Man。這些是設(shè)計中的重要元素，可以加速 AI 推理工作流程的部分環(huán)節(jié)：

我們期待能更深入地研究這些內(nèi)容，但就目前而言，Rebellions 對這些特殊邏輯模塊的描述僅限于此。

命令處理器（CP）包含兩個四核 Arm Neoverse CPU 模塊，配備 4 MB 二級緩存。它的作用是協(xié)助其上下兩端的同步管理器和任務(wù) DMA 控制器，協(xié)調(diào)和同步 Rebel 芯片組之間的數(shù)據(jù)傳輸，確保計算單元在需要時能夠獲取所需數(shù)據(jù)。從概念上講，我們認(rèn)為它有點(diǎn)像插槽內(nèi) HBM 內(nèi)存的 NUMA 控制器。

這些神經(jīng)核心集群相互連接，構(gòu)成單個插槽中的計算引擎。我們推測，從長遠(yuǎn)來看，多個插槽將通過基于 UALink 或 ESUN 的可擴(kuò)展網(wǎng)絡(luò)互連，甚至可能根據(jù)客戶需求采用授權(quán)的 NVLink Fusion 互連技術(shù)。（Rebellions 目前對此保持沉默。）

為了構(gòu)建更大的計算復(fù)合體，可以將四個 Rebel Single 像這樣連接起來：

這張示意圖展示了一個由四個 Rebel Single 組成的陣列，顯然它被稱為 Rebel Quad。但正如你所看到的，你可以不斷地在頂部和底部堆疊成對的 Rebel Single，從而擴(kuò)展出一個非常大的互連計算和內(nèi)存平面。如果你愿意，你可以制作一個非常長的滑橇，其邏輯上相當(dāng)于一個晶圓級設(shè)計，上面懸掛著大量的 HBM 內(nèi)存，就像圣誕節(jié)時賣的那種巨型士力架一樣。

但除非有人要求，否則Rebellions不會真的這么做。不過，CPU和XPU復(fù)合體之間顯然有很多連接方式，Oh和Choy也向我們展示了一些可能性：

目前，重點(diǎn)是 Rebel Quad，這是一個我們已經(jīng)實(shí)際拿在手里的Socket，但他們不讓我們把它當(dāng)作鎮(zhèn)紙?zhí)砑拥轿覀兊氖詹刂校?/p>

該芯片復(fù)合體采用三星的 ICube-S 中介層和封裝技術(shù)，與臺積電的 CoWoS-S 中介層和封裝技術(shù)大致類似。該封裝包含四組 12 層高的 HBM3E 內(nèi)存堆疊，總帶寬為 4.8 TB/s，兩條 PCI-Express 5.0 x16 通道的總帶寬為 256 GB/s，可用于芯片的雙向數(shù)據(jù)傳輸。（可惜的是，這四顆芯片復(fù)合體中有兩個 PCI-Express 控制器位于中間，無法正常工作。）

以下是UCI-Express-A芯片間互連的詳細(xì)信息：

Rebellions 已從 Alphawave Semi 獲得其 UCI-Express-A 控制器的授權(quán)，Alphawave Semi是一家芯片初創(chuàng)公司，剛剛被高通以 24 億美元收購。

綜上所述，Rebel Quad 在 FP16 精度下可提供 1 petaflops 的運(yùn)算速度，在 FP8 精度下可提供 2 petaflops 的運(yùn)算速度。目前尚不清楚在各種 FP4 精度下吞吐量是否會翻倍，或者僅僅是因為運(yùn)算單元后半部分存在大量零值。

Rebel Quad 插槽的功耗為 600 瓦，與 Nvidia 和 AMD 的 GPU 以及性能大致相同的、命運(yùn)多舛的 Intel Gaudi 3 AI 加速器相比，功耗相當(dāng)?shù)停?/p>

我們注意到，Rebel Quad 沒有 OAM 插槽，只有 PCI-Express 卡規(guī)格，這一點(diǎn)很有意思。不過，如果客戶需要，想必是可以實(shí)現(xiàn)的。（這對于液冷服務(wù)器配置尤其重要，因為在液冷服務(wù)器配置中，為了提高密度，需要將芯片放置在系統(tǒng)主板上，并在多個計算引擎之間鋪設(shè)銅管。）

就原始性能而言，Rebel Quad 與英偉達(dá)的 H200 完全不相上下——FP16 和 FP8 性能提升了 3.4%——但每瓦性能卻高出 20.7%。英偉達(dá)的 B200 GPU 性能是 Rebel Quad 的 2.2 倍，但為此需要高出 1.7 倍的帶寬和功耗，性價比相當(dāng)不錯。AMD MI325X 的每瓦性能與 Rebel Quad 大致相同，浮點(diǎn)運(yùn)算吞吐量高出 28%，但為此需要高出 25% 的內(nèi)存帶寬和功耗。

由于架構(gòu)差異，實(shí)際性能可能會有很大不同，我們期待看到基準(zhǔn)測試結(jié)果顯示這些 GPU 和 Rebel 芯片能夠進(jìn)行真正的推理。

我們目前尚不清楚具體價格，但可以合理推測 Rebellions 公司在定價方面有一定的回旋余地，并且會根據(jù)市場價值進(jìn)行定價，而不是競相壓低價格。目前張量數(shù)學(xué)和 HBM 的需求遠(yuǎn)大于供應(yīng)，只有傻瓜才會發(fā)動價格戰(zhàn)。

Rebel Single 于 2024 年 11 月完成錄制，Rebel Quad 目前正在向部分客戶提供樣品，以驗證概念設(shè)計。

在徹底攻克了所有硬件之后，Rebellions 現(xiàn)在需要在其上部署軟件。當(dāng)然，它將使用基于 PyTorch 原生實(shí)現(xiàn)的開源技術(shù)棧，該技術(shù)棧采用 Triton 推理引擎和 vLLM 開源庫來管理推理所需的鍵值緩存。Rebellions 還開發(fā)了自己的集體通信庫 RBLN CCL，它類似于 Nvidia 的 NCCL 庫；兩者都源自開源的消息傳遞接口 (MPI) 庫，MPI 庫在幾十年前徹底改變了高性能計算 (HPC) 領(lǐng)域，至今仍是人工智能 (AI) 的基礎(chǔ)。

Rebellions 還有一個名為 Raise 的推理服務(wù)層，類似于 Nvidia 的 Dynamo 推理堆棧，并且已經(jīng)接入了 Ray 分布式推理框架，該框架運(yùn)行在 Red Hat 的 OpenShift Kubernetes 容器平臺及其容器版本的 Red Hat Enterprise Linux 之上，而 Red Hat Enterprise Linux 是多年前The Next Platform成立之初收購的 CoreOS 的一部分。

https://www.nextplatform.com/2025/12/23/rebellions-ai-puts-together-an-hbm-and-arm-alliance-to-take-on-nvidia/

（來源：編譯自nextplatform）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4266期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時間看推送，小號防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.