公眾號記得加星標(biāo)??,第一時間看推送不會錯過。
全球人工智能推理芯片初創(chuàng)公司數(shù)量驚人——真的非常驚人,足足有幾十家。但只有一家公司獲得了三大HBM堆疊內(nèi)存制造商中的兩家的投資,并得到了其所在國兩家最大電信公司的支持。考慮到能夠獲得HBM配額的公司可以打造數(shù)據(jù)中心人工智能加速器,盡管韓國初創(chuàng)公司Rebellions AI進(jìn)入這個領(lǐng)域的時間相對較晚,但或許它的時機(jī)恰到好處。
鑒于三星和 SK 海力士不僅為 Rebellions 提供 HBM 內(nèi)存,而且三星還是該公司的代工廠,這些都是 Rebellions 應(yīng)該能夠利用的優(yōu)勢,因為它不僅想在韓國銷售其 AI 加速器,還想向全世界銷售,而全世界都對矩陣數(shù)學(xué)非常著迷。
親眼目睹第一批人工智能初創(chuàng)公司——Groq、Cerebras Systems、SambaNova Systems、Graphcore、Nervana Systems 和 Habana Labs——都遇到了自身架構(gòu)和資金的限制,或者像 Nervana 和 Habana 那樣,消失在曾經(jīng)的巨頭英特爾的巨口中,從此銷聲匿跡,這并沒有什么壞處。
“我經(jīng)常說——第一只老鼠落入陷阱,第二只老鼠才能吃到奶酪,” Rebellions 的首席商務(wù)官M(fèi)arshall Choy告訴The Next Platform。
Choy曾在Sun Microsystems工作十二年,負(fù)責(zé)技術(shù)產(chǎn)品和解決方案工程。2010年Sun被Oracle收購后,他又在Oracle擔(dān)任工程系統(tǒng)方面的職務(wù)超過八年,因此他對互聯(lián)網(wǎng)泡沫以及互聯(lián)網(wǎng)技術(shù)回歸常態(tài)的過程非常了解。Choy也是SambaNova的創(chuàng)始團(tuán)隊成員之一,最初擔(dān)任產(chǎn)品副總裁,之后擔(dān)任首席客戶官,一個月前離開SambaNova加入Rebellions。
“說實(shí)話,第一代人工智能加速器缺乏靈活性和適應(yīng)性,所以從未在市場上取得巨大成功,”Choy繼續(xù)說道。“作為第二代加速器,我們是后起之秀,我們一直很有耐心。生態(tài)系統(tǒng)已經(jīng)發(fā)展成熟,我們正在戰(zhàn)略性地選擇進(jìn)入各個市場的時機(jī),這降低了整體風(fēng)險。”
Rebellions 于 2020 年 9 月成立,最初的目標(biāo)是為高頻交易公司打造 AI 推理加速芯片。當(dāng)時,Rebellions 的計劃并非與英偉達(dá)、AMD 以及眾多來自超大規(guī)模數(shù)據(jù)中心、云平臺和模型構(gòu)建商的自研 AI 加速器展開競爭。但話說回來,英偉達(dá)最初也是以制造 3D 圖形芯片起家,之后才轉(zhuǎn)向更廣泛的 AI 市場,并在該領(lǐng)域深耕十余年。計劃趕不上變化,有時甚至?xí)h(yuǎn)超預(yù)期。
晨曦之地
(The Land Of The Morning Calm)
Rebellions 的總部位于首爾,首爾是韓國的首都和最大城市。韓國是工業(yè)和金融強(qiáng)國,也是世界第十四大經(jīng)濟(jì)體,預(yù)計 2025 年國內(nèi)生產(chǎn)總值將達(dá)到 1.86 萬億美元。(美國排名第一,預(yù)計為 30.6 萬億美元,其次是中國,為 19.4 萬億美元;歐盟的國內(nèi)生產(chǎn)總值約為 21.1 萬億美元,但顯然它由許多國家組成。)
該公司由四位聯(lián)合創(chuàng)始人組成,其中樸成鉉擔(dān)任首席執(zhí)行官。樸成鉉在韓國科學(xué)技術(shù)院獲得學(xué)士學(xué)位,之后在麻省理工學(xué)院獲得電氣工程和計算機(jī)科學(xué)雙碩士學(xué)位(輔修金融)。畢業(yè)后,樸成鉉曾在英特爾擔(dān)任高級研究科學(xué)家兩年,并在創(chuàng)立Rebellions之前,先后在三星移動擔(dān)任工程師,在SpaceX的星鏈部門擔(dān)任ASIC設(shè)計師,以及在摩根士丹利擔(dān)任超低延遲股票交易系統(tǒng)設(shè)計師。
![]()
吳鎮(zhèn)旭是公司的聯(lián)合創(chuàng)始人兼首席技術(shù)官。他本科畢業(yè)于首爾國立大學(xué)電氣工程專業(yè),并在韓國科學(xué)技術(shù)院(KAIST)獲得高級學(xué)位。KAIST與韓國科學(xué)技術(shù)信息研究院(KISTI)在高性能計算(HPC)和人工智能(AI)研究領(lǐng)域有著緊密的合作關(guān)系。吳鎮(zhèn)旭曾在KAIST擔(dān)任研究員多年,與微軟和德州儀器合作,之后加入IBM研究院,主要研究方向為近似計算、粗粒度可重構(gòu)陣列和神經(jīng)網(wǎng)絡(luò)加速器。Rebellions的聯(lián)合創(chuàng)始人兼首席產(chǎn)品官金孝恩也畢業(yè)于KAIST,獲得電氣工程學(xué)位。他曾在Maxwave和三星電子擔(dān)任工程師,之后加入醫(yī)療設(shè)備制造商Lunit擔(dān)任首席產(chǎn)品官,并在公司創(chuàng)立之初加入Rebellions。最后一位聯(lián)合創(chuàng)始人申成浩也畢業(yè)于首爾國立大學(xué),是一位人工智能和算法研究員。
Rebellions在2020年和2022年分別完成了A輪融資,共籌集了6100萬美元。2024年,該公司完成了由KT Corp(原韓國電信)領(lǐng)投的B輪融資,沙特阿美的風(fēng)險投資部門也參與了投資。C輪融資則由Arm Holdings(頗為巧合)領(lǐng)投,三星風(fēng)投、和碩聯(lián)合創(chuàng)投、韓國開發(fā)銀行、Korelya Capital、Kindred Ventures和Top Tier Capital也參與了投資。2024年12月,韓國電信旗下的人工智能初創(chuàng)公司Sapeon Korea與Rebellions合并,SK Telecom也因此成為Rebellions的投資者。Sapeon Korea此前曾獲得DRAM和HBM內(nèi)存制造商SK海力士的投資。合并后,Rebellions成為韓國首家人工智能芯片獨(dú)角獸企業(yè),估值超過10億美元。其估值可能達(dá)到15億美元或更高。
事情是這樣的:SK Telecom 和 SK Hynix 都隸屬于 SK 集團(tuán),SK 集團(tuán)是韓國第二大財閥。三星集團(tuán)是韓國最大的財閥。這兩家公司都投資了 Rebellions,并為其供應(yīng) HBM 內(nèi)存;三星是 Rebellions 的代工廠合作伙伴。
Rebellions公司最初采用臺積電7納米工藝制造用于高頻交易加速的Ion芯片,之后在后續(xù)的Atom AI推理加速器中轉(zhuǎn)向5納米工藝。目前我們關(guān)注的Rebel系列芯片(因為它們與英偉達(dá)和AMD的數(shù)據(jù)中心級GPU加速器競爭)采用的是三星4納米工藝——事實(shí)上,Rebellions公司正在推動三星的4納米工藝升級,因為IBM在其Power11處理器中沒有選擇4納米工藝,而是堅持使用三星改進(jìn)的7納米工藝。
近幾個月來,Rebellions 與 Arm 達(dá)成合作,成為其 Arm Total Design 生態(tài)系統(tǒng)的一部分。這將使基于 Neoverse 設(shè)計制造 Arm CPU 的公司能夠集成 Rebellions 的 Atom 或 Rebel AI 加速器,并利用三星即將推出的 2 納米工藝創(chuàng)建混合平臺。此外,Rebellions 還與 Marvell 合作,利用其信令 SerDes、芯片間互連和先進(jìn)封裝技術(shù),為客戶(特別是亞洲、非洲或中東等地區(qū)的自主人工智能中心和區(qū)域性新云平臺)打造定制化的 AI 加速器。這些客戶可能需要購買不受美國出口管制限制的 AI 加速器。
而這最終將我們帶到了第三代 Rebel AI 推理芯片。
他們發(fā)出叛逆的吶喊,
高呼“Coarse Grained Cores”
在混合專家時代初期,Nvidia GPU、Google TPU 和 AWS Trainium 幾乎壟斷了 AI 訓(xùn)練,而推理又是人們試圖賺錢的領(lǐng)域,因此 Rebellions 將其 Rebel 和未來的芯片重點(diǎn)放在推理上也就不足為奇了。
Rebel芯片的架構(gòu)借鑒了其前身Atom芯片,具體來說,它采用了Oh在微軟公司開發(fā)的粗粒度可配置陣列(CGRA:coarse grained configurable array)處理單元設(shè)計方法,并將其與軟件定義片上網(wǎng)絡(luò)相結(jié)合。就像這樣:
![]()
采用這種方法,Rebellions 稱之為“神經(jīng)核心”的 Rebel 芯片上任意兩個處理單元之間的路由都是可編程的,這種網(wǎng)狀互連可以擴(kuò)展到多個芯片組,從而構(gòu)建規(guī)模越來越大的計算和存儲復(fù)合體。芯片內(nèi)部以及芯片組之間的路由和調(diào)度可以根據(jù)推理任務(wù)運(yùn)行時的流量模式進(jìn)行自我調(diào)整。
但CGRA架構(gòu)最實(shí)用的部分或許在于,神經(jīng)核心上的緩存、加載存儲單元、張量單元和向量單元都配備了輸入緩沖區(qū)(IBUF),這些緩沖區(qū)擁有自定義指令集,使其可編程。這意味著,在LLM推理的預(yù)填充階段,可以將神經(jīng)核心陣列編程為類似大型脈動陣列的計算密集型操作,將提示信息分解為鍵值對;然后在解碼階段,可以將其重新編程為更注重內(nèi)存帶寬的機(jī)器,以生成查詢的詞元響應(yīng)。如上圖所示,還存在一些中間階段。
簡而言之,CGRA 方法利用了 FPGA 的一些可編程性要素,而無需付出 FPGA 完全編程靈活性所帶來的效率損失。
與其他人工智能計算引擎一樣,Rebel芯片的神經(jīng)網(wǎng)絡(luò)核心也混合使用了多種計算引擎:
![]()
目前,Rebel 神經(jīng)網(wǎng)絡(luò)核心上每個計算單元的具體細(xì)節(jié)仍處于保密狀態(tài),但我們知道每個核心都配備 4 MB 的 L1 SRAM 內(nèi)存,該內(nèi)存連接到一個加載/存儲單元,該單元又連接到一個張量單元和一個向量單元。這些數(shù)學(xué)單元支持 FP16、FP8、FP4、NF4 和 MXFP4 精度,這足以滿足當(dāng)今的推理需求。Rebel Single 的神經(jīng)網(wǎng)絡(luò)核心在 FP16 精度下?lián)碛?16 萬億次浮點(diǎn)運(yùn)算/秒 (teraflops) 的性能,在 FP8 精度下?lián)碛?32 萬億次浮點(diǎn)運(yùn)算/秒 (teraflops) 的性能;我們目前尚不清楚神經(jīng)網(wǎng)絡(luò)核心每個時鐘周期可以執(zhí)行多少次運(yùn)算,因此無法確定其時鐘頻率。但我們預(yù)計其時鐘頻率約為 2 GHz。
為了擴(kuò)展 Rebel 芯片,八個神經(jīng)網(wǎng)絡(luò)核心通過 SRAM 塊以網(wǎng)狀互連的方式連接在一起,這是 CPU、GPU 和 XPU 架構(gòu)中的常見特性。兩個這樣的芯片被放置在一個名為 Rebel Single 的單個芯片組上:
![]()
Rebel Single 主板配備一個 PCI-Express 5.0 x16 接口、三個 UCI-Express-A 芯片互連接口以及一個 HBM3E 內(nèi)存控制器。目前,Rebel Single 使用的是三星的 HBM3E 堆疊式內(nèi)存,但它完全可以支持 SK 海力士的 HBM 內(nèi)存,而且完全有理由相信它最終會支持。
HBM3E端口的讀寫速度為1.2 TB/秒,PCI-Express端口的讀寫速度為128 GB/秒,三個UCI-Express端口的讀寫速度均為1 TB/秒。Rebel Single擁有64個神經(jīng)網(wǎng)絡(luò)核心,以及總共64 MB的L1緩存(由這些核心共享)。網(wǎng)狀互連網(wǎng)絡(luò)為緩存分配了16 TB/秒的帶寬,另有16 TB/秒的帶寬分配給神經(jīng)網(wǎng)絡(luò)核心。
在 Rebel Single 芯片的左上角,您會看到一個獨(dú)立的電路模塊,其中包含 TDMA、CP 和 Sync Man。這些是設(shè)計中的重要元素,可以加速 AI 推理工作流程的部分環(huán)節(jié):
![]()
我們期待能更深入地研究這些內(nèi)容,但就目前而言,Rebellions 對這些特殊邏輯模塊的描述僅限于此。
命令處理器(CP)包含兩個四核 Arm Neoverse CPU 模塊,配備 4 MB 二級緩存。它的作用是協(xié)助其上下兩端的同步管理器和任務(wù) DMA 控制器,協(xié)調(diào)和同步 Rebel 芯片組之間的數(shù)據(jù)傳輸,確保計算單元在需要時能夠獲取所需數(shù)據(jù)。從概念上講,我們認(rèn)為它有點(diǎn)像插槽內(nèi) HBM 內(nèi)存的 NUMA 控制器。
這些神經(jīng)核心集群相互連接,構(gòu)成單個插槽中的計算引擎。我們推測,從長遠(yuǎn)來看,多個插槽將通過基于 UALink 或 ESUN 的可擴(kuò)展網(wǎng)絡(luò)互連,甚至可能根據(jù)客戶需求采用授權(quán)的 NVLink Fusion 互連技術(shù)。(Rebellions 目前對此保持沉默。)
為了構(gòu)建更大的計算復(fù)合體,可以將四個 Rebel Single 像這樣連接起來:
![]()
這張示意圖展示了一個由四個 Rebel Single 組成的陣列,顯然它被稱為 Rebel Quad。但正如你所看到的,你可以不斷地在頂部和底部堆疊成對的 Rebel Single,從而擴(kuò)展出一個非常大的互連計算和內(nèi)存平面。如果你愿意,你可以制作一個非常長的滑橇,其邏輯上相當(dāng)于一個晶圓級設(shè)計,上面懸掛著大量的 HBM 內(nèi)存,就像圣誕節(jié)時賣的那種巨型士力架一樣。
但除非有人要求,否則Rebellions不會真的這么做。不過,CPU和XPU復(fù)合體之間顯然有很多連接方式,Oh和Choy也向我們展示了一些可能性:
![]()
目前,重點(diǎn)是 Rebel Quad,這是一個我們已經(jīng)實(shí)際拿在手里的Socket,但他們不讓我們把它當(dāng)作鎮(zhèn)紙?zhí)砑拥轿覀兊氖詹刂校?/p>
![]()
該芯片復(fù)合體采用三星的 ICube-S 中介層和封裝技術(shù),與臺積電的 CoWoS-S 中介層和封裝技術(shù)大致類似。該封裝包含四組 12 層高的 HBM3E 內(nèi)存堆疊,總帶寬為 4.8 TB/s,兩條 PCI-Express 5.0 x16 通道的總帶寬為 256 GB/s,可用于芯片的雙向數(shù)據(jù)傳輸。(可惜的是,這四顆芯片復(fù)合體中有兩個 PCI-Express 控制器位于中間,無法正常工作。)
以下是UCI-Express-A芯片間互連的詳細(xì)信息:
![]()
Rebellions 已從 Alphawave Semi 獲得其 UCI-Express-A 控制器的授權(quán),Alphawave Semi是一家芯片初創(chuàng)公司,剛剛被高通以 24 億美元收購。
綜上所述,Rebel Quad 在 FP16 精度下可提供 1 petaflops 的運(yùn)算速度,在 FP8 精度下可提供 2 petaflops 的運(yùn)算速度。目前尚不清楚在各種 FP4 精度下吞吐量是否會翻倍,或者僅僅是因為運(yùn)算單元后半部分存在大量零值。
Rebel Quad 插槽的功耗為 600 瓦,與 Nvidia 和 AMD 的 GPU 以及性能大致相同的、命運(yùn)多舛的 Intel Gaudi 3 AI 加速器相比,功耗相當(dāng)?shù)停?/p>
![]()
我們注意到,Rebel Quad 沒有 OAM 插槽,只有 PCI-Express 卡規(guī)格,這一點(diǎn)很有意思。不過,如果客戶需要,想必是可以實(shí)現(xiàn)的。(這對于液冷服務(wù)器配置尤其重要,因為在液冷服務(wù)器配置中,為了提高密度,需要將芯片放置在系統(tǒng)主板上,并在多個計算引擎之間鋪設(shè)銅管。)
就原始性能而言,Rebel Quad 與英偉達(dá)的 H200 完全不相上下——FP16 和 FP8 性能提升了 3.4%——但每瓦性能卻高出 20.7%。英偉達(dá)的 B200 GPU 性能是 Rebel Quad 的 2.2 倍,但為此需要高出 1.7 倍的帶寬和功耗,性價比相當(dāng)不錯。AMD MI325X 的每瓦性能與 Rebel Quad 大致相同,浮點(diǎn)運(yùn)算吞吐量高出 28%,但為此需要高出 25% 的內(nèi)存帶寬和功耗。
由于架構(gòu)差異,實(shí)際性能可能會有很大不同,我們期待看到基準(zhǔn)測試結(jié)果顯示這些 GPU 和 Rebel 芯片能夠進(jìn)行真正的推理。
我們目前尚不清楚具體價格,但可以合理推測 Rebellions 公司在定價方面有一定的回旋余地,并且會根據(jù)市場價值進(jìn)行定價,而不是競相壓低價格。目前張量數(shù)學(xué)和 HBM 的需求遠(yuǎn)大于供應(yīng),只有傻瓜才會發(fā)動價格戰(zhàn)。
Rebel Single 于 2024 年 11 月完成錄制,Rebel Quad 目前正在向部分客戶提供樣品,以驗證概念設(shè)計。
在徹底攻克了所有硬件之后,Rebellions 現(xiàn)在需要在其上部署軟件。當(dāng)然,它將使用基于 PyTorch 原生實(shí)現(xiàn)的開源技術(shù)棧,該技術(shù)棧采用 Triton 推理引擎和 vLLM 開源庫來管理推理所需的鍵值緩存。Rebellions 還開發(fā)了自己的集體通信庫 RBLN CCL,它類似于 Nvidia 的 NCCL 庫;兩者都源自開源的消息傳遞接口 (MPI) 庫,MPI 庫在幾十年前徹底改變了高性能計算 (HPC) 領(lǐng)域,至今仍是人工智能 (AI) 的基礎(chǔ)。
![]()
Rebellions 還有一個名為 Raise 的推理服務(wù)層,類似于 Nvidia 的 Dynamo 推理堆棧,并且已經(jīng)接入了 Ray 分布式推理框架,該框架運(yùn)行在 Red Hat 的 OpenShift Kubernetes 容器平臺及其容器版本的 Red Hat Enterprise Linux 之上,而 Red Hat Enterprise Linux 是多年前The Next Platform成立之初收購的 CoreOS 的一部分。
https://www.nextplatform.com/2025/12/23/rebellions-ai-puts-together-an-hbm-and-arm-alliance-to-take-on-nvidia/
(來源:編譯自nextplatform)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4266期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.