文章來源:半導(dǎo)體產(chǎn)業(yè)縱橫
無線電接棒銅纜與光纖。
訓(xùn)練超大型新AI 模型的速度,歸根結(jié)底取決于兩個詞:向上擴(kuò)展與向外擴(kuò)展。
在數(shù)據(jù)中心術(shù)語中,向外擴(kuò)展(scaling out)指的是增加您可以連接在一起的 AI 計算機(jī)數(shù)量,以分塊處理一個大問題。另一方面,向上擴(kuò)展(scaling up) 指的是在每臺計算機(jī)中塞入盡可能多的 GPU,將它們連接起來使其像一個單一的巨型 GPU 一樣工作,并允許它們更快地處理更大塊的問題。
這兩個領(lǐng)域依賴于兩種不同的物理連接。向外擴(kuò)展主要依賴于光子芯片和光纖,它們可以將數(shù)據(jù)傳輸數(shù)百或數(shù)千米。而向上擴(kuò)展形成的網(wǎng)絡(luò)密度大約是前者的10 倍,它屬于一種更簡單、成本更低的技術(shù)領(lǐng)域 —— 通常跨度不超過一兩米的銅纜。
但隨著制造更強(qiáng)大計算機(jī)所需的GPU 間數(shù)據(jù)傳輸速率越來越高,銅纜正面臨其物理極限。數(shù)據(jù)中心互聯(lián)初創(chuàng)公司 Point2 Technology 的產(chǎn)品營銷和業(yè)務(wù)開發(fā)副總裁 David Kuo 表示,當(dāng)銅纜的帶寬需求接近每秒太比特(Tb/s)的領(lǐng)域時,物理定律要求它們必須做得更短、更粗。考慮到當(dāng)今計算機(jī)機(jī)架內(nèi)部的擁擠狀況,以及領(lǐng)先的 AI 硬件公司英偉達(dá)(Nvidia)計劃到 2027 年將每個系統(tǒng)的最大 GPU 數(shù)量從 72 個增加到 576 個(增長八倍),這成為了一個大問題。
“我們稱之為‘銅纜懸崖’(copper cliff)。”Kuo 說。
業(yè)界正在研究各種方法來疏通數(shù)據(jù)中心,包括延長銅纜的傳輸距離,并將纖細(xì)、長距離的光纖更靠近GPU 本身。但 Point2 和另一家初創(chuàng)公司 AttoTude 則倡導(dǎo)一種介于這兩種技術(shù)之間、又完全不同的解決方案。他們聲稱,這項(xiàng)技術(shù)將兼具銅纜的低成本和可靠性,以及光纖的部分細(xì)徑和長距離優(yōu)勢 —— 這種組合將輕松滿足未來 AI 系統(tǒng)的需求。
![]()
他們的答案是什么?
無線電(Radio)
今年晚些時候,Point2 將開始制造支持 1.6 太比特 / 秒(Tb/s)的電纜背后的芯片。該電纜由 8 根細(xì)長的聚合物波導(dǎo)組成,每根波導(dǎo)使用 90 吉赫茲(GHz)和 225 吉赫茲(GHz)兩種頻率,能夠承載 448 吉比特 / 秒(Gb/s)的數(shù)據(jù)。在波導(dǎo)的兩端是插件模塊,用于將電子比特轉(zhuǎn)換為調(diào)制無線電波,再轉(zhuǎn)換回來。AttoTude 也在計劃本質(zhì)上相同的事情,但工作在太赫茲(THz)頻率,并使用一種不同類型的纖細(xì)、靈活的電纜。
兩家公司都表示,他們的技術(shù)在傳輸距離上可以輕松超越銅纜—— 在沒有顯著損耗的情況下跨越 10 到 20 米,這對于處理英偉達(dá)宣布的向上擴(kuò)展計劃來說肯定足夠長。就 Point2 的情況而言,該系統(tǒng)的功耗僅為光纖的三分之一,成本也為三分之一,延遲可低至光纖的千分之一。
據(jù)其支持者稱,與光子學(xué)相比,無線電的可靠性和易于制造性意味著它可能在將低能耗的處理器間連接一路延伸到GPU 的競賽中擊敗光子學(xué),甚至在印刷電路板上也能取代部分銅纜。
![]()
銅纜出了什么問題?
![]()
一條傳輸速率高達(dá)1.6 太比特/秒的 e-Tube 電纜,其橫截面積僅為 32 號銅纜的一半,傳輸距離卻可達(dá)其 20 倍。
那么,銅纜出了什么問題?只要數(shù)據(jù)速率不太高,傳輸距離不太遠(yuǎn),銅纜本身沒什么問題。然而,在高速率下,像銅這樣的導(dǎo)體會受到所謂趨膚效應(yīng)(skin effect)的影響。趨膚效應(yīng)的產(chǎn)生是因?yàn)樾盘柨焖僮兓碾娏鲿a(chǎn)生一個試圖抵消該電流的變化磁場。這種抵消力集中在導(dǎo)線的中心,因此大部分電流被限制在導(dǎo)線的外邊緣 —— 即 “表皮”—— 流動,這增加了電阻。在 60 赫茲(許多國家的市電頻率)下,大部分電流位于銅纜外 8 毫米處。但在 10 吉赫茲下,“表皮” 深度僅為 0.65 微米。因此,要通過銅纜傳輸高頻數(shù)據(jù),導(dǎo)線需要更粗,并且需要更多的功率。這兩個要求都不利于在更小的空間內(nèi)封裝越來越多的連接以向上擴(kuò)展計算能力。
為了抵消趨膚效應(yīng)和其他信號衰減問題,各公司開發(fā)了在兩端帶有專用電子設(shè)備的銅纜。其中最有前景的一種稱為有源電纜(Active Electrical Cables, AECs),其終端芯片被稱為重定時器(retimer)。這種集成電路在數(shù)據(jù)信號和時鐘信號從處理器到達(dá)時對其進(jìn)行清理。然后,該電路將它們重新傳輸?shù)姐~纜通常包含的八對導(dǎo)線(或通道)上。(另一組用于反向傳輸。)在另一端,該芯片的配對芯片處理在傳輸過程中累積的任何噪聲或時鐘問題,并將數(shù)據(jù)發(fā)送到接收處理器。因此,以電子復(fù)雜性和功耗為代價,AEC 可以延長銅纜的傳輸距離。
為數(shù)據(jù)中心提供網(wǎng)絡(luò)硬件的Credo 公司高級副總裁兼產(chǎn)品主管 Don Barnetson 表示,他的公司已經(jīng)開發(fā)出一種 AEC,可以在 7 米的距離內(nèi)傳輸 800 吉比特 / 秒(Gb/s)的數(shù)據(jù) —— 隨著計算機(jī)達(dá)到 500 至 600 個 GPU 并跨越多個機(jī)架,這個距離很可能是必需的。AEC 的首次使用可能是將單個 GPU 連接到構(gòu)成向外擴(kuò)展網(wǎng)絡(luò)的網(wǎng)絡(luò)交換機(jī)。Barnetson 說,向外擴(kuò)展網(wǎng)絡(luò)的這第一階段很重要,因?yàn)?“它是網(wǎng)絡(luò)中唯一的非冗余躍點(diǎn)(hop)”。失去該鏈路,即使是瞬間的,也可能導(dǎo)致 AI 訓(xùn)練運(yùn)行崩潰。
但即使重定時器能將“銅纜懸崖” 的到來稍微推遲一些,物理定律最終還是會占上風(fēng)。Point2 和 AttoTude 都押注這一點(diǎn)很快就會到來。
![]()
太赫茲無線電
的傳輸距離
AttoTude 脫胎于創(chuàng)始人兼首席執(zhí)行官 Dave Welch 對光子學(xué)的深入研究。作為 2025 年被諾基亞收購的光通信設(shè)備制造商 Infinera 的聯(lián)合創(chuàng)始人,Welch 數(shù)十年來一直在開發(fā)光子系統(tǒng)。他非常清楚該技術(shù)的弱點(diǎn):功耗太大(據(jù)英偉達(dá)稱,約占數(shù)據(jù)中心計算預(yù)算的 10%);對溫度極其敏感;將光導(dǎo)入和導(dǎo)出光子芯片需要微米級精度的制造;而且該技術(shù)缺乏長期可靠性是出了名的。(甚至有一個專門的術(shù)語來形容它:“鏈路抖動”(link flap)。)
“客戶喜歡光纖。但他們討厭的是光子學(xué)。”Welch 說,“事實(shí)證明,電子學(xué)本質(zhì)上比光學(xué)更可靠。”
在諾基亞以23 億美元收購 Infinera 后不久,Welch 在考慮他的下一個創(chuàng)業(yè)項(xiàng)目時,問了自己一些根本性的問題,首先是 “如果我不必局限于 [某個光波長],我應(yīng)該選擇哪里?” 答案是可以純粹用電子學(xué)實(shí)現(xiàn)的最高頻率 —— 太赫茲頻段,即 300 至 3000 吉赫茲(GHz)。因此,Welch 和他的團(tuán)隊著手構(gòu)建一個系統(tǒng),該系統(tǒng)包括一個與 GPU 接口的數(shù)字組件、一個太赫茲頻率發(fā)生器,以及一個將數(shù)據(jù)編碼到太赫茲信號上的混頻器。然后,一個天線將信號送入一根狹窄、靈活的波導(dǎo)中。
至于波導(dǎo),它由中心的電介質(zhì)(用于傳輸太赫茲信號)和周圍的包層組成。早期的一個版本只是一根狹窄的空心銅管。Welch 說,第二代電纜 —— 由直徑僅約 200 微米的光纖組成 —— 指向一個損耗低至每米 0.3 分貝的系統(tǒng) —— 這只是承載 224 吉比特 / 秒(Gb/s)數(shù)據(jù)的典型銅纜損耗的一小部分。
Welch 預(yù)測,這種波導(dǎo)將能夠傳輸數(shù)據(jù)長達(dá) 20 米。他說,這 “恰好是數(shù)據(jù)中心向上擴(kuò)展的理想距離”。
到目前為止,AttoTude 已經(jīng)制造出了各個組件 —— 數(shù)字?jǐn)?shù)據(jù)芯片、太赫茲信號發(fā)生器、將兩者混合的電路 —— 以及幾代波導(dǎo)。但該公司尚未將它們集成到一個單一的可插拔形式中。盡管如此,Welch 表示,這種組合至少可以提供 224 吉比特 / 秒(Gb/s)的傳輸帶寬,并且該初創(chuàng)公司去年 4 月在舊金山舉行的光纖通信會議(Optical Fiber Communications Conference)上展示了在 970 吉赫茲(GHz)下 4 米的傳輸。
![]()
無線電在數(shù)據(jù)中心
的應(yīng)用前景
Point2 致力于將無線電引入數(shù)據(jù)中心的時間比 AttoTude 更長。這家由 Marvell、Nvidia 和三星的資深人士于九年前成立的初創(chuàng)公司已經(jīng)獲得了 5500 萬美元的風(fēng)險投資,其中最引人注目的來自計算機(jī)電纜和連接器制造商 Molex。Kuo 表示,后者的支持 “至關(guān)重要,因?yàn)樗麄兪请娎|和連接器生態(tài)系統(tǒng)的重要組成部分”。Molex 已經(jīng)證明,它可以在不修改現(xiàn)有生產(chǎn)線的情況下制造 Point2 的電纜,現(xiàn)在,生產(chǎn)電纜和連接器的富士康互聯(lián)科技(Foxconn Interconnect Technology)也在與該初創(chuàng)公司合作。這種支持對于作為 Point2 客戶的超大規(guī)模數(shù)據(jù)中心運(yùn)營商來說可能是一個很大的賣點(diǎn)。
![]()
英偉達(dá)的GB200 NVL72機(jī)架式計算機(jī)依靠大量銅纜將72個處理器連接在一起。
Point2 的電纜名為 e-Tube,其兩端各包含一個單一的硅芯片,用于將傳入的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為調(diào)制毫米波頻率,以及一個向波導(dǎo)輻射的天線。波導(dǎo)本身是一個帶有金屬包層的塑料芯,全部包裹在金屬屏蔽層中。一根名為有源無線電電纜(Active Radio Cable, ARC)的 1.6 太比特 / 秒(Tb/s)電纜由 8 個 e-Tube 芯組成。其直徑為 8.1 毫米,體積僅為同類 AEC 電纜的一半。
Kuo 說,工作在射頻(RF)頻率的好處之一是,處理這些頻率的芯片可以在標(biāo)準(zhǔn)硅晶圓廠制造。今年發(fā)表在《IEEE 固態(tài)電路雜志》(IEEE Journal of Solid-State Circuits)上的一篇由 Point2 和韓國科學(xué)技術(shù)高級研究院(Korea Advanced Institute of Science and Technology)的工程師合作的論文,使用了 28 納米 CMOS 技術(shù),該技術(shù)自 2010 年以來就不再是尖端技術(shù)了。
![]()
向上擴(kuò)展網(wǎng)絡(luò)市場
盡管他們的技術(shù)聽起來很有前景,但Point2 和 AttoTude 將不得不克服數(shù)據(jù)中心行業(yè)長期使用銅纜的歷史。“你從無源銅纜開始,”Credo 的 Barnetson 說,“并且只要有可能,你就會想盡一切辦法使用無源銅纜。”
他說,數(shù)據(jù)中心計算中液體冷卻的興起就是證據(jù)。“人們轉(zhuǎn)向液體冷卻的全部原因就是為了繼續(xù)使用無源銅纜進(jìn)行 [向上擴(kuò)展]。” 為了使用無源銅纜在向上擴(kuò)展網(wǎng)絡(luò)中連接更多 GPU,它們必須以空氣冷卻無法單獨(dú)處理的密度進(jìn)行封裝。Kuo 認(rèn)為,通過毫米波 ARC 連接分布更分散的 GPU 組來實(shí)現(xiàn)相同的向上擴(kuò)展規(guī)模,將減輕對冷卻的需求。
與此同時,兩家初創(chuàng)公司也在追逐一種將直接連接到GPU 的技術(shù)版本。
英偉達(dá)和博通最近部署了與處理器封裝在同一封裝內(nèi)的光學(xué)收發(fā)器,將電子設(shè)備和光學(xué)設(shè)備之間的距離從厘米或米縮短到微米。目前,該技術(shù)僅限于連接到向外擴(kuò)展網(wǎng)絡(luò)的網(wǎng)絡(luò)交換機(jī)芯片。但大公司和初創(chuàng)公司都在努力將其應(yīng)用范圍一直延伸到GPU。
Welch 和 Kuo 都表示,他們公司的技術(shù)在這種收發(fā)器 - 處理器封裝中可能比光學(xué)技術(shù)具有很大優(yōu)勢。英偉達(dá)和博通 —— 各自 —— 都做了大量的工程工作,才使其系統(tǒng)能夠制造出來,并足夠可靠地與非常昂貴的處理器共存于同一封裝中。眾多挑戰(zhàn)之一是如何以微米級精度將光纖連接到光子芯片上的波導(dǎo)。由于波長較短,紅外激光必須與光纖纖芯(直徑僅約 10 微米)非常精確地對準(zhǔn)。相比之下,毫米波和太赫茲信號的波長要長得多,因此連接波導(dǎo)時不需要那么高的精度。Kuo 說,在一個演示系統(tǒng)中,這是手工完成的。
可插拔連接將是該技術(shù)的第一個用途,但與處理器共封裝的無線電收發(fā)器才是“真正的獎品”,Welch 說。
責(zé)任編輯丨汪鵬
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.