公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。
訓(xùn)練大型新型AI模型的速度,歸根結(jié)底取決于兩個(gè)詞:向上(up)與向外(out)。
在數(shù)據(jù)中心領(lǐng)域,橫向擴(kuò)展(scaling out)指增加可互聯(lián)的AI計(jì)算機(jī)數(shù)量,將大型任務(wù)拆分處理;而縱向擴(kuò)展(scaling up)則是在每臺(tái)計(jì)算機(jī)中集成盡可能多的圖形處理器(GPU),通過(guò)互聯(lián)使其等效于一個(gè)巨型GPU,從而更快地處理更大規(guī)模的任務(wù)模塊。
這兩種擴(kuò)展方式依賴(lài)不同的物理連接技術(shù)。橫向擴(kuò)展主要依靠光子芯片和光纖,二者結(jié)合可實(shí)現(xiàn)數(shù)百米甚至數(shù)千米的數(shù)據(jù)傳輸;縱向擴(kuò)展形成的網(wǎng)絡(luò)密度約為橫向擴(kuò)展的10倍,其核心技術(shù)則更為簡(jiǎn)單經(jīng)濟(jì)——通常是長(zhǎng)度不超過(guò)1-2米的銅纜。
但高性能計(jì)算機(jī)所需的GPU間數(shù)據(jù)傳輸速率不斷攀升,已逐漸逼近銅纜的物理極限。數(shù)據(jù)中心互聯(lián)初創(chuàng)企業(yè)Point2 Technology的產(chǎn)品營(yíng)銷(xiāo)與業(yè)務(wù)拓展副總裁戴維·郭(David Kuo)表示,當(dāng)銅纜的帶寬需求接近太比特/秒級(jí)別時(shí),物理規(guī)律決定了其必須做得更短、更粗。這帶來(lái)了兩大難題:一是當(dāng)前計(jì)算機(jī)機(jī)柜內(nèi)部空間本就擁擠,二是頭部AI硬件企業(yè)英偉達(dá)(Nvidia)計(jì)劃到2027年將每系統(tǒng)最大GPU數(shù)量從72個(gè)提升至576個(gè),實(shí)現(xiàn)8倍增長(zhǎng)。
“我們稱(chēng)之為‘銅纜懸崖(copper cliff)’。”郭說(shuō)道。
行業(yè)內(nèi)正通過(guò)延長(zhǎng)銅纜傳輸距離、將纖細(xì)長(zhǎng)距的光纖更貼近GPU等方式疏解數(shù)據(jù)中心的連接瓶頸。但Point2與另一家初創(chuàng)企業(yè)AttoTude提出了一種介于兩種技術(shù)之間、又完全區(qū)別于二者的解決方案。他們聲稱(chēng),該技術(shù)兼具銅纜的低成本、高可靠性?xún)?yōu)勢(shì),以及光纖的纖細(xì)尺寸和長(zhǎng)距離傳輸特性,足以滿(mǎn)足未來(lái)AI系統(tǒng)的需求。
![]()
他們的答案是什么?無(wú)線(xiàn)電技術(shù)。
今年晚些時(shí)候,Point2將開(kāi)始量產(chǎn)支撐1.6太比特/秒傳輸速率線(xiàn)纜的芯片。該線(xiàn)纜由8根纖細(xì)的聚合物波導(dǎo)組成,每根波導(dǎo)利用90吉赫茲和225吉赫茲兩種頻率,可實(shí)現(xiàn)448吉比特/秒的傳輸速率。波導(dǎo)兩端的可插拔模塊負(fù)責(zé)將電子比特轉(zhuǎn)換為調(diào)制無(wú)線(xiàn)電波,再將接收的無(wú)線(xiàn)電波還原為電子比特。AttoTude則計(jì)劃開(kāi)發(fā)原理相似的技術(shù),但采用太赫茲頻段和另一種纖細(xì)柔性的線(xiàn)纜。
兩家企業(yè)均表示,其技術(shù)在傳輸距離上輕松超越銅纜——可實(shí)現(xiàn)10-20米的無(wú)顯著損耗傳輸,這一距離足以滿(mǎn)足英偉達(dá)公布的縱向擴(kuò)展計(jì)劃。其中Point2的系統(tǒng)功耗僅為光纖的1/3,成本同樣降至光纖的1/3,時(shí)延則低至光纖的千分之一。
支持者認(rèn)為,相較于光電子技術(shù),無(wú)線(xiàn)電技術(shù)更可靠、更易制造,因此在實(shí)現(xiàn)低能耗處理器間直連GPU的競(jìng)賽中,有望擊敗光子技術(shù),甚至可替代印刷電路板上的部分銅纜。

銅纜的局限性何在?
那么銅纜究竟存在什么問(wèn)題?其實(shí)在數(shù)據(jù)速率不高、傳輸距離不遠(yuǎn)的場(chǎng)景下,銅纜并無(wú)明顯缺陷。但在高數(shù)據(jù)速率場(chǎng)景中,銅等導(dǎo)體會(huì)受到“趨膚效應(yīng)(skin effect)”的影響。
趨膚效應(yīng)的產(chǎn)生,是因?yàn)樾盘?hào)的快速變化電流會(huì)產(chǎn)生反向磁場(chǎng),這種反向作用力集中在導(dǎo)線(xiàn)中部,導(dǎo)致大部分電流只能在導(dǎo)線(xiàn)外緣(即“表皮”)流動(dòng),從而增加電阻。在許多國(guó)家的市電頻率(60赫茲)下,大部分電流集中在銅導(dǎo)線(xiàn)外層8毫米區(qū)域;但在10吉赫茲頻率下,電流僅集中在0.65微米深的表皮層。因此,要通過(guò)銅纜傳輸高頻數(shù)據(jù),就需要更粗的導(dǎo)線(xiàn)和更多的功耗,而這兩點(diǎn)均與“在更小空間內(nèi)集成更多連接以實(shí)現(xiàn)計(jì)算縱向擴(kuò)展”的需求相悖。
為抵消趨膚效應(yīng)及其他信號(hào)衰減問(wèn)題,企業(yè)開(kāi)發(fā)了兩端配備專(zhuān)用電子元件的銅纜。其中最具前景的是“有源電纜(AECs)”,其終端芯片被稱(chēng)為“重定時(shí)器(retimer)”。該集成電路會(huì)對(duì)從處理器接收的數(shù)據(jù)信號(hào)和時(shí)鐘信號(hào)進(jìn)行凈化,再通過(guò)銅纜中通常包含的8對(duì)導(dǎo)線(xiàn)(即通道)重新傳輸(另有一組導(dǎo)線(xiàn)用于反向傳輸)。在接收端,同款芯片會(huì)處理傳輸過(guò)程中積累的噪聲和時(shí)鐘偏差問(wèn)題,再將數(shù)據(jù)傳遞給接收處理器。因此,有源電纜通過(guò)增加電子元件復(fù)雜度和功耗,延長(zhǎng)了銅纜的傳輸距離。
為數(shù)據(jù)中心提供網(wǎng)絡(luò)硬件的Credo公司高級(jí)副總裁兼產(chǎn)品負(fù)責(zé)人唐·巴尼特森(Don Barnetson)表示,該公司已開(kāi)發(fā)出可實(shí)現(xiàn)800吉比特/秒、傳輸距離達(dá)7米的有源電纜——當(dāng)計(jì)算機(jī)集成500-600個(gè)GPU并跨多個(gè)機(jī)柜時(shí),這一距離至關(guān)重要。有源電纜的首批應(yīng)用可能是將單個(gè)GPU與構(gòu)成橫向擴(kuò)展網(wǎng)絡(luò)的交換機(jī)相連。巴尼特森指出,這一橫向擴(kuò)展網(wǎng)絡(luò)的初始環(huán)節(jié)至關(guān)重要,因?yàn)椤八蔷W(wǎng)絡(luò)中唯一無(wú)冗余的節(jié)點(diǎn)”。該鏈路即使短暫中斷,也可能導(dǎo)致AI訓(xùn)練任務(wù)崩潰。
但即便重定時(shí)器能將“銅纜懸崖”的到來(lái)推遲一段時(shí)間,物理規(guī)律最終仍會(huì)占據(jù)主導(dǎo)。Point2和AttoTude均認(rèn)為,這一臨界點(diǎn)已近在眼前。

太赫茲無(wú)線(xiàn)電的傳輸潛力
AttoTude源自創(chuàng)始人兼首席執(zhí)行官戴夫·韋爾奇(Dave Welch)對(duì)光子學(xué)的深入研究。韋爾奇是光通信設(shè)備制造商Infinera的聯(lián)合創(chuàng)始人(該公司于2025年被諾基亞收購(gòu)),數(shù)十年間深耕光子系統(tǒng)開(kāi)發(fā),對(duì)該技術(shù)的缺陷了如指掌:功耗過(guò)高(據(jù)英偉達(dá)數(shù)據(jù),約占數(shù)據(jù)中心計(jì)算預(yù)算的10%)、對(duì)溫度極為敏感、光子芯片的光耦合需要微米級(jí)精度制造,且長(zhǎng)期可靠性不佳的問(wèn)題眾所周知(行業(yè)內(nèi)甚至有專(zhuān)門(mén)術(shù)語(yǔ)“鏈路抖動(dòng)(link flap)”)。
“客戶(hù)青睞光纖,但厭惡光電子元件。”韋爾奇表示,“事實(shí)已證明,電子元件本質(zhì)上比光電子元件更可靠。”
在諾基亞以23億美元收購(gòu)Infinera后,韋爾奇在籌備下一家初創(chuàng)企業(yè)時(shí)思考了一系列核心問(wèn)題,其中首要問(wèn)題是:“如果不必局限于光波長(zhǎng),我應(yīng)該選擇什么頻段?”答案是純電子技術(shù)可實(shí)現(xiàn)的最高頻段——太赫茲頻段(300-3000吉赫茲)。
因此,韋爾奇團(tuán)隊(duì)著手開(kāi)發(fā)一套系統(tǒng),包含與GPU對(duì)接的數(shù)字組件、太赫茲頻率發(fā)生器,以及將數(shù)據(jù)編碼到太赫茲信號(hào)的混頻器。天線(xiàn)會(huì)將信號(hào)導(dǎo)入纖細(xì)的柔性波導(dǎo)中。
該波導(dǎo)的核心是用于傳輸太赫茲信號(hào)的電介質(zhì),外部包裹著包層。早期版本采用狹窄的空心銅管;韋爾奇表示,第二代線(xiàn)纜由直徑僅200微米的光纖組成,損耗可低至0.3分貝/米,僅為傳輸224吉比特/秒的典型銅纜損耗的一小部分。
韋爾奇預(yù)測(cè),這種波導(dǎo)的傳輸距離可達(dá)到20米。“這恰好是數(shù)據(jù)中心縱向擴(kuò)展所需的理想距離。”他說(shuō)道。
目前,AttoTude已完成各核心組件的研發(fā)——數(shù)字?jǐn)?shù)據(jù)芯片、太赫茲信號(hào)發(fā)生器、信號(hào)混頻電路,以及多代波導(dǎo)產(chǎn)品,但尚未將其集成到單一可插拔模塊中。盡管如此,韋爾奇表示,現(xiàn)有組件組合已能提供至少224吉比特/秒的傳輸帶寬,且該初創(chuàng)企業(yè)于今年4月在舊金山舉行的光纖通信會(huì)議(OFC)上,成功演示了970吉赫茲頻率下4米距離的傳輸。

無(wú)線(xiàn)電技術(shù)在數(shù)據(jù)中心的應(yīng)用前景
Point2將無(wú)線(xiàn)電技術(shù)應(yīng)用于數(shù)據(jù)中心的探索早于AttoTude。這家由邁威爾(Marvell)、英偉達(dá)、三星等企業(yè)資深人士于9年前創(chuàng)立的初創(chuàng)公司,已籌集5500萬(wàn)美元風(fēng)險(xiǎn)投資,其中最引人注目的投資方是計(jì)算機(jī)線(xiàn)纜與連接器制造商莫仕(Molex)。郭表示,莫仕的支持至關(guān)重要,“因?yàn)樗麄兪蔷€(xiàn)纜與連接器生態(tài)系統(tǒng)的核心參與者”。莫仕已證實(shí),無(wú)需改造現(xiàn)有生產(chǎn)線(xiàn)即可量產(chǎn)Point2的線(xiàn)纜;目前,線(xiàn)纜連接器制造商富士康工業(yè)互聯(lián)網(wǎng)也已與該初創(chuàng)企業(yè)達(dá)成合作。這些行業(yè)巨頭的支持,可能成為Point2吸引超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商客戶(hù)的重要優(yōu)勢(shì)。
Point2的線(xiàn)纜名為e-Tube,其兩端各包含一塊硅芯片和一根天線(xiàn):硅芯片負(fù)責(zé)將輸入的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為調(diào)制毫米波信號(hào),天線(xiàn)則將信號(hào)輻射至波導(dǎo)中。波導(dǎo)本身以塑料為核心,外部包裹金屬包層,整體再由金屬屏蔽層封裝。1.6太比特/秒的線(xiàn)纜被稱(chēng)為“有源無(wú)線(xiàn)電電纜(ARC)”,由8個(gè)e-Tube核心組成,直徑僅8.1毫米,體積僅為同類(lèi)有源電纜的一半。
郭指出,工作在射頻頻段的一大優(yōu)勢(shì)是,相關(guān)處理芯片可通過(guò)標(biāo)準(zhǔn)硅晶圓廠(chǎng)制造。Point2工程師與韓國(guó)科學(xué)技術(shù)院的合作研究(今年發(fā)表于《IEEE固態(tài)電路期刊》)顯示,采用2010年就已非尖端的28納米CMOS技術(shù)即可實(shí)現(xiàn)。

縱向擴(kuò)展網(wǎng)絡(luò)市場(chǎng)
盡管這兩家企業(yè)的技術(shù)前景看似廣闊,但它們?nèi)孕杩朔?shù)據(jù)中心行業(yè)對(duì)銅纜的長(zhǎng)期依賴(lài)。“我們首先會(huì)采用無(wú)源銅纜,并盡可能在無(wú)源銅纜的技術(shù)框架內(nèi)持續(xù)推進(jìn)。”Credo的巴尼特森說(shuō)道。
他表示,數(shù)據(jù)中心液冷技術(shù)的興起就是這一趨勢(shì)的佐證:“人們采用液冷技術(shù)的核心原因,就是為了在無(wú)源銅纜的框架內(nèi)繼續(xù)實(shí)現(xiàn)縱向擴(kuò)展。”要通過(guò)無(wú)源銅纜連接更多GPU實(shí)現(xiàn)縱向擴(kuò)展,就必須以極高密度集成GPU,而這種密度已超出風(fēng)冷技術(shù)的承載能力。郭則認(rèn)為,通過(guò)毫米波有源無(wú)線(xiàn)電電纜連接分布更分散的GPU實(shí)現(xiàn)同等規(guī)模的縱向擴(kuò)展,可降低對(duì)冷卻技術(shù)的需求。
與此同時(shí),兩家初創(chuàng)企業(yè)均在研發(fā)可直接集成于GPU的技術(shù)版本。
英偉達(dá)和博通(Broadcom)近期已部署與處理器共封裝的光收發(fā)器,使電子元件與光元件的間距縮小至微米級(jí),而非此前的厘米級(jí)或米級(jí)。目前,該技術(shù)僅應(yīng)用于連接橫向擴(kuò)展網(wǎng)絡(luò)的交換機(jī)芯片,但行業(yè)巨頭與初創(chuàng)企業(yè)均在嘗試將其擴(kuò)展至GPU領(lǐng)域。
韋爾奇和郭均表示,在這種收發(fā)器-處理器共封裝場(chǎng)景中,其企業(yè)的技術(shù)相較于光電子技術(shù)具有顯著優(yōu)勢(shì)。英偉達(dá)和博通為實(shí)現(xiàn)該系統(tǒng)的量產(chǎn)可行性及與高價(jià)處理器共封裝的可靠性,均投入了大量工程資源。其中一大核心挑戰(zhàn)是,如何以微米級(jí)精度將光纖與光子芯片上的波導(dǎo)對(duì)接——由于紅外激光波長(zhǎng)極短,必須與直徑僅約10微米的光纖纖芯精準(zhǔn)對(duì)齊。相比之下,毫米波和太赫茲信號(hào)的波長(zhǎng)長(zhǎng)得多,波導(dǎo)對(duì)接無(wú)需如此高的精度。郭透露,在某演示系統(tǒng)中,這一對(duì)接過(guò)程甚至可手動(dòng)完成。
可插拔連接將是該技術(shù)的首批應(yīng)用場(chǎng)景,但韋爾奇表示,與處理器共封裝的無(wú)線(xiàn)電收發(fā)器才是“真正的核心目標(biāo)”。
(來(lái)源:spectrum.ieee)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4270期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送,小號(hào)防走丟


求推薦

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.