![]()
深度學(xué)習(xí)是現(xiàn)代AI的核心技術(shù)之一。初創(chuàng)公司Aria Networks正將這種分層智能理念應(yīng)用于網(wǎng)絡(luò)領(lǐng)域,推出了其Deep Networking平臺(tái)。
Aria Networks由Mansour Karam于2025年1月創(chuàng)立。Karam此前創(chuàng)辦了基于意圖的網(wǎng)絡(luò)供應(yīng)商Apstra,該公司于2020年被瞻博網(wǎng)絡(luò)收購。Aria構(gòu)建了一套以路徑為中心的方案,核心在于微秒級(jí)遙測(cè),而非現(xiàn)有主流廠商所采用的以交換機(jī)為中心的模型。基于這一方向,Deep Networking平臺(tái)本周正式發(fā)布。該平臺(tái)集成了專用交換機(jī)硬件、經(jīng)過加固的SONiC操作系統(tǒng)、跨交換機(jī)、收發(fā)器及主機(jī)網(wǎng)卡采集的細(xì)粒度遙測(cè)數(shù)據(jù),以及在協(xié)議棧各層運(yùn)行的智能體。與此同時(shí),公司還披露了來自Sutter Hill Ventures、Atreides Management、Valor Equity Partners和Eclipse Ventures的共計(jì)1.25億美元融資。
"要讓AI真正發(fā)揮效用,你需要針對(duì)該領(lǐng)域進(jìn)行專項(xiàng)優(yōu)化,也就是從底層架構(gòu)開始,打造一套專為AI設(shè)計(jì)的體系。"Karam在接受采訪時(shí)表示。
Deep Networking的設(shè)計(jì)理念是將網(wǎng)絡(luò)視為AI集群性能的主動(dòng)參與者,而非被動(dòng)的基礎(chǔ)設(shè)施。實(shí)現(xiàn)這一目標(biāo)的手段包括:在ASIC層面采集細(xì)粒度遙測(cè)數(shù)據(jù)、在協(xié)議棧各層部署智能體,以及持續(xù)進(jìn)行云端軟件更新。
遙測(cè)層是Aria主張其核心技術(shù)差異化的所在。NetFlow等傳統(tǒng)網(wǎng)絡(luò)監(jiān)控工具采集的是事后數(shù)據(jù),分辨率較粗。Aria則直接從交換機(jī)ASIC中實(shí)時(shí)采集微秒級(jí)精度的遙測(cè)數(shù)據(jù)。
"我們?cè)贏SIC內(nèi)部嵌入了代碼,直接運(yùn)行在ASIC的ARM處理器上,負(fù)責(zé)提取遙測(cè)數(shù)據(jù)。"Karam說道。
這些嵌入式遙測(cè)數(shù)據(jù)能夠驅(qū)動(dòng)動(dòng)態(tài)負(fù)載均衡參數(shù)、數(shù)據(jù)中心量化擁塞通知(DCQCN)和故障切換邏輯的自適應(yīng)調(diào)整,無需等待閾值觸發(fā)或人工干預(yù)。
該平臺(tái)采用分層架構(gòu)。在最底層,智能體以微秒級(jí)速度響應(yīng)鏈路層事件(如收發(fā)器抖動(dòng)),并在毫秒內(nèi)完成葉脊網(wǎng)絡(luò)的流量重路由。在較高層,智能體負(fù)責(zé)對(duì)整個(gè)集群的流量分配做出更具戰(zhàn)略性的決策。在云層,基于大語言模型的智能體以自然語言向運(yùn)維人員呈現(xiàn)關(guān)聯(lián)洞察,支持針對(duì)特定任務(wù)或告警狀態(tài)進(jìn)行問詢,并返回具備上下文感知能力的響應(yīng)。
Karam指出,簡(jiǎn)單地將大語言模型疊加在現(xiàn)有架構(gòu)之上,并不能達(dá)到同等效果。"如果你讓它執(zhí)行某些操作,它可能會(huì)產(chǎn)生幻覺,進(jìn)而導(dǎo)致網(wǎng)絡(luò)中斷。它沒有使這種方式安全可靠所必需的上下文信息和數(shù)據(jù)。"
Aria還開放了MCP服務(wù)器接口,允許任務(wù)調(diào)度器、大語言模型路由器等外部系統(tǒng)直接查詢網(wǎng)絡(luò)狀態(tài),并將其集成到自身的決策流程中。
傳統(tǒng)網(wǎng)絡(luò)評(píng)估通常以帶寬和延遲為核心指標(biāo)。Aria則將平臺(tái)定位聚焦于兩個(gè)指標(biāo):模型算力利用率(MFU)和Token效率。MFU定義為每個(gè)加速器實(shí)際達(dá)到的算力與理論峰值之比。Karam表示,在實(shí)際環(huán)境中,訓(xùn)練任務(wù)的MFU通常在33%至45%之間,推理任務(wù)往往低于30%。
"網(wǎng)絡(luò)對(duì)MFU,進(jìn)而對(duì)Token效率有著重大影響,因?yàn)榫W(wǎng)絡(luò)與集群中的每個(gè)組成部分都緊密相連。"Karam說。
Token效率可表示為每美元消耗的Token數(shù)量,或單位時(shí)間內(nèi)產(chǎn)生的Token數(shù)量。Aria認(rèn)為,這兩個(gè)指標(biāo)均直接受到網(wǎng)絡(luò)性能的影響。
Karam通過具體故障場(chǎng)景闡釋了這一關(guān)聯(lián):在一個(gè)擁有10,000個(gè)XPU的集群中,單塊故障網(wǎng)卡在執(zhí)行All Reduce操作時(shí)可導(dǎo)致MFU下降1.7%;一塊故障收發(fā)器可引發(fā)持續(xù)的流量重路由,同時(shí)消耗MFU并占用大量基礎(chǔ)設(shè)施開銷;從未針對(duì)特定工作負(fù)載進(jìn)行調(diào)優(yōu)的擁塞參數(shù)設(shè)置,則會(huì)造成持續(xù)的性能不足。
Aria的內(nèi)部測(cè)算將商業(yè)價(jià)值換算為營(yíng)收數(shù)字:在當(dāng)前Token定價(jià)水平下,一個(gè)10,000 XPU集群提升3%的MFU,每年可帶來約4,980萬美元的營(yíng)收增長(zhǎng),相當(dāng)于7.9%的營(yíng)收提升。
Aria的硬件產(chǎn)品線基于博通ASIC構(gòu)建,運(yùn)行符合標(biāo)準(zhǔn)規(guī)范的加固版SONiC,包含三款交換機(jī)型號(hào)。
Aria Switch 800G:基于51.2T博通Tomahawk 5 ASIC,提供64個(gè)800G OSFP端口,支持DSP、LRO和LPO光模塊。
Aria Switch 1.6T High Radix:4U風(fēng)冷機(jī)型,基于102.4T TH6 ASIC,配備128個(gè)800G OSFP端口。
Aria Switch 1.6T:2U機(jī)型,支持EIA 19和ORV3 外形規(guī)格,兼容風(fēng)冷和全液冷方式,配備64個(gè)1.6T OSFP端口。
Aria從部署階段起便在客戶現(xiàn)場(chǎng)嵌入其所稱的"前置部署工程師(FDE)"。Karam表示,這一模式與傳統(tǒng)的專業(yè)服務(wù)在結(jié)構(gòu)上存在本質(zhì)區(qū)別。
"前置部署工程師的一切工作,最終都會(huì)反哺到產(chǎn)品中。他們與產(chǎn)品的方向完全一致,不是獨(dú)立運(yùn)營(yíng)的業(yè)務(wù)單元。"他說。
這一區(qū)別對(duì)Aria的產(chǎn)品迭代方式至關(guān)重要。前置部署工程師持續(xù)將真實(shí)客戶環(huán)境數(shù)據(jù)反饋回平臺(tái),驅(qū)動(dòng)智能體能力提升和軟件更新節(jié)奏——Aria的目標(biāo)是每周更新一次,而非主流網(wǎng)絡(luò)廠商慣常的半年或一年周期。
"匯聚所有這些智能,從而擴(kuò)展解決方案的覆蓋廣度與能力邊界,同時(shí)確保其使用的高度安全性——這將是我們持續(xù)重點(diǎn)投入的方向。確保網(wǎng)絡(luò)始終穩(wěn)定運(yùn)行,永遠(yuǎn)是第一要?jiǎng)?wù)。"Karam說。
Q&A
Q1:Deep Networking平臺(tái)的核心技術(shù)優(yōu)勢(shì)是什么?
A:Deep Networking的核心技術(shù)優(yōu)勢(shì)在于微秒級(jí)細(xì)粒度遙測(cè)。Aria將代碼直接嵌入交換機(jī)ASIC的ARM處理器中,實(shí)時(shí)采集遙測(cè)數(shù)據(jù),相比NetFlow等傳統(tǒng)工具的事后粗粒度采集有顯著提升。這些數(shù)據(jù)可驅(qū)動(dòng)動(dòng)態(tài)負(fù)載均衡、DCQCN擁塞控制及故障切換邏輯的自適應(yīng)調(diào)整,無需人工干預(yù)或等待閾值觸發(fā),從而大幅提升AI集群的網(wǎng)絡(luò)性能和穩(wěn)定性。
Q2:MFU和Token效率與網(wǎng)絡(luò)性能有什么關(guān)系?
A:MFU(模型算力利用率)衡量加速器實(shí)際算力與理論峰值之比,當(dāng)前訓(xùn)練任務(wù)通常只有33%~45%,推理任務(wù)甚至低于30%。Aria認(rèn)為網(wǎng)絡(luò)是影響MFU的關(guān)鍵因素,因?yàn)榫W(wǎng)絡(luò)連接集群中的每個(gè)組件。以10,000 XPU集群為例,單塊故障網(wǎng)卡就能導(dǎo)致MFU下降1.7%。MFU提升3%,每年可帶來約4,980萬美元的額外營(yíng)收,直接體現(xiàn)在Token效率(每美元Token數(shù)或單位時(shí)間產(chǎn)出Token數(shù))的改善上。
Q3:Aria Networks的前置部署工程師模式和傳統(tǒng)專業(yè)服務(wù)有什么不同?
A:傳統(tǒng)專業(yè)服務(wù)通常是獨(dú)立的業(yè)務(wù)單元,以項(xiàng)目制方式交付,與產(chǎn)品研發(fā)團(tuán)隊(duì)相對(duì)割裂。Aria的前置部署工程師(FDE)則從客戶部署初期就駐場(chǎng),持續(xù)將真實(shí)環(huán)境數(shù)據(jù)反饋給產(chǎn)品團(tuán)隊(duì),直接推動(dòng)智能體能力優(yōu)化和軟件迭代。因此Aria能夠?qū)崿F(xiàn)每周軟件更新,而非行業(yè)慣常的半年或一年一次,客戶現(xiàn)場(chǎng)經(jīng)驗(yàn)與產(chǎn)品演進(jìn)形成緊密閉環(huán)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.