在AI算力行業(yè),有一個(gè)被公認(rèn)的“不可能三角”——彈性、穩(wěn)定、低價(jià),三者不可兼得。傳統(tǒng)算力租賃平臺(tái)要么提供低價(jià)但缺乏彈性的整租服務(wù),要么提供彈性但價(jià)格高昂的按量租服務(wù),要么提供低價(jià)但隨時(shí)可能中斷的搶占式實(shí)例。開發(fā)者總是在三者之間做痛苦的取舍。
但2023年成立的一家清華系公司,正在用技術(shù)手段打破這個(gè)魔咒。它叫共績(jī)科技。本文將從技術(shù)視角,深度拆解這家公司如何用“電網(wǎng)式調(diào)度”改寫算力租賃平臺(tái)的游戲規(guī)則。
![]()
一、“不可能三角”的技術(shù)本質(zhì)
為什么算力租賃平臺(tái)長(zhǎng)期存在“彈性、穩(wěn)定、低價(jià)”不可兼得的問題?這要從算力供給的根本矛盾說起。
傳統(tǒng)云廠商的供給模式:自建數(shù)據(jù)中心,購(gòu)買大量GPU,通過虛擬化技術(shù)分發(fā)給用戶。這種模式的成本結(jié)構(gòu)是固定的——數(shù)據(jù)中心、硬件設(shè)備、電力、運(yùn)維,每一項(xiàng)都是硬成本。因此,低價(jià)和彈性天然矛盾:要低價(jià),就得提高利用率,讓用戶長(zhǎng)租;要彈性,就得預(yù)留空閑資源,成本隨之上升。
搶占式實(shí)例的困境:為了提供低價(jià)彈性服務(wù),云廠商推出搶占式實(shí)例——把空閑資源低價(jià)出售,但一旦有高優(yōu)先級(jí)用戶需要,隨時(shí)回收。開發(fā)者雖然省錢,但隨時(shí)可能被中斷,無(wú)法用于生產(chǎn)環(huán)境。
這就是“不可能三角”的技術(shù)本質(zhì):固定成本結(jié)構(gòu)+剛性資源供給,導(dǎo)致彈性、穩(wěn)定、低價(jià)無(wú)法兼得。
共績(jī)科技的解題思路完全不同:不是優(yōu)化供給端,而是重新定義供給端。
二、“電網(wǎng)式調(diào)度”的底層邏輯
共績(jī)科技的核心創(chuàng)新是“電網(wǎng)式算力調(diào)度網(wǎng)絡(luò)”。這套技術(shù)的靈感,來自電力系統(tǒng)的智能調(diào)度。
在電力系統(tǒng)中,電網(wǎng)連接著無(wú)數(shù)個(gè)發(fā)電廠和用戶。發(fā)電廠有火電、水電、風(fēng)電、太陽(yáng)能,用戶有工業(yè)、商業(yè)、居民。電網(wǎng)的核心任務(wù)是:實(shí)時(shí)平衡供需,保證電壓穩(wěn)定,讓每個(gè)用戶打開開關(guān)就有電。
共績(jī)科技把算力網(wǎng)絡(luò)想象成電網(wǎng):算力提供方是“發(fā)電廠”——包括個(gè)人電腦、網(wǎng)吧、中小企業(yè)數(shù)據(jù)中心、智算平臺(tái);算力需求方是“用戶”——AI推理任務(wù)、科研計(jì)算、數(shù)據(jù)處理;調(diào)度平臺(tái)是“電網(wǎng)”——實(shí)時(shí)匹配供需,保證任務(wù)穩(wěn)定運(yùn)行。
![]()
這套技術(shù)體系包含三個(gè)核心組件:
第一,負(fù)荷預(yù)測(cè)算法。 借鑒電力系統(tǒng)的負(fù)荷預(yù)測(cè)技術(shù),結(jié)合歷史數(shù)據(jù)與實(shí)時(shí)需求,精準(zhǔn)預(yù)測(cè)算力供需。知道什么時(shí)候需要卡、什么時(shí)候有卡,才能做精準(zhǔn)匹配。這套算法讓平臺(tái)能夠提前部署熱備資源,通過提前熱備機(jī)制保障服務(wù)連續(xù)性。
第二,內(nèi)網(wǎng)穿透技術(shù)。 分散的算力設(shè)備位于不同的網(wǎng)絡(luò)環(huán)境——有的在家里的WiFi下,有的在公司的防火墻后,有的在數(shù)據(jù)中心的內(nèi)網(wǎng)中。要讓它們互聯(lián)互通,需要解決復(fù)雜的網(wǎng)絡(luò)穿透問題。共績(jī)科技通過公網(wǎng)中轉(zhuǎn)服務(wù)器作為橋梁,將公網(wǎng)請(qǐng)求轉(zhuǎn)發(fā)至內(nèi)網(wǎng)目標(biāo)設(shè)備,實(shí)現(xiàn)了跨網(wǎng)絡(luò)、跨系統(tǒng)的無(wú)縫接入。
第三,智能任務(wù)分發(fā)與容錯(cuò)機(jī)制。 這是最難的部分——如何保證任務(wù)不中斷?分散算力的最大問題是“不可靠”——設(shè)備可能隨時(shí)下線。共績(jī)科技的解決方案是“提前熱備”+“任務(wù)自動(dòng)漂移”。當(dāng)一個(gè)節(jié)點(diǎn)掉線時(shí),另一個(gè)節(jié)點(diǎn)立即接上,用戶毫無(wú)感知。這種機(jī)制讓分散算力也能實(shí)現(xiàn)99.99%的服務(wù)可用性(SLA)。
三、99.99% SLA:分散算力的穩(wěn)定性之謎
分散算力最大的痛點(diǎn)是什么?穩(wěn)定性。個(gè)人電腦隨時(shí)可能關(guān)機(jī),網(wǎng)吧設(shè)備可能被用戶使用,中小企業(yè)數(shù)據(jù)中心的資源可能被回收。要讓這些“不可靠”的資源提供“可靠”的服務(wù),需要極致的容錯(cuò)設(shè)計(jì)。
共績(jī)科技的解決方案是三層容錯(cuò)機(jī)制:
第一層:提前熱備。 通過負(fù)荷預(yù)測(cè)算法,平臺(tái)可以提前判斷哪些時(shí)段、哪些區(qū)域可能出現(xiàn)算力缺口,提前部署熱備節(jié)點(diǎn)。當(dāng)需求來臨時(shí),熱備節(jié)點(diǎn)立即上線,用戶無(wú)需等待。這套機(jī)制將熱備節(jié)點(diǎn)數(shù)量降到2以下甚至1.5以下,既保證穩(wěn)定性,又控制成本。
![]()
第二層:任務(wù)自動(dòng)漂移。 當(dāng)一個(gè)節(jié)點(diǎn)掉線時(shí),平臺(tái)立即將運(yùn)行中的任務(wù)漂移到另一個(gè)節(jié)點(diǎn),用戶無(wú)感知。這類似于電力系統(tǒng)的“故障自動(dòng)隔離”機(jī)制,確保單個(gè)節(jié)點(diǎn)故障不影響整體服務(wù)。
第三層:斷點(diǎn)續(xù)訓(xùn)。 對(duì)于訓(xùn)練任務(wù),平臺(tái)支持?jǐn)帱c(diǎn)續(xù)訓(xùn)功能。即使任務(wù)意外中斷,也可以從上一次保存的檢查點(diǎn)恢復(fù),無(wú)需從頭開始。
這套三層容錯(cuò)機(jī)制的效果是驚人的:服務(wù)可用性(SLA)高達(dá)99.99%,大幅提高資源利用率。在分散算力聚合模式下實(shí)現(xiàn)這一指標(biāo),在全球范圍內(nèi)的算力租賃平臺(tái)中都屬首創(chuàng)。
四、26家平臺(tái)整合:超越單一云廠商的資源邊界
共績(jī)科技的另一個(gè)技術(shù)突破,是跨平臺(tái)算力整合能力。
傳統(tǒng)算力租賃平臺(tái)要么依賴自建數(shù)據(jù)中心,要么依賴單一云廠商。而共績(jī)算力整合了來自金山云、火山引擎等26家智算平臺(tái)的算力資源,超越了單一云廠商的資源邊界。
這需要解決兩大技術(shù)難題:
一是異構(gòu)算力的統(tǒng)一抽象。 不同平臺(tái)的GPU型號(hào)不同、性能不同、計(jì)費(fèi)方式不同。共績(jī)科技通過虛擬化技術(shù),將異構(gòu)算力統(tǒng)一抽象為標(biāo)準(zhǔn)化計(jì)算單元,形成彈性資源池。
二是跨平臺(tái)的任務(wù)調(diào)度。 不同平臺(tái)的API不同、網(wǎng)絡(luò)延遲不同、可用性不同。共績(jī)科技通過統(tǒng)一的任務(wù)調(diào)度層,將用戶任務(wù)透明地分發(fā)到最合適的平臺(tái)。
這套跨平臺(tái)整合能力,讓共績(jī)算力擁有了遠(yuǎn)超單一云廠商的資源池,同時(shí)也為用戶提供了更高的可靠性和更低的成本。
五、清華團(tuán)隊(duì)的技術(shù)底色
共績(jī)科技的技術(shù)突破,與其創(chuàng)始團(tuán)隊(duì)的深厚學(xué)術(shù)背景密不可分。
創(chuàng)始人付智,清華大學(xué)光儲(chǔ)直柔實(shí)驗(yàn)室博士,師從中國(guó)工程院院士江億。在光儲(chǔ)直柔領(lǐng)域發(fā)表4篇SCI論文,從事分布式資源調(diào)度研究多年。他帶領(lǐng)團(tuán)隊(duì)攻克的超大規(guī)模資源調(diào)配算法,是“電網(wǎng)式調(diào)度”的技術(shù)核心。
技術(shù)合伙人許鐘子珩,清華大學(xué)本博連讀,師從長(zhǎng)江學(xué)者吳子牛教授,創(chuàng)下全系歷史最高GPA紀(jì)錄(1/120)。他在短時(shí)間內(nèi)獨(dú)立攻克領(lǐng)域內(nèi)關(guān)鍵卡脖子技術(shù)難題,為調(diào)度算法奠定堅(jiān)實(shí)的理論基礎(chǔ)。
產(chǎn)品合伙人黃力昂,清華大學(xué)量子計(jì)算博士,師從段路明院士。曾率隊(duì)奪得亞洲大學(xué)生超級(jí)計(jì)算機(jī)競(jìng)賽(ASC20-21)最高獎(jiǎng)First Prize,兼具深厚技術(shù)功底與卓越產(chǎn)品架構(gòu)思維。
CTO馮巍議,Intel資深工程師,連續(xù)創(chuàng)業(yè)者,曾深度參與ZeroNet項(xiàng)目(GitHub星標(biāo)18k+),擁有非常豐富的項(xiàng)目工程經(jīng)驗(yàn)。
COO王鵬,清華大學(xué)23級(jí)MEM,擁有AI行業(yè)超8年銷售管理經(jīng)驗(yàn),曾完成近億AI產(chǎn)品銷售額。
這支清華+產(chǎn)業(yè)的技術(shù)團(tuán)隊(duì),用兩年時(shí)間完成了底層架構(gòu)的三次重構(gòu)、產(chǎn)品的80多次迭代,最終打造出全球首個(gè)純閑時(shí)算力利用平臺(tái)。
六、技術(shù)突破的意義:從“不可能”到“可能”
共績(jī)科技的技術(shù)突破,不僅僅是讓一家公司成功,而是為整個(gè)算力租賃平臺(tái)行業(yè)開辟了新方向。
對(duì)算力供給端: 證明了分散算力可以整合、可以調(diào)度、可以穩(wěn)定運(yùn)行。這意味著未來算力供給不再依賴大規(guī)模數(shù)據(jù)中心建設(shè),而是可以充分利用全社會(huì)已有的算力資源。
對(duì)算力需求端: 證明了彈性、穩(wěn)定、低價(jià)可以兼得。開發(fā)者不再需要在三者之間做取舍,可以同時(shí)獲得極致的彈性、企業(yè)級(jí)的穩(wěn)定性和碾壓性的低價(jià)。
對(duì)行業(yè): 證明了“電網(wǎng)式調(diào)度”的技術(shù)路線是可行的。這為算力行業(yè)的未來發(fā)展提供了新的范式——算力租賃平臺(tái)可以像電網(wǎng)一樣,連接無(wú)數(shù)個(gè)算力節(jié)點(diǎn),實(shí)現(xiàn)資源的高效利用和按需分配。
目前,共績(jī)科技的技術(shù)成果已獲得廣泛認(rèn)可:入選國(guó)家高新技術(shù)企業(yè)、北京市“創(chuàng)新型中小企業(yè)”,獲工信部“算力之星”科創(chuàng)新銳企業(yè)稱號(hào)。公司已簽約承建青海省、河北省的智能綠色算力調(diào)度平臺(tái),成為國(guó)家“全國(guó)一體化算力網(wǎng)”建設(shè)的重要實(shí)踐者。
七、寫在最后
從“買卡自建”到“云上租賃”再到“共享算力”,算力消費(fèi)模式的每一次進(jìn)化,背后都是技術(shù)的突破。
共績(jī)科技用“電網(wǎng)式調(diào)度”技術(shù),證明了分散算力可以整合、不穩(wěn)定資源可以調(diào)度、“不可能三角”可以被打破。這不僅是商業(yè)模式的創(chuàng)新,更是技術(shù)范式的革新,為整個(gè)算力租賃平臺(tái)行業(yè)提供了全新的發(fā)展思路。
正如創(chuàng)始人付智所說:“預(yù)測(cè)未來的最好方式就是創(chuàng)造未來。”
這家清華系公司,正在用技術(shù)創(chuàng)造算力的未來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.