公眾號記得加星標(biāo)??,第一時間看推送不會錯過。
我們一直覺得很可笑,任何人都能掌控一個開源項目。但這種情況確實會發(fā)生,因為歸根結(jié)底,人們需要掙錢養(yǎng)家糊口,而總得有公司來支付這些工資。
有時,開源項目會出于利他主義和明智的利己主義而得到支持,Linux 內(nèi)核就是一個著名的例子。為了使其成為現(xiàn)代計算領(lǐng)域事實上的類 Unix 操作系統(tǒng),Linux 內(nèi)核需要進(jìn)行強化和擴展。但企業(yè)和其他類型的計算機構(gòu)通常不愿為這類開源項目提供自維護(hù)支持,因此,項目背后通常會有一家商業(yè)實體,將其整合為產(chǎn)品并提供技術(shù)支持。Red Hat Enterprise Linux,以及在較小程度上,SUSE Linux、CoreOS(現(xiàn)已并入 Red Hat,是其 OpenShift Kubernetes 容器控制系統(tǒng)的基礎(chǔ))、CentOS(已被 Red Hat 收購,并促成了 Rocky Linux 的誕生)和 Canonical Ubuntu,都是獲取商業(yè)支持的 Linux 發(fā)行版的常見途徑。云服務(wù)通常擁有自己的 Linux 發(fā)行版,甚至 Nvidia 也為其 AI 系統(tǒng)定制了 Ubuntu 版本,盡管其他發(fā)行版也通過集成 Nvidia 驅(qū)動程序得到了支持。
近年來,英偉達(dá)更關(guān)注其系統(tǒng)集群的控制方式,而非特定節(jié)點上的底層操作系統(tǒng)。正因如此,英偉達(dá)在2022年1月斥資收購了Bright Computing,后者是Bright Cluster Manager的開發(fā)商,收購金額未公開。當(dāng)時,Bright Computing已完成兩輪融資,共籌集1650萬美元,其集群管理工具BCM在全球擁有超過700家用戶。BCM最初是為管理傳統(tǒng)高性能計算(HPC)系統(tǒng)而設(shè)計的,但多年來,為了將其打造成為一款通用集群控制器,BCM也進(jìn)行了適配,以支持Hadoop、Spark、OpenStack、Kubernetes和VMware ESX等對控制要求極高的分布式系統(tǒng)。
收購?fù)瓿珊螅ミ_(dá)將該工具重新命名為 Base Command Manager,并將其集成到 AI Enterprise 軟件堆棧中。這意味著,英偉達(dá)通過 AI Enterprise 許可證獲得了技術(shù)支持,該許可證包含英偉達(dá)捆綁并支持在其 GPU 加速系統(tǒng)上的庫、框架和其他工具,每個 GPU 每年的費用為 4,500 美元。
現(xiàn)在它看起來是這樣的:
![]()
英偉達(dá)表示,其產(chǎn)品目前在全球擁有數(shù)千套安裝案例,但這顯然不包括該公司免費提供的 BCM 許可證。這些許可證用于管理任何規(guī)模橫向擴展集群中每個節(jié)點最多包含八個 GPU 的 GPU 集群。英偉達(dá)警告稱,這種免費許可證不提供任何技術(shù)支持,并且隨時可能被撤銷。因此,企業(yè)通常不會愿意將希望寄托于該公司。
英偉達(dá)為 BCM 提供了一個名為 Mission Control 的疊加層,它可以自動部署構(gòu)成其所謂的“AI 工廠”的框架、工具和模型。該工廠負(fù)責(zé)處理或制造代幣。Mission Control 包含Run.ai 實現(xiàn)的 Kubernetes,用于編排容器;還包含 Docker,用于在容器內(nèi)運行計算;此外,它還可以虛擬化 GPU,以提供更精細(xì)的計算粒度。Mission Control 會對系統(tǒng)進(jìn)行健康檢查,并根據(jù)系統(tǒng)上運行的工作負(fù)載優(yōu)化功耗。
但就高性能計算 (HPC) 和人工智能 (AI) 工作負(fù)載的裸機工作負(fù)載管理而言,英偉達(dá)仍然需要一款工具。事實證明,BCM 正是執(zhí)行這些健康檢查的工具,而解決問題的操作則通過 Slurm 工作負(fù)載管理器完成。在英偉達(dá)收購 Bright Computing 之前,BCM 支持不同的工作負(fù)載管理器,但隨著 Slurm 逐漸成為高性能計算中心乃至人工智能領(lǐng)域工作負(fù)載管理的實際標(biāo)準(zhǔn),它被選為 Bright Cluster Manager 的默認(rèn)工作負(fù)載管理器,并在過去四年中一直是英偉達(dá) Base Command Manager 的默認(rèn)工作負(fù)載管理器。
![]()
這似乎意味著許多高性能計算和人工智能機構(gòu)不想學(xué)習(xí)新東西——比如 Run.ai——而是想繼續(xù)使用 Slurm。對于那些最初以高性能計算中心起家的混合型人工智能/高性能計算中心來說,這種情況可能尤為突出。
作為全球最重要的IT供應(yīng)商,英偉達(dá)本身也相當(dāng)注重控制,這一點毋庸置疑。2024年10月,英偉達(dá)停止單獨銷售Bright Cluster Manager,而僅將其作為AI Enterprise Stack的一部分提供。目前尚不清楚AI Enterprise的價格是高于還是低于之前單獨購買Bright Cluster Manager的許可,也不清楚有多少客戶曾在純CPU系統(tǒng)或其他類型的加速器上使用過這款早期工具。
這就引出了英偉達(dá)收購 SchedMD 的話題,SchedMD 已向全球數(shù)百家 HPC 中心、云構(gòu)建商、超大規(guī)模數(shù)據(jù)中心和企業(yè)銷售了 Slurm 工作負(fù)載管理器的支持服務(wù)。
Slurm 項目始于 2001 年,由勞倫斯·利弗莫爾國家實驗室、Linux Network(已被 SGI 收購)、惠普(指老惠普,而非收購了 SGI 和 Cray 的新惠普)以及 Groupe Bull(已被 Atos 收購并成立 Eviden)合作開發(fā)。2010 年,該項目的兩位創(chuàng)始人 Morris Jette 和 Danny Auble 創(chuàng)立了 SchedMD,旨在為 Slurm 提供技術(shù)支持,從而為工作負(fù)載管理器的進(jìn)一步開發(fā)提供資金。
據(jù)稱,Slurm 的設(shè)計靈感來源于超級計算機互連設(shè)備制造商 Quadrics 開發(fā)的 RMS 集群資源管理器。Slurm 最重要的優(yōu)勢在于,過去十年中,在 Top500 超級計算機排行榜上出現(xiàn)的計算機中,約有 60%(代表數(shù)千臺機器)使用 Slurm 作為其工作負(fù)載管理器,而不是 IBM/Platform Computing 的負(fù)載共享工具 (LSF)、Altair 的便攜式批處理系統(tǒng) (PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有這些工作負(fù)載管理器/作業(yè)調(diào)度器都會將一組具有特定計算能力需求的工作負(fù)載進(jìn)行“俄羅斯方塊”式的調(diào)度,最終使它們按照既定的優(yōu)先級順序高效運行。
過去十年,Nvidia 和 SchedMD 一直在合作開發(fā) Slurm,但雙方在聯(lián)合聲明中并沒有透露太多信息,不過 Nvidia 表示,它將“繼續(xù)開發(fā)和分發(fā) Slurm,使其成為開源、廠商中立的軟件,使其在各種硬件和軟件環(huán)境下都能被更廣泛的 HPC 和 AI 社區(qū)廣泛使用和支持”。
但即便 Slurm 開源,也不意味著英偉達(dá)會為開源版本的代碼提供支持,或者將 Slurm 的所有未來功能都開源。(英偉達(dá)擁有大量專有驅(qū)動程序、框架和算法。)英偉達(dá)已同意為 SchedMD 的現(xiàn)有客戶提供支持,據(jù)推測,他們將通過聘用 SchedMD 的員工來實現(xiàn)這一點。
目前尚不清楚的是,Run.ai 和 Slurm 的功能將如何與 Base Control Manager 整合,從而為高性能計算 (HPC) 和人工智能 (AI) 集群提供一個自上而下的集群和工作負(fù)載管理工具——而且不僅限于 AI 集群,還要考慮到許多集群中可能存在一些僅使用 CPU 的機器以及非英偉達(dá)加速器。希望 Slurm 的代碼不僅能夠保持開源,而且其支持范圍也能非常廣泛。
如果 Nvidia 試圖以任何方式限制它,其他人可以獲取 Slurm 代碼(該代碼以 GNU GPL v2.0 許可證提供),進(jìn)行 fork 并繼續(xù)開發(fā)。
那么,下一個問題是:英偉達(dá)現(xiàn)在是否也需要將其商業(yè)化的 Kubernetes 集成到 AI 企業(yè)級堆棧中?Mirantis 公司已經(jīng)將 OpenStack 云控制器拆分并封裝到容器中,并創(chuàng)建了自己的 Kubernetes 實現(xiàn),該公司已經(jīng)與英偉達(dá)開展了大量合作,包括將 Kubernetes 集成到 BlueField DPU 上。
https://www.nextplatform.com/2025/12/18/nvidia-nearly-completes-its-control-freakery-with-slurm-acquisition/
(來源:編譯自nextplatform)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4261期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.