![]()
英偉達近期收購了Slurm工作負載管理器背后的開發公司SchedMD,此舉在AI行業高管和超算領域專家中引發了廣泛擔憂。各方擔心這家芯片巨頭可能利用其新獲得的地位,通過代碼優先級設置或技術路線圖決策,在競爭對手的芯片面前為自家硬件謀取優勢。
問題的核心在于:英偉達目前掌控了一款同樣運行在AMD、英特爾等競爭對手硬件之上的調度軟件。路透社援引五位匿名消息人士的說法報道稱——其中三位在AI行業任職,兩位熟悉超算運營——無論是否實際動用,掌握工作負載調度軟件的廠商對共享計算環境中競爭硬件的運行效率擁有相當大的話語權。
接受InfoWorld采訪的分析師表示,英偉達承諾開源的聲明——該公司在宣布收購時表示將"繼續以開源、廠商中立軟件的形式開發和分發Slurm"——可能并不足以提供充分保障。
TechInsights半導體分析師馬尼什·拉瓦特表示:"Slurm的開源基礎提供了代碼透明、可分叉和社區治理等保障機制,但SchedMD的控制權賦予了英偉達軟實力,而非硬性鎖定。"他指出,英偉達可能以隱蔽的方式左右技術路線圖,優先推進有利于自身硬件的GPU感知調度和拓撲優化,而且從集成時間線來看,CUDA生態系統的支持推進速度已明顯快于AMD的ROCm或英特爾的oneAPI等替代方案——他將這種現象稱為"最優支持路徑效應"。
Slurm最初由勞倫斯利弗莫爾國家實驗室開發,目前運行在全球約60%的超算系統之上。據路透社報道,該軟件正被Meta、法國AI初創公司Mistral及Anthropic等主要AI公司用于AI模型訓練等工作。各國政府用于氣象預報和國家安全研究的超算同樣依賴這一軟件。英偉達于2025年12月完成對SchedMD的收購,并將此次交易定性為強化開源生態、幫助用戶在傳統超算工作的同時采用更新AI技術的戰略舉措。
美國AI硬件與數據中心咨詢機構Fab Economics的首席執行官丹尼什·法魯基博士表示,相關風險確實存在。"英偉達可能在未來的軟件更新中優先照顧自家硬件、進而拖慢或降低對競爭對手支持力度的擔憂,是完全有可能成為現實的。"他表示,作為主要開發者,英偉達現在掌控著Slurm的官方開發路線圖和代碼審查流程,"這可能影響競爭芯片在新功能開發或持續優化方面的集成速度。"
他補充說,將GPU、網絡基礎設施(如InfiniBand)以及控制平面集于一身,使英偉達得以構建高度垂直整合的技術棧,并由此形成他所稱的"淺層護城河"——即某些高級功能僅在英偉達硬件上可用或性能最優。
業界觀察人士表示,一個具體的檢驗節點將是:英偉達將AMD下一代芯片集成進Slurm代碼庫的速度,與其整合自身即將推出的硬件及網絡技術(如InfiniBand)的速度相比如何。
分析師將英偉達2022年收購Bright Computing作為參照案例,認為此后該軟件在優化方面向英偉達芯片傾斜,令競爭硬件的用戶處于不利地位。英偉達對此提出異議,稱Bright Computing支持"幾乎任何CPU或GPU加速集群"。
拉瓦特認為,這一類比有借鑒價值,但并不完全準確。"英偉達收購Bright Computing的方式體現出其對垂直整合的偏好,將Bright緊密嵌入DGX和AI工廠技術棧,而非保持中立的多廠商編排角色。這折射出一種更宏觀的戰略模式——英偉達尋求掌控全棧AI基礎設施體驗。"
但他同時指出,Slurm面臨的挑戰本質上有所不同。"Slurm在超算中心和學術界根基深厚,且實際上由社區治理,遷移成本極高。英偉達或許能施加一定影響,但在那些由成熟、中立、社區驅動平臺主導的市場中,不太可能復制同樣程度的緊密整合控制。"
法魯基承認,Slurm在GNU GPL v2.0許可證下的開源屬性提供了一定保護,包括在社區認為英偉達的管理存在偏向時,有權對項目進行分叉。但他警告稱,這一選項本身也存在風險。"Slurm的開源狀態提供了有限度的安全閥,但并不能完全抵御廠商中立性的侵蝕。"
他指出,此次收購將全球眾多頂尖Slurm開發者納入英偉達麾下,這意味著一個由社區主導的分叉項目將難以維持相同的開發節奏。
拉瓦特將當前局面定性為"戰略依賴風險,而非危機",建議各機構多元化GPU采購、在多廠商生態中對工作負載進行基準測試,并培養內部專業能力,以便在必要時修改或切換調度工具。
法魯基則建議,企業買家在談判Slurm支持協議時,應爭取明確適用于非英偉達硬件的服務水平保障,涵蓋響應時間、錯誤修復以及異構集群環境下的功能對等性。在架構層面,他建議各機構考慮將AI工作負載容器化,使應用與底層調度器解耦,從而在必要時更便捷地遷移至Flux或Kubernetes等替代調度方案。
Q&A
Q1:英偉達收購SchedMD之后,Slurm還會保持對其他硬件廠商的中立支持嗎?
A:英偉達在收購時承諾繼續以開源、廠商中立的方式開發和分發Slurm,但分析師認為這一承諾并不足以完全保障中立性。英偉達作為主要開發者,掌控著Slurm的官方路線圖和代碼審查流程,可能以隱蔽方式優先推進有利于自身硬件的功能,形成所謂"最優支持路徑效應",對AMD和英特爾等競爭對手的硬件支持速度造成實質影響。
Q2:Slurm是什么?為什么它在AI和超算領域如此重要?
A:Slurm是一款開源工作負載管理器,最初由勞倫斯利弗莫爾國家實驗室開發,目前運行在全球約60%的超算系統之上。它負責調度和管理計算資源,被Meta、Mistral、Anthropic等主要AI公司用于AI模型訓練,同時也被各國政府的超算系統用于氣象預報和國家安全研究,在AI及超算生態中具有極為關鍵的基礎設施地位。
Q3:如果英偉達對Slurm的管理出現偏向,用戶有哪些應對手段?
A:用戶可采取多種應對措施:一是多元化GPU采購,避免單一廠商依賴;二是在多廠商生態中對工作負載進行基準測試;三是將AI工作負載容器化,降低與底層調度器的耦合度,便于遷移至Flux或Kubernetes等替代方案;四是在談判Slurm支持協議時,要求服務水平保障明確覆蓋非英偉達硬件;五是在必要時啟動社區分叉,但需注意這一選項因頂尖開發者已被英偉達納入而存在局限性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.