![]()
Nvidia近期收購了Slurm工作負載管理器背后的開發商SchedMD,此舉引發了AI行業高管和超級計算領域專家的廣泛擔憂。他們擔心這家芯片巨頭可能借助這一新地位,通過代碼優先級排序或產品路線圖決策,為自身硬件提供優待,從而壓制競爭對手的芯片。
行業人士指出,問題的核心在于:Nvidia如今掌控了一款同樣運行在AMD和英特爾等競爭對手硬件上的調度軟件。路透社援引五位匿名消息人士的說法報道稱,掌握工作負載調度軟件的廠商,對競爭硬件在共享計算環境中的運行效率擁有相當大的影響力——無論其是否真的付諸實施。這五位消息人士中,三位來自AI行業,另外兩位熟悉超級計算機的運營情況。
接受InfoWorld采訪的分析師表示,Nvidia在收購公告中承諾"將繼續以開源、供應商中立軟件的形式開發和分發Slurm",但這樣的承諾或許并不足以令人放心。
TechInsights半導體分析師Manish Rawat表示:"Slurm的開源基礎雖然提供了透明代碼、分叉能力和社區治理等保障機制,但SchedMD的控制權賦予了Nvidia的是軟性影響力,而非強制性綁定。"他指出,Nvidia可以通過隱性方式左右產品路線圖,優先推進有利于自身硬件的GPU感知調度和拓撲優化,而在集成時間線上,CUDA生態系統所獲得的支持也明顯快于AMD的ROCm或英特爾的oneAPI等替代方案,由此形成了他所描述的"最優支持路徑效應"。
Slurm最初由勞倫斯利弗莫爾國家實驗室開發,目前運行在全球約60%的超級計算機上。路透社報道稱,該軟件被Meta、法國AI初創公司Mistral以及Anthropic等主要AI企業用于AI模型訓練的部分環節。用于天氣預報和國家安全研究的政府超級計算機同樣依賴于它。Nvidia于2025年12月完成了對SchedMD的收購,并將此次交易定位為強化開源生態系統、幫助用戶在傳統超級計算工作之外采用更新AI技術的戰略舉措。
美國AI硬件與數據中心咨詢機構Fab Economics的首席執行官Danish Faruqui博士認為,上述風險確實存在。他表示:"外界對Nvidia可能在未來軟件更新中優先支持自家硬件、進而拖慢或削弱對競爭對手支持力度的擔憂,是一種合理的預期。"他指出,作為主要開發者,Nvidia如今掌控著Slurm的官方開發路線圖和代碼審查流程,"這可能影響競爭芯片在新功能開發或持續改進方面的集成速度"。
Faruqui還補充道,同時掌握控制平面、GPU以及InfiniBand等網絡基礎設施,使Nvidia得以構建一套高度垂直整合的技術棧,從而催生他所描述的"淺層護城河"——即高級功能僅在Nvidia硬件上可用或性能更優。
業內觀察人士表示,一個具體的檢驗標準將是:與Nvidia將自身下一代硬件和InfiniBand等網絡技術整合進Slurm代碼庫的速度相比,AMD下一代芯片獲得支持的速度究竟有多快。
分析師將Nvidia 2022年收購Bright Computing一事作為參照案例,認為該軟件在后續發展中逐漸向Nvidia芯片傾斜,令使用競爭硬件的用戶處于不利地位。對此,Nvidia予以否認,稱Bright Computing支持"幾乎所有CPU或GPU加速集群"。
Rawat認為這一對比具有參考價值,但并不完全貼切。他表示:"Nvidia收購Bright Computing一事表明其對垂直整合的偏好——將Bright深度嵌入DGX和AI工廠技術棧,而非維持中立的多供應商編排角色。這折射出一種更深層的戰略模式:Nvidia尋求掌控全棧AI基礎設施體驗。"
然而他也指出,Slurm帶來的挑戰在本質上有所不同。"Slurm深度嵌入超算中心和學術機構,并實際上受社區治理,遷移成本極高,"Rawat說,"Nvidia或許能夠施加影響,但不太可能在這些由成熟、中立、社區驅動的平臺主導的市場中復制同等程度的垂直整合控制。"
Faruqui承認,Slurm基于GNU GPL v2.0協議的開源許可提供了一定保護,包括在社區認為Nvidia的管理存在偏向時有權分叉該項目。但他同時警告,這一選擇本身也存在風險。"Slurm的開源狀態提供了一個有限度的安全閥,但并不能完全抵御廠商中立性遭受侵蝕的風險,"他說。
他還指出,此次收購將全球眾多頂尖Slurm開發者納入Nvidia麾下,這意味著社區主導的分叉項目將難以維持同等的開發迭代速度。
Rawat將當前局面定性為"戰略依賴風險,而非危機",并建議各機構多元化GPU采購渠道,在多個廠商生態系統中對工作負載進行基準測試,同時培養內部技術能力,以便在必要時修改或更換編排工具。
Faruqui則建議,企業買家在談判Slurm支持協議時,應爭取適用于非Nvidia硬件的服務水平保障,涵蓋響應時間、漏洞修復以及異構集群間的功能對等。在架構層面,他建議各機構考慮將AI工作負載容器化,以實現應用與底層調度器的解耦,從而在必要時更便捷地遷移至Flux或Kubernetes等替代調度方案。
Q&A
Q1:Nvidia收購SchedMD之后,Slurm還會保持對AMD和英特爾硬件的中立支持嗎?
A:這正是業界最核心的擔憂所在。Nvidia公開承諾將繼續以開源、供應商中立的方式開發Slurm,但分析師認為該承諾存在局限。Nvidia可以在不修改開源許可證的情況下,通過路線圖優先級、集成速度和功能優化等方式,隱性地向自家硬件傾斜。歷史參照案例顯示,Nvidia收購Bright Computing后,該軟件被更深度地整合進Nvidia自有技術棧,對競爭硬件的支持相對弱化。
Q2:Slurm的開源許可證能否防止Nvidia的干預?
A:開源許可(GNU GPL v2.0)提供了一定保障,例如代碼透明度和社區分叉權利,但并非萬能。最大的風險在于,頂尖的Slurm開發者已隨收購進入Nvidia,社區若要自行維護一個分叉版本,將面臨嚴峻的人才和資源挑戰,難以維持相同的迭代速度。分析師將其定性為"戰略依賴風險",而非即時危機。
Q3:企業和超算機構應該如何應對這一潛在風險?
A:分析師給出了多項建議:一是多元化GPU采購,避免對單一廠商形成強依賴;二是在多個廠商生態系統中對工作負載進行基準測試;三是將AI工作負載容器化,降低對底層調度器的耦合度,便于未來切換至Flux或Kubernetes等替代方案;四是在簽訂Slurm支持協議時,明確要求對非Nvidia硬件提供同等的服務水平保障。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.