
作者|冬梅
在大模型訓練的高速迭代背景下,算力需求約每六個月翻一番,遠超基礎設施建設和摩爾定律的增速,同時數據中心能耗急劇攀升。
盡管企業仍持續不斷地加大硬件投入,但行業數據顯示,GPU 有效利用率長期徘徊在 30% 以下,企業即便投入十倍預算采購硬件,真正獲得的算力提升卻常常不到三倍,結構性浪費愈發顯現。
造成低效率的根源,被業內總結為三類:資源碎片、潮汐式負載波動、以及在線與離線任務的沖突。然而,更深層的矛盾并不僅限于調度側,而在于整個行業正面臨的基礎設施割裂:一方面,AI 訓練與推理規模持續爆發;另一方面,底層硬件形態、上層模型框架、編譯環境與加速庫均呈“百家爭鳴”態勢,缺乏統一標準。這種生態碎片化,使得開發者在不同硬件、不同框架之間頻繁進行適配、調優與遷移,進一步拉低集群整體效率。
在這樣的背景下,如何通過標準化體系重塑底層軟件棧、如何在異構算力環境中實現統一編排與高效調度,成為產業討論的核心議題,這也是今年 OpenCloudOS 操作系統生態大會備受矚目的原因。
1 聚焦“易用”和“安全”,南北軟硬件生態全兼容
12 月 6 日,2025 OpenCloudOS 操作系統生態大會在北京舉辦,AMD、Arm、沐曦、海光信息、騰訊云等近 30 家生態企業圍繞技術創新、最佳實踐與協同共建分享了各自的最新進展。
自 2021 年成立以來,OpenCloudOS 社區始終秉持全鏈路自主可控、全場景兼容、全生態開源開放的發展路線。得益于騰訊云將多年積累的內核技術、云原生能力及大規模服務器運營經驗全面融入,該社區如今已發展為國內規模領先的開源操作系統生態之一。截至今年,OpenCloudOS 操作系統裝機量已突破 2000 萬節點,服務超過 62000 家企業用戶,并完成了超過 97500 項軟硬件適配。
生態建設方面,社區已匯聚 1200 多家生態伙伴及 400 多家深度合作伙伴,并擁有超過 18 萬名開發者。隨著參與社區的廠商不斷增加,OpenCloudOS 的生態版圖也從傳統數據中心延伸至云原生、邊緣計算、高性能計算以及 AI 訓練與推理等新型場景。
過去數年間,社區已建立覆蓋 x86、Arm、RISC-V、龍芯等多體系結構的兼容認證體系,用戶僅需通過標準 yum/dnf 命令即可一鍵部署底層依賴,無需再進行復雜的編譯調試工作,這使 OpenCloudOS 成為國內適配廣度最全面的開源操作系統之一。同時也孵化出了如 TencentOS、東華的 NTOS、紅旗 Linux 等十余款操作系統的衍生版,形成了開源協同商業落地的良性循環。
在技術層面,隨著 AI 工作負載全面云原生化,底層基礎設施正面臨前所未有的復雜性:大模型鏡像動輒數十 GB,拉取與分發成本急劇上升;AI 軟件棧依賴鏈長且更新頻繁,環境配置難度不斷攀升;硬件形態快速多元化,驅動安裝、版本兼容與性能調優成為企業最沉重的運維負擔;而節點規模越大,這些問題被放大得越明顯。無論對企業成本、交付效率還是資源利用率而言,傳統操作系統與工具鏈都已難以滿足 AI 時代的需求。這些現實壓力使得構建面向 AI 的新一代操作系統能力體系成為必要且緊迫的方向。
基于此,OpenCloudOS 圍繞 AI 原生需求進行了系統性的技術升級,重點聚焦輕量化、快速分發、自動化維護與生態適配四大方向。
首先,在 AI 鏡像結構擴張帶來高成本負擔的情況下,OpenCloudOS 推出鏡像小型化能力,通過自動去冗與自研 chisel 工具對軟件包進行切片,結合靜態與動態依賴分析,大幅壓縮 AI 鏡像體積,降低構建和傳輸成本。
其次,針對大型模型鏡像拉取耗時過長的問題,OpenCloudOS 構建鏡像加速體系:基于 stargz-snapshotter 實現懶加載,在內核側引入 fuse passthrough 降低訪問開銷,并通過優化預取策略加速模型啟動。同時,利用 chunk 級索引實現鏡像文件去重,進一步降低網絡與存儲開銷。
在大規模集群落地場景中,OpenCloudOS 也強化了鏡像分發能力。通過分片并發、亂序下載、Range 請求代理等增強的 P2P 加速機制,可在集群內快速同步鏡像,并支持限速策略與 RDMA 加速,顯著縮短大規模分發的耗時。
針對異構硬件加速卡數量激增帶來的維護復雜,OpenCloudOS 提供自動化硬件服務,可自動識別設備、匹配適配驅動,并支持多版本并存,從根源上降低 GPU 等硬件在云原生環境中的運維門檻。
面對海量且高速迭代的 AI 軟件棧,OpenCloudOS 構建 Agent 自動化適配流程,實現從版本跟蹤、構建測試到容器封裝的全鏈路自動化。目前已適配超千款 AI 軟件,并可根據硬件后端自動開啟加速路徑,使用戶獲得開箱即用且經性能優化的體驗。此外,OpenCloudOS 還提供完整的 AI 上層環境,包括 RPM 源、PyPI 源及多類 AI 容器鏡像,使用戶可通過簡單命令完成環境部署,并減少重復構建投入。
通過這一系列圍繞 AI 全鏈路的升級,OpenCloudOS 已系統性構建起云原生 AI 應用所需的操作系統能力閉環,從鏡像構建、拉取、分發,到硬件管理與軟件生態覆蓋,為企業提供高效、輕量、自動化、可持續演進的 AI 基礎設施底座。
要支撐這一系列面向未來的技術演進,僅有“先進能力”并不足夠,真正關鍵的是這些能力能否在產業場景中形成可驗證的價值閉環。海光芯片、作業幫、東軟等企業與 OpenCloudOS 的合作,便是這種價值落地的典范。
許多海光芯片的首發版本,其關鍵的軟件套件就來自 OpenCloudOS 社區,實現了“首發即兼容、首發即適配”;東華軟件更是基于 OpenCloudOS 操作系統底座,成功推出了兩款自研操作系統,解決了業務系統中長期存在的依賴冗余、漏洞修復鏈條長、權限越界等頑疾,系統穩定性與安全性大幅提升。
作業幫內部長期面對的是“資源碎片化 + 基建割裂 + 框架異構”的疊加難題。OpenCloudOS 通過統一的系統底座,讓跨地域 GPU 的行為一致、驅動鏈路一致、框架版本一致,使得調度器能夠以真正全局的視角去整合算力資源。從底層適配到上層框架拉通,OpenCloudOS 構建的多版本 AI 生態,不再要求企業去“押注”某一種硬件或單一框架,而是讓所有硬件都能在同一操作系統生態中獲得最優解。這一能力成為作業幫解決算力利用率難題、推進統一算力池建設的關鍵基礎。
2 面向 AI 深度進化,OpenCloudOS Infra 智能基座正式發布
隨著大模型與各類 AI 應用進入規模化落地階段,行業面臨的核心矛盾正在從“模型能力不夠”,轉向“算力復雜度過高”。爆發式增長的算力需求與標準不一、生態割裂的軟硬件體系之間的矛盾愈發突出,導致開發者不得不在驅動適配、環境部署、框架兼容等繁瑣工作上投入大量時間與人力,產業創新效率被嚴重掣肘。
在此背景下,借 OpenCloudOS 操作系統生態大會之機,OpenCloudOS 社區聯合昇騰、海光、AMD、沐曦、昆侖芯,以及 vLLM、SGLang、作業幫與騰訊云等合作伙伴,共同推出“OpenCloudOS Infra 智能基座”,旨在構建統一 AI 算力底座、并由產業伙伴共同驅動的開放技術體系。
![]()
這一發布背后的邏輯十分明確:要推動 AI 在產業中真正走向工程化、大規模和低成本普及,就必須在操作系統層面建立一個統一、穩定、高兼容、可持續演進的“AI 算力底座”。
OpenCloudOS 之所以能夠把如此多的合作伙伴拉到同一張桌子上,根本原因在于它解決的是所有參與方的共同痛點——碎片化的算力生態導致巨大重復成本。
對于芯片廠商而言,沒有統一的適配標準和通用的軟件棧,他們每次新品上市都要花費大量成本完成基礎驅動適配;對于框架開發者而言,面對不同操作系統、不同驅動、不同硬件的組合,需要重復進行性能調優與穩定性驗證;對于企業用戶而言,部署一個 AI 框架往往需要跨越數十道依賴、沖突和配置障礙。OpenCloudOS 通過智能基座提供統一接口、統一集成和統一運行時環境,讓不同廠商能夠在同一生態內協作,從根源上降低全產業鏈的技術摩擦。
在這一協同機制之上,OpenCloudOS Infra 智能基座構建了一個覆蓋全棧的 AI 基礎設施體系,包含“AI 開箱即用、AI 軟件支持生態、AI 硬件支持生態”三大核心層級。依托 OpenCloudOS 9 版本,社區已完成對國內外多家主流 AI 加速芯片官方驅動及計算棧的深度整合與驗證。過去開發者需要花費數小時甚至數天手動下載、編譯和調試驅動程序,而如今只需通過 yum install 或 dnf install 即可一鍵安裝所有底層依賴,大幅降低了環境準備成本。
具體而言,OpenCloudOS Infra 智能基座能提供哪些能力?
在軟件與框架層,OpenCloudOS 通過容器化技術完成了近 20 款主流 AI 框架及智能體應用的深度適配、依賴清理和性能優化,并封裝成可直接拉取使用的標準化鏡像。傳統部署一個 AI 框架可能需要經歷數十個步驟,而在智能基座體系中,以“一鍵安裝容器依賴—啟動預制框架—啟動服務”三步即可完成,部署時間從天級、小時級縮短到分鐘級。這不僅讓開發者不再被環境問題拖慢工程節奏,也為企業大規模部署 AI 服務提供了可復制、可擴展的基礎。
在性能和調度層面,智能基座也帶來了顯著提升。容器鏡像體積最高縮減 94%,降低存儲和傳輸成本;鏡像與模型分發速度逼近硬件極限;自研的 FlexKV 分布式 KVCache 系統在高并發場景下可降低首 Token 延遲約 70%。這些針對 AI 工作負載特征的系統優化,使 OpenCloudOS 不僅能“跑 AI”,還能“高效、穩定、規模化地跑 AI”。
與此同時,OpenCloudOS 還將 AI-ready 能力延伸到云端。在騰訊云 HAI 平臺上架的 OpenCloudOS 鏡像已內置 CUDA 組件,用戶無需手動配置即可獲得開箱即用的 AI 開發與推理環境,實現從本地到云端的無縫協同。這種能力使企業能夠快速構建、驗證并上線 AI 服務,進一步縮短工程化周期。
3 結語
回望整場大會,OpenCloudOS 過去幾年的技術演進與生態擴展,在這一刻呈現出一種清晰的方向感:AI 時代的基礎設施已經不再是單點優化的堆疊,而是一種跨芯片、跨框架、跨場景的系統工程。無論是鏡像小型化、按需加載、P2P 加速等底層能力,還是智能基座對多樣性算力的統一支撐,抑或超過千款 AI 軟件與框架的自動化適配,這些看似獨立的技術動作最終匯聚成一個共同目標——讓開發者、硬件廠商和行業應用真正站在同一套“可用、好用、穩定可控”的操作系統底座上。
本次大會的意義并不止于發布了新的技術能力或生態計劃,而是宣告了一種新的 AI 基礎設施范式:在算力爆發、模型多樣、框架迭代的時代,真正的創新不在于單點性能的提升,而在于提升整個產業鏈的協作效率與系統韌性。
OpenCloudOS 正在讓這一目標具象化——通過可持續的技術路徑、標準化的生態接口以及開放共建的社區機制,讓 AI 的基礎設施變得更普惠、更可靠,也更具規模化能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.