
作者 | 陳姚戈
經過 2025 年的試水,Agent 的落地效果將在 2026 年受到集中檢驗。能否持續產生業務價值,將成為衡量 Agent 成功與否的核心標準,而支撐其穩定、高效運行的底層 AI Infra,也隨之被推至臺前。
隨著大模型技術從實驗室走向產業,AI 應用正從“技術驗證”階段邁向“規模化商用”的深水區。企業不再滿足于模型的單點效果,而是期待 AI 能融入業務全流程、創造可衡量的商業價值。
在這個背景下,單一的算力堆砌已無法應對系統性挑戰,企業需要的是“算存網數一體的高性能智算底座”。這一架構趨勢強調計算、存儲、網絡與數據能力的深度融合與協同優化。計算層面,需支撐海量訓推需求和異構算力高效調度;存儲需靈活應對海量、多模態的復雜數據;網絡層面,需要保障極致低延遲與高吞吐;數據則需實現從采集、治理到檢索的全鏈路智能管理。
今年,領先云廠商均在積極升級其計算、存儲、網絡與數據能力,以構建更適配 Agent 大規模落地的新一代基礎設施。例如騰訊云,其 2024 年推出的新 AI Infra 品牌“云智算”,今年動作頻頻:4 月,基于對 AI 云基礎設施強需求、訓推高頻應用的行業 --- 出行領域,發布了行業云智算 AI Infra 解決方案;5 月,騰訊云智算,全面擴展至全場景 AI 應用,技術能力全面升級,從高效、可靠、易用三大價值角度,支撐企業加速 AI 落地。9 月針對企業級 Agent 需求,發布 Agent Runtime 解決方案及基礎設施專家服務智能體 CloudMate;10 月推出自進化運維 Agent 平臺,技術迭代快速。
這些密集的布局與迭代,共同指向一個更深刻的趨勢:智算,即圍算存網數一體的高性能 AI Infra,預示著云廠商們的下一個戰場已經形成。
1 算力和網絡協同,釋放集群極限性能
IDC 與騰訊云聯合發布的白皮書《AI Infra: 加速智能體落地的基礎架構發展趨勢與產業實踐》指出,AI Infra 正經歷從“云 +AI”向“云原生 +Agent 協同”的架構重構。
實現這一重構,需建立實時推理網絡,以支撐智能體決策所需的毫秒級延遲;構建統一的異構算力池,實現對多元算力的高效調度。
未來的智算底座必須像高度協同的神經系統,確保數據在計算單元間無阻塞地高速流動,因為任何環節的延遲或瓶頸都將導致整體響應能力的衰減。以典型的 AI 訓練流程為例,它涉及數據加載、GPU 計算、跨卡通信、權重更新等多個環節,其中數據讀取效率、計算協同能力以及網絡通信質量,共同決定了整體計算效率。
在高性能計算領域,這被稱為“木桶效應”——計算、存儲、網絡任一環節的短板,都會導致昂貴的集群算力無法充分釋放。
如何打破木桶效應?
面對高性能計算中的木桶效應,騰訊云 HCC 構建了一套從底層硬件到上層軟件的優化體系,旨在協同計算、存儲、網絡,將大規模集群的潛力徹底釋放。
HCC 首先直面大規模 AI 訓練的核心矛盾:由于模型參數過于龐大,機器間的互聯完全依賴于網絡,網絡時延會直接導致高速運轉的 GPU 進入等待狀態,因此網絡極易成為整個系統的性能瓶頸。而簡單地增加 GPU 節點并不能帶來線性的性能提升,網絡擁塞和拓撲復雜性會嚴重損耗集群的整體算力。
![]()
騰訊云還為星脈網絡設計了高性能集合通信庫 TCCL,避免因網絡問題導致的訓練中斷等問題。調度系統為 GPU 卡間的每一次通信智能選擇全局最優路徑,避免擁堵。同時,通過親和性調度,系統優先調度同一交換機下的 GPU 進行通信,讓數據避免不必要的跨機傳輸。
![]()
訓練過程中,Checkpoint 和 KV Cache 的讀寫對存儲 IO 吞吐提出極限要求。同時,海量的訓練數據通常存放在遠端的對象存儲倉庫中,每一次訓練迭代都需要數據經過遠程網絡 → 本地磁盤 → 內存 → GPU 顯存的鏈路。
為加速數據讀取,騰訊云設計了多層次存儲加速方案,避免 GPU 空閑等待網絡數據傳輸。
![]()
在軟件與運維層,騰訊云致力于將硬件效能與系統穩定性提升到極致。
作業集群管理系統會全面監控資源利用率、任務編排與框架狀態。當訓練作業出現異常時,系統能基于 Checkpoint 在 5 分鐘內實現任務級快速自愈;若 GPU 在訓練過程中出現節點一場,集群可在 10 分鐘完成故障節點剔除與恢復,保障長周期訓練任務的連續性。
訓練框架上,對于 PyTorch 等主流訓練框架做軟件優化,充分釋放硬件潛力。
![]()
在推理場景,騰訊云自研 HML 模型權重分發技術,可以讓模型快速加載到顯存,滿足實時擴容場景和模型切換場景的彈性需求。
![]()
為了加快推理場景,騰訊云還開發了多機 KV Cache 緩存技術,將 KV Cache 存儲到磁盤,方便未來多輪對話等請求場景調用。今年,騰訊云還新推出推理集群服務,集多樣化模型、彈性算力與多層級的安全防護為一體,融合推理加速、機密計算、智能監控日志分析等核心功能, 保障 AI 應用開發落地。
![]()
通過全棧協同的軟硬件優化,騰訊云 HCC 系統破解了大規模 AI 訓推中的“木桶效應”,將大規模 GPU 集群的潛力徹底釋放,為 AI 訓練與推理提供穩定、高效且極具確定性的算力基石。
目前,騰訊云異構計算已經服務國內 90% 的頭部大模型客戶,覆蓋大模型訓練與推理、智能駕駛、互聯網應用、廣告搜索推薦、圖像處理、具身智能、科學計算、自然語言處理等豐富場景。
AI SEMI×騰訊云:賦能半導體研發效率提升
企業的預算管理就像“管家過日子”,AI Infra 的成本,最終都要映射到具體業務價值。誰能在同等條件下,提供幫助企業優化成本結構的 AI Infra,誰就占有市場先機。
騰訊云在打破“木桶效應”上的努力,尤其是星脈網絡在大規模集群擴展與效率控制上的能力,正在諸如半導體研發等高端制造領域轉化為直接的生產力。
專注于用 AI 賦能半導體制造的 AI SEMI,業務涉及芯片仿真、良率分析等復雜計算,對算力的穩定性、擴展效率及 TCO 有著嚴苛要求。AI SEMI 采用混合云架構,既在公司和客戶本地部署算力,也利用騰訊云的彈性資源。
![]()
騰訊云平衡極致算力與網絡調度的能力,已在實際業務中轉化為顯著優勢。在采用騰訊云 HCC 解決方案后,AI SEMI 一項光刻仿真任務的完成時間,從數周縮短至數天,不僅加速了研發迭代周期,更通過精準的彈性伸縮,將總體算力成本優化了 30% 以上。
AI SEMI 創始人兼 CEO Yoyo Lu 曾指出,客戶在采用大規模 GPU 集群時,最關切的問題之一便是算力擴展后的實際效率損耗。騰訊云星脈網絡所提供的“無損”特性和高達 95% 的線性擴展比,為解決這一顧慮提供了關鍵技術支撐。這意味著,當半導體企業為加速芯片設計而擴容算力時,能夠獲得近乎線性的性能回報,有效控制算力成本。
2 云存儲,釋放數據價值
在關于 AI 基礎設施的討論中,存儲常常被置于聚光燈外。然而,當模型參數和數據量呈指數級增長時,存儲能力已成為制約 AI 生產力釋放的關鍵瓶頸。繼“算力缺口”之后,行業正面臨存儲挑戰——市場缺乏能夠匹配 AI 工作負載特性、兼具高性能與高性價比的存儲架構與服務。
這種結構性缺口對存儲系統提出了前所未有的復合型要求:它既需要作為海量多模態數據的統一承載平臺,又要支撐從數據預處理、模型訓練到推理部署的全鏈路高效流轉;既要實現精細化的數據治理與合規管控,又必須在全生命周期內平衡性能、成本與擴展性。
在這一背景下,數據基礎設施的角色正在發生根本性轉變。騰訊云存儲研發總監程力認為,作為底層基礎設施,存儲必須向上深度融合,與容器、云函數、AI 平臺等上層服務實現深度集成與資源協同調度。其核心價值已超越提供存儲空間本身,而在于作為數據流轉的智能引擎,無縫融入企業的整體 AI 工作流,確保數據能在計算與訓練環節高效流動。
Data Platform,更智能的云存儲
![]()
騰訊云構建的“統一存儲 + 智能加速 + 全鏈路處理 + 智能檢索”Data Platform 平臺,正是上述理念的技術實現。
Data Platform 以對象存儲 COS 為基礎底座,承載訓練數據、預處理樣本及多模態數據,在提升系統性能的同時有效控制存儲成本。
同時,Data Platform 提供 GooseFS 高性能存儲加速層,服務于近計算端的數據緩存加速,兼容多種語義可與計算生態無縫融合,滿足大規模數據處理和訓練對高性能存儲,以及 Checkpoint 寫入需求。
![]()
數據治理層面,數據萬象 CI 提供近存儲端的處理能力,其智能檢索組件 MetaInsight 支持對元數據及全媒體內容的跨模態檢索,在保障數據可計算性的同時,實現內容安全與合規審查。
![]()
值得注意的是,騰訊云將高性能檢索與智能緩存能力進行了原生融合。MetaInsight 結合 GooseFS,能夠主動從 COS 數據湖中識別并提取高價值數據,通過智能化的緩存與調度策略,將其高效投遞至計算節點,實現“數據向計算靠攏”。例如在自動駕駛場景中,該組合可實現跨存儲桶的數據智能標識與統一管理,并根據不同計算任務的實時需求,動態、就近地供給數據。
![]()
AI 時代下,云存儲不再只是支撐系統運行的成本項,而是成為釋放 AI 價值的加速器。騰訊云的云智算存儲方案正是這一理念的集中體現。
文遠知行×騰訊云:為數據洪流提供可無限拓展的存儲空間
傳統云存儲方案的局限,在自動駕駛行業尤其明顯。
文遠知行作為業務遍布全球、全天候提供服務的自動駕駛公司,每時每刻都在產生海量、多模態的非結構化數據——這要求團隊建立無縫擴展、統一管理、且不影響核心業務性能的全球化存儲方案。
騰訊云等廠商提供的公有云服務,在文遠知行實現彈性存儲上起到了重要作用。
![]()
文遠知行構建了一套精密的混合云存儲架構,以廣州和硅谷的自建數據中心為核心,結合騰訊云等云廠商做公有云延伸,滿足數據存儲需求。
通過將極低頻的冷數據自動、透明地遷移至騰訊云對象 COS 的低頻或歸檔存儲層級,騰訊云等廠商提供的公有云實際上成為了一個可無限擴展的“數據冰柜”,而所有數據流動對上層業務完全透明,業務側始終訪問統一的文件索引。
針對大團隊協作,文遠知行實現了細粒度帶寬管理機制,可根據業務優先級(如高優訓練任務與低優歸檔任務)劃分帶寬通道,確保即使歸檔任務全力上傳至公有云,核心數據處理帶寬仍不受影響,從而保障多租戶環境下的服務質量。
通過自建數據中心與自研存儲系統,并與騰訊云對象存儲 COS 合作,構建混合云架構,文遠知行持續探索 AI 存儲的成本、性能和效率最優解,也成為重數據場景中落地 AI 存儲體系的標志性案例。
3 打造 Agent 規模落地需要的 Infra
隨著 AI 應用進入規模化落地階段,Agent 正快速滲透至各行各業,成為企業數字化轉型的核心驅動力。
到 2027 年,部署 Agent 的企業數量將翻倍,對 AI 智算的需求也將顯著增長。并且,Agent 的落地將從醫療、教育、制造等領域,進一步延伸至對實時性、可靠性要求極高的具身智能等前沿場景,底層基礎設施必須具備更快的模型推理能力、更靈活的工具集成與更可靠的持續服務能力。
Agent 能否實現大規模、高質量的業務承載,直接取決于基礎設施是否具備模型推理的實時響應能力、外部工具的安全靈活集成機制,以及復雜服務鏈路的長期穩定保障。
面對這一趨勢,作為“數字化助手”的騰訊云,在 2025 年再次升級其云智算全景能力,以加速 Agent 從實驗室走向生產場景。
![]()
更懂 Agent 的 Infra
今年 9 月,騰訊云在 Agent Infra 能力上做了兩項關鍵升級。
縱向,推出 Agent Runtime,通過提供運行引擎、云沙箱、上下文服務、網關、安全可觀測五大組件,為 AI Agent 的構建、部署和運行提供堅實底座。值得一提的是,Agent Runtime 可以提供個輕量級高并發的運行環境,目前支持百毫秒級冷啟動,并能提供數十萬級沙箱并發,適配大規模 Agent 應用。
![]()
橫向層面,騰訊云推出基礎設施專家智能體 CloudMate。CloudMate 它提供告警收斂治理和風險主動攔截能力,在用戶操作云資源前預測并呈現影響,從源頭規避配置風險,并能在編碼階段檢測低效 SQL 語句。CloudMate 專注于復雜運維場景下的故障定位與根因分析,通過構建自動化評估 - 探索 - 總結 - 檢驗閉環系統(獨家),處理時效從傳統的小時級提升至分鐘級,無需人工干預完成全鏈路故障診斷。
![]()
在模型推理側,騰訊云也著力提升效率與性能。針對手機 AI 助手等需要快速彈性伸縮的場景,傳統集群模型加載往往耗時十幾分鐘,而依托星脈網絡,騰訊云將模型分發時間大幅壓縮至 4 秒內,實現了近乎實時的擴容響應。
同時,騰訊云推出 TACO DiT 推理引擎,實現文生圖模型推理加速,覆蓋文生文、文生圖、文生視頻等多種模態,并采用 KV Cache、優化通訊協議等先進方案,進一步提升了高并發下的推理穩定性與效率。
針對業界關注的 Agent 發展路徑——通用化還是行業化,騰訊云也給出了清晰的答案。
在 InfraTalk 直播中,騰訊云異構計算高級產品經理黃陽指出,從降本增效的角度出發,必須打造標準化的技術底座;而面向未來,深入業務場景的行業 Agent 將比通用 Agent 更強、規模更大。因此,騰訊云堅持同源同構原則,采取標準化底座 + 行業化解決方案,靈活適配不同行業對基礎設施的要求。
這一模式具體體現在對不同類型企業和不同發展階段客戶的精準支持上。大模型訓練企業更關注訓練效率與穩定性,騰訊云可提供更大規模集群與更強的故障自愈能力。對于具身智能或自動駕駛企業,由于模型規模相對更小,則可通過優化后的 vRDMA 網絡提供更高性價比的訓練方案。而對于對數據安全與合規有嚴苛要求的政企客戶,騰訊云則提供分布式云或專有云部署選項。
同時,騰訊云為不同階段的企業也提供了靈活選擇。面向開發者,提供開箱即用的 SaaS 服務與 API;面向中小企業,提供可快速私有化部署的平臺,并支持微調與深度定制;面向大型企業與生態伙伴,則開放更全面的能力,幫助客戶滿足高并發、多模態的復雜訓練與推理需求。
智診科技×騰訊云:讓創新科技公司駕馭大模型
Agent 規模化的基礎在于,是否能否在真實業務中穩定運行、持續響應,并承載高并發與復雜流程。
在醫療場景中這一要求尤為突出。醫療 Agent 并非一次性問答工具,而是需要長期在線,深度參與診療支持與健康管理流程的數字助手,一旦出現延遲或中斷,都會直接影響用戶體驗甚至業務連續性。
正是在這樣的需求背景下,騰訊云與 AI 醫療公司智診科技展開合作,探索 Agent 在真實醫療業務中的規模化運行路徑。智診科技自研千億參數的多模態醫學大模型 WiseDiag,并提供 Agent、醫學 OCR 等服務,目標是將 AI 能力真正嵌入診療與健康管理流程。
對于研發大模型的創新科技公司來說,構建并維護大規模算力集群非常有難度。但最大的障礙并非 GPU 本身,而在于 GPU 節點之間的協同效率。
![]()
騰訊提供的智算集群擁有專為大模型優化的星脈高性能網絡,極大地降低了大規模 GPU 集群間的通信損耗,讓智診科技的模型訓練迭代速度提升 20%。
智診科技充分發揮了騰訊云 GPU 在訓練和推理集群上的性能優勢和產品算力優化能力,相較于友商同量級產品具備顯著優勢,有力支持了“好伴 AI”個人健康管理應用 C 端的高并發訪問需求。
同時,智診科技采用了高性能并行文件存儲 CFS Turbo,將醫療訓練樣本、訓練檢查點和最終模型文件保存在統一存儲中,貫穿樣本準備、模型訓練、模型推理的全流程,提高了 GPU 利用率。
騰訊云與智診科技合作,提供了一整套 Agent 原生的基礎設施,讓智診科技能聚焦于醫學 AI 算法研發和業務價值本身。
AI 掀起的浪潮,正在將中國云市場推入一個以“智算”為關鍵詞的新周期。
歷經市場教育的中國企業,需求已變得更加審慎與務實——不再只滿足于技術的可用,還要求云與 AI 的深度協同能直接轉化為可衡量的業務價值。
騰訊云推出的“云智算”,正是對這一趨勢的回應。通過整合高性能計算、存儲、網絡、數據庫、安全等全棧能力,騰訊云構建了兼具極致性能與業務彈性、既能開放融合又能安全可控的基礎設施,將技術積淀,轉化為客戶的競爭優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.