來源@首席數智官
9月20日,2024云棲大會現場,阿里云全面展示了全新升級后的AI Infra系列產品及能力。通過全棧優化,阿里云打造出一套穩定和高效的AI基礎設施,連續訓練有效時長大于99%,模型算力利用率提升20%以上。
![]()
“AI創新需要新形態的云基礎設施。”阿里云副總裁、彈性計算及存儲產品線負責人吳結生表示,阿里云整合底層的計算、存儲、網絡等資源,實現了統一調度和軟硬一體優化,以滿足模型訓練和推理的爆發式AI算力需求。
基于全新的CIPU2.0,阿里云新推出磐久AI服務器,實現單機16卡、顯存1.5T以上,支持Solar RDMA互聯。磐久AI服務器采用超鈦金電源實現97%以上的高能效,并可通過AI算法預測GPU故障,準確率達92%,保障 AI 算力的性能和穩定性。
在存儲方面,阿里云并行文件存儲CPFS實現端到端全鏈路性能提升,單客戶端吞吐達25GB/s,高性能數據流動達到100GB/s,為AI智算提供指數級擴展存儲能力。
為AI設計的高性能網絡架構HPN7.0,性能和穩定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端訓練性能提升10%以上。
通過底層計算、存儲、網絡等基礎設施的升級,阿里云靈駿集群可提供超大規模、超強性能的智能算力,萬卡規模性能線性度超過96%,并行存儲吞吐20TB/s,萬卡規模下網絡帶寬利用率超過99%,可支持單集群十萬卡級別AI算力規模。
面向AI業務,阿里云計算產品也大幅演進更新。本次云棲大會上,容器服務ACK面向AI實現重磅升級,大模型應用冷啟動延遲降低85%,并可提供15000個超大規模節點支持。同時,容器計算服務ACS 即將推出 GPU容器算力。
阿里云推出第九代ECS實例,最高提升30%性能
阿里云發布全新的彈性計算產品家族。基于全面升級的云基礎設施處理器CIPU2.0,通用計算、加速計算、容器計算等三大彈性計算產品系列均實現性能大幅提升。阿里云全新推出第九代ECS企業級實例,可實現高達30%的性能提升。
![]()
圖說:阿里云彈性計算全新產品家族
當前,以GPU為代表的加速計算需求快速增長,容器也成為新的技術標準與用云范式。為此,云基礎設施處理器CIPU也全新升級到2.0版本。通過軟硬一體協同優化,CIPU2.0實現了400Gbps的高吞吐硬件數據加速架構,將整機穩定性提升20%。同時,CIPU2.0還大幅提升了安全性,創新實現數據全生命周期安全。
![]()
圖:全新云基礎設施處理器 CIPU2.0 支撐云服務
依托自研的“飛天+CIPU”架構體系,阿里云完成了通用計算、加速計算和容器計算的彈性計算產品家族的全新升級。
在通用計算方面,阿里云發布第九代ECS企業級實例。其中,g9i實例基于Intel最新的第六代至強處理器GNR,內存帶寬提升70%,在web場景性能相比8代實例最大提升20%;g9a實例基于AMD最新Zen5處理器,搭配阿里云最新CIPU架構,單核性能提升20%,搜推廣場景下分布式訓練集群性能提升30%。
![]()
圖:阿里云發布全新第九代ECS企業級實例
在加速計算方面,阿里云基于CIPU2.0打通高性能網絡架構HPN7.0、升級的CPFS并行文件存儲等AI Infra,并發布全新的磐久AI服務器。靈駿集群也進一步升級,可支持十萬卡級別的AI算力規模。
在容器計算方面,阿里云容器計算服務ACS率先商業化,并將推出全新的GPU容器算力。新升級的ACS以0.5vCPU、1GiB步長遞進,實現更柔性的秒級自動熱變配;每分鐘可彈至10000個pod,并推出按天承諾消費的節省計劃,綜合算力成本最高可降55%。
為了提供更易用、更智能的基礎設施產品與服務,阿里云彈性計算還升級了控制臺,推出了AI Copilot服務,并實現全鏈路可觀測,提升運維效率、保障系統穩定。
![]()
阿里云副總裁、彈性計算及存儲產品線負責人吳結生表示:“從支撐數字化創新到智能化創新,云計算始終是 Scaling Law 的踐行者。面向智能時代,阿里云彈性計算持續圍繞技術先進、穩定安全、普惠易用、大規模彈性的價值追求,為千行百業提供更強的性能、更高的靈活性、更大的算力規模、更高穩定性的云計算產品服務。”
阿里云首次推出云原生NDR產品 提升全流量威脅防御能力
阿里云宣布云原生安全能力全線升級,首次發布云原生網絡檢測與響應產品NDR(Network Detection Response,簡稱NDR)。同時,阿里云還宣布將持續增加免費的安全防護能力,幫助中小企業客戶以極低投入完成基礎的云上安全風險治理。
云時代復雜的IT體系、碎片化的安全工具和傳統的防護思路,以及新技術和新威脅帶來的多重變化,讓安全運營難以應對挑戰。阿里云安全產品負責人歐陽欣表示,阿里云基于多年經驗,創新性提出“三體”安全建設思路,將基礎設施安全一體化、安全技術域一體化、以及辦公安全和生產安全一體化貫徹到安全運營中。
![]()
此次推出的阿里云云原生NDR,即是在此背景下的創新。NDR是基于公共云環境原生化部署的威脅檢測與響應產品,全面提升了云環境全流量防御能力。與傳統第三方產品不同在于,它無需部署即可即時開通,并通過創新的自動留存技術,可以針對攻擊事件及攻擊發生前后5分鐘的流量進行取證保存,兼顧留存需要與成本投入,進而進行溯源和關聯分析,幫助客戶更快發現高級網絡威脅。
![]()
基于基礎設施安全一體化,阿里云還加強了WAAP、云安全中心、DDoS防護等能力,并且對數據庫、網絡CDN、計算、存儲等云原生產品的安全能力也進行全新升級。
比如數據庫與安全產品在數據安全上進行全面融合與能力共建,發布列加密與原生審計技術,可一鍵開通,增強自動化的安全能力。在CDN安全方面,阿里云將安全功能融入邊緣網絡,實現一鍵開啟DDoS防護、WAF、Bot管理、API安全、SSL證書等功能,通過全球3200+節點提供原生安全能力,為用戶提供邊緣云網安全防護體驗。
目前,阿里云已經成為Forrester、Gartner、IDC三大國際權威機構認可的全球安全能力最完整的廠商之一。
![]()
歐陽欣表示,“在做好平臺安全建設同時,阿里云也免費開放更多的安全能力額度,包括云安全中心、內容安全、數據安全中心,讓中小企業客戶能夠增強安全防護,同時還在安全體驗上增加一鍵檢測、一鍵修復等功能,幫助客戶共同加入到云上安全維護中。
![]()
面向AI,阿里云全新升級了安全體系,通義大模型基于阿里云的安全基座建設了生成式人工智能安全保障的最佳實踐,將內容安全能力覆蓋到大模型全生命周期中。同時,阿里云安全為百煉平臺的專屬部署模式設計了VPC安全保障方案,讓客戶在私域環境中也能獲得數據確權歸屬等系列安全服務。
阿里云發布首個AI多模數據管理平臺DMS,助力業務決策提效10倍
阿里云瑤池數據庫宣布重磅升級,發布首個一站式多模數據管理平臺DMS:OneMeta+OneOps。該平臺由Data+AI驅動,兼容40余種數據源,實現跨云數據庫、數據倉庫、數據湖的統一數據治理,幫助用戶敏捷、高效地提取并分析元數據,業務決策效率可提升10倍。
![]()
阿里云副總裁、數據庫產品事業部負責人李飛飛
“數據是生成式AI的核心資產,大模型時代的數據管理系統需具備多模處理和實時分析能力,以數據驅動決策和創新,為用戶提供‘搭積木’一樣易用、好用、高可用的使用體驗。”阿里云副總裁、數據庫產品事業部負責人李飛飛表示。
![]()
圖:阿里云推出多模數據管理平臺DMS:OneMeta+OneOps
當前,近80%的企業在建設數據平臺時采用多種數據引擎、多數據實例組合的策略,AI興起也帶來了非結構化數據的指數級增長,給企業對數據的高效檢索和分析管理提出了更大挑戰。此次,阿里云重磅推出由“Data+AI”驅動的多模數據管理平臺DMS:OneMeta+OneOps,助力構建企業智能Data Mesh(數據網格),提升跨環境、跨引擎、跨實例的統一元數據管理能力。
DMS創新設計了統一、開放、跨云的元數據服務OneMeta及DMS+X的多模聯動模式OneOps。OneMeta首次打通不同數據系統,可支持全域40余種不同數據源,提供數據血緣和數據質量的一站式數據治理。
![]()
OneOps則基于數據開發平臺DataOps和AI數據平臺MLOps,將不同數據庫引擎(關系型數據庫、數據倉庫、多模數據庫等)集結到統一平臺,讓用戶“開箱即用”,實現全鏈路的數據加工和計算能力。
自上線以來,DMS已服務超過10萬企業客戶。借助跨引擎、跨實例管理和開發以及數據智能一體化,DMS將幫助企業從分散式數據治理升級至開放統一數據智能管理,可降低高達90%的數據管理成本,業務決策效率提升10倍。
李飛飛表示:“這是自云原生數據庫2.0后,阿里云瑤池數據庫又一次里程碑式的改造升級。DMS:OneMeta+OneOps為企業提供了全域數據資產管理能力,讓業務數據‘看得清、查得快、用得好’。”
據介紹,極氪汽車采用DMS+Lindorm一站式多模數據解決方案,實現32萬在線車輛上萬車機信號數據的彈性處理分析,開發效能提升2倍,降低50%云資源成本。在大模型領域,此方案支撐月之暗面構建AI智能助手Kimi,幫助Kimi準確理解用戶的搜索意圖、整合與概述多種信息源,實現精準和全面的信息召回,提升用戶交互體驗。
![]()
此外,云原生數據庫PolarDB今年首次提出基于“三層解耦, 三層池化”(存儲、內存、計算)、AlwaysOn架構的多主多寫和秒級Serverless能力,解決了多主架構中沖突處理和數據融合、以及Serverless秒級彈性租戶隔離的難題。在高并發場景下,PolarDB性能為業界同類數據庫3倍,并憑以上成果成功摘得中國首個ACM SIGMOD和IEEE ICDE工業賽道“最佳論文獎”。
![]()
本次云棲大會,阿里云瑤池還正式發布了云原生內存數據庫Tair Serverless KV服務,是阿里云首個基于NVIDIA TensorRT-LLM的推理緩存加速云數據庫產品。Tair采用NVIDIA TensorRT-LLM一起進行了深度優化。相比開源方案,該服務可實現PD分離/調度優化吞吐30%的提升 ,預計成本可降低 20%
來源@首席數智官
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.