《科創(chuàng)板日報》4月6日訊(記者 黃心怡)走進位于上海松江的儀電智算中心,機房內(nèi)風扇轟鳴不止,上萬張GPU設備整齊排列,與縱橫交錯的高速網(wǎng)絡線纜共同編織出一張龐大的算力網(wǎng)絡。每張芯片每秒可執(zhí)行數(shù)十萬億次運算,它們兩天匯聚的計算能量,相當于三峽水電站一臺機組一小時的發(fā)電量。
算力是AI發(fā)展的根基,而要讓上萬張GPU卡高效協(xié)同為一個集群運轉(zhuǎn),絕非易事。《科創(chuàng)板日報》記者了解到,目前上海儀電旗下智算科技團隊已成功實現(xiàn)集群99.99%的超高可用性,相當于全年總故障時間縮短至1小時內(nèi)。
《科創(chuàng)板日報》記者獲悉,該萬卡集群已適配多種國產(chǎn)算力卡,具備多元異構(gòu)算力的融合與優(yōu)化調(diào)度能力。
▍萬卡級GPU集群穩(wěn)定運行
2023年,上海儀電成立智算科技,牽頭布局“萬卡集群”,搭建智算云平臺和公共服務體系。
算力集群不僅是加速卡的堆疊,還需要復雜的高速網(wǎng)絡和強大的調(diào)度軟件,它與AI大模型的關系好比“電與發(fā)電機”。“要讓接近萬卡算力的芯片配上高效的通訊網(wǎng)絡,再結(jié)合相應的存儲設備,能夠像一臺電腦這樣,成為一個集群整體高效運轉(zhuǎn),難度相當大。”智算科技董事長、總經(jīng)理孫躍坦言,“而更難的是,這1萬張卡組成的集群,還要7×24小時不間斷地提供算力服務。”
據(jù)了解,AI算力底座中算力芯片的故障率遠超傳統(tǒng)的IT設備。而在大模型訓練時,哪怕僅僅1分鐘的算力中斷,都可能會造成幾十個小時的訓練結(jié)果損失。調(diào)度萬卡,就像是讓上萬架無人機在密集的空中高速穿梭,每張芯片都容不得一毫米的誤差。
面對萬卡級GPU集群穩(wěn)定運行難的痛點,智算科技這支平均年齡僅32歲的“夢之隊”爆發(fā)出極強的戰(zhàn)斗力。團隊曾連續(xù)79天吃住在機房駐守,為了0.1%的性能提升每天熬紅雙眼反復打磨代碼,開展算法攻堅。面對緊急任務,他們打破常規(guī),將線性流程優(yōu)化為“并行施工+邊測邊調(diào)”,搶占每一秒進度。
據(jù)悉,團隊成功實現(xiàn)了集群99.99%的超高可用性,相當于全年總故障時間縮短至1小時內(nèi),這有力支撐了某大模型公司等多模態(tài)大模型領先全球的訓練,成功避免了算力中斷可能造成的巨大損失。
▍融合異構(gòu)芯片 把國產(chǎn)算力用起來
據(jù)了解,智算科技萬卡集群已成功適配多種國產(chǎn)算力卡,實現(xiàn)了多元異構(gòu)算力的融合與優(yōu)化調(diào)度。孫躍介紹,在很多任務中,國產(chǎn)設備發(fā)揮了至關重要的作用。
“不同業(yè)務、不同行業(yè)對芯片的需求各不相同,而各類國產(chǎn)算力芯片在細分領域也各具優(yōu)勢。通過異構(gòu)算力的融合,我們把國產(chǎn)算力真正用了起來,可以在同一底座、同一云平臺的基礎上,更好地滿足不同垂類客戶對算力基礎設施的差異化需求,進一步發(fā)揮國產(chǎn)軟硬件基礎設施的潛力。”
![]()
目前,智算科技萬卡集群的使用率已接近100%,基本實現(xiàn)建成即滿負荷運轉(zhuǎn)。在某新型科研機構(gòu)項目中,團隊僅用一周便完成近千卡集群的建設與交付,跑出行業(yè)領先速度,隨后又成功部署萬卡集群算力,有力保障國家重點科研任務的推進。截至目前,已具備萬卡規(guī)模高性能算力集群的部署與交付能力。
智算科技還首創(chuàng)“動態(tài)感知調(diào)度方案”,使訓練效率飆升91%,每年為國家節(jié)省的算力成本相當于新建3個數(shù)據(jù)中心,實現(xiàn)了混合架構(gòu)萬卡集群調(diào)度技術的自主可控。
今年全國兩會上,“算電協(xié)同”首次被寫入政府工作報告,成為國家級戰(zhàn)略性新基建工程。智算科技也在這一領域積極開展探索。
孫躍透露,“在基礎設施和機房建設過程中間,我們進一步擴大對綠電的使用比例,并通過液冷集群,提高整個能源的使用效率,降低PUE值。另一方面,我們也在和上下游的合作伙伴進行探索。比如,結(jié)合淞滬地區(qū)海上風電資源,實現(xiàn)風電直接驅(qū)動的海底數(shù)據(jù)中心,從而來降低算力成本,也是當前開展的算電協(xié)同的重要嘗試。”
▍推動國產(chǎn)算力生態(tài)協(xié)同
當前,新一代人工智能快速發(fā)展,算力需求持續(xù)激增。“越來越多的算力不僅滲透到千行百業(yè),甚至開始走進千家萬戶。從近期備受關注的AI Agent、智能體工作流到OpenClow等,發(fā)展速度往往超出想象。這不是一個線性的過程,而是階躍式演進,未來雖難以準確描述其具體目標,但發(fā)展的節(jié)奏只會越來越快。”孫躍稱。
談及未來規(guī)劃,孫躍表示,一方面要提高算力基礎設施的建設效率,以及萬卡集群的使用效率,這是在基礎設施側(cè)需要重點攻關的方向。
另一方面,上海儀電將打造開放、靈活、彈性的智算云服務平臺。“去年在世界人工智能大會上,我們發(fā)布了智算平臺YI CLOUD,旨在面向各類不同領域的用戶,提供更普惠、更便捷的算力服務。這種算力服務依托于智算云,提供的不僅是算力,還包括行業(yè)所需的語料、模型、智能體等能力的適配,幫助用戶在單一垂直領域更高效地使用算力。”孫躍稱。
此外,上海儀電還在生態(tài)建設上發(fā)力。
“作為一家平臺型的鏈主企業(yè),上海儀電希望發(fā)揮生態(tài)鏈接的作用,牽引產(chǎn)業(yè)鏈上下游軟硬件廠商,包括GPU企業(yè)、網(wǎng)絡通訊、模型企業(yè)、智能體企業(yè)等,帶動合作伙伴實現(xiàn)國產(chǎn)算力生態(tài)協(xié)同的創(chuàng)新方案,以賦能國產(chǎn)大模型以及相關AI+應用,這是我們未來發(fā)展的另一重點。”孫躍表示。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.