作者|子川
來源|AI先鋒官
阿里云搞了個省錢大招!
最近,阿里云提出的計算池化技術“C"成功入選了頂級學術會議SOSP 2025,目前,該核心技術已應用在阿里云百煉平臺。
![]()
SOSP全稱為操作系統原理研討會(Symposium on Operating Systems Principles),又被稱為“操作系統界的奧斯卡”,以其極低的論文錄用率而聞名。
平均每年收錄的論文數量僅有數十篇,能入選的都是行業里最前沿的科研突破。
那么Aegaeon為什么能入選呢?
其核心在于大幅度提升GPU資源的利用效率。
在AI飛速發展的今天,全球模型數量與日俱增,目前單Hugging Fac平臺就已托管了超100萬個模型。
但是在實際使用中,僅有少量熱門模型才會被用戶大量使用,而很多模型的使用量非常低,甚至有些模型一年的使用次數不足100次。
現在通常的做法是:哪怕一個模型再冷門,至少要給它單獨留一塊GPU供它使用。
結果就是造成大量的GPU資源的浪費。
有數據顯示,在阿里云模型市場中,曾有17.7%的GPU算力僅用于處理1.35%的請求。
而阿里發布的Aegaeon就能非常好的解決這個問題。
它的核心理念是GPU池化,該技術打破了“一個模型綁定一塊GPU”的傳統低效模式。
![]()
簡單來說,就是把那些原本分散的GPU資源,匯聚成一個大池子,然后通過一套精妙的調度系統,讓不同的AI模型可以在這個池子里共享GPU算力,而不是過去每款模型至少獨占一塊GPU。
不僅如此,Aegaeon還實現了“token級調度”。
可能大家對token級調度不太理解,這里給大家簡單介紹一下。
Token是AI模型處理和生成文本的最小單位,類似于一個漢字或一個字母,AI模型回復時,其實是一個一個token蹦出來的過程。
Aegaeon能在大模型每生成一個token的極短的瞬間,會快速評估 GPU 的負載和排隊情況。
并決定是繼續讓當前模型生成下一個 token,還是把接下來的計算時間優先安排給隊列里更緊急的模型,切換速度非常快,達到了亞秒級。
同時通過組件復用、顯存精細化管理和KV緩存同步優化等全棧技術,Aegaeon將模型切換開銷降低97%。
根據阿里云團隊介紹,目前Aegaeon系統支持單GPU同時服務多達7個不同模型,相比現有主流方案提升1.5-9倍的有效吞吐量,實現2-2.5倍的請求處理能力。
在實際測試中,Aegaeon的表現十分優異。
在阿里云百煉平臺上為期超過三個月的Beta測試中。
![]()
結果顯示:在服務數十個參數量高達720億的大模型時,原本需要1192塊英偉達H20GPU才能支撐的算力,現在只需要213塊就夠了。
GPU用量直接削減了82%!
![]()
這意味著硬件采購 和運營成本將得到顯著降低,這對于動輒需要成千上萬張GPU的大模型服務商而言至關重要。
Aegaeon的成功也揭示了未來 AI 發展的一個重要方向,僅僅依賴硬件算力的增長是遠遠不夠的,通過系統級的軟件創新來深度挖掘現有硬件的潛力同樣至關重要。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.