![]()
當(dāng)你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價值十幾萬元的A100顯卡。
但除了偶爾這樣回答問題,它的 95% 的時間卻在“發(fā)呆”。這聽起來有點奢侈,但這就是當(dāng)前大模型市場的現(xiàn)實。
最近,阿里和北大聯(lián)合團(tuán)隊在頂級計算機(jī)系統(tǒng)會議上發(fā)表了一篇論文《Aegaeon:面向市場并發(fā)大語言模型推理的高效 GPU 共享系統(tǒng)》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。
他們進(jìn)行了三個多月的測試,效果非常震驚:從原本服務(wù)幾十個模型需要的 1192 張英偉達(dá) H20 顯卡,降到只要 213 張。
直接降了 82%!
他們是怎么做到的?
01| 問題:模型太多,GPU 太閑
現(xiàn)在的大模型市場(比如 Hugging Face)上,動輒上百萬個模型。有的紅的發(fā)紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個月都沒幾個人調(diào)用。
但問題來了:
熱門模型 :請求突然暴增,GPU 不夠用,用戶排隊等回復(fù),我們都體驗過 DeepSeek 排隊的時候。
冷門模型 :常年沒人用,但為了“隨時能響應(yīng)”,還得給它獨(dú)占一張 GPU——結(jié)果這張卡一年 99% 的時間在吃灰。
阿里云內(nèi)部數(shù)據(jù)顯示:17.7% 的 GPU 只處理了 1.35% 的請求。這就像你花 幾十萬 租了一棟別墅,結(jié)果只用來放一個快遞柜,一年大部分時間還鎖著門。
![]()
擅長降本的中國工程師們,這怎么能忍?
02| 舊方案為啥不行?
這么嚴(yán)重的一個問題,當(dāng)然有人想過要去優(yōu)化,之前有兩種主流的做法:
“拼車”式多模型共存 (Multiplexing):把兩三個模型塞進(jìn)同一張 GPU,輪流跑。問題是大模型動輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。
“隨用隨開”自動擴(kuò)縮容 (Auto-scaling):不用的時候把模型“關(guān)掉”,用的時候再從內(nèi)存或硬盤“拉起來”。
這聽起來很美,但實際很慢——加載一個 13B 模型要好幾秒,用戶早就跑了。
更糟的是,這些系統(tǒng)都是按“整個請求”來調(diào)度的。
就像餐廳點菜,哪怕你只需要一個勺子,也必須等到前面客人的一桌菜全上完,你才能點。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。
03| Aegaeon 的妙招
![]()
【溫馨提示:這部分非技術(shù)人員跳過也無妨】
Aegaeon 的核心思想很反直覺:
別等一個請求跑完,而是“邊跑邊換”,像流水線一樣切碎任務(wù)。
它把大模型推理拆成兩個階段:Prefill(備料階段):讀你輸入的問題,生成第一個字;Decoding(吐字階段):一個字一個字往后吐。
Aegaeon 干了兩件關(guān)鍵事:
1. 按“token”(字)級別做調(diào)度
不再等一個請求跑完才切模型;而是每生成幾個字,就看看有沒有更緊急的任務(wù),有就立刻切換。
這樣,一張 GPU 可以同時服務(wù) 7 個甚至更多模型,而不是 2~3 個。
2. 把“切換成本”壓到極致
傳統(tǒng)切換要 10 秒以上,Aegaeon 通過三大優(yōu)化,把開銷砍掉 97%:
組件復(fù)用:推理引擎只初始化一次,模型權(quán)重單獨(dú)換;
顯存自管:自己管內(nèi)存分配,避免碎片,不用反復(fù)“垃圾回收”;
KV Cache 精細(xì)同步:KV Cache 相當(dāng)于模型在吐字時記下的“關(guān)鍵筆記”,用于加速后續(xù)生成。
Aegaeon 優(yōu)化了數(shù)據(jù)搬運(yùn)和計算流程,讓它們可以同時進(jìn)行,互不干擾,實現(xiàn)了亞秒級切換。
![]()
聽到這是不是有點懵,又有點似曾相似?
沒錯,實際上 Aegaeon 這種“隨時中斷,切換緊急任務(wù)”的邏輯,跟我們到電腦操作系統(tǒng)里面的 CPU 調(diào)度(即“搶占式調(diào)度”)原理很像。
CPU 也是把程序執(zhí)行切成時間片來輪換,以至于我們會認(rèn)為它在并發(fā)處理多個任務(wù)。
但 CPU 切換任務(wù)的開銷很小,大模型可不一樣,它涉及到數(shù) GB 數(shù)據(jù)的搬運(yùn)。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級切換。
04|效果有多猛?
有效吞吐量提示 1.5~9 倍:同樣硬件,能服務(wù)更多用戶;
支持請求速率提高 2~2.5 倍:高峰期也不卡;
生產(chǎn)環(huán)境實測:原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當(dāng)于省下幾千萬的硬件和電費(fèi)!
而且,用戶完全無感,沒人覺得“變慢了”。
05|為什么這事很重要?
![]()
現(xiàn)在的大模型競爭,焦點往往是誰的參數(shù)更大、誰擁有的 GPU 數(shù)量更多。
但現(xiàn)實是:真正的競爭優(yōu)勢在于極致的工程效率,在于能否將每一分算力榨干,實現(xiàn)成本結(jié)構(gòu)的根本性優(yōu)化。
像阿里云、 DeepSeek 這樣的中國團(tuán)隊已經(jīng)證明,要打出大廠級別的效果,靠的不是資源堆砌,而是對算力的最優(yōu)利用以及在算法層面的突破。
有海外網(wǎng)友一針見血地評論:“中國團(tuán)隊正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了。”
另一位網(wǎng)友感慨:“DeepSeek 把 API 價格砍半,這不是營銷,是成本革命。”
當(dāng)潮水退去,真正能走進(jìn)千行百業(yè)、實現(xiàn)大規(guī)模普及的 AI,從來不是最“大”或最“貴”的那個,而是品質(zhì)可靠、性價比最高的那個。
附:關(guān)鍵詞解釋
論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf
如果你覺得這篇文章有用,歡迎轉(zhuǎn)發(fā)給那個總在抱怨“GPU 不夠用”的朋友
本文由「AI 范兒」出品
感謝你看到這里,如果覺得不錯,那就請幫忙點個贊、愛心、轉(zhuǎn)發(fā)三連吧,這對我們非常有幫助。如果想第一時間收到推送,也可以給我們加個星標(biāo)?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.