<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      阿里大招震驚老外:將英偉達(dá)顯卡用量降了 82%!

      0
      分享至


      當(dāng)你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價值十幾萬元的A100顯卡。

      但除了偶爾這樣回答問題,它的 95% 的時間卻在“發(fā)呆”。這聽起來有點奢侈,但這就是當(dāng)前大模型市場的現(xiàn)實。

      最近,阿里和北大聯(lián)合團(tuán)隊在頂級計算機(jī)系統(tǒng)會議上發(fā)表了一篇論文《Aegaeon:面向市場并發(fā)大語言模型推理的高效 GPU 共享系統(tǒng)》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。

      他們進(jìn)行了三個多月的測試,效果非常震驚:從原本服務(wù)幾十個模型需要的 1192 張英偉達(dá) H20 顯卡,降到只要 213 張。

      直接降了 82%!

      他們是怎么做到的?

      01| 問題:模型太多,GPU 太閑

      現(xiàn)在的大模型市場(比如 Hugging Face)上,動輒上百萬個模型。有的紅的發(fā)紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個月都沒幾個人調(diào)用。

      但問題來了:

      熱門模型 :請求突然暴增,GPU 不夠用,用戶排隊等回復(fù),我們都體驗過 DeepSeek 排隊的時候。

      冷門模型 :常年沒人用,但為了“隨時能響應(yīng)”,還得給它獨(dú)占一張 GPU——結(jié)果這張卡一年 99% 的時間在吃灰。

      阿里云內(nèi)部數(shù)據(jù)顯示:17.7% 的 GPU 只處理了 1.35% 的請求。這就像你花 幾十萬 租了一棟別墅,結(jié)果只用來放一個快遞柜,一年大部分時間還鎖著門。


      擅長降本的中國工程師們,這怎么能忍?

      02| 舊方案為啥不行?

      這么嚴(yán)重的一個問題,當(dāng)然有人想過要去優(yōu)化,之前有兩種主流的做法:

      “拼車”式多模型共存 (Multiplexing):把兩三個模型塞進(jìn)同一張 GPU,輪流跑。問題是大模型動輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。

      “隨用隨開”自動擴(kuò)縮容 (Auto-scaling):不用的時候把模型“關(guān)掉”,用的時候再從內(nèi)存或硬盤“拉起來”。

      這聽起來很美,但實際很慢——加載一個 13B 模型要好幾秒,用戶早就跑了。

      更糟的是,這些系統(tǒng)都是按“整個請求”來調(diào)度的。

      就像餐廳點菜,哪怕你只需要一個勺子,也必須等到前面客人的一桌菜全上完,你才能點。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。

      03| Aegaeon 的妙招


      【溫馨提示:這部分非技術(shù)人員跳過也無妨】

      Aegaeon 的核心思想很反直覺:

      別等一個請求跑完,而是“邊跑邊換”,像流水線一樣切碎任務(wù)。

      它把大模型推理拆成兩個階段:Prefill(備料階段):讀你輸入的問題,生成第一個字;Decoding(吐字階段):一個字一個字往后吐。

      Aegaeon 干了兩件關(guān)鍵事:

      1. 按“token”(字)級別做調(diào)度

      不再等一個請求跑完才切模型;而是每生成幾個字,就看看有沒有更緊急的任務(wù),有就立刻切換。

      這樣,一張 GPU 可以同時服務(wù) 7 個甚至更多模型,而不是 2~3 個。

      2. 把“切換成本”壓到極致

      傳統(tǒng)切換要 10 秒以上,Aegaeon 通過三大優(yōu)化,把開銷砍掉 97%:

      • 組件復(fù)用:推理引擎只初始化一次,模型權(quán)重單獨(dú)換;

      • 顯存自管:自己管內(nèi)存分配,避免碎片,不用反復(fù)“垃圾回收”;

      • KV Cache 精細(xì)同步:KV Cache 相當(dāng)于模型在吐字時記下的“關(guān)鍵筆記”,用于加速后續(xù)生成。

      Aegaeon 優(yōu)化了數(shù)據(jù)搬運(yùn)和計算流程,讓它們可以同時進(jìn)行,互不干擾,實現(xiàn)了亞秒級切換。


      聽到這是不是有點懵,又有點似曾相似?

      沒錯,實際上 Aegaeon 這種“隨時中斷,切換緊急任務(wù)”的邏輯,跟我們到電腦操作系統(tǒng)里面的 CPU 調(diào)度(即“搶占式調(diào)度”)原理很像。

      CPU 也是把程序執(zhí)行切成時間片來輪換,以至于我們會認(rèn)為它在并發(fā)處理多個任務(wù)。

      但 CPU 切換任務(wù)的開銷很小,大模型可不一樣,它涉及到數(shù) GB 數(shù)據(jù)的搬運(yùn)。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級切換。

      04|效果有多猛?

      有效吞吐量提示 1.5~9 倍:同樣硬件,能服務(wù)更多用戶;

      支持請求速率提高 2~2.5 倍:高峰期也不卡;

      生產(chǎn)環(huán)境實測:原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當(dāng)于省下幾千萬的硬件和電費(fèi)!

      而且,用戶完全無感,沒人覺得“變慢了”。

      05|為什么這事很重要?


      現(xiàn)在的大模型競爭,焦點往往是誰的參數(shù)更大、誰擁有的 GPU 數(shù)量更多。

      但現(xiàn)實是:真正的競爭優(yōu)勢在于極致的工程效率,在于能否將每一分算力榨干,實現(xiàn)成本結(jié)構(gòu)的根本性優(yōu)化。

      像阿里云、 DeepSeek 這樣的中國團(tuán)隊已經(jīng)證明,要打出大廠級別的效果,靠的不是資源堆砌,而是對算力的最優(yōu)利用以及在算法層面的突破。

      有海外網(wǎng)友一針見血地評論:“中國團(tuán)隊正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了。”

      另一位網(wǎng)友感慨:“DeepSeek 把 API 價格砍半,這不是營銷,是成本革命。”

      當(dāng)潮水退去,真正能走進(jìn)千行百業(yè)、實現(xiàn)大規(guī)模普及的 AI,從來不是最“大”或最“貴”的那個,而是品質(zhì)可靠、性價比最高的那個。

      附:關(guān)鍵詞解釋

      論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

      如果你覺得這篇文章有用,歡迎轉(zhuǎn)發(fā)給那個總在抱怨“GPU 不夠用”的朋友

      本文由「AI 范兒」出品

      感謝你看到這里,如果覺得不錯,那就請幫忙點個贊、愛心、轉(zhuǎn)發(fā)三連吧,這對我們非常有幫助。如果想第一時間收到推送,也可以給我們加個星標(biāo)?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

      特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

      空天力量
      2025-12-24 17:06:37
      昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

      昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

      財經(jīng)智多星
      2025-12-24 16:51:49
      鹽城公布一起道路運(yùn)輸事故調(diào)查報告:大貨車司機(jī)疲勞駕駛連撞5車致4死2傷

      鹽城公布一起道路運(yùn)輸事故調(diào)查報告:大貨車司機(jī)疲勞駕駛連撞5車致4死2傷

      澎湃新聞
      2025-12-24 21:06:26
      三星堆的敘述手法與古國體制———三星堆的偶像、情節(jié)式敘述與背后的秩序系統(tǒng)

      三星堆的敘述手法與古國體制———三星堆的偶像、情節(jié)式敘述與背后的秩序系統(tǒng)

      經(jīng)濟(jì)觀察報
      2025-12-23 23:46:42
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      阿纂看事
      2025-12-12 09:18:29
      南博事件,“舉報人”郭禮典危險了

      南博事件,“舉報人”郭禮典危險了

      林中木白
      2025-12-24 20:19:50
      失業(yè)的人越來越多了

      失業(yè)的人越來越多了

      曹多魚的財經(jīng)世界
      2025-12-24 14:56:20
      如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

      如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

      爆角追蹤
      2025-12-24 12:37:06
      無恥下作還不夠,還要明目張膽地硬搶!

      無恥下作還不夠,還要明目張膽地硬搶!

      胖胖說他不胖
      2025-12-24 14:47:25
      南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

      南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

      火山詩話
      2025-12-24 14:29:42
      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      科技處長
      2025-12-24 14:51:42
      慘烈!飛機(jī)墜海 多人遇難! 海水猛灌機(jī)艙殘骸 乘客深海絕望

      慘烈!飛機(jī)墜海 多人遇難! 海水猛灌機(jī)艙殘骸 乘客深海絕望

      北國向錫安
      2025-12-24 10:28:47
      李在明暗示:韓國曾統(tǒng)治中原萬年?日媒:他對中國怕不是有啥幻想

      李在明暗示:韓國曾統(tǒng)治中原萬年?日媒:他對中國怕不是有啥幻想

      史料布籍
      2025-12-24 23:10:00
      黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

      黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

      笑飲孤鴻非
      2025-12-24 01:09:08
      中央批準(zhǔn),馮忠華履新廣州市委書記!本月3個省會(首府)城市市委書記調(diào)整

      中央批準(zhǔn),馮忠華履新廣州市委書記!本月3個省會(首府)城市市委書記調(diào)整

      上觀新聞
      2025-12-24 14:12:04
      越南“食品安全腐敗大案”,局長夫婦聯(lián)手撈金

      越南“食品安全腐敗大案”,局長夫婦聯(lián)手撈金

      中國新聞周刊
      2025-12-24 21:57:35
      這樣的尊榮感,的確讓人感到反胃

      這樣的尊榮感,的確讓人感到反胃

      清書先生
      2025-12-24 17:03:56
      又一大佬想跑路?他花1元買下8.6億股權(quán)后,在機(jī)場被勸返

      又一大佬想跑路?他花1元買下8.6億股權(quán)后,在機(jī)場被勸返

      毒sir財經(jīng)
      2025-12-22 21:09:27
      南博前院長徐湖平被帶走,郭禮典接受問詢

      南博前院長徐湖平被帶走,郭禮典接受問詢

      無忌財談
      2025-12-24 18:41:51
      令人震驚!柬埔寨生命科學(xué)院,院里面全都是中文的服務(wù)(多圖)

      令人震驚!柬埔寨生命科學(xué)院,院里面全都是中文的服務(wù)(多圖)

      微微熱評
      2025-12-24 12:22:04
      2025-12-25 04:55:00
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺,提供最新的人工智能資訊
      622文章數(shù) 337關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      2025 TGA獲獎名單出爐 升級RTX50顯卡沉浸暢玩每一幀

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      體育要聞

      26歲廣西球王,在質(zhì)疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經(jīng)要聞

      北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      汽車要聞

      “運(yùn)動版庫里南”一月份亮相???或命名極氪9S

      態(tài)度原創(chuàng)

      家居
      旅游
      手機(jī)
      教育
      公開課

      家居要聞

      法式大平層 智能家居添彩

      旅游要聞

      上海藏2800株水上紅杉!免費(fèi)開放,夕陽下美成油畫

      手機(jī)要聞

      榮耀Magic8 Ultra:雙3D生物識別+LOFIC主攝,還有24GB大內(nèi)存!

      教育要聞

      讀書的意義,是不被生活吞沒

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产成人久久精品软件| 91丝袜在线| 女人被爽到高潮视频免费国产 | 亚洲日韩精品一区二区三区| 国产白浆一区二区三区| 天天看片视频免费观看| 欧美在线一区二区三区精品| 国产va免费精品高清在线观看 | 无码人妻h动漫| 久久99国产亚洲高清观看首页| 濮阳市| 天海翼一区| 日本在线视频网站www色下载| 国产亚洲精品久久久网站好莱| 亚洲an日韩专区在线| 亚洲欧美一区二区三区在线| 国产成人无码aa精品一区| 国产午夜福利短视频| 谢通门县| 三成人免费看| 欧美午夜福利| 青娱乐av| 黄色国产视频| 囯产精品久久久久久久久久妞妞 | 久章草这里只有精品| 中文字幕久久久久人妻| 精品一区二区三区自拍图片区 | 狠狠躁夜夜躁人人爽天天不卡软件| √天堂资源地址在线官网| 性饥渴人妻| 26uuu亚洲| 久久久久人妻精品区一| 性色做爰片在线观看ww| 免费看又黄又无码的网站| 亚洲精品中文字幕无码蜜桃| 国产人妻一区二区三区四区五区六| 内射老阿姨1区2区3区4区| 伊人va| 国产wwww| 伊人在线视频| 9久久精品|