<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<ul id="kyitz"></ul>

<pre id="kyitz"><sup id="kyitz"></sup></pre>

<pre id="kyitz"><fieldset id="kyitz"></fieldset></pre>

<tr id="kyitz"><td id="kyitz"></td></tr>

<pre id="kyitz"><fieldset id="kyitz"><tbody id="kyitz"></tbody></fieldset></pre>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費(fèi)郵箱

注冊VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

阿里大招震驚老外：將英偉達(dá)顯卡用量降了 82%！

2025-10-20 12:11:29　來源: AI范兒

上海舉報

0

分享至

當(dāng)你在深夜打開豆包或ChatGPT，問一句“雙十一買什么好？”，可能沒想到——這一問，背后跑起來的是一整張價值十幾萬元的A100顯卡。

但除了偶爾這樣回答問題，它的 95% 的時間卻在“發(fā)呆”。這聽起來有點奢侈，但這就是當(dāng)前大模型市場的現(xiàn)實。

最近，阿里和北大聯(lián)合團(tuán)隊在頂級計算機(jī)系統(tǒng)會議上發(fā)表了一篇論文《Aegaeon：面向市場并發(fā)大語言模型推理的高效 GPU 共享系統(tǒng)》，講的就是怎么讓這些“摸魚”的 GPU 忙起來。

他們進(jìn)行了三個多月的測試，效果非常震驚：從原本服務(wù)幾十個模型需要的 1192 張英偉達(dá) H20 顯卡，降到只要 213 張。

直接降了 82%！

他們是怎么做到的？

01｜問題：模型太多，GPU 太閑

現(xiàn)在的大模型市場（比如 Hugging Face）上，動輒上百萬個模型。有的紅的發(fā)紫（比如 DeepSeek、Qwen、Llama），有的卻長期在冷宮——一個月都沒幾個人調(diào)用。

但問題來了：

熱門模型 ：請求突然暴增，GPU 不夠用，用戶排隊等回復(fù)，我們都體驗過 DeepSeek 排隊的時候。

冷門模型 ：常年沒人用，但為了“隨時能響應(yīng)”，還得給它獨(dú)占一張 GPU——結(jié)果這張卡一年 99% 的時間在吃灰。

阿里云內(nèi)部數(shù)據(jù)顯示：17.7% 的 GPU 只處理了 1.35% 的請求。這就像你花幾十萬租了一棟別墅，結(jié)果只用來放一個快遞柜，一年大部分時間還鎖著門。

擅長降本的中國工程師們，這怎么能忍？

02｜舊方案為啥不行？

這么嚴(yán)重的一個問題，當(dāng)然有人想過要去優(yōu)化，之前有兩種主流的做法：

“拼車”式多模型共存 （Multiplexing）：把兩三個模型塞進(jìn)同一張 GPU，輪流跑。問題是大模型動輒幾十 GB，一張 80G 的卡最多塞倆，再多就爆了。省不了多少。

“隨用隨開”自動擴(kuò)縮容 （Auto-scaling）：不用的時候把模型“關(guān)掉”，用的時候再從內(nèi)存或硬盤“拉起來”。

這聽起來很美，但實際很慢——加載一個 13B 模型要好幾秒，用戶早就跑了。

更糟的是，這些系統(tǒng)都是按“整個請求”來調(diào)度的。

就像餐廳點菜，哪怕你只需要一個勺子，也必須等到前面客人的一桌菜全上完，你才能點。這種“慢的等所有人”的模式，就是典型的效率卡頓（頭阻塞）。

03｜ Aegaeon 的妙招

【溫馨提示：這部分非技術(shù)人員跳過也無妨】

Aegaeon 的核心思想很反直覺：

別等一個請求跑完，而是“邊跑邊換”，像流水線一樣切碎任務(wù)。

它把大模型推理拆成兩個階段：Prefill（備料階段）：讀你輸入的問題，生成第一個字；Decoding（吐字階段）：一個字一個字往后吐。

Aegaeon 干了兩件關(guān)鍵事：

1. 按“token”（字）級別做調(diào)度

不再等一個請求跑完才切模型；而是每生成幾個字，就看看有沒有更緊急的任務(wù)，有就立刻切換。

這樣，一張 GPU 可以同時服務(wù) 7 個甚至更多模型，而不是 2～3 個。

2. 把“切換成本”壓到極致

傳統(tǒng)切換要 10 秒以上，Aegaeon 通過三大優(yōu)化，把開銷砍掉 97%：

組件復(fù)用：推理引擎只初始化一次，模型權(quán)重單獨(dú)換；
顯存自管：自己管內(nèi)存分配，避免碎片，不用反復(fù)“垃圾回收”；
KV Cache 精細(xì)同步：KV Cache 相當(dāng)于模型在吐字時記下的“關(guān)鍵筆記”，用于加速后續(xù)生成。

Aegaeon 優(yōu)化了數(shù)據(jù)搬運(yùn)和計算流程，讓它們可以同時進(jìn)行，互不干擾，實現(xiàn)了亞秒級切換。

聽到這是不是有點懵，又有點似曾相似？

沒錯，實際上 Aegaeon 這種“隨時中斷，切換緊急任務(wù)”的邏輯，跟我們到電腦操作系統(tǒng)里面的 CPU 調(diào)度（即“搶占式調(diào)度”）原理很像。

CPU 也是把程序執(zhí)行切成時間片來輪換，以至于我們會認(rèn)為它在并發(fā)處理多個任務(wù)。

但 CPU 切換任務(wù)的開銷很小，大模型可不一樣，它涉及到數(shù) GB 數(shù)據(jù)的搬運(yùn)。所以，阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低，做到秒級切換。

04｜效果有多猛？

有效吞吐量提示 1.5～9 倍：同樣硬件，能服務(wù)更多用戶；

支持請求速率提高 2～2.5 倍：高峰期也不卡；

生產(chǎn)環(huán)境實測：原本需要 1192 張 H20 GPU；用 Aegaeon 后，只需 213 張；省下 82% 的 GPU 資源，相當(dāng)于省下幾千萬的硬件和電費(fèi)！

而且，用戶完全無感，沒人覺得“變慢了”。

05｜為什么這事很重要？

現(xiàn)在的大模型競爭，焦點往往是誰的參數(shù)更大、誰擁有的 GPU 數(shù)量更多。

但現(xiàn)實是：真正的競爭優(yōu)勢在于極致的工程效率，在于能否將每一分算力榨干，實現(xiàn)成本結(jié)構(gòu)的根本性優(yōu)化。

像阿里云、 DeepSeek 這樣的中國團(tuán)隊已經(jīng)證明，要打出大廠級別的效果，靠的不是資源堆砌，而是對算力的最優(yōu)利用以及在算法層面的突破。

有海外網(wǎng)友一針見血地評論：“中國團(tuán)隊正努力讓 AI 變得更高效、更便宜，而美國卻被‘必須買更多 GPU’的迷思困住了。”

另一位網(wǎng)友感慨：“DeepSeek 把 API 價格砍半，這不是營銷，是成本革命。”

當(dāng)潮水退去，真正能走進(jìn)千行百業(yè)、實現(xiàn)大規(guī)模普及的 AI，從來不是最“大”或最“貴”的那個，而是品質(zhì)可靠、性價比最高的那個。

附：關(guān)鍵詞解釋

論文地址：https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

如果你覺得這篇文章有用，歡迎轉(zhuǎn)發(fā)給那個總在抱怨“GPU 不夠用”的朋友

本文由「AI 范兒」出品

感謝你看到這里，如果覺得不錯，那就請幫忙點個贊、愛心、轉(zhuǎn)發(fā)三連吧，這對我們非常有幫助。如果想第一時間收到推送，也可以給我們加個星標(biāo)?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

美國再向委內(nèi)瑞拉施壓中方在安理會上連說5個"反對"

看看新聞Knews 2025-12-24 10:42:04
13817 跟貼 13817
搶瘋了！各地門店大排長龍，排號炒到400元一個！網(wǎng)友：怎么又火了？

觀威海 2025-12-24 10:14:23
2574 跟貼 2574

越南披露腐敗大案三名高官個人獲利近600萬億越南盾

中國新聞周刊 2025-12-24 21:57:35
5560 跟貼 5560

軍事專家:"特朗普級"戰(zhàn)艦設(shè)計疑大量借鑒中國055大驅(qū)

看看新聞Knews 2025-12-24 18:01:02
3101 跟貼 3101
濟(jì)南交通高峰期出現(xiàn)教科書級“拉鏈?zhǔn)健蓖ㄐ?車輛依次并道、嚴(yán)絲合縫，主路依舊順暢！

環(huán)球網(wǎng)資訊 2025-12-24 15:11:46
118 跟貼 118

胖東來新店售賣簽名球衣，包括梅西、姆巴佩等球星，最貴喬丹球衣138000元，客服：已有人購買

極目新聞 2025-12-24 19:01:24
87 跟貼 87

中央批準(zhǔn)：馮忠華任廣州市委書記

北京日報 2025-12-24 12:08:20
1599 跟貼 1599
李凱爾回應(yīng)：恢復(fù)美國國籍不屬實

北京日報客戶端 2025-12-24 15:54:10
2787 跟貼 2787

美國新一代高鐵列車"更新"后降速 700公里要7個多小時

澎湃新聞 2025-12-24 21:10:46
127 跟貼 127
日本可能數(shù)人遭到輻射外交部回應(yīng)

財聯(lián)社 2025-12-24 15:27:39
162 跟貼 162
超近畫面:福建艦彈射裝置可"0幀"急停

央視新聞客戶端 2025-12-24 22:39:13
304 跟貼 304
長城魏建軍回應(yīng)魏牌“九年八換CEO”：并不是我們辭退人家，是他們自己感覺壓力特別大

紅星資本局 2025-12-24 11:41:09
655 跟貼 655
馬龍，獲國家級教練資格

揚(yáng)子晚報 2025-12-24 12:34:27
1635 跟貼 1635
常州明年起征收生活垃圾處理費(fèi)，每戶每月4元

江蘇新聞 2025-12-24 07:58:00
1794 跟貼 1794
俄首次在白俄部署"榛樹"導(dǎo)彈盧卡申科：上限為10套

澎湃新聞 2025-12-24 07:26:32
682 跟貼 682
東莞一公園給石墩加裝金屬護(hù)欄多此一舉還是優(yōu)化安全舉措？

封面新聞 2025-12-24 17:37:06
144 跟貼 144
烤雞少年用"肉寶王"調(diào)味業(yè)內(nèi)人發(fā)聲

封面新聞 2025-12-23 17:37:03
564 跟貼 564
柬埔寨要求泰國將邊界談判移至馬來西亞吉隆坡，泰媒稱泰方已拒絕該要求

環(huán)球網(wǎng)資訊 2025-12-24 06:54:00
358 跟貼 358
烏克蘭軍隊撤出交戰(zhàn)重鎮(zhèn)謝韋爾斯克

新華社 2025-12-24 07:38:23
227 跟貼 227
湖北省政府批準(zhǔn)：這一收費(fèi)站，撤銷！

湖北發(fā)布 2025-12-24 09:43:07
57 跟貼 57
麗江古城區(qū)文旅公開喊話小紅書，此前發(fā)布的公眾號文章已刪除

極目新聞 2025-12-24 12:05:54
940 跟貼 940
官方回應(yīng)“哪位少爺吸了”、治安違法記錄封存等問題

揚(yáng)子晚報 2025-12-24 11:11:41
150 跟貼 150
遼寧給農(nóng)民評職稱：擬設(shè)初級、中級、副高級、正高級

政知新媒體 2025-12-24 07:31:28
573 跟貼 573
八部門：支持西部陸海新通道高質(zhì)量發(fā)展

界面新聞 2025-12-24 15:50:18
40 跟貼 40
【中國】貴州游客代外國人照顧嬰兒獲贊

一網(wǎng)荷蘭 2025-12-25 02:52:59
0 跟貼 0
這塊重80斤石頭被老板看見后，非要拿出35萬人民幣，求著賣給他

名石故事 2025-12-25 03:31:05
0 跟貼 0
夢里動物園歡聲笑語，醒來看見未用完的藥膏，丈夫已離世一月

星辰夜語 2025-12-25 02:30:15
0 跟貼 0

特朗普下令，真正的較量開始，美國選好主戰(zhàn)場，要與中國一決高下

特朗普下令，真正的較量開始，美國選好主戰(zhàn)場，要與中國一決高下

空天力量

2025-12-24 17:06:37

昨天進(jìn)去的虧慘了，上市兩天大跌50%，扛不住了虧13萬賣了！

昨天進(jìn)去的虧慘了，上市兩天大跌50%，扛不住了虧13萬賣了！

財經(jīng)智多星

2025-12-24 16:51:49

鹽城公布一起道路運(yùn)輸事故調(diào)查報告：大貨車司機(jī)疲勞駕駛連撞5車致4死2傷

鹽城公布一起道路運(yùn)輸事故調(diào)查報告：大貨車司機(jī)疲勞駕駛連撞5車致4死2傷

澎湃新聞

2025-12-24 21:06:26

三星堆的敘述手法與古國體制———三星堆的偶像、情節(jié)式敘述與背后的秩序系統(tǒng)

三星堆的敘述手法與古國體制———三星堆的偶像、情節(jié)式敘述與背后的秩序系統(tǒng)

經(jīng)濟(jì)觀察報

2025-12-23 23:46:42

49歲趙薇廣東飯局近照瘋傳！瘦脫相顯兇相，當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳！瘦脫相顯兇相，當(dāng)年小燕子徹底涼透了

阿纂看事

2025-12-12 09:18:29

南博事件，“舉報人”郭禮典危險了

南博事件，“舉報人”郭禮典危險了

林中木白

2025-12-24 20:19:50

失業(yè)的人越來越多了

曹多魚的財經(jīng)世界

2025-12-24 14:56:20

如何看待發(fā)送淫穢信息違法？再也看不到院長、主任們的桃色新聞了

如何看待發(fā)送淫穢信息違法？再也看不到院長、主任們的桃色新聞了

爆角追蹤

2025-12-24 12:37:06

無恥下作還不夠，還要明目張膽地硬搶！

無恥下作還不夠，還要明目張膽地硬搶！

胖胖說他不胖

2025-12-24 14:47:25

南博事件升級！鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡，徐院長真攤上事了

南博事件升級！鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡，徐院長真攤上事了

火山詩話

2025-12-24 14:29:42

大陸公安局正式向全球通告：懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

大陸公安局正式向全球通告：懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

科技處長

2025-12-24 14:51:42

慘烈！飛機(jī)墜海多人遇難! 海水猛灌機(jī)艙殘骸乘客深海絕望

慘烈！飛機(jī)墜海多人遇難! 海水猛灌機(jī)艙殘骸乘客深海絕望

北國向錫安

2025-12-24 10:28:47

李在明暗示：韓國曾統(tǒng)治中原萬年？日媒：他對中國怕不是有啥幻想

李在明暗示：韓國曾統(tǒng)治中原萬年？日媒：他對中國怕不是有啥幻想

史料布籍

2025-12-24 23:10:00

黃曉明帶兒子和媽媽包餃子，摘了假發(fā)套發(fā)量很藝術(shù)，兒子很像楊穎

黃曉明帶兒子和媽媽包餃子，摘了假發(fā)套發(fā)量很藝術(shù)，兒子很像楊穎

笑飲孤鴻非

2025-12-24 01:09:08

中央批準(zhǔn)，馮忠華履新廣州市委書記！本月3個省會（首府）城市市委書記調(diào)整

中央批準(zhǔn)，馮忠華履新廣州市委書記！本月3個省會（首府）城市市委書記調(diào)整

上觀新聞

2025-12-24 14:12:04

越南“食品安全腐敗大案”，局長夫婦聯(lián)手撈金

越南“食品安全腐敗大案”，局長夫婦聯(lián)手撈金

中國新聞周刊

2025-12-24 21:57:35

這樣的尊榮感，的確讓人感到反胃

這樣的尊榮感，的確讓人感到反胃

清書先生

2025-12-24 17:03:56

又一大佬想跑路？他花1元買下8.6億股權(quán)后，在機(jī)場被勸返

又一大佬想跑路？他花1元買下8.6億股權(quán)后，在機(jī)場被勸返

毒sir財經(jīng)

2025-12-22 21:09:27

南博前院長徐湖平被帶走，郭禮典接受問詢

南博前院長徐湖平被帶走，郭禮典接受問詢

無忌財談

2025-12-24 18:41:51

令人震驚！柬埔寨生命科學(xué)院，院里面全都是中文的服務(wù)（多圖）

令人震驚！柬埔寨生命科學(xué)院，院里面全都是中文的服務(wù)（多圖）

微微熱評

2025-12-24 12:22:04

AI范兒是一個專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺，提供最新的人工智能資訊

622文章數(shù) 337關(guān)注度

往期回顧全部

數(shù)碼要聞

2025 TGA獲獎名單出爐升級RTX50顯卡沉浸暢玩每一幀

頭條要聞

幼兒園8人遇難兒童母親：女兒4歲今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親：女兒4歲今年9月入讀

體育要聞

26歲廣西球王，在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤！闞清子驚傳誕一女夭折？

財經(jīng)要聞

北京進(jìn)一步放松限購滬深是否會跟進(jìn)？

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

手機(jī)

教育

公開課

家居要聞

法式大平層智能家居添彩

溫暖色調(diào) 大空間不冷清
溫潤質(zhì)感打造干凈空間
歐式風(fēng)格純粹優(yōu)雅氣質(zhì)

旅游要聞

上海藏2800株水上紅杉！免費(fèi)開放，夕陽下美成油畫

手機(jī)要聞

榮耀Magic8 Ultra：雙3D生物識別+LOFIC主攝，還有24GB大內(nèi)存！

教育要聞

讀書的意義，是不被生活吞沒

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進(jìn)程
李彥宏：百度離破產(chǎn)30天

© 1997-2025 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版主站蜘蛛池模板：亚洲国产成人久久精品软件| 91丝袜在线| 女人被爽到高潮视频免费国产 | 亚洲日韩精品一区二区三区| 国产白浆一区二区三区| 天天看片视频免费观看| 欧美在线一区二区三区精品| 国产va免费精品高清在线观看 | 无码人妻h动漫| 久久99国产亚洲高清观看首页| 濮阳市| 天海翼一区| 日本在线视频网站www色下载| 国产亚洲精品久久久网站好莱| 亚洲an日韩专区在线| 亚洲欧美一区二区三区在线| 国产成人无码aa精品一区| 国产午夜福利短视频| 谢通门县| 三成人免费看| 欧美午夜福利| 青娱乐av| 黄色国产视频| 囯产精品久久久久久久久久妞妞 | 久章草这里只有精品| 中文字幕久久久久人妻| 精品一区二区三区自拍图片区 | 狠狠躁夜夜躁人人爽天天不卡软件| √天堂资源地址在线官网| 性饥渴人妻| 26uuu亚洲| 久久久久人妻精品区一| 性色做爰片在线观看ww| 免费看又黄又无码的网站| 亚洲精品中文字幕无码蜜桃| 国产人妻一区二区三区四区五区六| 内射老阿姨1区2区3区4区| 伊人va| 国产wwww| 伊人在线视频| 9久久精品|

<rt id="schgt"></rt>

<tfoot id="schgt"></tfoot>

<pre id="schgt"><strike id="schgt"><label id="schgt"></label></strike></pre>