<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      “養(yǎng)蝦”太貴勸退?華為云FlexNPU專治算力“吃空餉”

      0
      分享至

      最近“龍蝦”徹底火了,一個24*7待命的數(shù)字員工,效率直接起飛,看得人心里直癢癢。

      不少老板看到后一拍大腿:上!

      真把“龍蝦”請進公司,劇情開始反轉(zhuǎn):表面上是自動化流水線,背地里卻像是給Token打工,月底一算賬,好家伙,比雇人還貴。

      你以為請來的是個全能員工,結(jié)果更像一個“高薪但不太穩(wěn)定的實習生”。

      為什么會這樣呢?因為像“龍蝦”這樣的Agent,其工作方式和過去完全不同。

      普通的聊天,一問一答,幾百幾千個Token就結(jié)束了,現(xiàn)在“龍蝦”自主規(guī)劃,多輪迭代,上下文超級長,一個任務(wù)跑下來,動不動就是幾十萬,甚至上百萬 Token。

      現(xiàn)在大家通過FlashAttention、混合精度、融合算子、KV Cache池化緩存等技術(shù)拼命優(yōu)化模型、優(yōu)化推理性能,也只能解決單機的性能問題。

      如果把目光移向整個AI算力池,重新審視Token性價比的時候,就會發(fā)現(xiàn)這里的平均推理利用率竟然不到30%,相當于花費重金建設(shè)、動輒數(shù)萬、數(shù)十萬卡的AI硬件算力池,竟有超過一半以上的算力在“摸魚,吃空餉”!

      面對這個核心挑戰(zhàn),華為云走出了一條創(chuàng)新的道路。

      他們沒有再去一味堆模型、卷算力,而是在推理/訓練框架和底層算力(比如 CANN、CUDA)之間,插入了一層全新的系統(tǒng)——FlexNPU,你可以把它理解成一個“AI算力操作系統(tǒng)”。

      FlexNPU通過創(chuàng)新的虛擬化和智能調(diào)度系統(tǒng),把一塊塊固定僵硬的“硅片”,拆開、重組、再分配,變成了一種可以自由流動的柔性或“液態(tài)化”資源。


      就像孫悟空的金箍棒那樣,需要的時候,可以撐到整個集群那么大,不需要的時候,可以縮到一根針那么細,“可大可小、變化隨心”,完全根據(jù)業(yè)務(wù)需求,“隨需而動”。

      FlexNPU具體是怎么做的呢? 我們詳細來看一看。

      0 1

      讀題目+寫答案:AI算力混合部署

      你給大模型發(fā)送了消息后,它就需要讀取你的輸入,建立上下文,相當于在考試時把題目完整讀一遍。這一階段叫做Prefill(預填充),計算量很大,NPU需要全力運作。

      大模型回答你的時候,就像是“寫答案”,是一個字(token)一個字往外生成,這一階段叫Decode,每次計算量小,但是持續(xù)生成。

      由于兩階段任務(wù)的特點不同,所以業(yè)界的主流方案就是PD分離,一個NPU專門讀題目,另一個專門寫答案。


      但是在“龍蝦”這種Agent場景下,用戶的請求充滿了極端的上下文和不可預測性,根本沒法提前規(guī)劃“讀題目”需要多少機器,“寫答案”需要多少機器。很容易出現(xiàn)有的機器閑著,有的忙死。

      FlexNPU則采用了一種“PD動態(tài)混合部署”的方法,把“讀題目”和“寫答案”部署在同一套NPU上,然后用負載感知、算子劫持、資源調(diào)度等技術(shù)來調(diào)度兩種任務(wù)。

      當系統(tǒng)“寫答案”的時候,如果發(fā)現(xiàn)算力閑著(因為Decode不怎么計算),立刻塞一個“讀題目” (Prefill) 任務(wù)進去!


      當然,這種調(diào)度非常之快(微秒級),讓硬件利用率直接拉滿。最終實現(xiàn)在同等服務(wù)質(zhì)量下,完美解決了傳統(tǒng)PD分離架構(gòu)下Prefill和Decode集群不均衡的AI Core與顯存利用率問題,將帶來至少40%的Token性價比提升空間。

      0 2

      不會摸魚的打工人:白天接單,晚上加班

      中小企業(yè)上AI系統(tǒng),通常需要兩套集群。

      一套是“在線集群”,處理白天的實時請求,例如用戶聊天、問答這些需要“秒回”的任務(wù),資源調(diào)度要高效,避免任何卡頓。

      另外一套是“離線集群”,處理晚上的非實時任務(wù),如生成embeddings,數(shù)據(jù)清洗、預處理等,延遲不敏感,可以慢慢排隊等。

      這種部署的問題就是白天的實時請求其實不穩(wěn)定,很多時候NPU就用了30%,剩下的70%在發(fā)呆,資源浪費。

      能不能把在線任務(wù)和離線任務(wù)在同一套機器上混著跑呢?

      白天優(yōu)先跑在線任務(wù)(用戶請求),同時如果有空閑資源,插入離線任務(wù)。

      晚上在線請求變少,系統(tǒng)自動把大部分資源給離線任務(wù)。

      華為的FlexNPU就是這么干的,在同一套集群中實現(xiàn)了毫秒級無縫穿插實時請求和非實時任務(wù)。


      這就像一個超級打工人,他既能不斷地回答用戶的各種問題,“沒人”的時候見縫插針地去做一些數(shù)據(jù)清洗,文檔總結(jié)的離線任務(wù)。

      到了深夜的業(yè)務(wù)低谷期,它會自動釋放出大量計算資源,利用自研的 iTransformer 預測算法會精準判斷這些資源能閑置多久,然后協(xié)同彈性引擎立刻把這些空閑資源“調(diào)度”給其他嗷嗷待哺的任務(wù),比如正在排隊的Agent強化學習作業(yè)等。

      利用這種削峰填谷的方式,每一分的NPU的算力都不浪費。

      在華為云內(nèi)部的AI代碼生成和外部MaaS業(yè)務(wù)場景中,這種方式解決了推理業(yè)務(wù)潮汐變化規(guī)律所導致的大量AI算力空轉(zhuǎn)浪費難題,同樣為大模型推理貢獻了至少40%的性價比提升!

      0 3

      AI合租時代:多模型共卡不打架

      研究表明,現(xiàn)在Agent中的任務(wù)很多都是重復性和專業(yè)化的子任務(wù),比如調(diào)用工具、解析文檔、生成報告。這些工作如果使用千億參數(shù)的“巨無霸”模型,那簡直就是用超級計算機玩掃雷,是巨大的資源浪費。

      最好是把這些子任務(wù)放到小模型中來運行,例如一個大模型負責路由,一個小模型做記憶壓縮,另外一個做常識推理,還需要一個小模型做摘要提取。


      在傳統(tǒng)云上,你得為這四個模型買四張卡,TCO直接爆炸,中小企業(yè)根本扛不住。

      當然,為了省錢,可以把模型硬塞在一張卡上,但沒有底層資源隔離和精細調(diào)度,結(jié)果在極端情況下性能會崩。

      一個模型突然來一波高并發(fā),占滿了算力和帶寬,直接影響其他模型,推理變慢,延遲增加,甚至超時。

      這就像多家公司擠在一個開放辦公區(qū), 雖然分了桌子,但網(wǎng)絡(luò)是共用的,電源是共用的,空調(diào)是共用的。

      一家公司開大會,網(wǎng)絡(luò)卡了,別人全被影響。

      FlexNPU參照操作系統(tǒng)的理念,接管了物理的NPU資源,通過對AI Core的時分調(diào)度和對顯存的空分調(diào)度,實現(xiàn)了多個AI模型在同一張NPU卡上的精細化混部。


      FlexNPU不但實現(xiàn)最小粒度達1% NPU卡及128MB顯存的顆粒度的AI Core時分復用,以及顯存空分復用。還實現(xiàn)了堅實的QoS與安全隔離。更重要的是可以在運行時可按需調(diào)整NPU算力大小、上層業(yè)務(wù)根本感知不到。

      實戰(zhàn)效果顯示,在保障時延前提下,單NPU卡部署密度從5個提升到7個,F(xiàn)lexNPU為小模型提供了真正完美匹配其算力訴求、量體裁衣的虛擬NPU資源,將小模型的平均算力成本降低2-3倍以上。真正實現(xiàn)了降本增效。


      0 4

      斷點續(xù)命:任務(wù)不會再“白干一場”

      現(xiàn)在的Agent有個致命的缺點:任務(wù)鏈路特別長。

      它不是“一次推理就結(jié)束”,而是需要幾十步甚至上百步,持續(xù)幾分鐘甚至幾十分鐘。

      就像你寫一篇幾萬字報告,寫到第95%時,沒有存盤,電腦突然死機了!

      全部白寫,只好從頭再來。

      在AI推理的時候也是類似,因為任務(wù)必須一口氣跑完,中間一旦某個NPU出問題, 完了,任務(wù)直接失敗,狀態(tài)丟失,不得不回到第一步從頭兒再來。

      你剛剛消耗的Token、算力、時間全部作廢,讓人欲哭無淚。


      FlexNPU做了什么呢? 它實現(xiàn)了一套軟硬件解耦的架構(gòu):


      推理服務(wù)不再直接綁定物理卡,而是通過虛擬映射實現(xiàn)靈活調(diào)度。

      在任務(wù)運行的過程中,系統(tǒng)不斷“偷偷”記錄當前狀態(tài),比如:模型推理進度,中間計算結(jié)果(KV Cache、狀態(tài)機),Agent 的上下文等。

      而且關(guān)鍵點是:開銷極低,你幾乎感覺不到。

      這樣一旦發(fā)生問題,F(xiàn)lexNPU就會讀取最近一次快照,恢復任務(wù)狀態(tài),從中斷點開始執(zhí)行,這一切,秒級即可完成,相當于原地滿血復活了。


      這一切對上層完全無感,你不需要寫任何恢復邏輯,不需要重試機制,不需要 checkpoint 管理,一切自動完成。

      一句話:AI 任務(wù)變得“又長又脆”,而 FlexNPU 讓它變成“又長又穩(wěn)”。

      0 5

      總結(jié)

      從上面的介紹可以看出,F(xiàn)lexNPU通過架構(gòu)創(chuàng)新,為智能體帶來了3重突破性價值。

      (1) 動態(tài)混合部署,用戶不需要為閑置資源買單;

      (2) 小模型共卡復用,用戶不需要為生態(tài)冗余買單;

      (3) 秒級快速恢復,用戶不需要為硬件故障買單。

      華為云FlexNPU所做的一切,其實都是為了一個最終的目標:降低Agent的入局門檻。

      讓每一分錢的AI算力投入,都迸發(fā)出最大化的價值;讓智能體時代海量的Token,人人都能消費得起。

      值得注意的是,F(xiàn)lexNPU 其實只是華為云整個 AI 解決方案中的一塊拼圖:


      在最底層,是 AI 基礎(chǔ)設(shè)施。

      依托 CloudMatrix 超節(jié)點和 FlexNPU 這套“柔性智算”能力,華為云解決的,是最核心的問題——算力不再浪費,成本真正可控。為上層各種模型、各種 Agent 形態(tài),提供了一個極致性價比的算力底座。

      再往上一層,是模型服務(wù)層。通過 MaaS,華為云把主流開源大模型都“整理好、調(diào)教好”,企業(yè)不需要自己折騰部署和適配,就可以直接使用。

      再往上,是開發(fā)者最熟悉的一層:Agent 平臺。這里更像一個“AI 操作臺”, 無論是程序員,還是業(yè)務(wù)人員,都可以通過簡單編排,快速搭建屬于自己的智能體。

      最上面這一層,其實是最有意思的:場景工廠。

      華為云把過去服務(wù) 2600 多家企業(yè)、500 多個實際場景的經(jīng)驗,沉淀成了 40+ 個高頻 AI 模板。 不需要從零開始,開箱即用,對于中小企業(yè)來說,這一層的價值,甚至是最大的。

      華為云給我的感覺就是,它不只在賣各種黑技術(shù),而是深刻地洞察了企業(yè)在使用AI的過程中遇到的各種問題,然后提供了一站式的、全方位的解決方案,這才是正確的AI之路。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      看破不說破!離婚8個月,徐帆首度回應(yīng)馮小剛近況,全網(wǎng)議論紛紛

      看破不說破!離婚8個月,徐帆首度回應(yīng)馮小剛近況,全網(wǎng)議論紛紛

      一盅情懷
      2026-04-24 09:47:41
      民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      穆杰塔巴收到伊朗高層聯(lián)名密信,打開一看:再不回頭就是滅頂之災(zāi)

      穆杰塔巴收到伊朗高層聯(lián)名密信,打開一看:再不回頭就是滅頂之災(zāi)

      小濤叨叨
      2026-04-26 17:23:59
      曝球球退出陳翔六點半!疑細節(jié)原因曝光,否認與“蘑菇頭”是夫妻

      曝球球退出陳翔六點半!疑細節(jié)原因曝光,否認與“蘑菇頭”是夫妻

      裕豐娛間說
      2026-04-26 19:04:43
      膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

      膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

      諦聽骨語本尊
      2026-04-25 16:14:58
      伊朗外長離開阿曼馬斯喀特前往巴基斯坦

      伊朗外長離開阿曼馬斯喀特前往巴基斯坦

      界面新聞
      2026-04-26 21:18:54
      A股明天就開盤了!就問你怕不怕!

      A股明天就開盤了!就問你怕不怕!

      龍行天下虎
      2026-04-26 17:49:26
      收拾完伊朗,下1個輪到中國?以色列發(fā)戰(zhàn)爭威脅!中方送出5個字

      收拾完伊朗,下1個輪到中國?以色列發(fā)戰(zhàn)爭威脅!中方送出5個字

      點燃好奇心
      2026-04-23 01:28:05
      青島海牛4-1山東泰山,賽后評分:青島海牛28號排第一

      青島海牛4-1山東泰山,賽后評分:青島海牛28號排第一

      凌空倒鉤
      2026-04-26 19:04:02
      黃金價格跌破1000元!看來這茬兒韭菜,是到收割的時候了?

      黃金價格跌破1000元!看來這茬兒韭菜,是到收割的時候了?

      正經(jīng)說個事兒
      2026-03-23 23:32:34
      特斯拉為什么不參加北京車展?

      特斯拉為什么不參加北京車展?

      華庭講美食
      2026-04-25 20:47:07
      中東的戰(zhàn)火,終究還是燒到了中國頭上!

      中東的戰(zhàn)火,終究還是燒到了中國頭上!

      故事終將光明磊落
      2026-04-25 15:03:28
      雨雨雨!暴跌10℃!江蘇最新天氣預測!

      雨雨雨!暴跌10℃!江蘇最新天氣預測!

      江南晚報
      2026-04-26 03:00:28
      擴散周知!5月1日嚴查煙草,家里有人抽煙的快看看!

      擴散周知!5月1日嚴查煙草,家里有人抽煙的快看看!

      王姐懶人家常菜
      2026-04-26 15:32:03
      張檬兒子周歲宴排面拉滿,爸爸全程溫柔抱哄,被全家寵成小寶貝

      張檬兒子周歲宴排面拉滿,爸爸全程溫柔抱哄,被全家寵成小寶貝

      黔鄉(xiāng)小姊妹
      2026-04-26 09:35:09
      24場0球!曼城太子斷崖下滑,拿英超mvp全靠體系,或無緣世界杯

      24場0球!曼城太子斷崖下滑,拿英超mvp全靠體系,或無緣世界杯

      阿泰希特
      2026-04-26 15:21:47
      港媒:中國正從伊朗的廢墟中汲取關(guān)于“持久戰(zhàn)”的冷酷經(jīng)驗

      港媒:中國正從伊朗的廢墟中汲取關(guān)于“持久戰(zhàn)”的冷酷經(jīng)驗

      矚望云霄
      2026-04-24 23:33:38
      遼寧美女“寶姐”去世,年僅40歲,一月前還好好的,死因令人遺憾

      遼寧美女“寶姐”去世,年僅40歲,一月前還好好的,死因令人遺憾

      她時尚丫
      2026-04-25 23:19:12
      千島湖又面臨兩大困難:鰱鳙放養(yǎng)60多年,“保水魚”保住了什么?

      千島湖又面臨兩大困難:鰱鳙放養(yǎng)60多年,“保水魚”保住了什么?

      花小貓的美食日常
      2026-04-25 00:18:49
      女子酒店抓獲丈夫出軌,無法容忍不戴避孕套,丈夫:她是我朋友

      女子酒店抓獲丈夫出軌,無法容忍不戴避孕套,丈夫:她是我朋友

      李晚書
      2026-04-24 10:39:33
      2026-04-26 23:07:00
      碼農(nóng)翻身 incentive-icons
      碼農(nóng)翻身
      有趣且硬核的技術(shù)文章
      257文章數(shù) 650關(guān)注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

      頭條要聞

      以色列政壇重大變局 內(nèi)塔尼亞胡迎來勁敵

      頭條要聞

      以色列政壇重大變局 內(nèi)塔尼亞胡迎來勁敵

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環(huán)王》的美劇,有第二季

      財經(jīng)要聞

      事關(guān)新就業(yè)群體,中辦、國辦發(fā)文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      游戲
      親子
      旅游

      藝術(shù)要聞

      總投資35億!汾酒集團太原的地標大樓,呈現(xiàn)白酒文化!

      干細胞如何讓燒燙傷皮膚"再生"?

      3D區(qū)女神淪陷!蒂法胸口被加布料 玩家直呼失望

      親子要聞

      這西瓜遇到他,可真的倒霉啊

      旅游要聞

      東阿文旅煥新升級:東阿阿膠城牽手開心麻花開啟文旅融合新征程

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 德昌县| 亚洲的天堂av无码| 91n在线观看| 国产猛烈高潮尖叫视频免费| 婷婷五月激情综合| 日韩av在线一二三四区| 国产一区二区三区乱码在线观看 | 岛国av免费在线播放| 麻豆国产97在线 | 欧洲| 少妇人妻av无码专区| 人妻无码中文久久久久专区| 亚洲男人天堂| 凌海市| 乱子伦农村xxxxbbb| 久碰人澡人澡人澡人澡人91| 日韩精品毛片无码一区到三区| 久草福利资源站| av熟女一区二区久久| 97se亚洲综合自在线| 一区二区福利在线视频| 曰本无码人妻丰满熟妇啪啪| 延边| 黑人大战欲求不满人妻| 国产中年熟女高潮大集合| heyzo一区二区三区| 久久88香港三级台湾三级播放| 国外欧美一区另类中文字幕| 91福利国产午夜亚洲精品| 漂亮人妻洗澡被公强啪啪 | 久久国产精品-国产精品| 松桃| 边添小泬边狠狠躁视频| 亚洲AV成人无码网天堂| 婷婷伊人綜合中文字幕小说| 亚洲日韩在线中文字幕| 国产成人无码精品一区二区三区| 亚洲av专区一区| 亚洲乱色一区二区三区丝袜| 4hu44四虎www在线影院麻豆| 亚洲av成人午夜电影在线观看| 尹人香蕉久久99天天拍|