最近,我們刷到一個千萬級大模型大單↓
一套AI計算集群,中標價2000多萬。
猛一看,采購的是AI服務器,這不奇怪,當下AI服務器就是很搶手,大單頻出。

可細一看,很多吃瓜人士就開始好奇——
“除了服務器,這里面的KunLun AI Space,是個啥玩意?”
此時,懂行的老司機發(fā)話了:嘿嘿,這其實是MaaS!

什么是MaaS,為啥MaaS能賣這么貴?
先講個真實現(xiàn)狀吧:
上半年,你不搞大模型,客戶會覺得你Out了,項目都懶得跟你談。
下半年,你搞大模型沒MaaS,客戶就會覺得你不是真正搞大模型的,還是懶得跟你談。
![]()
![]()
為啥呢?
因為現(xiàn)在開源大模型那么多,你想獲得一個大模型其實沒啥難度,甚至客戶自己都能搞定。
![]()
可是,你想真的把大模型優(yōu)化好、部署好、用好,得到更高的推理效率,更好地適配業(yè)務,就沒那么簡單了。
所以,你就會發(fā)現(xiàn),很多客戶雖然有了大模型,卻只能“供著”。
![]()
要想把大模型真正用起來,就離不開MaaS。
MaaS,就是大模型服務平臺(Model as a Service),向下對接算、存、網(wǎng)等AI硬件基礎設施,向上對接AI應用開發(fā)。
MaaS就像AI時代的奶牛,吃的是草(算力),擠出來的是奶(tokens)。
![]()
企業(yè)要想用好大模型,對這頭奶牛要求可不低↓
第一,客戶買了這頭“奶牛”,希望它在吃相同草料的情況下(算力),能更快更多的產(chǎn)奶(tokens)。

此時,就需要考量TPOT、TTFT、并發(fā)、極限吞吐這些推理性能指標。
但實際上,市面上“奶牛”良莠不齊,能力差別很大,很多“產(chǎn)奶”指標都是測試理想值。
![]()
第二,客戶還希望這頭奶牛好飼養(yǎng),國產(chǎn)草料、進口草料都能吃,還有配套的飼養(yǎng)員、獸醫(yī)。
比如,有的牛特別挑食,只偏愛某一兩種草料(算力),換了草料就不干活。

再比如,牛有頭疼腦熱或者水土不服(故障、bug或者部署、適配優(yōu)化問題),客戶就希望廠家能提供獸醫(yī)或者飼養(yǎng)員團隊幫忙(原廠優(yōu)化適配專家)。
![]()
第三,客戶需要的不止是鮮奶(Tokens),他們的最終目標是把奶變成各種可口的食物(AI應用)。
光有牛還不夠,還要有配套的奶制品生產(chǎn)線,也就是AI應用開發(fā)和智能體開發(fā)平臺。
![]()
產(chǎn)奶效率高、不挑草料、有資深飼養(yǎng)員和獸醫(yī)提供服務,還提供配套的奶產(chǎn)品加工生產(chǎn)需求。
一番盤點下來,這樣的“超能牛”可不太好找。
![]()
嘿嘿,眾里尋“牛”千百度,踏破鐵鞋無覓處。
驀然回首,你會發(fā)現(xiàn),中標公告里的KunLun AI Space,原來就是那頭“超能牛”。
![]()
KunLun AI Space這頭“牛”到底有多牛?
第一牛,吃更少的“草料”,卻能更快更多“產(chǎn)奶”。
不僅省飼料,產(chǎn)奶效率還奇高,這樣的牛誰不愛呢?

憑啥有這種效率?一句話,軟硬協(xié)同!
KunLun AI Space實現(xiàn)了從“算力卡”到“Token輸出”端到端軟硬協(xié)同優(yōu)化。
也就是說,從飼料投喂(算力池化調(diào)度)、進食階段(算子加速)、消化階段(模型適配)、產(chǎn)奶階段(推理加速),每個環(huán)節(jié),都進行了優(yōu)化。

KunLun為什么要這么干?
只因要想達到最優(yōu)的“產(chǎn)奶”效率,必須解決四大難題:計算效率、訪存效率、存儲效率和通信效率。
這四大難題,如同四道“嘆息之墻”,很多牛人第一道墻都過不了。

而KunLun AI Space正是通過端到端的軟硬協(xié)同優(yōu)化,成功突破了這四道墻,把性能拉滿,最終實現(xiàn)最佳推理效率。

具體怎么破,我來給大家講講↓
①算子優(yōu)化:通過算子融合、算子定制開發(fā)、軟FP4/FP8等手段,提升計算、訪存和通信效率。
算子,是深度學習里的“動作單元”,正是依靠一個個算子的高效“動作”,才組合成流暢高效的推理流程,算子級的優(yōu)化是性能提升的關鍵。

KunLun AI Space通過算子融合,將多個獨立“小算子”融合一個“大算子”,功能等價但性能更優(yōu)。
好比將多個步驟的動作,合成一個大動作,達到同樣目的,但是更省勁。

同時,針對當下大量模型采用FP8甚至FP4的推理精度,而市面上很多算力卡卻不支持該精度的問題,KunLun AI Space提供軟FP8/FP4方案。
采用該方案,資源門檻下降50%,性能可提升10%(比如跑滿血大模型,原來需要32張卡,現(xiàn)在只需要16張)。

②KV Cache優(yōu)化:通過KV Cache壓縮、分級卸載等手段,節(jié)省存儲和計算開銷,并提升長下文處理能力和并發(fā)性能。
KV Cache相當于大模型推理里的記憶緩存機制,用于存放之前算過的「注意力特征」。
參考理解一下牛的「反芻」,你就秒懂了,都是已經(jīng)嚼過(算過)的東西。
![]()
具體怎么優(yōu)化呢?學問很大!
首先,采用KV Cache多級緩存池,相似或重復問題直接從緩存讀取,減少重復計算,降低GPU和顯存消耗。
同時,通過內(nèi)存和SSD分級存儲,降低緩存成本。
![]()
接下來,采用高性能壓縮算法和硬件,對KV Cache進行壓縮,并提供智能冷熱數(shù)據(jù)分級,把存儲成本打下來。
通過這一系列操作,以存促算,多輪對話TTFT降低80%,KV Cache存儲空間(顯存+內(nèi)存+SSD)降低一半以上。

③推理調(diào)度優(yōu)化:采用異構PD分離、智能路由等技術提升計算效率,并使用統(tǒng)一存儲來平衡PD階段的資源利用率、延遲,提升吞吐。
現(xiàn)在大家都知道通過PD分離部署來避免資源爭搶、提升推理效率,但是面對不同的推理場景、不同算力卡資源,如何優(yōu)化PD配比,其實很有學問。

KunLun AI Space有自己一套邏輯↓
采用混合/半分離設計,PD計算過程分開,但統(tǒng)一存儲,與KV Cache分級緩存相結合,實現(xiàn)跨節(jié)點共享數(shù)據(jù)。
同時利用智能路由策略,靈活分配負載,且P實例可以彈性伸縮,滿足突發(fā)請求。

通過這番操作,又可以讓首Token時延降低45%,吞吐量提升25%。
從算子優(yōu)化到KV Cache優(yōu)化再到推理調(diào)度優(yōu)化,KunLun AI Space實現(xiàn)了通信效率、存儲效率、訪存效率、計算效率的集體提升。
最終這一系列的乘積也把推理效率徹底拉滿!

第二牛,這牛胃口好、不挑食,而且配備優(yōu)秀的“養(yǎng)牛專家”提供服務。
大模型落地到企業(yè)場景,遇到五花八門的“草料”(算力)是不可避免的。
此時選KunLun AI Space就太省心了,國產(chǎn)草料、進口草料來者不拒。
![]()
不止如此,KunLun還配備了資深“養(yǎng)牛專家”提供服務,他們專治各種水土不服的“牛脾氣”。
算、存、網(wǎng)、集群、整體優(yōu)化,哪里不服治哪里,針對客戶特殊場景,還可以做定制化的算子開發(fā),這沒點軟硬協(xié)同的本領可做不到。
![]()
![]()
第三牛,AI Space不止是MaaS,還包含了應用使能模塊。
KunLun AI Space其實包含兩大部分↓
第一部分叫做「AI Space Wings」,這個是MaaS(也就是牛),另一部分叫做「AI Space Prime」,屬于應用使能模塊(相當于奶制品加工廠)。
![]()
道理很簡單,用大模型做推理,生產(chǎn)再多Tokens也沒用,核心是要把他們變成AI應用,就像把鮮奶變成美味奶制品,形成落地閉環(huán)。
AI Space Prime提供了MCP、Agent編排/提示詞工程/插件管理、RAG等一系列“生產(chǎn)線”,幫助客戶把Tokens快速變成生產(chǎn)力工具。
![]()
KunLun AI Space的成績單,和它背后的“養(yǎng)牛人”
目前,KunLun AI Space早已不是實驗室里的產(chǎn)品,而是大模型實戰(zhàn)中牛氣沖天的“小戰(zhàn)神”。
1、落地200+項目,覆蓋互聯(lián)網(wǎng)、運營商、金融、政企等頭部客戶;
2、解決500+大模型生態(tài)適配問題;
3、模型推理性能提升50%,token成本大幅下降。
這些成績意味著:客戶花出去的每一分錢,都能換回更高的算力價值。
所以KunLun能拿下篇頭那個2000萬+的大單,就不足為奇了。
![]()
有人問,牛歸牛,但KunLun這名字看著挺生的,怕不是個新公司吧?
嘿嘿,這個成立3年的新公司,卻有著20年的老道行。
昆侖技術,2022年10月正式成立,核心團隊來自原鯤鵬+昇騰體系,是最懂國產(chǎn)算力生態(tài)的那撥人…
如今,這些最強“養(yǎng)牛人”,依托通用和AI計算領域的技術積累、實戰(zhàn)經(jīng)驗、服務體系,正在刮起一波大模型時代的“牛旋風”!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.