<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      大模型“造夢(mèng)”,推理引擎“還債”,CTO們正在還AI的“應(yīng)用賬”

      0
      分享至

      站在2025年中,回顧半年來大模型的發(fā)展,以年初DeepSeek爆火為標(biāo)志,大模型快速蛻變角色,走出實(shí)驗(yàn)室,真正融入企業(yè)核心業(yè)務(wù)系統(tǒng),在政務(wù)、金融、醫(yī)療、能源等領(lǐng)域加速落地。

      隨著大模型走向深度應(yīng)用,CTO從關(guān)注基礎(chǔ)模型轉(zhuǎn)向推理引擎,推理過程中的資源消耗,每一度電、每一塊錢、每一分鐘所能產(chǎn)出的Token數(shù)量,正在成為衡量一家公司在AI時(shí)代先進(jìn)性的關(guān)鍵指標(biāo)。

      怎么用推理引擎提升推理效率、榨干每一塊算力的價(jià)值、盡可能降低推理成本,已經(jīng)成為CTO們必須解決的問題。

      01 大模型跑不動(dòng),是因?yàn)橥评硪娌唤o力

      什么是推理引擎?

      簡(jiǎn)單來說就是一套專門負(fù)責(zé)讓大模型“跑”起來的系統(tǒng),既負(fù)責(zé)“怎么算”,又負(fù)責(zé)“在哪算”和“算得多快”,盡可能提高大模型推理的響應(yīng)速度、并發(fā)能力和算力資源利用率。

      如果說大模型是發(fā)動(dòng)機(jī),推理引擎就是動(dòng)力總成,決定了發(fā)動(dòng)機(jī)在不同道路、不同油品、不同氣候下是否能高效運(yùn)轉(zhuǎn)。調(diào)校得當(dāng),就能低延遲、高吞吐、低成本;調(diào)校不佳,再?gòu)?qiáng)的模型也可能“燒油多、輸出低”。

      大約從2023年開始,推理引擎開始作為一個(gè)獨(dú)立賽道興起,陸續(xù)出現(xiàn)了TGI、vLLM、TensorRT、SGLang等面向推理效率優(yōu)化的開源項(xiàng)目。彼時(shí)業(yè)界的注意力還停留在“大煉模型”上,對(duì)推理引擎的需要求不高——能用就行。

      2025年初是一個(gè)分水嶺。

      DeepSeek為代表的一批大模型開源后,企業(yè)對(duì)AI的態(tài)度由觀望轉(zhuǎn)向行動(dòng),紛紛采購(gòu)算力、治理數(shù)據(jù)、微調(diào)模型,落地部署時(shí)卻發(fā)現(xiàn):推理響應(yīng)慢、吞吐跟不上、成本高昂。

      90%的算力花在了推理上,結(jié)果又貴又慢,連“謝謝”都不敢多說一句,幾乎談不上性價(jià)比。

      大模型推理到底難在哪里呢?答案是效果、性能、成本的“不可能三角”。

      想要效果好,就得用更大的模型、更高的精度、更長(zhǎng)的上下文,但算力開銷就上去了;想要跑得快、響應(yīng)快,就要用緩存、做批處理、圖優(yōu)化,可能影響模型輸出的質(zhì)量;想要成本低,就要壓縮模型、降低顯存、用更便宜的算力,又可能會(huì)犧牲推理的性能或準(zhǔn)確率。

      企業(yè)的CTO們?cè)跒榇竽P屯评斫箲]時(shí),推理引擎賽道也“熱鬧”了起來,不少在AI應(yīng)用上“搶跑”的大廠,同樣意識(shí)到了推理引擎的短板,試圖將自己摸索出的經(jīng)驗(yàn),做成標(biāo)準(zhǔn)化產(chǎn)品和服務(wù),幫企業(yè)壓下這筆越來越沉重的應(yīng)用賬。



      比如英偉達(dá)發(fā)布了推理框架Dynamo;AWS的SageMaker提供了多項(xiàng)增強(qiáng)功能提高大模型推理的吞吐量、延遲和可用性;京東云推出了JoyBuilder推理引擎,可將推理成本降低90%

      一句話來總結(jié):大模型能力再?gòu)?qiáng),沒有高效的推理引擎,就像一輛發(fā)動(dòng)機(jī)不行的跑車,只能原地轟油門。

      02 為了推理快、省、穩(wěn),大廠都在死磕工程創(chuàng)新

      過去為了提高推理能力,思路主要放在模型上,通過剪枝、蒸餾、量化等技術(shù)給大模型“瘦身”。越來越多企業(yè)發(fā)現(xiàn),如果推理過程上存在太多短板,模型再怎么輕,推理的效能也上不去,必須要優(yōu)化推理流程。

      在理解工程創(chuàng)新的思路前,先把大模型的推理過程拆解一下:

      第一階段(Prefill):先聽懂你在說什么。

      就像人聊天前要先把對(duì)方說的話聽清楚、理解透,大模型的第一步,就是認(rèn)真“讀題”,一字一句地“消化”,并在腦子里畫好一套“思考地圖”(KVCache)。

      第二個(gè)階段(Decode):一字一句地回答你。

      不是一下子把答案全說完,而是一字一句地往下寫,每寫一個(gè)字,都會(huì)根據(jù)剛才的思路更新一下自己的“思路地圖”,確保后面寫的內(nèi)容更連貫、更合理。



      AWS、京東云、英偉達(dá)、谷歌云等,都在“死磕”工程創(chuàng)新。

      比如優(yōu)化“思考地圖”,如果“思考地圖”又大又亂,占了GPU大量空間還查得慢,就會(huì)成為性能瓶頸。

      AWS SageMaker和谷歌云Vertex AI的做法是給“思考地圖”建了一個(gè)“緩存共享中心”,動(dòng)態(tài)調(diào)度顯存資源:誰先用、誰能共用、誰暫時(shí)擱置,都安排得明明白白,盡可能讓GPU的價(jià)值“壓榨到極致”。

      京東云JoyBuilder推理引擎和英偉達(dá)的Dynamo,則進(jìn)一步給出一種“以存代算”的解法:直接把“思考地圖”從GPU挪出去。其中京東云通過自研的云海AI存儲(chǔ),支持PB級(jí)緩存擴(kuò)展,并配合高效檢索算法與負(fù)載感知調(diào)度,直接將多輪對(duì)話和長(zhǎng)文本處理的響應(yīng)時(shí)延壓縮了60%。

      再比如將“聽”和“說”分離,相當(dāng)于開會(huì)時(shí)讓“準(zhǔn)備”和“發(fā)言”同步進(jìn)行,避免出現(xiàn)“干等閑耗”的場(chǎng)景。

      其中AWS不只實(shí)現(xiàn)了“聽”和“說”分離,還改變了大模型說話的方式,不再是“想到哪說到哪”,而是提前整理好了大綱,省下了大量來回思考的時(shí)間。

      京東云JoyBuilder推理引擎的方案稍有不同:第一招和AWS相似,整體吞吐提升了30%以上;第二招是將“聽”和“說”交給不同的GPU處理,兩邊像流水線一樣并行工作,中間用“傳送帶”快速傳遞信息,大幅提升了推理吞吐量。

      對(duì)CTO們而言,技術(shù)大廠的深度參與,不失為一個(gè)好消息,相當(dāng)于是把推理引擎打磨成了能直接用的高性能“電子電氣架構(gòu)”。

      03 異構(gòu)算力是挑戰(zhàn),也是低成本取勝的機(jī)會(huì)

      我們?cè)诤蛶孜籆TO溝通時(shí),除了普遍焦慮的推理性能,還涉及到另一個(gè)問題——異構(gòu)算力。

      隨著大模型應(yīng)用的深入,以CPU為中心的架構(gòu)在支持AI原生應(yīng)用上面臨挑戰(zhàn),需要以GPU為中心重塑基礎(chǔ)設(shè)施;此外,面對(duì)激增的推理需求,計(jì)算資源持續(xù)增加,企業(yè)需要思考資源投入產(chǎn)出的問題,都指向需要一套AI Native的基礎(chǔ)設(shè)施。

      而異構(gòu)算力,通俗來說就是將不同品牌的芯片“拼著用”。就像是一支臨時(shí)組成的軍隊(duì),語言、指令、作戰(zhàn)邏輯全都不統(tǒng)一。以至于一位CTO打趣說:“我們要想打仗,得先發(fā)明統(tǒng)一的語言和作戰(zhàn)地圖。”

      vLLM、SGLang等比較熱門的開源引擎,目前都還停留在同類型GPU之間高效調(diào)度,對(duì)“異構(gòu)”集群依然捉襟見肘。但國(guó)內(nèi)的研究機(jī)構(gòu)和科技大廠都已經(jīng)試圖解決:怎樣讓不同芯片“聽得懂一個(gè)指揮”,各司其職、取長(zhǎng)補(bǔ)短。



      一種主流思路是“把大鍋飯變自助餐”。

      過去用GPU跑模型,就像是大鍋飯,一整張顯卡只能給一個(gè)任務(wù)用,哪怕只吃了一口,剩下的資源也不能被別人接著用。就像京東云JoyBuilder推理引擎的策略是把異構(gòu)算力資源統(tǒng)一管理,把一張GPU“切成很多小份”(1%),顯存也能按MB級(jí)別來分,按需分給多個(gè)模型、多個(gè)任務(wù)使用,誰需要多少就用多少,GPU利用率最高可提升70%。

      還有一種思路是把“拼芯片”和“拆流程”結(jié)合起來。

      比如在MoE模型的部署上,京東云JoyBuilder推理引擎可以將不同專家部署在不同GPU上,讓每個(gè)GPU干最擅長(zhǎng)的活。甚至可以將“輸入”部署在擅長(zhǎng)高吞吐的昇騰集群,將“輸出”部署在N卡上確保低延遲,充分利用不同算力的優(yōu)勢(shì)。

      對(duì)于CTO們來說,在“推理成本決定最終勝利”的大模型競(jìng)賽中,異構(gòu)算力是挑戰(zhàn),同樣也是機(jī)會(huì)。

      04 高性能低成本,大模型推理正在重塑AI生產(chǎn)力

      經(jīng)歷了一段時(shí)間的高歌猛進(jìn)后,越來越多企業(yè)對(duì)大模型的訴求,正在從“不能沒有”轉(zhuǎn)向要落地、要價(jià)值、要增長(zhǎng)。我們看到,大模型已經(jīng)在營(yíng)銷推廣、協(xié)同辦公、客戶服務(wù)等場(chǎng)景深度應(yīng)用,成為新的增長(zhǎng)引擎。

      例如在零售場(chǎng)景,包括面向用戶的AI生成商品圖、AI營(yíng)銷內(nèi)容生成、AI數(shù)字人,面向管理的AI客服與售后管理、AI經(jīng)營(yíng)托管、AI倉(cāng)配優(yōu)化,以及配送環(huán)節(jié)的自動(dòng)分揀機(jī)器人、自動(dòng)駕駛等需求。



      JoyBuilder推理引擎源于京東自身復(fù)雜業(yè)務(wù)場(chǎng)景打磨,基于企業(yè)級(jí)的AI Native架構(gòu),正在廣泛服務(wù)于內(nèi)外部眾多業(yè)務(wù)場(chǎng)景。

      京東透露了一組數(shù)據(jù):目前推理框架已經(jīng)在內(nèi)部多個(gè)場(chǎng)景應(yīng)用,在可交互式導(dǎo)購(gòu)、商品對(duì)比、商品總結(jié)、購(gòu)物建議等環(huán)節(jié),大幅提升了響應(yīng)速度,節(jié)省了計(jì)算成本,同時(shí)還有效助力了用戶的活躍度;在核心的商品理解環(huán)節(jié),也有效提升了大模型的理解能力和信息處理能力,模型推理成本最高可節(jié)省70%。

      除了服務(wù)于京東內(nèi)部,京東云推理引擎也廣泛服務(wù)于外部產(chǎn)業(yè)客戶,提供高性能、低成本的大模型服務(wù)。



      在行業(yè)實(shí)踐中,京東云成功支持某新能源汽車頭部廠商、某全球新能源科技領(lǐng)導(dǎo)企業(yè),打造覆蓋全集團(tuán)的智能計(jì)算底座,實(shí)現(xiàn)千卡級(jí)AI算力集群的精細(xì)化管理。技術(shù)上一方面創(chuàng)新多元算力調(diào)度,顯著提升GPU利用率,另一方面創(chuàng)建全生命周期AI開發(fā)環(huán)境,實(shí)現(xiàn)開箱即用,大幅提升研發(fā)效率。

      目前,該平臺(tái)已支撐起企業(yè)智能駕駛研發(fā)、人形機(jī)器人等20余個(gè)核心場(chǎng)景,成為集團(tuán)的“數(shù)智發(fā)動(dòng)機(jī)”。預(yù)計(jì)一年內(nèi),兩家企業(yè)大模型訓(xùn)練周期將縮短40%,每年節(jié)省的算力成本相當(dāng)于新建兩座數(shù)據(jù)中心。

      05 寫在最后

      盡管推理引擎已經(jīng)在性能壓榨、資源調(diào)度和成本控制等方面取得了初步成果,但真正的競(jìng)爭(zhēng)才剛剛開始。

      尤其是在異構(gòu)能力方面,無論是多種芯片的適配整合,還是對(duì)不同模型結(jié)構(gòu)、大小、任務(wù)類型的統(tǒng)一支持,當(dāng)前的技術(shù)體系還遠(yuǎn)未成熟。同時(shí)也意味著,誰能率先構(gòu)建起靈活、高效、可持續(xù)的推理能力,誰就有可能在AI大規(guī)模落地的浪潮中占據(jù)先機(jī)。

      這是一場(chǎng)跨硬件、跨模型、跨場(chǎng)景的系統(tǒng)性挑戰(zhàn),也將是未來十年AI競(jìng)賽的核心主戰(zhàn)場(chǎng)。

      聲明:個(gè)人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      突發(fā)兩大利空!證監(jiān)會(huì)立案調(diào)查,3萬人要哭了!下周這類股會(huì)大跌

      突發(fā)兩大利空!證監(jiān)會(huì)立案調(diào)查,3萬人要哭了!下周這類股會(huì)大跌

      虎哥閑聊
      2025-12-27 12:25:54
      73歲普京高調(diào)認(rèn)愛,這就是相差41歲的“一見鐘情”

      73歲普京高調(diào)認(rèn)愛,這就是相差41歲的“一見鐘情”

      吃瓜局
      2025-12-26 15:30:08
      南博前院長(zhǎng)被帶走不到12小時(shí),令人"厭惡"的事發(fā)生了,不止一件

      南博前院長(zhǎng)被帶走不到12小時(shí),令人"厭惡"的事發(fā)生了,不止一件

      社會(huì)日日鮮
      2025-12-26 11:09:21
      M豆吳夢(mèng)夢(mèng)接受BBC專訪:我的人生就沒有婚姻這個(gè)選項(xiàng)

      M豆吳夢(mèng)夢(mèng)接受BBC專訪:我的人生就沒有婚姻這個(gè)選項(xiàng)

      吃瓜黨二號(hào)頭目
      2025-12-27 11:23:24
      6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

      6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

      小熊侃史
      2025-12-25 11:24:12
      大爆冷!坎寧安29+17東部第一活塞遭爵士準(zhǔn)絕殺 猶他雙槍61分

      大爆冷!坎寧安29+17東部第一活塞遭爵士準(zhǔn)絕殺 猶他雙槍61分

      醉臥浮生
      2025-12-27 13:05:36
      東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

      東莞20年:親眼目睹工廠女工的性生活,她們的孤獨(dú)壓抑和肆意歡歌

      農(nóng)村情感故事
      2025-04-06 20:07:35
      老了才明白:盡量不要跟身邊任何人,包括你的兒女,分享這5件事

      老了才明白:盡量不要跟身邊任何人,包括你的兒女,分享這5件事

      朗威談星座
      2025-12-25 10:51:58
      關(guān)于在烏克蘭的傷亡,做一道簡(jiǎn)單計(jì)算題:參戰(zhàn)的90萬俄軍去哪兒了

      關(guān)于在烏克蘭的傷亡,做一道簡(jiǎn)單計(jì)算題:參戰(zhàn)的90萬俄軍去哪兒了

      鷹眼Defence
      2025-12-26 18:03:30
      全世界在看北京怎么亮劍!針鋒相對(duì)扣押運(yùn)走美國(guó)貨輪貨物

      全世界在看北京怎么亮劍!針鋒相對(duì)扣押運(yùn)走美國(guó)貨輪貨物

      柳扶風(fēng)
      2025-12-26 09:08:54
      自掘墳?zāi)沟臍W洲,詭異的圣誕節(jié)

      自掘墳?zāi)沟臍W洲,詭異的圣誕節(jié)

      名人茍或
      2025-12-26 06:02:30
      徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

      徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

      西門老爹
      2025-12-25 18:42:42
      沒想到,身價(jià)已暴漲10倍,網(wǎng)友:雞蛋都快配不上它了

      沒想到,身價(jià)已暴漲10倍,網(wǎng)友:雞蛋都快配不上它了

      魯中晨報(bào)
      2025-12-26 16:01:12
      剛剛,美國(guó)發(fā)出最高預(yù)警:疫情已完全失控!2026年人類面臨大考?

      剛剛,美國(guó)發(fā)出最高預(yù)警:疫情已完全失控!2026年人類面臨大考?

      徐德文科學(xué)頻道
      2025-12-26 20:21:51
      太難了!東莞規(guī)模最大玩具廠停產(chǎn),當(dāng)?shù)亟槿牒笱a(bǔ)償0.5n,皆大歡喜

      太難了!東莞規(guī)模最大玩具廠停產(chǎn),當(dāng)?shù)亟槿牒笱a(bǔ)償0.5n,皆大歡喜

      火山詩(shī)話
      2025-12-27 06:48:20
      唐伯虎真跡現(xiàn)身美國(guó),世上僅此一件,網(wǎng)友:讓當(dāng)代書家汗顏

      唐伯虎真跡現(xiàn)身美國(guó),世上僅此一件,網(wǎng)友:讓當(dāng)代書家汗顏

      幸福娃3790
      2025-12-04 11:10:09
      一艘民船=半艘驅(qū)逐艦?美媒:“武裝貨輪”曝光,配備60單元垂發(fā)

      一艘民船=半艘驅(qū)逐艦?美媒:“武裝貨輪”曝光,配備60單元垂發(fā)

      墨山看客
      2025-12-26 11:28:59
      大量博物館的閉館通知,元旦假期馬上來了為什么要閉館?

      大量博物館的閉館通知,元旦假期馬上來了為什么要閉館?

      歷史總在押韻
      2025-12-26 21:34:35
      布克30+9+5+末節(jié)12分,湖人退貨中鋒肆虐內(nèi)線,太陽力克鵜鶘

      布克30+9+5+末節(jié)12分,湖人退貨中鋒肆虐內(nèi)線,太陽力克鵜鶘

      釘釘陌上花開
      2025-12-27 11:43:14
      12人向微信好友轉(zhuǎn)發(fā)淫穢視頻,犯?jìng)鞑ヒx物品罪一審均獲緩刑,涉案手機(jī)予以沒收

      12人向微信好友轉(zhuǎn)發(fā)淫穢視頻,犯?jìng)鞑ヒx物品罪一審均獲緩刑,涉案手機(jī)予以沒收

      極目新聞
      2025-12-26 18:08:12
      2025-12-27 15:31:00
      Alter聊科技 incentive-icons
      Alter聊科技
      探究產(chǎn)業(yè)興衰,專注商業(yè)解讀。
      1474文章數(shù) 168101關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      牛彈琴:賠了夫人又折兵 尹錫悅活成世界的一個(gè)大笑話

      頭條要聞

      牛彈琴:賠了夫人又折兵 尹錫悅活成世界的一個(gè)大笑話

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價(jià)值不需要靠番位來證明

      財(cái)經(jīng)要聞

      注意,開始拉物價(jià)了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      本地
      時(shí)尚
      公開課

      房產(chǎn)要聞

      炸裂,三亞360億超級(jí)清單發(fā)布,又一批重大配套要來了!

      教育要聞

      美國(guó)境內(nèi)旅游簽轉(zhuǎn)學(xué)簽到底需要花多少錢?

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      推廣中獎(jiǎng)名單-更新至2025年12月15日推廣

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日本道久久| 久久88香港三级台湾三级播放| 日韩成人无码毛片| 天堂无码AV| 精品无码一区在线观看| 贵港市| 亚洲精品字幕| 精品久久国产| 免费午夜无码视频在线观看| 亚洲AV中文| 青草视频在线观看视频| 熟女中文字幕| 欧美成人h亚洲综合在线观看| 18禁止看的免费污网站| 97av在线| 国产欧美一区二区精品久久久| 91狼友社| 狠狠88综合久久久久综合网| 国产浮力第一页草草影院| 国产成人免费午夜在线观看| 香蕉乱码成人久久天堂爱| 青青青青青手机视频在线观看视频 | 中文有码无码人妻在线| 曲周县| 日韩欧美tⅴ一中文字暮| 无码高潮爽到爆的喷水视频| 精品无码老熟妇magnet| 欧美性猛交XXXX乱大交蜜桃| 调兵山市| 啪啪av一区二区三区| 国内精品大秀视频日韩精品 | 一进一出抽搐gif| 一本久道中文无码字幕av| 最新日韩无码中文字幕| 激情国产一区二区三区四区| 亚洲韩国精品无码一区二区三区| 亚洲天堂va| 香蕉视频在线国产| 亚洲色图偷拍| 一本大道东京热无码视频| 国产乱子伦精品免费女|