<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      SGLang原生支持昇騰,新模型一鍵拉起無需改代碼

      0
      分享至

      • henry 發(fā)自 凹非寺
        量子位 | 公眾號 QbitAI

      當(dāng)Agent在應(yīng)用側(cè)不斷加速,推理系統(tǒng)能否承受隨之而來的真實負(fù)載,正在成為行業(yè)關(guān)注的焦點。

      這是12月20日在杭州收官的SGLang AI 金融 π 對上,被反復(fù)提及的一個背景。



      在這場聚焦大模型推理效率的“π對”上——

      Agent的Vibe被暫時擱到一邊,真正擺上桌面的,是推理系統(tǒng)在真實負(fù)載中的工程問題:高并發(fā)請求長上下文窗口多輪推理內(nèi)存管理,以及在具體金融agent場景下的一致性生成問題。

      同時,在活動討論中,昇騰作為算力平臺也被多次提及。

      當(dāng)前,昇騰已作為SGLang原生支持的后端之一進(jìn)入主倉庫,隨著 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不調(diào)整模型參數(shù)、不引入額外插件的情況下直接運(yùn)行,HiCache、Mooncake等系統(tǒng)能力也在對應(yīng)版本中引入。

      可以說,這次SGLang AI金融π對呈現(xiàn)的,并非零散技術(shù)點,而是一條清晰的推理工程演進(jìn)路徑——從緩存與內(nèi)存體系,到權(quán)重更新、強(qiáng)化學(xué)習(xí)效率,再到算力與模型生態(tài)的協(xié)同。

      接下來,我們具體來看。

      面向Agent的推理系統(tǒng)工程解法

      這次SGLang活動由SGLangAtomGit社區(qū)聯(lián)合發(fā)起,于12月20日在杭州舉辦,活動圍繞大模型推理架構(gòu)、Agent、強(qiáng)化學(xué)習(xí)及其在金融場景的落地展開討論。

      在嘉賓方面,活動由來自推理系統(tǒng)、模型與算力一線的工程團(tuán)隊共同參與,包括華為高級項目群總監(jiān)薛曜,SGLang開發(fā)者黃章衡尚旭春,華為“小巧靈”突擊隊工程師荊升航,昇騰高級研發(fā)工程師鎮(zhèn)亮,以及GLM技術(shù)布道師張昱軒

      整體來看,Agent相較于以往的問答式LLM,在深度研究、代碼生成、工具調(diào)用等應(yīng)用以及強(qiáng)化學(xué)習(xí)訓(xùn)練中,對高并發(fā)請求、長上下文窗口、多輪推理和內(nèi)存管理的效率提出了更高要求。

      而在特定的部署場景,如金融Agent中,則對低延遲、響應(yīng)穩(wěn)定性、一致性及成本控制的要求則更為嚴(yán)苛。

      本次Meetup正是圍繞這些Agent原生的系統(tǒng)變化,給出了工程實踐層面的集中回應(yīng)。

      首先,針對高并發(fā)長上下文場景下KV cache重復(fù)計算、顯存需求大的問題。

      SGlang通過最新引入的HiCache體系,將KV cache擴(kuò)展到CPU和遠(yuǎn)端存儲,由Cache Controller自動管理KV卸載填裝,并結(jié)合流水線化異步預(yù)取,顯著降低了顯存占用,提升了上下文推理的穩(wěn)定性與吞吐。



      此外,針對Qwen3-Next、Kimi Linear這類具備不同計算邏輯和內(nèi)存管理方式的混合模型。

      SGLang通過Mamba Radix Tree實現(xiàn)前綴統(tǒng)一管理,并借助Elastic Memory Pool彈性調(diào)度KV Cache與Mamba State,在長上下文、多并發(fā)場景下提供高效推理和顯存優(yōu)化能力。

      其次,為應(yīng)對強(qiáng)化學(xué)習(xí)中策略權(quán)重頻繁更新導(dǎo)致GPU空轉(zhuǎn)、冷啟動耗時過長的瓶頸。

      Mooncake基于Transfer Engine,采用異步預(yù)讀、pipeline并行設(shè)計,顯著壓縮權(quán)重加載和模型啟動時間,實現(xiàn)熱更新與彈性擴(kuò)容。



      實測效果顯示:Kimi K2萬億參數(shù)模型的權(quán)重更新準(zhǔn)備時間被壓縮至20秒以內(nèi),63B模型的冷啟動時間更是從85秒降至9秒。

      此外,由于強(qiáng)化學(xué)習(xí)rollout不再是一次性推理,而是異步、多階段、長度不可預(yù)測的過程。

      換句話說,rollout中的長尾請求可能拖慢90%的訓(xùn)練時間,甚至可能出現(xiàn)跑了一整夜仍未完成任何step的情況。

      針對這一問題,SGLang通過Server化+全異步執(zhí)行、oversample與 partial rollout機(jī)制控制長尾請求,大幅緩解Agentic RL中的長尾問題,提高了訓(xùn)練效率。

      最后,針對DeepSeek、GLM-4.5等MoE模型的fuse MoE、內(nèi)存調(diào)度和負(fù)載均衡問題,SGLang持續(xù)重構(gòu)執(zhí)行路徑與內(nèi)存管理機(jī)制。

      同時,Slime強(qiáng)化學(xué)習(xí)系統(tǒng)針對大規(guī)模GRPO與多階段RL訓(xùn)練定制,實現(xiàn)訓(xùn)練系統(tǒng)與推理引擎的深度協(xié)同。



      一個值得注意的細(xì)節(jié)是,這些推理系統(tǒng)級能力,并非只停留在某一類算力平臺上。這些實踐中的HiCache、Mooncake、GLM都均已能夠在昇騰平臺上直接運(yùn)行,并進(jìn)入實際推理流程。

      而這些不約而同的支持,恰恰從側(cè)面印證了當(dāng)前昇騰硬件在推理系統(tǒng)生態(tài)的角色轉(zhuǎn)變——

      它已作為主流推理工作流中的后端之一,被自然納入系統(tǒng)設(shè)計與工程實現(xiàn)之中。

      昇騰 × SGLang:大模型推理的高效實踐

      在上述共性問題之下,活動中也展示了SGLang在昇騰平臺上的最新進(jìn)展,覆蓋模型適配、性能優(yōu)化及系統(tǒng)加速能力模塊化沉淀。

      主要亮點如下:

      • 模型優(yōu)化:針對DeepSeek、Qwen系列等開源模型進(jìn)行適配與性能提升,支持稠密、稀疏、多模態(tài)等架構(gòu),并支持Flux、Qwen-Image等多模態(tài)生成模型。
      • 系統(tǒng)特性:HiCache L1/L2/L3直通緩存機(jī)制已落地,MTP完全適配昇騰平臺,兼容GPU與NPU后端。
      • 量化能力:推進(jìn)昇騰側(cè)量化與開源框架協(xié)同,支持壓縮張量等多種量化方案。
      • 推理模式:完善圖模式支持,實現(xiàn)DeepSeek V3.2、Qwen-Next、Longcat等新模型的day0支持。
      • 強(qiáng)化學(xué)習(xí):支持SGLang VeRL等強(qiáng)化學(xué)習(xí)相關(guān)模型的推理與部署。



      在具體的模型上,昇騰此次實現(xiàn)了對DeepSeek V3.2Day 0支持,在PD分離、64K輸入、3K輸出場景下,推理吞吐達(dá)15TPS / 卡,TTFT約4秒,PD傳輸(HCCS)< 8ms,TPOT ≈ 20毫秒。

      為實現(xiàn)上述性能,團(tuán)隊在系統(tǒng)層面進(jìn)行了多項優(yōu)化:負(fù)載均衡方面,通過重新分配計算任務(wù),使各CP rank計算量均衡。

      融合算子方面,減少計算過程中的內(nèi)存訪問次數(shù)和Kernel啟動開銷。將多個連續(xù)的小算子合并為一個復(fù)合算子,使中間結(jié)果保留在高速緩存中,從而顯著提升計算效率。

      多流并行方面,通過Cube與Vector計算單元并行執(zhí)行算子,提升計算資源利用率。

      同時,在Cube計算路徑中引入權(quán)重預(yù)取機(jī)制,實現(xiàn)數(shù)據(jù)搬運(yùn)與計算階段的重疊,減少訪存等待帶來的性能損耗。

      這些優(yōu)化讓昇騰平臺在大規(guī)模、高復(fù)雜度推理場景中,實現(xiàn)了高吞吐、低延遲、資源高效利用的表現(xiàn)。



      針對Qwen的優(yōu)化則包括通用能力增強(qiáng)(圖模式、W8A8 量化、EAGLE3),為不同規(guī)模和形態(tài)等模型提供基礎(chǔ)性能支撐。

      同時,引入昇騰親和性專項優(yōu)化:利用多流并行,并在大EP(Expert Parallelism)場景中通過Dispatch/Combine流程將GMM計算融合處理,減少算子切換和中間調(diào)度開銷,提升整體執(zhí)行效率。



      除DeepSeek、Qwen外,SGLang在昇騰硬件上也已覆蓋KimiLongChat等模型,新模型可在不改代碼的前提下直接運(yùn)行。

      同時就像開頭所說的,這些模型的所有代碼均已合入SGLang主社區(qū)倉,開發(fā)者無需額外安裝插件,直接拉取主倉代碼即可使用。

      昇騰表示這里的核心理念是盡量不動Models層,僅在底層完成硬件親和與性能提升

      而這一系列進(jìn)展背后,是昇騰與SGLang主倉的深度共建邏輯,也意味著AI算力與開源推理框架的融合進(jìn)入新階段:

      從架構(gòu)層面看,昇騰相關(guān)優(yōu)化已下沉到SGL-kernel-NPU算子庫,親和算子能力與代碼實現(xiàn)均在此集中維護(hù)演進(jìn)。

      Engine層作為核心優(yōu)化區(qū),支持EPLB、Graph Runner與MTP,覆蓋GPU與NPU等多硬件后端以實現(xiàn)統(tǒng)一推理能力。

      緩存與通信則依托HiCache完成L1/L2及L3-L1直通優(yōu)化,最底層的SGL-kernel-NPU則承載昇騰加速算子、量化算子及傳輸接口,實現(xiàn)開源能力與昇騰性能的雙向賦能。

      整體來看,這些進(jìn)展體現(xiàn)了昇騰與SGLang開源社區(qū)在推理系統(tǒng)層面的持續(xù)協(xié)同,也為后續(xù)更復(fù)雜推理與強(qiáng)化學(xué)習(xí)場景提供了穩(wěn)定的工程基礎(chǔ)。

      全面擁抱開源

      在這次活動中,我們了解到,昇騰是今年七月份才正式啟動與SGLang的適配工作。薛曜表示,這一工作的目標(biāo)很明確——全面擁抱開源、加速昇騰生態(tài)建設(shè)

      在過去5個多月里,昇騰不僅補(bǔ)齊了多類主流模型的推理支持,還覆蓋了強(qiáng)化學(xué)習(xí)訓(xùn)練、多模態(tài)理解與生成等關(guān)鍵場景,并在PD傳輸?shù)认到y(tǒng)層面持續(xù)優(yōu)化,將SGLang on Ascend的整體性能推到了“可打”的水平

      此外,據(jù)現(xiàn)場披露,昇騰已基于SGLang已在真實業(yè)務(wù)場景中,對DeepSeek V3.2完成了灰度測試。這意味著相關(guān)能力已不再停留在實驗或Demo階段,而是進(jìn)入了真實生產(chǎn)環(huán)境的驗證周期。

      從roadmap來看,昇騰接下來的演進(jìn)方向也并非泛化擴(kuò)展,而是明確圍繞“推理系統(tǒng)”展開的系統(tǒng)性工程投入

      一方面,通過Zero Buffer、昇騰親和加速庫等機(jī)制,持續(xù)壓榨單機(jī)與多機(jī)推理吞吐,服務(wù)高并發(fā)、低時延的真實業(yè)務(wù)負(fù)載;

      另一方面,在基礎(chǔ)軟件層構(gòu)建昇騰版Triton生態(tài),與SGLang、vllm等開源引擎保持接口與演進(jìn)節(jié)奏對齊,使模型上線、算子開發(fā)與性能調(diào)優(yōu)形成可復(fù)用路徑。

      這些動作共同指向了一個清晰變化:昇騰不再只是“能否支持某個模型”的硬件選項,而是開始以推理系統(tǒng)為核心,被納入開源工程的主線討論與默認(rèn)方案評估之中

      當(dāng)模型、推理引擎與算力平臺在工程層形成穩(wěn)定協(xié)作,AI算力真正需要回答的問題,也將不再是“能不能跑”,而是“系統(tǒng)能不能長期跑、規(guī)模化、穩(wěn)定地跑”。

      因為說到底,高性能、易用性、開箱即用才是真道理。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      杜蘭特回應(yīng)布朗:我確實越界了;但有的人能說能做有的人不行

      杜蘭特回應(yīng)布朗:我確實越界了;但有的人能說能做有的人不行

      懂球帝
      2025-12-21 11:23:51
      美國人發(fā)通牒,賴清德準(zhǔn)備抓人,鄭麗文上追殺名單,黃國昌也懸?

      美國人發(fā)通牒,賴清德準(zhǔn)備抓人,鄭麗文上追殺名單,黃國昌也懸?

      老鵜愛說事
      2025-12-21 22:44:26
      看誰還敢吹牛?L3自動駕駛出事,車企負(fù)責(zé),沒法甩鍋了

      看誰還敢吹牛?L3自動駕駛出事,車企負(fù)責(zé),沒法甩鍋了

      互聯(lián)網(wǎng).亂侃秀
      2025-12-21 11:20:10
      12月20日俄烏最新:最大的新聞和最大的驚喜

      12月20日俄烏最新:最大的新聞和最大的驚喜

      西樓飲月
      2025-12-20 15:18:53
      懷疑朋友虐待愛犬,20多歲中國人在韓持刀“復(fù)仇”反被捕!

      懷疑朋友虐待愛犬,20多歲中國人在韓持刀“復(fù)仇”反被捕!

      奮斗在韓國
      2025-12-21 12:30:34
      打不了硬仗,上海男籃不敵廣廈 洛夫頓10+5雙刃劍 4外援僅1將靠譜

      打不了硬仗,上海男籃不敵廣廈 洛夫頓10+5雙刃劍 4外援僅1將靠譜

      替補(bǔ)席看球
      2025-12-21 21:26:27
      TA:伊薩克受傷或使紅軍冬窗行動,尋找可邊可中的前鋒最合理

      TA:伊薩克受傷或使紅軍冬窗行動,尋找可邊可中的前鋒最合理

      懂球帝
      2025-12-22 00:15:16
      美國航母已就位,委內(nèi)瑞拉電話打到北京,救不救?王毅斬釘截鐵

      美國航母已就位,委內(nèi)瑞拉電話打到北京,救不救?王毅斬釘截鐵

      博覽歷史
      2025-12-19 19:03:53
      馬斯克預(yù)測某車企必死,全網(wǎng)破防!

      馬斯克預(yù)測某車企必死,全網(wǎng)破防!

      大佬灼見
      2025-12-21 12:19:00
      87歲TVB綠葉搬進(jìn)養(yǎng)老院生活,老來喪子長年獨(dú)居,稱不想打擾家人

      87歲TVB綠葉搬進(jìn)養(yǎng)老院生活,老來喪子長年獨(dú)居,稱不想打擾家人

      不寫散文詩
      2025-12-21 23:28:51
      官方:中超升班馬遼寧鐵人簽下36歲原浙江隊中場李提香

      官方:中超升班馬遼寧鐵人簽下36歲原浙江隊中場李提香

      懂球帝
      2025-12-21 16:15:11
      年底了,警惕這40家有st風(fēng)險的公司,有的已st,有的可能被st!

      年底了,警惕這40家有st風(fēng)險的公司,有的已st,有的可能被st!

      夜深愛雜談
      2025-12-21 16:34:05
      周定洋告別徐正源:我知道,沒有你,成都不會再是那個成都

      周定洋告別徐正源:我知道,沒有你,成都不會再是那個成都

      懂球帝
      2025-12-21 21:13:21
      未能通過米蘭女排體檢,天津女排:李盈瑩決定返回國內(nèi)進(jìn)行治療和康復(fù)

      未能通過米蘭女排體檢,天津女排:李盈瑩決定返回國內(nèi)進(jìn)行治療和康復(fù)

      懂球帝
      2025-12-21 17:19:20
      繼科比后,又一位美國傳奇體育明星遭遇空難,一家四口墜機(jī)

      繼科比后,又一位美國傳奇體育明星遭遇空難,一家四口墜機(jī)

      藝兔體壇
      2025-12-19 15:35:46
      68歲趙本山近況曝光:賣房賣飛機(jī)救女,百億身家換不來女兒好睡眠

      68歲趙本山近況曝光:賣房賣飛機(jī)救女,百億身家換不來女兒好睡眠

      明月光
      2025-11-22 13:57:08
      壹快評|南博在犯一個很危險的錯

      壹快評|南博在犯一個很危險的錯

      新浪財經(jīng)
      2025-12-19 19:23:31
      轉(zhuǎn)向了,重點城市二手房價降幅擴(kuò)大,廣州跌幅7.2%,是時候買房了

      轉(zhuǎn)向了,重點城市二手房價降幅擴(kuò)大,廣州跌幅7.2%,是時候買房了

      重慶地產(chǎn)視野
      2025-12-20 17:34:39
      又一知名企業(yè)宣布破產(chǎn),3000家門店消失,上萬員工慘遭拋棄

      又一知名企業(yè)宣布破產(chǎn),3000家門店消失,上萬員工慘遭拋棄

      知鑒明史
      2025-12-21 12:30:08
      54歲陳松伶減重27斤,皮松臉黑括號紋很深,和老公站一起像兩代人

      54歲陳松伶減重27斤,皮松臉黑括號紋很深,和老公站一起像兩代人

      娛圈小愚
      2025-12-19 10:03:35
      2025-12-22 00:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11894文章數(shù) 176340關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

      頭條要聞

      必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

      頭條要聞

      必勝客牛排口感奇怪遭質(zhì)疑"到底用的什么肉" 官方介入

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財經(jīng)要聞

      老房子“強(qiáng)制體檢”,政府出手了

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      教育
      家居
      健康

      數(shù)碼要聞

      三年殘酷測試結(jié)果出爐:OLED電視比LCD更可靠!

      暴雪計劃未來每年都至少推出1-2款大作

      教育要聞

      遇到油鹽不進(jìn)的孩子,該怎么辦?

      家居要聞

      高端私宅 理想隱居圣地

      這些新療法,讓化療不再那么痛苦

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 特黄特色的大片观看免费视频| 亚洲19p| 99tr在线观看| 一区二区三区av| 成人影片一区免费观看| 欧美怡春院一区二区三区| 色色图区| 色二av手机版在线| 亚洲性爱片| 日本丰满白嫩大屁股ass| 毛葺葺老太做受视频| 91丨国产丨白浆秘?网站| 人人摸人人搞人人透| 999国产精品视频免费| 国产黄大片在线观看画质优化| 亚洲无码免费在线观看| 乱女伦露脸对白在线播放| 午夜三级福利| 无码人妻精品一区二| 性交大片| 国产成人精品综合在线观看| 安阳县| 成人丝袜激情一区二区| 中文毛片无遮挡高潮免费| 一区二区三区国产| 中文字幕精品亚洲无线码二区| 欧美劲爆第一页| 欧美老少配性行为| 久久久久久久无码高潮| 豆花AV| 91在线播| 亚洲在线人妻| 2021亚洲爆乳无码专区| 激情国产av做激情国产爱| 狠狠躁天天躁夜夜躁婷婷| 肃宁县| 欧美大胆老熟妇乱子伦视频| 66久久| 91网站在线看| 91视频免费| 一本色道久久综合无码人妻|