<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      三大推理框架vLLM、llama.cpp、MLX 全部跟進(jìn)!??!

      0
      分享至

      本文是續(xù)集,看下主流推理框架跟進(jìn)了情況

      全面開花:誰(shuí)在做,做到了什么程度?

      先給一張全景圖,讓你 30 秒掌握當(dāng)前進(jìn)展:

      框架

      平臺(tái)

      狀態(tài)

      核心亮點(diǎn)

      oMLX

      Apple Silicon

      ? 已發(fā)布(v0.2.21)

      128K 上下文 KV 省 79%,一鍵開啟

      mlx-vlm

      Apple Silicon

      PR 進(jìn)行中

      Metal kernel 實(shí)現(xiàn),解碼速度逼近全精度

      llama.cpp

      全平臺(tái)

      實(shí)驗(yàn)中

      已有可編譯分支,社區(qū)在推進(jìn)

      vLLM

      CUDA

      方案已出

      完整 6 步集成計(jì)劃,等 PR


      oMLX:Mac 用戶已經(jīng)可以用了

      這是目前進(jìn)度最快的——oMLX v0.2.21 已經(jīng)把 TurboQuant KV Cache 作為實(shí)驗(yàn)功能正式發(fā)布了


      oMLX TurboQuant KV Cache 功能界面

      先簡(jiǎn)單說(shuō)說(shuō) oMLX 是什么:這是一個(gè)專為 Mac 優(yōu)化的本地 LLM 推理服務(wù)器,支持菜單欄管理、連續(xù)批處理、熱/冷兩級(jí) KV Cache(內(nèi)存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對(duì)接。

      更具體介紹請(qǐng)看:

      TurboQuant 在 oMLX 里的實(shí)現(xiàn)思路很巧妙:

      Prefill 階段完全用 fp16,零質(zhì)量損失。第一個(gè) decode token 生成時(shí),才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個(gè) fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

      這個(gè)設(shè)計(jì)太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數(shù)據(jù),不走解壓再算的老路。

      實(shí)測(cè)大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

      上下文長(zhǎng)度

      Baseline

      TurboQuant

      KV 內(nèi)存節(jié)省

      32K

      735MB → 195MB(省 73%)

      64K

      1407MB → 327MB(省 77%)

      128K

      2749MB → 589MB(省 79%)

      128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質(zhì)量零損失。

      對(duì)于 Mac 用戶來(lái)說(shuō),這意味著你的機(jī)器一下子能裝下更長(zhǎng)的上下文了。

      速度方面也很穩(wěn):

      模型

      Prefill 速度

      Decode 速度

      Qwen3.5-35B-A3B

      fp16 的 95%

      fp16 的 87%

      Qwen3.5-27B

      fp16 的 97%

      fp16 的 95%

      用起來(lái)也簡(jiǎn)單——Admin UI → 模型設(shè)置 → 實(shí)驗(yàn)功能 → 打開 TurboQuant KV Cache 開關(guān),完事。

      # 安裝 oMLX
      brew tap jundot/omlx https://github.com/jundot/omlx
      brew install omlx


      # 啟動(dòng)服務(wù)
      brew services start omlx

      順便提一句,這個(gè)版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎(chǔ)上加了 GPTQ 權(quán)重優(yōu)化。對(duì) MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

      mlx-vlm:Metal Kernel 正在逼近全精度

      mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實(shí)現(xiàn)。

      這個(gè) PR 一共提了 5 個(gè) commit,逐步構(gòu)建了完整的 TurboQuant 推理鏈路:

      基礎(chǔ) kernel:

      • _mse_score_kernel—— MSE 評(píng)分

      • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

      • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

      • _prod_score_kernel—— 內(nèi)積計(jì)算

      多頭優(yōu)化 kernel:

      • _prod_score_multi_kernel—— 多頭批處理

      • _mse_weighted_rot_multi_kernel—— 加權(quán)旋轉(zhuǎn)多頭處理

      • _prod_score_repeat_kernel—— 重復(fù)模式優(yōu)化

      4-bit PolarQuant 路徑:

      • _polar_prod_score_kernel—— 極坐標(biāo)內(nèi)積

      • _polar_turbo_score_repeat_kernel—— 極坐標(biāo)重復(fù)模式

      同時(shí)scaled_dot_product_attention函數(shù)也做了適配,針對(duì)單 query 輸入走 TurboQuant 快速解碼路徑。

      從已知數(shù)據(jù)看,MLX TurboQuant kernel 的解碼速度已經(jīng)追到全精度的 **70-85%**,還在繼續(xù)優(yōu)化。這個(gè) PR 合進(jìn)去之后,所有用 mlx-vlm 的項(xiàng)目都能直接受益。

      llama.cpp:Issue 已開,社區(qū)在推

      llama.cpp 這邊,Issue [2] 已經(jīng)有人開了 feature request。

      更值得關(guān)注的是,開發(fā)者 @mudler 已經(jīng)在動(dòng)手了——他 fork 了一個(gè) feat/turbo-quant 分支[3],目前已經(jīng)能編譯和啟動(dòng),正在評(píng)估效果。

      llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

      因?yàn)?llama.cpp 是目前本地部署生態(tài)的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應(yīng)用都依賴它。

      llama.cpp 支持了,意味著整個(gè)本地部署生態(tài)都支持了。

      vLLM:方案最詳細(xì),等 PR

      vLLM 這邊開的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

      1. 擴(kuò)展 Cache 配置—— 在CacheDType里加"turboquant"

      2. 創(chuàng)建 TurboQuantConfig 類—— 用@register_quantization_config裝飾器

      3. 實(shí)現(xiàn) KV Cache Method—— 繼承BaseKVCacheMethod,注冊(cè) codebook 參數(shù)

      4. 更新量化檢測(cè)—— 讓is_quantized_kv_cache()識(shí)別 TurboQuant

      5. 實(shí)現(xiàn) CUDA/Triton Kernel—— 編碼 kernel(量化存儲(chǔ))+ 解碼 kernel(注意力計(jì)算前還原)

      6. 內(nèi)存管理更新—— 適配 codebook 額外開銷和可變壓縮率

      這個(gè) Issue 寫得像一份小型技術(shù)設(shè)計(jì)文檔,給后來(lái)接手的開發(fā)者鋪好了路。

      對(duì)于跑云端推理的場(chǎng)景,vLLM + TurboQuant 的組合會(huì)非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發(fā)、更長(zhǎng)上下文。

      2026 年的本地 AI 體驗(yàn),會(huì)因?yàn)?TurboQuant 而躍遷一個(gè)檔次。我很期待。

      .cpp

      制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè) ,謝謝你看我的文章,我們下篇再見(jiàn)!

      參考資料

      PR : https://github.com/Blaizzy/mlx-vlm/pull/858

      Issue : https://github.com/ggml-org/llama.cpp/issues/20977

      feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

      Issue : https://github.com/vllm-project/vllm/issues/38171

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      摧毀海上偷渡鏈!“獴獵”行動(dòng)68人落網(wǎng)細(xì)節(jié)曝光

      摧毀海上偷渡鏈!“獴獵”行動(dòng)68人落網(wǎng)細(xì)節(jié)曝光

      環(huán)球網(wǎng)資訊
      2026-04-19 13:23:28
      一輛20萬(wàn)的新車,卡扣斷了,修不起;89元的零件 逼人換13萬(wàn)電池包

      一輛20萬(wàn)的新車,卡扣斷了,修不起;89元的零件 逼人換13萬(wàn)電池包

      娛樂(lè)圈的筆娛君
      2026-04-20 02:07:08
      主動(dòng)站出來(lái)認(rèn)罪的紅色高棉頭目----一個(gè)劊子手的罪與贖

      主動(dòng)站出來(lái)認(rèn)罪的紅色高棉頭目----一個(gè)劊子手的罪與贖

      通往遠(yuǎn)方的路
      2026-04-20 09:57:44
      中國(guó)有貨就是不賣!印度這次徹底失算,把全球供應(yīng)商都惹毛了

      中國(guó)有貨就是不賣!印度這次徹底失算,把全球供應(yīng)商都惹毛了

      一個(gè)有靈魂的作者
      2026-04-19 19:40:53
      重要突破,科學(xué)家注射一個(gè)腫瘤細(xì)胞,全身癌細(xì)胞竟然消失

      重要突破,科學(xué)家注射一個(gè)腫瘤細(xì)胞,全身癌細(xì)胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      伊朗向中國(guó)通報(bào)!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,全程連電話都不敢打

      伊朗向中國(guó)通報(bào)!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,全程連電話都不敢打

      荷蘭豆愛(ài)健康
      2026-04-19 21:53:37
      越南百億高鐵訂單給德國(guó),來(lái)華體驗(yàn)12小時(shí)高鐵,背后算計(jì)太明顯

      越南百億高鐵訂單給德國(guó),來(lái)華體驗(yàn)12小時(shí)高鐵,背后算計(jì)太明顯

      苗苗情感說(shuō)
      2026-04-19 12:38:15
      文班亞馬季后賽首秀:傳承開始

      文班亞馬季后賽首秀:傳承開始

      張佳瑋寫字的地方
      2026-04-20 12:23:10
      張?zhí)m暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調(diào)失靈,覬覦婆婆宅邸

      張?zhí)m暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調(diào)失靈,覬覦婆婆宅邸

      樂(lè)悠悠娛樂(lè)
      2026-04-20 10:47:48
      爺爺生前錄音贈(zèng)孫女109萬(wàn)元遺產(chǎn),六個(gè)姑姑不服要求平分,法院:錄音無(wú)效,重新分配,患小兒麻痹癥姑姑拿大頭

      爺爺生前錄音贈(zèng)孫女109萬(wàn)元遺產(chǎn),六個(gè)姑姑不服要求平分,法院:錄音無(wú)效,重新分配,患小兒麻痹癥姑姑拿大頭

      魯中晨報(bào)
      2026-04-17 17:00:03
      600年都不倒!天安門這4根重達(dá)2萬(wàn)多公斤的華表,有何特殊含義?

      600年都不倒!天安門這4根重達(dá)2萬(wàn)多公斤的華表,有何特殊含義?

      墨印齋
      2026-04-14 00:57:55
      復(fù)雜的黎巴嫩,走投無(wú)路的真主黨

      復(fù)雜的黎巴嫩,走投無(wú)路的真主黨

      寰宇大觀察
      2026-04-17 17:36:11
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機(jī)

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機(jī)

      一口娛樂(lè)
      2026-04-20 01:43:39
      解氣?。?!來(lái)而不往非禮也!中國(guó)海軍今天出手了!

      解氣!??!來(lái)而不往非禮也!中國(guó)海軍今天出手了!

      樂(lè)趣紀(jì)史
      2026-04-20 08:03:19
      浙江25歲女子深夜跑進(jìn)急診,疼到臉色發(fā)白,醫(yī)生:近兩三年這類患者越來(lái)越多,嚴(yán)重的會(huì)造成不可逆?zhèn)?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
      2026-04-20 09:25:07
      張本兄妹改名風(fēng)波再升級(jí),韓媒強(qiáng)烈批評(píng),這就是狠毒的創(chuàng)姓改稱

      張本兄妹改名風(fēng)波再升級(jí),韓媒強(qiáng)烈批評(píng),這就是狠毒的創(chuàng)姓改稱

      有范又有料
      2026-04-19 00:03:10
      張雪機(jī)車,全球訂單狂飆

      張雪機(jī)車,全球訂單狂飆

      第一財(cái)經(jīng)資訊
      2026-04-18 18:42:46
      張雪回應(yīng)為何還有6圈提前結(jié)束比賽:有事故摩托車橫躺在賽道上

      張雪回應(yīng)為何還有6圈提前結(jié)束比賽:有事故摩托車橫躺在賽道上

      貝殼財(cái)經(jīng)
      2026-04-19 23:56:03
      一伊朗油輪突破美國(guó)封鎖進(jìn)入伊朗水域

      一伊朗油輪突破美國(guó)封鎖進(jìn)入伊朗水域

      每日經(jīng)濟(jì)新聞
      2026-04-20 07:10:32
      “DeepSeek首次融資”傳聞?wù)饎?dòng)市場(chǎng)!寒武紀(jì)、沐曦股份、摩爾線程和張雪機(jī)車的天使投資人都回應(yīng)了

      “DeepSeek首次融資”傳聞?wù)饎?dòng)市場(chǎng)!寒武紀(jì)、沐曦股份、摩爾線程和張雪機(jī)車的天使投資人都回應(yīng)了

      證券時(shí)報(bào)
      2026-04-19 22:52:02
      2026-04-20 12:55:00
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3334文章數(shù) 11137關(guān)注度
      往期回顧 全部

      科技要聞

      藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

      頭條要聞

      媒體:伊朗剛說(shuō)不談 美國(guó)立即開打

      頭條要聞

      媒體:伊朗剛說(shuō)不談 美國(guó)立即開打

      體育要聞

      七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

      娛樂(lè)要聞

      鹿晗生日上熱搜,被關(guān)曉彤撕下體面

      財(cái)經(jīng)要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      本地
      親子
      公開課

      家居要聞

      自然慢調(diào) 慢享時(shí)光

      數(shù)碼要聞

      華為全新鴻蒙電腦搭載云晰柔光屏,硬件級(jí)低藍(lán)光,今日下午發(fā)布

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      親子要聞

      女孩兒學(xué)壞,多半栽在初中

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版