<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM 部署 Qwen3.5 滿血&量化版,并發性能測試,附部署腳本

      0
      分享至

      最近openclaw在國內火的優點離譜,脫離其實力范圍的火,以至于我也要在文中加上兩句才可能有流量。。。主要是我個人一直玩的是自己折騰的一套,比較放心

      不過本周我會測試國產的兩個claw,敬請期待。

      本文繼續折騰Qwen3.5 不出意外是最后一篇了。

      Qwen3.5 系列我一直沒有拿 vLLM 部署,,趁著周末,玩一下。

      首先需要升級 vLLM,唯一需要注意的是自己的硬件及 CUDA 版本


      我的系統總是有幺蛾子,所有還是用的 Docker

      正常拉取鏡像即可:docker pull vllm/vllm-openai:v0.17.0

      我是 4090 的卡,所以選擇官方 FP8

      35B 權重文件 37GB

      27B 權重文件 30GB


      遭遇各種 OOM 之后。。。。


      最終調整到了一版合適的參數,腳本以 35B 為例,27B 僅需修改模型文具地址和對應 name 即可,我只有 4 卡,所有還要測完 35B 后 stop 才能起 27B

      #!/usr/bin/env bash
      set -euo pipefail

      MODEL_DIR="/data/models/Qwen3.5-35B-A3B-FP8"
      CONTAINER_NAME="qwen35-35b-a3b-fp8"
      PORT=8000

      docker rm -f ${CONTAINER_NAME} 2>/dev/null || true

      docker run -d \
      --name ${CONTAINER_NAME} \
      --gpus '"device=0,1,2,3"' \
      --ipc=host \
      --shm-size=16g \
      -p ${PORT}:8000 \
      -v ${MODEL_DIR}:/model:ro \
      -e NCCL_P2P_DISABLE=0 \
      -e NCCL_IB_DISABLE=1 \
      -e VLLM_USE_V1=1 \
      vllm/vllm-openai:v0.17.0 \
      --model /model \
      --served-model-name qwen3.5-35b-a3b-fp8 \
      --tensor-parallel-size 4 \
      --max-model-len 262144 \
      --kv-cache-dtype fp8 \
      --gpu-memory-utilization 0.9 \
      --max-num-seqs 4 \
      --max-num-batched-tokens 8192 \
      --language-model-only \
      --enable-prefix-caching \
      --default-chat-template-kwargs '{"enable_thinking": false}' \
      --host 0.0.0.0 \
      --port 8000

      這里說明一下
      --tensor-parallel-size 4我又 4 張 4090 顯卡
      --max-model-len 262144是我的強需求,可以稍微犧牲一點并發
      --kv-cache-dtype fp8這是為了降低 KV cache 內存占用,從而支持更長上下文
      --gpu-memory-utilization 0.9是為了給真實運行時留空間。實際部署中,除了權重和 KV cache,還會吃掉顯存的還有:CUDA graph、NCCL 通信 buffer、allocator 碎片、連續 batching 帶來的波動等等
      --max-num-seqs 4避免長上下文 + 高并發疊加把顯存直接頂爆,感覺還有空間往上加
      --max-num-batched-tokens 8192參數控制一次調度里的總 token 規模。它過大時,會帶來更高吞吐,但也會加大運行時顯存波動和調度壓力
      --language-model-only我不需要多模態,所以只要文本推理
      --enable-prefix-caching高效的 KV 管理和吞吐優化參數
      --default-chat-template-kwargs '{"enable_thinking": false}':加了思考我這配置卡的很,思考太過漫長了

      而且我用的 FP8 它的思考居然是英文


      實際運行,性能特別差 27B 幾乎沒有并發能力,35B-A3B 還可以,但是 RPS 很低,首 Token 延遲都奔 10s 了


      沒辦法,我放棄官方 FP8,上了 4bit


      cyankiwi/Qwen3.5-35B-A3B-AWQ-4bitcyankiwi/Qwen3.5-27B-AWQ-4bit

      然后使用了同樣的部署腳本,只是它倆更省卡,2 張 4090 就能跑起來,我可以同時跑 27B 和 35B,而且我還在原代碼基礎上 加大了 max-num-seqs


      Moe 確實省顯卡

      我把它倆接入到了 openwebui,都關閉思考情況下,27B 也慢得多!看樣子我之前的判斷大錯特錯了,27 太拉垮了。

      日志顯示 27B 70+ t/s


      35B 100+ t/s



      代碼能力呢,都不太能看,臥龍鳳雛了


      性能方面,27B 依然相當差勁,比 PF8 好多了


      35B 比 FP8 提升多了,也比 27B 強多了


      總結,以我的需求,暫時不想替代 Qwen3-32B,還是 32B 跟穩。

      而且 3.5 還整了騷操作,把開頭的 從“動態生成”變成了“靜態預置”,下游對接的系統苦了。。。要么模型測,要么應用測,是要改的。

      再加上它本身不支持思考與否的軟關閉,這個級別能力提升也不見得能彌補這些缺點,企業級應用,我感覺很多都不太樂意升 3.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中方遲遲不點頭,特朗普急了,拖家帶口直奔中國,真實目的不簡單

      中方遲遲不點頭,特朗普急了,拖家帶口直奔中國,真實目的不簡單

      陳輝論劍
      2026-04-20 17:04:24
      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      今日搞笑分享
      2026-04-06 17:55:16
      中產的門檻到底是多少?2026年最新標準,你可能已經被“除名”

      中產的門檻到底是多少?2026年最新標準,你可能已經被“除名”

      小白鴿財經
      2026-04-20 07:05:03
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      約旦國王:必須維持美伊停火以結束戰爭

      約旦國王:必須維持美伊停火以結束戰爭

      環球網資訊
      2026-04-20 12:16:18
      山東男子當街將70歲老母雙腿打斷,得知真相后,眾人都說老母該死

      山東男子當街將70歲老母雙腿打斷,得知真相后,眾人都說老母該死

      神奇的錘子
      2024-09-02 16:01:35
      張涵予新片《尋龍訣》上映僅1天,觀眾強烈要求下架,罵聲一片

      張涵予新片《尋龍訣》上映僅1天,觀眾強烈要求下架,罵聲一片

      秋姐居
      2026-04-18 19:34:07
      跟投變債務,國資被套牢,萬科比恒大還坑

      跟投變債務,國資被套牢,萬科比恒大還坑

      磐石之心
      2026-04-20 11:37:40
      火箭新超六穩了!7中7砍16+10,表現勝首發,難怪愿放棄鋒線大閘

      火箭新超六穩了!7中7砍16+10,表現勝首發,難怪愿放棄鋒線大閘

      熊哥愛籃球
      2026-04-20 19:05:37
      “愛奇藝瘋了”登頂熱搜,張若昀、于和偉、王楚然接連發聲:沒有,不存在!

      “愛奇藝瘋了”登頂熱搜,張若昀、于和偉、王楚然接連發聲:沒有,不存在!

      極目新聞
      2026-04-20 15:41:41
      林花謝了春紅,太匆匆

      林花謝了春紅,太匆匆

      韋一同說
      2026-04-19 17:45:26
      AI算力爆發!算力租賃10大龍頭,業績暴漲、訂單鎖死至2028年

      AI算力爆發!算力租賃10大龍頭,業績暴漲、訂單鎖死至2028年

      我不叫阿哏
      2026-04-19 11:54:29
      4700億消費電子龍頭,午后觸及漲停

      4700億消費電子龍頭,午后觸及漲停

      第一財經資訊
      2026-04-20 14:21:08
      快訊!印度傳來新消息!跟人民幣有關!

      快訊!印度傳來新消息!跟人民幣有關!

      達文西看世界
      2026-04-20 07:01:08
      中國拒接美8500億債務,救美救華時代終結

      中國拒接美8500億債務,救美救華時代終結

      怎挽怎挽
      2026-04-20 14:59:17
      廣東男子生財路:低價買兇宅,改造后再出售,200套凈賺5000萬

      廣東男子生財路:低價買兇宅,改造后再出售,200套凈賺5000萬

      詭譎怪談
      2025-03-25 16:22:55
      乒乓球最新消息!孫穎莎第一很穩,陳熠超越蒯曼大頭大胖傷病更新

      乒乓球最新消息!孫穎莎第一很穩,陳熠超越蒯曼大頭大胖傷病更新

      曹說體育
      2026-04-20 19:01:56
      解氣?。?!來而不往非禮也!中國海軍今天出手了!

      解氣!??!來而不往非禮也!中國海軍今天出手了!

      樂趣紀史
      2026-04-20 08:03:19
      大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

      大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

      魔都姐姐雜談
      2026-03-26 10:53:11
      短板太過明顯了!76人后場新秀簡直是被凱爾特人各種針對?

      短板太過明顯了!76人后場新秀簡直是被凱爾特人各種針對?

      稻谷與小麥
      2026-04-20 10:40:52
      2026-04-20 20:00:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3337文章數 11137關注度
      往期回顧 全部

      科技要聞

      華為Pura90逆周期定價,4699元起,未漲價

      頭條要聞

      小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

      頭條要聞

      小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      利潤暴跌7成,字節到底在做什么

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      本地
      時尚
      家居
      房產
      軍事航空

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      今年最流行的衣服竟然是它?高級又氣質!

      家居要聞

      自然慢調 慢享時光

      房產要聞

      大規模商改??!??谖骱0?,這波項目要贏麻了!

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進入關懷版