大家好,我是 Ai 學(xué)習(xí)的老章
前文:,Qwen3-Next 的思考和指令兩個(gè)模型官方性能測(cè)試結(jié)果十分誘人。僅用 3B 活躍參數(shù)即可達(dá)到 DeepSeek V3.1 級(jí)別的智能水平
![]()
Qwen3 Next 80B(推理版)在 Qwen3 模型家族中智能程度排名第二,介于 Qwen3 235B 2507(推理版)與剛發(fā)布的 Qwen3-Max(預(yù)覽版,不使用推理)之間
![]()
我早就下好了完整模型文件 -160GB+
![]()
但是后來(lái)出了 FP8 量化版,模型文件大小減半,可裝入單張 H200 GPU
但是我用 0.10.2 版本的 vLLM 無(wú)論怎么改參數(shù)都部署失敗
無(wú)奈就還跑原版,2xH200 開(kāi)跑
腳本如下:
docker run --rm -d --runtime nvidia --name qwen3-next-tk-server --ipc=host --gpus '"device=4,5"' -p 8001:8000 -v /data/ai:/models vllm/vllm-openai:v0.10.2 --model /models/Qwen3-Next-80B-A3B-Thinking --served-model-name qwen3-next-tk-fp8 --port 8000 --max-num-seqs 50 --max-model-len 131072 --tensor-parallel-size 2[! 注意] 默認(rèn)上下文長(zhǎng)度為 256K。如果遇到內(nèi)存不足(OOM)問(wèn)題,可以考慮將上下文長(zhǎng)度減少到更小的值。但是,由于模型可能需要更長(zhǎng)的 token 序列進(jìn)行推理,我們強(qiáng)烈建議盡可能使用大于 131,072 的上下文長(zhǎng)度。
ps:上下文上限跑起需要使用 4 張 H200/H20 或 4 張 A100/A800 GPU 來(lái)啟動(dòng),這里我減半到官方建議的 131072
每卡上模型加載 75GB,耗時(shí) 44 秒,KV Cache 49.5GB,峰值激活內(nèi)存 0.62GB,非 Torch 顯存占用 1.38GB,合計(jì) 126GB 的樣子
運(yùn)行成功后接入 OpenWebUI,簡(jiǎn)單測(cè)試了一下,略失望,原因有幾:
1 是首 token 響應(yīng)延遲,大幾秒的樣子才開(kāi)始回復(fù)
2 是 think 標(biāo)簽缺失,導(dǎo)致整個(gè)思考過(guò)程無(wú)法被識(shí)別,直接被打印,而非可隱藏
原因阿里也有解釋?zhuān)?/p>
[! 注意] Qwen3-Next-80B-A3B-Thinking 僅支持思考模式。為了強(qiáng)制模型進(jìn)行思考,默認(rèn)聊天模板自動(dòng)包含 \ 。因此,模型的輸出只包含 \<\/think\> 而沒(méi)有顯式的 \ 標(biāo)簽是正常的。
我看魔塔社區(qū)也有網(wǎng)友在抱怨,不知道為啥 Qwen 要這么搞,與之前模型保持一致不好嗎?無(wú)故增加下游應(yīng)用適配成本
![]()
3 是思考過(guò)程非常、非常、非常長(zhǎng),長(zhǎng)到時(shí)常會(huì)無(wú)限思考
原因阿里還是有解釋?zhuān)?/p>
[! 注意] Qwen3-Next-80B-A3B-Thinking 可能會(huì)生成比其前身更長(zhǎng)的思考內(nèi)容。我們強(qiáng)烈建議將其用于高度復(fù)雜的推理任務(wù)。
4 是并發(fā)太低了
啟動(dòng)腳本設(shè)置了--max-num-seqs 50,但是我用測(cè)試工具跑了一下,由于前面三個(gè)問(wèn)題,并發(fā)幾乎跑不起來(lái),全是 error
![]()
5Qwen3-Next 也支持多詞元預(yù)測(cè)(簡(jiǎn)稱(chēng) MTP),它既提升了預(yù)訓(xùn)練效率,也加快了推理速度。我試了一下,單請(qǐng)求快了點(diǎn),但是上面四個(gè)問(wèn)題都存在。
docker run --rm -d --runtime nvidia --name qwen3-next-tk-server --ipc=host --gpus '"device=4,5"' -p 8001:8000 -v /data/ai:/models vllm/vllm-openai:v0.10.2 --model /models/Qwen3-Next-80B-A3B-Thinking --served-model-name qwen3-next-tk-fp8 --port 8000 --max-num-seqs 50 --max-model-len 131072 --tensor-parallel-size 2 --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}' --no-enable-chunked-prefill哪位兄弟本地部署過(guò)Qwen3-Next-80B-A3B-Thinking,感受如何?
如有發(fā)現(xiàn)我的腳本有問(wèn)題,歡迎提出,我還是有點(diǎn)不敢相信它會(huì)這么不堪。
或許它真就只適合高度復(fù)雜的推理任務(wù)?
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.