網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Qwen3-Next 實(shí)測(cè)，有點(diǎn)失望

2025-09-27 11:15:58　來(lái)源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

大家好，我是 Ai 學(xué)習(xí)的老章

前文：，Qwen3-Next 的思考和指令兩個(gè)模型官方性能測(cè)試結(jié)果十分誘人。僅用 3B 活躍參數(shù)即可達(dá)到 DeepSeek V3.1 級(jí)別的智能水平

Qwen3 Next 80B（推理版）在 Qwen3 模型家族中智能程度排名第二，介于 Qwen3 235B 2507（推理版）與剛發(fā)布的 Qwen3-Max（預(yù)覽版，不使用推理）之間

我早就下好了完整模型文件 -160GB+

但是后來(lái)出了 FP8 量化版，模型文件大小減半，可裝入單張 H200 GPU

但是我用 0.10.2 版本的 vLLM 無(wú)論怎么改參數(shù)都部署失敗

無(wú)奈就還跑原版，2xH200 開(kāi)跑

腳本如下：

docker run --rm -d --runtime nvidia  --name qwen3-next-tk-server  --ipc=host --gpus '"device=4,5"'  -p 8001:8000  -v /data/ai:/models vllm/vllm-openai:v0.10.2  --model /models/Qwen3-Next-80B-A3B-Thinking  --served-model-name qwen3-next-tk-fp8 --port 8000   --max-num-seqs 50 --max-model-len  131072  --tensor-parallel-size 2

[! 注意] 默認(rèn)上下文長(zhǎng)度為 256K。如果遇到內(nèi)存不足（OOM）問(wèn)題，可以考慮將上下文長(zhǎng)度減少到更小的值。但是，由于模型可能需要更長(zhǎng)的 token 序列進(jìn)行推理，我們強(qiáng)烈建議盡可能使用大于 131,072 的上下文長(zhǎng)度。

ps：上下文上限跑起需要使用 4 張 H200/H20 或 4 張 A100/A800 GPU 來(lái)啟動(dòng)，這里我減半到官方建議的 131072

每卡上模型加載 75GB，耗時(shí) 44 秒，KV Cache 49.5GB，峰值激活內(nèi)存 0.62GB，非 Torch 顯存占用 1.38GB，合計(jì) 126GB 的樣子

運(yùn)行成功后接入 OpenWebUI，簡(jiǎn)單測(cè)試了一下，略失望，原因有幾：

1 是首 token 響應(yīng)延遲，大幾秒的樣子才開(kāi)始回復(fù)

2 是 think 標(biāo)簽缺失，導(dǎo)致整個(gè)思考過(guò)程無(wú)法被識(shí)別，直接被打印，而非可隱藏

原因阿里也有解釋?zhuān)?/p>

[! 注意] Qwen3-Next-80B-A3B-Thinking 僅支持思考模式。為了強(qiáng)制模型進(jìn)行思考，默認(rèn)聊天模板自動(dòng)包含 \ 。因此，模型的輸出只包含 \<\/think\> 而沒(méi)有顯式的 \ 標(biāo)簽是正常的。

我看魔塔社區(qū)也有網(wǎng)友在抱怨，不知道為啥 Qwen 要這么搞，與之前模型保持一致不好嗎？無(wú)故增加下游應(yīng)用適配成本

3 是思考過(guò)程非常、非常、非常長(zhǎng)，長(zhǎng)到時(shí)常會(huì)無(wú)限思考

原因阿里還是有解釋?zhuān)?/p>

[! 注意] Qwen3-Next-80B-A3B-Thinking 可能會(huì)生成比其前身更長(zhǎng)的思考內(nèi)容。我們強(qiáng)烈建議將其用于高度復(fù)雜的推理任務(wù)。

4 是并發(fā)太低了

啟動(dòng)腳本設(shè)置了--max-num-seqs 50，但是我用測(cè)試工具跑了一下，由于前面三個(gè)問(wèn)題，并發(fā)幾乎跑不起來(lái)，全是 error

5Qwen3-Next 也支持多詞元預(yù)測(cè)（簡(jiǎn)稱(chēng) MTP），它既提升了預(yù)訓(xùn)練效率，也加快了推理速度。我試了一下，單請(qǐng)求快了點(diǎn)，但是上面四個(gè)問(wèn)題都存在。

docker run --rm -d --runtime nvidia  --name qwen3-next-tk-server  --ipc=host --gpus '"device=4,5"'  -p 8001:8000  -v /data/ai:/models vllm/vllm-openai:v0.10.2  --model /models/Qwen3-Next-80B-A3B-Thinking  --served-model-name qwen3-next-tk-fp8 --port 8000   --max-num-seqs 50 --max-model-len  131072  --tensor-parallel-size 2 --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}'  --no-enable-chunked-prefill

哪位兄弟本地部署過(guò)Qwen3-Next-80B-A3B-Thinking，感受如何？

如有發(fā)現(xiàn)我的腳本有問(wèn)題，歡迎提出，我還是有點(diǎn)不敢相信它會(huì)這么不堪。

或許它真就只適合高度復(fù)雜的推理任務(wù)？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.