網易首頁 > 網易號 > 正文申請入駐

Qwen3.6-35B-A3B開源了，本地部署教程

2026-04-16 23:40:48　來源: Ai學習的老章

北京舉報

分享至

剛剛，Qwen3.6-開源了 Qwen3.6-35B-A3B

比較失望，不是我，還有眾多網友期待的 Qwen3.6-27B

簡介

Qwen3.6-35B-A3B 是一個 MoE 架構的小身材大能量選手：35B 參數總量，但實際推理只激活 3B

這意味著什么？運行它的算力消耗，大概只相當于一個 3B 稠密模型，但效果能打 27B、30B 的稠密大模型

Qwen3.6-35B-A3B 綜合評測得分

這次開源的核心亮點：

Agentic Coding 能力大幅提升 ：前端工作流和倉庫級代碼推理，明顯上了一個臺階
Thinking Preservation（思維保留） ：全新特性，可以在多輪對話中保留歷史推理鏈，迭代開發場景下減少重復思考開銷
原生多模態 ：視覺 + 語言雙修，不是縫合怪，內置了視覺編碼器
超長上下文 ：原生支持 262,144 tokens，開啟 YaRN 后可擴展到 100 萬 tokens

架構揭秘：35B 總量 / 3B 激活，怎么做到的？

Qwen3.6 用的是一種混合架構——把 Gated DeltaNet（線性注意力） 和 Gated Attention（標準注意力） 交替堆疊，不是純 Transformer，也不是純線性注意力，而是兩者的融合體

再配上 MoE（混合專家）層：

256 個專家 ，每次推理只激活 8 個路由專家 + 1 個共享專家
40 層堆疊，隱層維度 2048

這套架構的好處是：推理時大量專家處于"休眠"狀態，算力需求極低；但模型的總參數量帶來了豐富的知識密度。說白了，錢都花在學習上，推理時省著用

性能實測：Agent 編程這項，真的飛了

先上核心評測數據，對比選手是同規模的 Qwen3.5-35B-A3B（前代）、Gemma4-31B、Qwen3.5-27B（稠密 27B）：

評測基準

Qwen3.5-27B

Gemma4-31B

Qwen3.5-35BA3B

Qwen3.6-35BA3B

SWE-bench Verified

75.0

52.0

70.0

73.4

Terminal-Bench 2.0

41.6

42.9

40.5

51.5

QwenWebBench（前端）

1068

1197

978

1397

Claw-Eval Avg

64.3

48.5

65.4

68.7

Terminal-Bench 從 40.5 跳到 51.5，提升了 11 個百分點

QwenWebBench（前端代碼生成）直接從 978 干到 1397，基本上是把上一代甩出了一條街

我個人最感興趣的是 QwenWebBench 這個指標——它評測的是生成網頁/小游戲/數據可視化等實際前端任務，這個分數說明 Qwen3.6 在"一句話生成 App"這類場景里有了質的飛躍

多模態這邊也不差：視覺問答在空間智能方面（RefCOCO: 92.0，ODInW13: 50.8）甚至超過了 Claude Sonnet 4.5，文檔理解和 OCR 類任務也處于 SOTA 水平。

部署

本人還在龜速下載中，先看看幾個推理引擎下部署指南

地址：modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

推薦方案一：SGLang（高吞吐生產場景）

uv pip install sglang[all]


 # 啟動服務（8 卡，262K 上下文）
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

加速推理可以開 MTP（多 token 預測）：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 --tp-size 8 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

推薦方案二：vLLM

uv pip install vllm --torch-backend=auto


 vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

如果只做文本推理，不需要視覺能力，加上 --language-model-only 可以省下視覺編碼器的顯存給 KV Cache 用，吞吐量更高

使用

最重要的新特性：preserve_thinking，強烈推薦 Agent 場景開啟。

默認情況下，模型每輪只保留最新一條消息的推理過程。開啟 preserve_thinking=True 之后，歷史輪次的推理鏈都會被保留并復用，對多步任務特別有用——減少重復思考，KV Cache 利用率也更高。

from openai import OpenAI

 client = OpenAI(
    api_key="DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

 completion = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "幫我分析這個 Python 項目結構"}],
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True,  # Agent 場景開啟
    },
    stream=True,
)

關掉思維鏈（非思考模式） 也很簡單，日常對話場景速度更快：

extra_body={
    "chat_template_kwargs": {"enable_thinking": False},
}

? 注意：Qwen3.6 不再支持 /think/nothink 軟切換指令，需要通過參數控制。

Coding Agent 工具集成

Qwen3.6-35B-A3B 可以直接對接三款主流 Coding Agent：

方案一：Qwen Code（推薦，專為 Qwen 系列優化）

npm install -g @qwen-code/qwen-code@latest
qwen
# 進入后運行 /auth 配置 API Key

方案二：OpenClaw（開源，支持自部署）

curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY= 
        
openclaw dashboard

方案三：Claude Code + Qwen API（驚喜組合）

Qwen 支持 Anthropic API 協議，意味著可以直接用 Claude Code 套殼調用 Qwen 模型：

npm install -g @anthropic-ai/claude-code

 export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN= 
 

 claude

這個玩法挺有意思的：Claude Code 的 UI 體驗 + Qwen 的模型能力，而且 API 費用走阿里云那邊，比 Anthropic 便宜不少

本地運行：Mac / PC 也能跑（Unsloth GGUF）

Unsloth 已經跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本，用 llama.cpp 在本地跑完全可行

他們用自家的 Dynamic 2.0 量化方案——對重要層做精度補償，效果比普通 Q4 強不少

官方說 22GB 內存的 Mac 就能跑

內存需求參考（RAM + VRAM 合計）：

量化精度

所需內存

Q2 極限壓縮

~17 GB

Q4_K_XL（推薦）

~23 GB

~30 GB

~38 GB

BF16 全精度

~70 GB

? ?? 重要提示：目前 Qwen3.6 的 GGUF 版本不支持 Ollama，因為視覺編碼器（mmproj）需要單獨加載文件，Ollama 暫時處理不了這個。請用 llama.cpp 兼容后端（Unsloth Studio 或 llama-server）。

方案一：Unsloth Studio（圖形界面，新手友好）

一行命令安裝，自動搞定 llama.cpp 環境：

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh


 # 啟動 Web UI
unsloth studio -H 0.0.0.0 -p 8888

打開瀏覽器訪問 http://localhost:8888，搜索 Qwen3.6 下載對應量化版本，參數會自動配好，還有思維鏈開關，對小白極其友好。

方案二：llama-server 命令行

適合需要自定義參數或接入 Agent 工具的場景：

./llama.cpp/llama-server \
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.6-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --ctx-size 16384 \
    --port 8001

注意兩個文件都要下載：模型主體 .gguf + 視覺編碼器 mmproj-F16.gguf，缺一不可。

啟動后用 OpenAI 兼容 API 調用：

from openai import OpenAI

 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)

 completion = client.chat.completions.create(
    model="unsloth/Qwen3.6-35B-A3B",
    messages=[{"role": "user", "content": "幫我寫個貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)

切換思維鏈模式也很簡單，在啟動參數里加一行：

# 關閉思維鏈（更快，日常對話）
--chat-template-kwargs '{"enable_thinking":false}'


 # 開啟思維鏈（更強，復雜推理）
--chat-template-kwargs '{"enable_thinking":true}'

llama-server 拉起來之后，同樣可以對接 Claude Code 或 Qwen Code，把本地量化模型當 Agent 后端用，完全離線，不花一分 API 費

總結

Qwen3.6-35B-A3B 是一個讓人難以挑剔的開源 MoE 模型：

? 3B 激活參數，推理成本極低，個人顯卡也能跑
? Agent 編程能力顯著提升，QwenWebBench 大幅領先前代
? 原生多模態，視覺理解能力對標 Claude Sonnet 4.5
? preserve_thinking 新特性，多步 Agent 場景如虎添翼
? 262K 原生上下文，YaRN 后可擴展到 100 萬
?? 不再支持 /think /nothink 軟切換，需要注意遷移成本
?? 完整精度部署仍需多卡，但 Unsloth GGUF 量化版 22GB Mac 可跑
?? GGUF 版本暫不支持 Ollama，需用 llama.cpp 或 Unsloth Studio

有需要在自己服務器上部署 Coding Agent 的朋友，這個應該是目前性價比最高的開源選擇了

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.