剛剛,Qwen3.6-開源了 Qwen3.6-35B-A3B
比較失望,不是我,還有眾多網友期待的 Qwen3.6-27B
![]()
簡介
Qwen3.6-35B-A3B 是一個 MoE 架構的小身材大能量選手:35B 參數總量,但實際推理只激活 3B
這意味著什么?運行它的算力消耗,大概只相當于一個 3B 稠密模型,但效果能打 27B、30B 的稠密大模型
![]()
Qwen3.6-35B-A3B 綜合評測得分
這次開源的核心亮點:
Agentic Coding 能力大幅提升 :前端工作流和倉庫級代碼推理,明顯上了一個臺階
Thinking Preservation(思維保留) :全新特性,可以在多輪對話中保留歷史推理鏈,迭代開發場景下減少重復思考開銷
原生多模態 :視覺 + 語言雙修,不是縫合怪,內置了視覺編碼器
超長上下文 :原生支持 262,144 tokens,開啟 YaRN 后可擴展到 100 萬 tokens
Qwen3.6 用的是一種混合架構——把 Gated DeltaNet(線性注意力) 和 Gated Attention(標準注意力) 交替堆疊,不是純 Transformer,也不是純線性注意力,而是兩者的融合體
再配上 MoE(混合專家)層:
256 個專家 ,每次推理只激活 8 個路由專家 + 1 個共享專家
40 層堆疊,隱層維度 2048
這套架構的好處是:推理時大量專家處于"休眠"狀態,算力需求極低;但模型的總參數量帶來了豐富的知識密度。說白了,錢都花在學習上,推理時省著用
性能實測:Agent 編程這項,真的飛了
先上核心評測數據,對比選手是同規模的 Qwen3.5-35B-A3B(前代)、Gemma4-31B、Qwen3.5-27B(稠密 27B):
評測基準
Qwen3.5-27B
Gemma4-31B
Qwen3.5-35BA3B
Qwen3.6-35BA3B
SWE-bench Verified
75.0
52.0
70.0
73.4
Terminal-Bench 2.0
41.6
42.9
40.5
51.5
QwenWebBench(前端)
1068
1197
978
1397
Claw-Eval Avg
64.3
48.5
65.4
68.7
Terminal-Bench 從 40.5 跳到 51.5,提升了 11 個百分點
QwenWebBench(前端代碼生成)直接從 978 干到 1397,基本上是把上一代甩出了一條街
我個人最感興趣的是 QwenWebBench 這個指標——它評測的是生成網頁/小游戲/數據可視化等實際前端任務,這個分數說明 Qwen3.6 在"一句話生成 App"這類場景里有了質的飛躍
多模態這邊也不差:視覺問答在空間智能方面(RefCOCO: 92.0,ODInW13: 50.8)甚至超過了 Claude Sonnet 4.5,文檔理解和 OCR 類任務也處于 SOTA 水平。
部署
本人還在龜速下載中,先看看幾個推理引擎下部署指南
地址:modelscope.cn/models/Qwen/Qwen3.6-35B-A3B
![]()
推薦方案一:SGLang(高吞吐生產場景)
![]()
uv pip install sglang[all]# 啟動服務(8 卡,262K 上下文)
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
加速推理可以開 MTP(多 token 預測):
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 --tp-size 8 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
推薦方案二:vLLM
uv pip install vllm --torch-backend=autovllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3
如果只做文本推理,不需要視覺能力,加上 --language-model-only 可以省下視覺編碼器的顯存給 KV Cache 用,吞吐量更高
使用
最重要的新特性:preserve_thinking,強烈推薦 Agent 場景開啟。
默認情況下,模型每輪只保留最新一條消息的推理過程。開啟 preserve_thinking=True 之后,歷史輪次的推理鏈都會被保留并復用,對多步任務特別有用——減少重復思考,KV Cache 利用率也更高。
from openai import OpenAI
client = OpenAI(
api_key="DASHSCOPE_API_KEY",
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)completion = client.chat.completions.create(
model="qwen3.6-flash",
messages=[{"role": "user", "content": "幫我分析這個 Python 項目結構"}],
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # Agent 場景開啟
},
stream=True,
)
關掉思維鏈(非思考模式) 也很簡單,日常對話場景速度更快:
extra_body={
"chat_template_kwargs": {"enable_thinking": False},
}
? 注意:Qwen3.6 不再支持 /think/nothink 軟切換指令,需要通過參數控制。Coding Agent 工具集成
Qwen3.6-35B-A3B 可以直接對接三款主流 Coding Agent:
方案一:Qwen Code(推薦,專為 Qwen 系列優化)
npm install -g @qwen-code/qwen-code@latest
qwen
# 進入后運行 /auth 配置 API Key
方案二:OpenClaw(開源,支持自部署)
curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=
openclaw dashboard
方案三:Claude Code + Qwen API(驚喜組合)
Qwen 支持 Anthropic API 協議,意味著可以直接用 Claude Code 套殼調用 Qwen 模型:
npm install -g @anthropic-ai/claude-code
export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=claude
這個玩法挺有意思的:Claude Code 的 UI 體驗 + Qwen 的模型能力,而且 API 費用走阿里云那邊,比 Anthropic 便宜不少
本地運行:Mac / PC 也能跑(Unsloth GGUF)
Unsloth 已經跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本,用 llama.cpp 在本地跑完全可行
他們用自家的 Dynamic 2.0 量化方案——對重要層做精度補償,效果比普通 Q4 強不少
官方說 22GB 內存的 Mac 就能跑
![]()
內存需求參考(RAM + VRAM 合計):
量化精度
所需內存
Q2 極限壓縮
~17 GB
Q4_K_XL(推薦)
~23 GB
Q5
~30 GB
Q6
~38 GB
BF16 全精度
~70 GB
? ?? 重要提示:目前 Qwen3.6 的 GGUF 版本不支持 Ollama,因為視覺編碼器(mmproj)需要單獨加載文件,Ollama 暫時處理不了這個。請用 llama.cpp 兼容后端(Unsloth Studio 或 llama-server)。
方案一:Unsloth Studio(圖形界面,新手友好)
一行命令安裝,自動搞定 llama.cpp 環境:
# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh# 啟動 Web UI
unsloth studio -H 0.0.0.0 -p 8888
打開瀏覽器訪問 http://localhost:8888,搜索 Qwen3.6 下載對應量化版本,參數會自動配好,還有思維鏈開關,對小白極其友好。
方案二:llama-server 命令行
適合需要自定義參數或接入 Agent 工具的場景:
./llama.cpp/llama-server \
--model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
--mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
--alias "unsloth/Qwen3.6-35B-A3B" \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00 \
--ctx-size 16384 \
--port 8001
注意兩個文件都要下載:模型主體 .gguf + 視覺編碼器 mmproj-F16.gguf,缺一不可。
啟動后用 OpenAI 兼容 API 調用:
from openai import OpenAI
client = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)completion = client.chat.completions.create(
model="unsloth/Qwen3.6-35B-A3B",
messages=[{"role": "user", "content": "幫我寫個貪吃蛇游戲"}],
)
print(completion.choices[0].message.content)
切換思維鏈模式也很簡單,在啟動參數里加一行:
# 關閉思維鏈(更快,日常對話)
--chat-template-kwargs '{"enable_thinking":false}'# 開啟思維鏈(更強,復雜推理)
--chat-template-kwargs '{"enable_thinking":true}'
llama-server 拉起來之后,同樣可以對接 Claude Code 或 Qwen Code,把本地量化模型當 Agent 后端用,完全離線,不花一分 API 費
總結
Qwen3.6-35B-A3B 是一個讓人難以挑剔的開源 MoE 模型:
? 3B 激活參數,推理成本極低,個人顯卡也能跑
? Agent 編程能力顯著提升,QwenWebBench 大幅領先前代
? 原生多模態,視覺理解能力對標 Claude Sonnet 4.5
? preserve_thinking 新特性,多步 Agent 場景如虎添翼
? 262K 原生上下文,YaRN 后可擴展到 100 萬
?? 不再支持
/think/nothink軟切換,需要注意遷移成本?? 完整精度部署仍需多卡,但 Unsloth GGUF 量化版 22GB Mac 可跑
?? GGUF 版本暫不支持 Ollama,需用 llama.cpp 或 Unsloth Studio
有需要在自己服務器上部署 Coding Agent 的朋友,這個應該是目前性價比最高的開源選擇了
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.