大家好,我是 Ai 學習的老章
Claude Opus 蒸餾 Qwen3.5 這條線,我從 v1 一路追到現在,算是全網跟得最緊的了:
Now,v3 來了
這一版改動很大,大到連名字都換了——從原來拗口的Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,改名為Qwopus3.5(Qwen + Opus 的合體)
名字更短了,野心更大了
一句話說清 v3 的核心變化
v1 是"讓 Qwen 學會 Opus 的推理",v2 是"讓它想得更少答得更快",**v3 是"讓它學會用工具干活"**。
這是一個質的飛躍——從"會思考"到"會行動"
先看下載量:大家用腳投票
在聊技術細節之前,先看一組數據
Jackrong 這次 v3 同時發布了 4B、9B、27B 三個尺寸,加上各種量化和 MLX 版本,一共 9 個模型
大家猜猜哪個最火?
模型
參數量
下載量
Qwopus3.5-9B-v3-GGUF9B10.9k
112
Qwopus3.5-4B-v3-GGUF
4B
699
7
Qwopus3.5-9B-v3
10B
603
47
MLX-Qwopus3.5-9B-v3-4bit
1B
435
13
MLX-Qwopus3.5-9B-v3-8bit
9B
232
6
MLX-Qwopus3.5-9B-v3-bf16
9B
166
1
MLX-Qwopus3.5-9B-v3-6bit
9B
170
2
Qwopus3.5-4B-v3
5B
72
4
Qwopus3.5-27B-v3-GGUF
27B
39
39
Qwopus3.5-27B-v3
27B
13
39
9B GGUF 版本以 10.9k 的下載量斷崖式領先,是第二名的 15 倍。
這說明什么?大家心里門兒清——9B 是甜蜜點
16GB 內存的 MacBook 就能跑,Windows 上普通顯卡也沒壓力
27B 雖然能力更強,但門檻也更高;4B 太小,容易翻車
9B 剛好在"能用"和"能跑"之間找到了最佳平衡
所以今天這篇文章,我重點實測的就是Qwopus3.5-9B-v3。
v3 到底改了什么?從"想好再做"到"做了再改"
v3 最大的理念轉變,用一句話概括:
從 "reason-then-act"(想好再做)到 "act-then-refine"(做了再改)
這個思路來自兩篇重要的研究:
Reflexion論文證明,Agent 通過"試錯 + 反思"的方式,比純靠內心推理更有效
另一項研究發現,失敗后反思再重試能帶來巨大提升:數學推理任務 **+34.7%**,函數調用任務+18.1%
說人話就是:與其讓模型在腦子里反復推演(v2 的路線),不如讓它先動手試,試錯了再修正。這對做 Agent、用工具的場景特別管用——畢竟現實世界的反饋比模型自己的想象靠譜得多
v3 三大核心升級![]()
1?? 結構化推理優化
v2 靠蒸餾 Claude 的思維鏈(CoT),但 Jackrong 在 v3 里坦誠地指出了一個問題:v2 用的第三方蒸餾數據,有些思維鏈可能是"偽造"的——看起來像是 Claude 生成的,實際上未必是
Anthropic 自己也發表過研究,說推理模型的思維鏈有時候只是"事后合理化",并非真正的逐步推理
學生模型去模仿這種"假推理",學到的可能只是表面的模式匹配,而非真正的問題解決能力
v3 的做法是:用更高質量、可驗證的推理鏈做訓練,讓模型學的是過程級推理,而非簡單模仿答案
對比項
v2(蒸餾)
v3(結構對齊)
思維鏈來源
第三方蒸餾數據
精選可驗證推理鏈
學習目標
模仿教師輸出
學習過程級推理
推理風格
壓縮式
顯式、逐步、可驗證
泛化能力
較弱
更強
2?? 工具調用強化訓練
這是 v3 最重要的新增能力
v3專門做了針對工具調用的強化學習(RL)訓練,為 Agent 框架(如 OpenClaw)優化了工具調用的穩定性和準確性
這意味著 v3 在 Agent 場景下——比如自動搜索、調用 API、操作文件——應該比 v1/v2 強得多
3?? "做了再改" 范式
整個模型的設計理念從"一次推理到位"轉向"迭代交互糾正"
這對多步驟任務特別友好——不要求第一步就完美,允許在執行中不斷修正
HumanEval 跑分:9B 打出了新高度![]()
Jackrong 在相同條件下測了三個 9B 級別的模型:
模型
Base pass@1
Plus pass@1
相比 Qwen3.5-9B
Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)
+4.87 / +5.49
Qwen3.5-9B
82.93% (136/164)
77.44% (127/164)
基線
Claude-Distilled-v2
82.32% (135/164)
78.66% (129/164)
-0.61 / +1.22
幾個關鍵發現:
v3 在 HumanEval 上比原版 Qwen3.5-9B 高了將近 5 個百分點,這個差距在 9B 級別已經非常顯著
v2 在 9B 上其實沒怎么提升(甚至 base 還略降了),但v3 一下子拉開了差距
在更嚴格的 Plus 評估中,v3 領先原版超過 5.49 個百分點
還記得 v2 的一個代價嗎?
MMLU-Pro(通用知識推理)掉了 7.2%。當時我說這是"專精 vs 通用"的權衡
v3 把這個問題修復了:
模型
正確數
總數
準確率
Qwen3.5-9B
225
280
80.36%
Qwopus3.5-9B-v322928081.79%
v3 在 MMLU-Pro 上反超原版 1.43 個百分點!
代碼能力提升的同時,通用知識也沒丟——這是 v2 做不到的
推理效率:用更少的 Token 辦更多的事![]()
指標
Qwen3.5-9B
Qwopus3.5-9B-v3
平均思維鏈長度
7116 字符
5313 字符
每萬字符通過數
1.26
1.66
每個正確答案的字符成本
7938
6032
三組數據總結:
思維鏈縮短 25.3%
推理效率提升 31.7%
每個正確答案的 Token 成本降低 24.0%
跟 v2 的 27B 版本效率提升幾乎一致,但這次是在 9B 上做到的,意義完全不同——9B 模型本來就是為資源受限場景設計的,效率提升的價值在這里被放大了。
v1 → v2 → v3 全家族進化圖譜
v1
v2
v3
名字
Claude-4.6-Opus-Reasoning-Distilled
同上
Qwopus3.5核心思路
蒸餾 Claude 推理能力
優化推理效率
工具調用 + 結構對齊
訓練方法
SFT + LoRA
SFT + LoRA
SFT + LoRA +RL(工具調用)
HumanEval(9B)
~82%
~82%
87.80%MMLU-Pro
基準
-7.2%
+1.43%思維鏈長度
短(-24%)
短(-25.3%)
工具調用
未優化
未優化
專項 RL 訓練理念
模仿 Claude
更快更省
做了再改
一路看下來,v3 是一次全面的升級:代碼更準、知識不丟、效率更高、還新增了工具調用能力
這在蒸餾模型里相當少見——通常每一代都要在某個維度做取舍,v3 居然做到了"全都要"
怎么跑?
老規矩,GGUF 格式用 LM Studio、Ollama、llama.cpp 都行:
模型地址:Jackrong/Qwopus3.5-9B-v3-GGUF
硬件需求:
Mac:16GB 內存即可流暢運行(推薦 MLX 版本)
Windows/Linux:8GB 顯存的顯卡即可(如 RTX 3060/4060)
量化推薦:根據之前的 ToolCall-15 測試經驗,Q6 是工具調用場景的最優量化精度
快速上手(以 Ollama 為例):
# 下載并運行
ollama run hf.co/Jackrong/Qwopus3.5-9B-v3-GGUF:Q6_K
,支持 Gemma 4,支持 Anthropic 的 1/messages(low,medium,high,max)
![]()
用 ToolCall-15 實測 9B-v3 的工具調用能力
說到工具調用,我之前在寫 這篇文章時,介紹過一個很好用的開源測試工具——ToolCall-15
簡單回顧一下:ToolCall-15(github.com/stevibe/ToolCall-15)是一個專門測大模型工具調用能力的基準測試框架:
15 個場景,覆蓋 5 大類能力
12 個工具,模型每次都能看到全部工具
模擬響應,確保結果確定可復現
Temperature 設為 0,排除隨機性
五大考核維度:
類別
測試內容
舉例
工具選擇
能不能選對工具?
問天氣,該用get_weather還是web_search?
參數精度
參數傳對了嗎?
用戶要華氏溫度,你傳了fahrenheit沒?
多步鏈式
能不能串聯多個工具?
搜文件 → 讀內容 → 查聯系人 → 發郵件
克制與拒絕
不該用工具時能忍住嗎?
"二戰哪年結束?" 你別去搜啊
? 錯誤恢復
工具報錯了怎么辦?
搜索沒結果,是放棄還是換關鍵詞?
之前測 v2 的 27B 版本拿了15/15 滿分
這次 v3 專門做了工具調用的 RL 訓練,還是在更小的 9B 上——到底行不行?
![]()
![]()
自然很行!
Qwen3.5:9b Q8 (官方)
Jackrong 的 Qwopus v3 Q8
ToolCall-15: Qwopus v3 完美通過全部 15 題
ToolCall-15 實測
大家也可以用這個工具自行測試已經本地部署的模型
環境搭建:
git clone https://github.com/stevibe/ToolCall-15.git
cd ToolCall-15
npm install
cp .env.example .env
配置 .env:
# 如果用 LM Studio
LMSTUDIO_HOST=http://localhost:1234
LLM_MODELS=lmstudio:qwopus3.5-9b-v3# 如果你用的是 Ollama
OLLAMA_HOST=http://localhost:11434
LLM_MODELS=ollama:qwopus3.5-9b-v3
啟動測試:
npm run dev
# 打開 http://localhost:3000,點擊 Run 開始測試
總結:v3 是這個系列真正成熟的一代從 v1 到 v3,Jackrong 的這個蒸餾系列走過了三個階段:
v1:證明了"小模型也能學到大模型的推理能力"
v2:證明了"推理效率可以大幅優化,用更少的 Token 辦同樣的事"
v3:證明了"蒸餾模型也能做 Agent,工具調用不再是大模型的專利"
v3 的數據也確實支撐了這個結論:
HumanEval 87.80%,比原版 Qwen3.5-9B 高了近 5 個百分點
MMLU-Pro 81.79%,通用知識也反超了基線
推理效率提升 31.7%,成本降低 24%
新增工具調用 RL 訓練,專為 Agent 場景優化
對于想在本地跑一個"能寫代碼、能調工具、還不太吃資源"的模型來說,Qwopus3.5-9B-v3 可能是目前最值得一試的選擇。
下載量已經說明了一切——10.9k,社區用腳投票的結果。
.5
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.