網易首頁 > 網易號 > 正文申請入駐

Claude Opus 蒸餾 Qwen3.5，V3 來了

2026-04-03 10:41:14　來源: Ai學習的老章

北京舉報

分享至

大家好，我是 Ai 學習的老章

Claude Opus 蒸餾 Qwen3.5 這條線，我從 v1 一路追到現在，算是全網跟得最緊的了：

Now，v3 來了

這一版改動很大，大到連名字都換了——從原來拗口的Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled，改名為Qwopus3.5（Qwen + Opus 的合體）

名字更短了，野心更大了

一句話說清 v3 的核心變化

v1 是"讓 Qwen 學會 Opus 的推理"，v2 是"讓它想得更少答得更快"，**v3 是"讓它學會用工具干活"**。

這是一個質的飛躍——從"會思考"到"會行動"

先看下載量：大家用腳投票

在聊技術細節之前，先看一組數據

Jackrong 這次 v3 同時發布了 4B、9B、27B 三個尺寸，加上各種量化和 MLX 版本，一共 9 個模型

大家猜猜哪個最火？

模型

參數量

下載量

Qwopus3.5-9B-v3-GGUF9B10.9k

112

Qwopus3.5-4B-v3-GGUF

699

Qwopus3.5-9B-v3

10B

603

MLX-Qwopus3.5-9B-v3-4bit

435

MLX-Qwopus3.5-9B-v3-8bit

232

MLX-Qwopus3.5-9B-v3-bf16

166

MLX-Qwopus3.5-9B-v3-6bit

170

Qwopus3.5-4B-v3

Qwopus3.5-27B-v3-GGUF

27B

Qwopus3.5-27B-v3

27B

9B GGUF 版本以 10.9k 的下載量斷崖式領先，是第二名的 15 倍。

這說明什么？大家心里門兒清——9B 是甜蜜點

16GB 內存的 MacBook 就能跑，Windows 上普通顯卡也沒壓力

27B 雖然能力更強，但門檻也更高；4B 太小，容易翻車

9B 剛好在"能用"和"能跑"之間找到了最佳平衡

所以今天這篇文章，我重點實測的就是Qwopus3.5-9B-v3。

v3 到底改了什么？從"想好再做"到"做了再改"

v3 最大的理念轉變，用一句話概括：

從 "reason-then-act"（想好再做）到 "act-then-refine"（做了再改）

這個思路來自兩篇重要的研究：

Reflexion論文證明，Agent 通過"試錯 + 反思"的方式，比純靠內心推理更有效
另一項研究發現，失敗后反思再重試能帶來巨大提升：數學推理任務 **+34.7%**，函數調用任務+18.1%

說人話就是：與其讓模型在腦子里反復推演（v2 的路線），不如讓它先動手試，試錯了再修正。這對做 Agent、用工具的場景特別管用——畢竟現實世界的反饋比模型自己的想象靠譜得多

v3 三大核心升級

1?? 結構化推理優化

v2 靠蒸餾 Claude 的思維鏈（CoT），但 Jackrong 在 v3 里坦誠地指出了一個問題：v2 用的第三方蒸餾數據，有些思維鏈可能是"偽造"的——看起來像是 Claude 生成的，實際上未必是

Anthropic 自己也發表過研究，說推理模型的思維鏈有時候只是"事后合理化"，并非真正的逐步推理

學生模型去模仿這種"假推理"，學到的可能只是表面的模式匹配，而非真正的問題解決能力

v3 的做法是：用更高質量、可驗證的推理鏈做訓練，讓模型學的是過程級推理，而非簡單模仿答案

對比項

v2（蒸餾）

v3（結構對齊）

思維鏈來源

第三方蒸餾數據

精選可驗證推理鏈

學習目標

模仿教師輸出

學習過程級推理

推理風格

壓縮式

顯式、逐步、可驗證

泛化能力

較弱

更強

2?? 工具調用強化訓練

這是 v3 最重要的新增能力

v3專門做了針對工具調用的強化學習（RL）訓練，為 Agent 框架（如 OpenClaw）優化了工具調用的穩定性和準確性

這意味著 v3 在 Agent 場景下——比如自動搜索、調用 API、操作文件——應該比 v1/v2 強得多

3?? "做了再改" 范式

整個模型的設計理念從"一次推理到位"轉向"迭代交互糾正"

這對多步驟任務特別友好——不要求第一步就完美，允許在執行中不斷修正

HumanEval 跑分：9B 打出了新高度

Jackrong 在相同條件下測了三個 9B 級別的模型：

模型

Base pass@1

Plus pass@1

相比 Qwen3.5-9B

Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)

+4.87 / +5.49

Qwen3.5-9B

82.93% (136/164)

77.44% (127/164)

基線

Claude-Distilled-v2

82.32% (135/164)

78.66% (129/164)

-0.61 / +1.22

幾個關鍵發現：

v3 在 HumanEval 上比原版 Qwen3.5-9B 高了將近 5 個百分點，這個差距在 9B 級別已經非常顯著
v2 在 9B 上其實沒怎么提升（甚至 base 還略降了），但v3 一下子拉開了差距
在更嚴格的 Plus 評估中，v3 領先原版超過 5.49 個百分點

MMLU-Pro 跑分：這次知識能力也沒掉

還記得 v2 的一個代價嗎？

MMLU-Pro（通用知識推理）掉了 7.2%。當時我說這是"專精 vs 通用"的權衡

v3 把這個問題修復了：

模型

正確數

總數

準確率

Qwen3.5-9B

225

280

80.36%

Qwopus3.5-9B-v322928081.79%

v3 在 MMLU-Pro 上反超原版 1.43 個百分點！

代碼能力提升的同時，通用知識也沒丟——這是 v2 做不到的

推理效率：用更少的 Token 辦更多的事

指標

Qwen3.5-9B

Qwopus3.5-9B-v3

平均思維鏈長度

7116 字符

5313 字符

每萬字符通過數

1.26

1.66

每個正確答案的字符成本

7938

6032

三組數據總結：

思維鏈縮短 25.3%
推理效率提升 31.7%
每個正確答案的 Token 成本降低 24.0%

跟 v2 的 27B 版本效率提升幾乎一致，但這次是在 9B 上做到的，意義完全不同——9B 模型本來就是為資源受限場景設計的，效率提升的價值在這里被放大了。

v1 → v2 → v3 全家族進化圖譜

名字

Claude-4.6-Opus-Reasoning-Distilled

同上

Qwopus3.5核心思路

蒸餾 Claude 推理能力

優化推理效率

工具調用 + 結構對齊

訓練方法

SFT + LoRA

SFT + LoRA +RL（工具調用）

HumanEval（9B）

~82%

87.80%MMLU-Pro

基準

-7.2%

+1.43%思維鏈長度

短（-24%）

短（-25.3%）

工具調用

未優化

專項 RL 訓練理念

模仿 Claude

更快更省

做了再改

一路看下來，v3 是一次全面的升級：代碼更準、知識不丟、效率更高、還新增了工具調用能力

這在蒸餾模型里相當少見——通常每一代都要在某個維度做取舍，v3 居然做到了"全都要"

怎么跑？

老規矩，GGUF 格式用 LM Studio、Ollama、llama.cpp 都行：

模型地址：Jackrong/Qwopus3.5-9B-v3-GGUF

硬件需求：

Mac：16GB 內存即可流暢運行（推薦 MLX 版本）
Windows/Linux：8GB 顯存的顯卡即可（如 RTX 3060/4060）
量化推薦：根據之前的 ToolCall-15 測試經驗，Q6 是工具調用場景的最優量化精度

快速上手（以 Ollama 為例）：

# 下載并運行
ollama run hf.co/Jackrong/Qwopus3.5-9B-v3-GGUF:Q6_K

，支持 Gemma 4，支持 Anthropic 的 1/messages（low，medium，high，max）

用 ToolCall-15 實測 9B-v3 的工具調用能力

說到工具調用，我之前在寫這篇文章時，介紹過一個很好用的開源測試工具——ToolCall-15

簡單回顧一下：ToolCall-15（github.com/stevibe/ToolCall-15）是一個專門測大模型工具調用能力的基準測試框架：

15 個場景，覆蓋 5 大類能力
12 個工具，模型每次都能看到全部工具
模擬響應，確保結果確定可復現
Temperature 設為 0，排除隨機性

五大考核維度：

類別

測試內容

舉例

工具選擇

能不能選對工具？

問天氣，該用get_weather還是web_search？

參數精度

參數傳對了嗎？

用戶要華氏溫度，你傳了fahrenheit沒？

多步鏈式

能不能串聯多個工具？

搜文件 → 讀內容 → 查聯系人 → 發郵件

克制與拒絕

不該用工具時能忍住嗎？

"二戰哪年結束？" 你別去搜啊

? 錯誤恢復

工具報錯了怎么辦？

搜索沒結果，是放棄還是換關鍵詞？

之前測 v2 的 27B 版本拿了15/15 滿分

這次 v3 專門做了工具調用的 RL 訓練，還是在更小的 9B 上——到底行不行？

自然很行！

Qwen3.5:9b Q8 (官方)
Jackrong 的 Qwopus v3 Q8

ToolCall-15: Qwopus v3 完美通過全部 15 題

ToolCall-15 實測

大家也可以用這個工具自行測試已經本地部署的模型

環境搭建：

git clone https://github.com/stevibe/ToolCall-15.git
cd ToolCall-15
npm install
cp .env.example .env

配置 .env：

# 如果用 LM Studio
LMSTUDIO_HOST=http://localhost:1234
LLM_MODELS=lmstudio:qwopus3.5-9b-v3


 # 如果你用的是 Ollama
OLLAMA_HOST=http://localhost:11434
LLM_MODELS=ollama:qwopus3.5-9b-v3

啟動測試：

npm run dev
# 打開 http://localhost:3000，點擊 Run 開始測試

總結：v3 是這個系列真正成熟的一代

從 v1 到 v3，Jackrong 的這個蒸餾系列走過了三個階段：

v1：證明了"小模型也能學到大模型的推理能力"
v2：證明了"推理效率可以大幅優化，用更少的 Token 辦同樣的事"
v3：證明了"蒸餾模型也能做 Agent，工具調用不再是大模型的專利"

v3 的數據也確實支撐了這個結論：

HumanEval 87.80%，比原版 Qwen3.5-9B 高了近 5 個百分點
MMLU-Pro 81.79%，通用知識也反超了基線
推理效率提升 31.7%，成本降低 24%
新增工具調用 RL 訓練，專為 Agent 場景優化

對于想在本地跑一個"能寫代碼、能調工具、還不太吃資源"的模型來說，Qwopus3.5-9B-v3 可能是目前最值得一試的選擇。

下載量已經說明了一切——10.9k，社區用腳投票的結果。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.