網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Qwen3.5 系列，最優(yōu)選擇 27B，最優(yōu)精度 Q6

2026-03-28 22:27:02　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

我之前也寫(xiě)過(guò)

工具調(diào)用（Tool Calling / Function Calling）是大模型從"能聊天"進(jìn)化到"能干活"的關(guān)鍵能力，沒(méi)有這個(gè)能力，Agent 就是空中樓閣

問(wèn)題來(lái)了：Qwen3.5 系列這么多模型，從 0.8B 一路到 397B，到底哪個(gè)尺寸真的能可靠地調(diào)用工具？

ToolCall-15：15 道題，照出模型真面目

這個(gè)ToolCall-15開(kāi)源基準(zhǔn)測(cè)試框架（github.com/stevibe/ToolCall-15），專(zhuān)門(mén)測(cè)試 LLM 的工具調(diào)用能力：

15 個(gè)場(chǎng)景，覆蓋 5 大類(lèi)能力（每類(lèi) 3 個(gè)）
12 個(gè)工具，模型每次都能看到全部工具
模擬響應(yīng)，確保結(jié)果確定性、可復(fù)現(xiàn)
Temperature 設(shè)為 0，排除隨機(jī)性干擾
不挑測(cè)試，全部跑完，沒(méi)有選擇性地只跑好看的

下面是 ToolCall-15 的測(cè)試看板：

ToolCall-15 測(cè)試看板五大考核維度，全是實(shí)戰(zhàn)場(chǎng)景

ToolCall-15 測(cè)的不是什么花里胡哨的學(xué)術(shù)指標(biāo)，全是真實(shí)場(chǎng)景下模型會(huì)遇到的問(wèn)題：

類(lèi)別

測(cè)試內(nèi)容

舉例

工具選擇

能不能選對(duì)工具？

問(wèn)柏林天氣，該用get_weather還是web_search？

參數(shù)精度

參數(shù)傳對(duì)了嗎？

用戶(hù)要華氏溫度，你傳了fahrenheit沒(méi)？

多步鏈?zhǔn)?/strong>

能不能串聯(lián)多個(gè)工具？

搜文件 → 讀內(nèi)容 → 查聯(lián)系人 → 發(fā)郵件

克制與拒絕

不該用工具時(shí)能忍住嗎？

"二戰(zhàn)哪年結(jié)束？" 你別去web_search啊

? 錯(cuò)誤恢復(fù)

工具報(bào)錯(cuò)了怎么辦？

搜索沒(méi)結(jié)果，是放棄還是換個(gè)關(guān)鍵詞重試？

每個(gè)場(chǎng)景評(píng)分：? 滿(mǎn)分（2分）、?? 半分（1分）、? 零分

Qwen3.5 全家桶測(cè)試結(jié)果：27B 獨(dú)占鰲頭

原作者 stevibe 把 Qwen3.5 全系列模型都拉出來(lái)溜了一遍——從 0.8B 到 397B，甚至還包括了 Jackrong 的蒸餾版本

結(jié)果出來(lái)，我直接震驚了，397B 的巨無(wú)霸打不過(guò) 27B：

模型

通過(guò)數(shù)

Qwen3.5-27B15/15

唯一滿(mǎn)分的原版模型

Qwen3.5-27B 蒸餾版15/15

蒸餾也滿(mǎn)分，工具調(diào)用能力保留完整

Qwen3.5-397B

13/15

兩個(gè)測(cè)試未通過(guò)

Qwen3.5-122B

14/15

一個(gè)測(cè)試未通過(guò)

Qwen3.5-35B

13/15

兩個(gè)測(cè)試未通過(guò)

小參數(shù)模型（0.8B~14B）

大量超時(shí)

陷入工具調(diào)用死循環(huán)

最暴露模型的一道題

15 個(gè)場(chǎng)景里，最有意思的是第 15 題（TC-15）：

"搜索冰島的人口數(shù)量，然后計(jì)算其 2% "

看起來(lái)簡(jiǎn)單吧？先搜索，拿到數(shù)據(jù)，再算個(gè)乘法。但就這道題，暴露了不同尺寸模型的致命弱點(diǎn)：

小模型（0.8B~14B）：直接編數(shù)據(jù)，連搜索都不做，或者陷入死循環(huán)反復(fù)調(diào)用同一個(gè)工具，直到 30 秒超時(shí)
大模型（35B、122B、397B）：明明搜索結(jié)果返回了精確數(shù)字 372,520，它們偏偏用自己腦子里的"大約 370,000"去算。搜了，但不信
?27B：老老實(shí)實(shí)搜索，拿到 372,520，傳給計(jì)算器算372520 * 0.02 = 7450.4，完美

一句話(huà)總結(jié)：

小模型會(huì)憑空捏造數(shù)據(jù)，大模型會(huì)忽略數(shù)據(jù)，27B 直接串行處理了。

這其實(shí)揭示了一個(gè)深層問(wèn)題：大參數(shù)模型因?yàn)?見(jiàn)多識(shí)廣"，反而更傾向于依賴(lài)自己的記憶，對(duì)工具返回的實(shí)際數(shù)據(jù)產(chǎn)生了某種"不信任"

量化測(cè)試：Q6 是最佳選擇

確定了 27B 是最能打的模型后，下一個(gè)問(wèn)題來(lái)了：該用哪個(gè)量化版本？

stevibe 繼續(xù)測(cè)試了 Unsloth 提供的所有量化版本，從 Q2_K_XL 到 Q8_K_XL：

Qwen3.5-27B 量化版本

量化級(jí)別

通過(guò)數(shù)

15/15 ?

Q615/15

14/15

13/15

結(jié)論很清晰：Q6 是最佳甜蜜點(diǎn)

跟 Q8 拿到了一模一樣的滿(mǎn)分，但占用空間更小，推理速度更快

Q5 往下就開(kāi)始丟分了，說(shuō)明量化到一定程度確實(shí)會(huì)損失工具調(diào)用的精確性

更有意思的是，測(cè)試結(jié)果幾乎呈線(xiàn)性下降，這說(shuō)明 ToolCall-15 這個(gè)基準(zhǔn)測(cè)試確實(shí)在測(cè)量一些真實(shí)的東西，分?jǐn)?shù)變化不是隨機(jī)噪聲

下面是量化版本的詳細(xì)對(duì)比圖：

量化版本測(cè)試結(jié)果對(duì)比

有人質(zhì)疑：用 Temperature 0 測(cè)試是否公平，日常使用不都是 Temp 1 嗎？

stevibe 解釋?zhuān)篢emp 1 確實(shí)是通用場(chǎng)景下的默認(rèn)設(shè)置，但對(duì)于工具調(diào)用而言，Temperature 0 表現(xiàn)更好。Databricks 的研究發(fā)現(xiàn)，在函數(shù)調(diào)用任務(wù)中，Temp 0 和 0.7 之間的準(zhǔn)確率可能相差高達(dá) 10%。

這很好理解——工具調(diào)用本質(zhì)上是結(jié)構(gòu)化輸出：選對(duì)工具、傳對(duì)參數(shù)、按對(duì)格式。你需要的是確定性，而不是創(chuàng)造性。這跟你用低 Temperature 生成 JSON 或代碼是一個(gè)道理。

伯克利大學(xué)的 BFCL和 Databricks 的評(píng)估中，都使用較低的溫度來(lái)測(cè)試函數(shù)調(diào)用能力，可重復(fù)性基本上要求這樣做。當(dāng)然，如果你的使用場(chǎng)景包含創(chuàng)意元素，0.7+ 完全合理，目標(biāo)不同。

總結(jié)："Qwen3.5-27B 它緊湊、推理能力強(qiáng)、工具調(diào)用出色，Q6 精度 YYDS"

加上更是如有神助了！

ToolCall-15 這個(gè)開(kāi)源項(xiàng)目本身也值得一玩，如果你想評(píng)估自己本地部署的模型在工具調(diào)用上到底行不行，直接拿來(lái)用就好。

制作不易，如果這篇文章覺(jué)得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見(jiàn)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶(hù)端

相關(guān)推薦

熱點(diǎn)推薦

印度油輪在霍爾木茲遭炮擊船員喊話(huà)伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
15498 跟貼 15498

美財(cái)長(zhǎng)說(shuō)中國(guó)電車(chē)是燃煤車(chē)，網(wǎng)友評(píng)論一針見(jiàn)血

中國(guó)日?qǐng)?bào)網(wǎng) 2026-04-20 00:21:10
309 跟貼 309

山東乳山銀灘“195平米復(fù)式房”1萬(wàn)元起拍，已有多人競(jìng)價(jià)，拍賣(mài)公司：產(chǎn)證面積97.94平米，另有贈(zèng)送面積，非法拍可隨時(shí)過(guò)戶(hù)

極目新聞 2026-04-19 14:06:31
8983 跟貼 8983

蘇林訪華罕見(jiàn)深度體驗(yàn)中國(guó)高鐵 “半個(gè)政治局”都來(lái)了

國(guó)是直通車(chē) 2026-04-20 09:48:04
2 跟貼 2

媒體：日本近期一系列危險(xiǎn)動(dòng)作挑釁中國(guó) 中國(guó)需警惕

環(huán)球網(wǎng)資訊 2026-04-20 00:22:16
803 跟貼 803

五一假期火車(chē)票開(kāi)售以來(lái)，鐵路12306拒絕出票105.6萬(wàn)張

環(huán)球網(wǎng)資訊 2026-04-19 15:23:04
4103 跟貼 4103

“真銅實(shí)料”互嗆升級(jí)，海信高管稱(chēng)格力部分機(jī)型用鋁線(xiàn)電機(jī)

紅星資本局 2026-04-17 18:26:04
1781 跟貼 1781

廣東“莫氏雞煲大公主”爆火前后反差大，晚上干到凌晨2點(diǎn)才收工，發(fā)文吐槽：這個(gè)雞你們是非吃不可嗎

大象新聞 2026-04-15 12:57:04
1773 跟貼 1773

比賽提前結(jié)束，WSBK荷蘭站第二輪正賽張雪機(jī)車(chē)斬獲第七名

澎湃新聞 2026-04-19 20:28:26
11 跟貼 11

男子采蘑菇發(fā)現(xiàn)五步蛇離自己5米，盤(pán)縮落葉中和環(huán)境“融為一體”

星視頻 2026-04-19 15:46:19
493 跟貼 493

法國(guó)通過(guò)文物歸還法案敦煌藏經(jīng)洞文物就能回歸嗎

澎湃新聞 2026-04-20 08:08:29
3264 跟貼 3264

男子爬上泰山“五岳獨(dú)尊”石刻拍照，景區(qū)：將核查其身份進(jìn)行處理

揚(yáng)子晚報(bào) 2026-04-17 12:09:40
1381 跟貼 1381

日本“漲價(jià)之春”加重民生負(fù)擔(dān)

海外網(wǎng) 2026-04-20 09:40:34
13 跟貼 13

虛報(bào)77億、9.6億投資憑空造，河南：堅(jiān)決整改追責(zé)問(wèn)責(zé)

新京報(bào) 2026-04-19 17:01:05
722 跟貼 722

WTI原油期貨開(kāi)盤(pán)大漲7%

財(cái)聯(lián)社 2026-04-20 06:03:42
49 跟貼 49

“不差錢(qián)”的DeepSeek要融資了？投資人：或?yàn)槠跈?quán)定價(jià)留人才

第一財(cái)經(jīng)資訊 2026-04-19 13:10:09
608 跟貼 608

話(huà)題｜就差3分了！阿森納的聯(lián)賽冠軍夢(mèng)又要破碎？

北青網(wǎng)-北京青年報(bào) 2026-04-20 09:04:20
15 跟貼 15

連關(guān)2店，中國(guó)內(nèi)地已不到10家！網(wǎng)友：曾花過(guò)40萬(wàn)，現(xiàn)在真覺(jué)得浪費(fèi)錢(qián)

南方都市報(bào) 2026-04-20 07:37:25
3 跟貼 3

日本將借共同開(kāi)發(fā)之名向澳大利亞出口護(hù)衛(wèi)艦

新京報(bào) 2026-04-19 15:57:04
318 跟貼 318

特斯拉辟謠在上海超級(jí)工廠量產(chǎn)機(jī)器人

財(cái)聯(lián)社 2026-04-20 10:24:10
16 跟貼 16

糊涂！摩托車(chē)違規(guī)上外環(huán)，為了躲避處罰還折疊號(hào)牌！

上海長(zhǎng)寧 2026-04-20 12:38:48
0 跟貼 0

摧毀海上偷渡鏈！“獴獵”行動(dòng)68人落網(wǎng)細(xì)節(jié)曝光
環(huán)球網(wǎng)資訊
2026-04-19 13:23:28

一輛20萬(wàn)的新車(chē)，卡扣斷了，修不起；89元的零件逼人換13萬(wàn)電池包
娛樂(lè)圈的筆娛君
2026-04-20 02:07:08

主動(dòng)站出來(lái)認(rèn)罪的紅色高棉頭目----一個(gè)劊子手的罪與贖
通往遠(yuǎn)方的路
2026-04-20 09:57:44

中國(guó)有貨就是不賣(mài)！印度這次徹底失算，把全球供應(yīng)商都惹毛了
一個(gè)有靈魂的作者
2026-04-19 19:40:53

重要突破，科學(xué)家注射一個(gè)腫瘤細(xì)胞，全身癌細(xì)胞竟然消失
心中的麥田
2026-04-19 18:26:11

伊朗向中國(guó)通報(bào)！談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”，全程連電話(huà)都不敢打
荷蘭豆愛(ài)健康
2026-04-19 21:53:37

越南百億高鐵訂單給德國(guó)，來(lái)華體驗(yàn)12小時(shí)高鐵，背后算計(jì)太明顯
苗苗情感說(shuō)
2026-04-19 12:38:15

文班亞馬季后賽首秀：傳承開(kāi)始
張佳瑋寫(xiě)字的地方
2026-04-20 12:23:10

張?zhí)m暗示兒媳馬筱梅欲望旺盛，汪小菲別墅空調(diào)失靈，覬覦婆婆宅邸
樂(lè)悠悠娛樂(lè)
2026-04-20 10:47:48

爺爺生前錄音贈(zèng)孫女109萬(wàn)元遺產(chǎn)，六個(gè)姑姑不服要求平分，法院：錄音無(wú)效，重新分配，患小兒麻痹癥姑姑拿大頭
魯中晨報(bào)
2026-04-17 17:00:03

600年都不倒！天安門(mén)這4根重達(dá)2萬(wàn)多公斤的華表，有何特殊含義？
墨印齋
2026-04-14 00:57:55

復(fù)雜的黎巴嫩，走投無(wú)路的真主黨
寰宇大觀察
2026-04-17 17:36:11

靈隱寺砸飯碗！浙江4000寺廟大洗牌，滿(mǎn)街僧人有玄機(jī)
一口娛樂(lè)
2026-04-20 01:43:39

解氣！！！來(lái)而不往非禮也！中國(guó)海軍今天出手了！
樂(lè)趣紀(jì)史
2026-04-20 08:03:19

環(huán)球網(wǎng)資訊
2026-04-20 09:25:07

張本兄妹改名風(fēng)波再升級(jí)，韓媒強(qiáng)烈批評(píng)，這就是狠毒的創(chuàng)姓改稱(chēng)
有范又有料
2026-04-19 00:03:10

張雪機(jī)車(chē)，全球訂單狂飆
第一財(cái)經(jīng)資訊
2026-04-18 18:42:46

張雪回應(yīng)為何還有6圈提前結(jié)束比賽：有事故摩托車(chē)橫躺在賽道上
貝殼財(cái)經(jīng)
2026-04-19 23:56:03

一伊朗油輪突破美國(guó)封鎖進(jìn)入伊朗水域
每日經(jīng)濟(jì)新聞
2026-04-20 07:10:32

“DeepSeek首次融資”傳聞?wù)饎?dòng)市場(chǎng)！寒武紀(jì)、沐曦股份、摩爾線(xiàn)程和張雪機(jī)車(chē)的天使投資人都回應(yīng)了
證券時(shí)報(bào)
2026-04-19 22:52:02

2026-04-20 12:55:00

Ai學(xué)習(xí)的老章

Ai學(xué)習(xí)的老章

3334文章數(shù) 11137關(guān)注度

往期回顧全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收客戶(hù)衛(wèi)星未入軌

拋棄OpenAI，Anthropic為何成中國(guó)AI新偶像

高盛預(yù)言自動(dòng)駕駛是十年內(nèi)AI最大利潤(rùn)池

50分26秒破人類(lèi)紀(jì)錄！300臺(tái)機(jī)器人狂飆半馬

50分26秒！榮耀獲得人形機(jī)器人半馬冠軍

頭條要聞

媒體：伊朗剛說(shuō)不談美國(guó)立即開(kāi)打

服刑人員在監(jiān)獄遭虐待死亡"頭頂有個(gè)洞" 獄警獲刑8個(gè)月

牛彈琴：美國(guó)向伊朗貨輪開(kāi)火并將其控制該伊朗發(fā)飆了

90后女演員擊敗章子怡、馬麗奪得金像影后桂冠

美伊在阿曼灣交鋒畫(huà)面披露伊朗：將很快對(duì)美軍報(bào)復(fù)

頭條要聞

媒體：伊朗剛說(shuō)不談美國(guó)立即開(kāi)打

服刑人員在監(jiān)獄遭虐待死亡"頭頂有個(gè)洞" 獄警獲刑8個(gè)月

牛彈琴：美國(guó)向伊朗貨輪開(kāi)火并將其控制該伊朗發(fā)飆了

90后女演員擊敗章子怡、馬麗奪得金像影后桂冠

美伊在阿曼灣交鋒畫(huà)面披露伊朗：將很快對(duì)美軍報(bào)復(fù)

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣！文班或全票DPOY

馬刺擒開(kāi)拓者1-0 文班35分楊瀚森登場(chǎng)阿夫迪亞30+10

季后賽G1總結(jié)：僅活塞遭下克上+湖人贏9分最少分差創(chuàng)歷史第四高

英超天王山戰(zhàn)：曼城2比1阿森納，多納魯馬超巨失誤送禮，謝爾基、哈蘭德建功

首場(chǎng)下克上！魔術(shù)滅活塞總分1-0 坎寧安39+5+4班凱羅23+9

娛樂(lè)要聞

鹿晗生日上熱搜，被關(guān)曉彤撕下體面

李雨桐泄露薛之謙身份證號(hào)手機(jī)號(hào)，被警方行拘

章子怡增重20斤，素顏現(xiàn)身武漢街頭

鄧超陳赫凌晨卡點(diǎn)給鹿晗送生日祝福

陳亞男和老公秀恩愛(ài)，男方勇敢又帥氣

財(cái)經(jīng)要聞

月之暗面IPO迷局

LPR連續(xù)11個(gè)月“按兵不動(dòng)”，什么原因？

100億、200億、230億接連砸下，這個(gè)行業(yè)在巨變

零售賺514億、新業(yè)務(wù)虧466億：劉強(qiáng)東為何停不下來(lái)？

沒(méi)有一個(gè)文青能逃過(guò)北京書(shū)市？

汽車(chē)要聞

把天門(mén)山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻我腿軟了

豪華智能大五座星途EX7上市限時(shí)置換價(jià)19.49萬(wàn)起

雷軍直播回應(yīng)被貼“營(yíng)銷(xiāo)大師”標(biāo)簽：表面上是夸, 實(shí)質(zhì)上是黑

奧迪“掀桌了”！德味純電A6L續(xù)航815km+華為智駕賦能

獵裝+V12！實(shí)拍法拉利FF 14年車(chē)齡還能值百萬(wàn)？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時(shí)尚

房產(chǎn)

本地

手機(jī)

公開(kāi)課

今年最流行的衣服竟然是它？高級(jí)又氣質(zhì)！

裝修“精神角落”，就是這么上癮

這些才是最適合普通人的造型！不用穿大牌、不老套，真實(shí)自然

3組出游穿搭，驚艷你的假期！

房產(chǎn)要聞

官宣簽約最強(qiáng)城更！海口樓市，突然殺入神秘房企！

重磅利好！2500個(gè)學(xué)位，海口濱江片區(qū)，要建九年一貫制學(xué)校！

2600億砸向城更，海南要巨變！

動(dòng)真格！重拳出擊，海南整治物業(yè)亂象，事關(guān)你家房?jī)r(jià)！

本地新聞

12噸巧克力有難，全網(wǎng)化身超級(jí)偵探添亂

建水Color Walk | 古城慢調(diào)，掉進(jìn)春天的調(diào)色盤(pán)里

南寧Color Walk | 綠城花巷，每一步都是春天的驚喜

當(dāng)春假“撞”上清明 “含娃量”創(chuàng)歷史新高

手機(jī)要聞

一加Ace6至尊版手機(jī)官宣4月28日發(fā)布：天璣9500、8600mAh

消息稱(chēng)某廠驍龍8 Elite Gen6 Pro手機(jī)新開(kāi)6.9英寸直屏

上市還沒(méi)半年！三星三折疊屏手機(jī)面臨退市友商跟華為差距太遠(yuǎn)

古爾曼：蘋(píng)果iOS 27主屏幕編輯將加入撤銷(xiāo)/重做快捷開(kāi)關(guān)

公開(kāi)課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門(mén)檻

為什么人類(lèi)有不同的膚色？

13個(gè)毀掉你生活的不良習(xí)慣

李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Qwen3.5 系列，最優(yōu)選擇 27B，最優(yōu)精度 Q6

藍(lán)色起源一級(jí)火箭完美回收 客戶(hù)衛(wèi)星未入軌

媒體：伊朗剛說(shuō)不談 美國(guó)立即開(kāi)打

媒體：伊朗剛說(shuō)不談 美國(guó)立即開(kāi)打

七大獎(jiǎng)項(xiàng)候選官宣！文班或全票DPOY

鹿晗生日上熱搜，被關(guān)曉彤撕下體面

月之暗面IPO迷局

把天門(mén)山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

今年最流行的衣服竟然是它？高級(jí)又氣質(zhì)！

官宣簽約最強(qiáng)城更！海口樓市，突然殺入神秘房企！

12噸巧克力有難，全網(wǎng)化身超級(jí)偵探添亂

一加Ace6至尊版手機(jī)官宣4月28日發(fā)布：天璣9500、8600mAh

藍(lán)色起源一級(jí)火箭完美回收客戶(hù)衛(wèi)星未入軌

媒體：伊朗剛說(shuō)不談美國(guó)立即開(kāi)打

媒體：伊朗剛說(shuō)不談美國(guó)立即開(kāi)打

把天門(mén)山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻我腿軟了