我之前也寫(xiě)過(guò)
工具調(diào)用(Tool Calling / Function Calling)是大模型從"能聊天"進(jìn)化到"能干活"的關(guān)鍵能力,沒(méi)有這個(gè)能力,Agent 就是空中樓閣
問(wèn)題來(lái)了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個(gè)尺寸真的能可靠地調(diào)用工具?
ToolCall-15:15 道題,照出模型真面目
這個(gè)ToolCall-15開(kāi)源基準(zhǔn)測(cè)試框架(github.com/stevibe/ToolCall-15),專(zhuān)門(mén)測(cè)試 LLM 的工具調(diào)用能力:
15 個(gè)場(chǎng)景,覆蓋 5 大類(lèi)能力(每類(lèi) 3 個(gè))
12 個(gè)工具,模型每次都能看到全部工具
模擬響應(yīng),確保結(jié)果確定性、可復(fù)現(xiàn)
Temperature 設(shè)為 0,排除隨機(jī)性干擾
不挑測(cè)試,全部跑完,沒(méi)有選擇性地只跑好看的
下面是 ToolCall-15 的測(cè)試看板:
![]()
ToolCall-15 測(cè)試看板 五大考核維度,全是實(shí)戰(zhàn)場(chǎng)景
ToolCall-15 測(cè)的不是什么花里胡哨的學(xué)術(shù)指標(biāo),全是真實(shí)場(chǎng)景下模型會(huì)遇到的問(wèn)題:
類(lèi)別
測(cè)試內(nèi)容
舉例
工具選擇
能不能選對(duì)工具?
問(wèn)柏林天氣,該用get_weather還是web_search?
參數(shù)精度
參數(shù)傳對(duì)了嗎?
用戶(hù)要華氏溫度,你傳了fahrenheit沒(méi)?
多步鏈?zhǔn)?/strong>
能不能串聯(lián)多個(gè)工具?
搜文件 → 讀內(nèi)容 → 查聯(lián)系人 → 發(fā)郵件
克制與拒絕
不該用工具時(shí)能忍住嗎?
"二戰(zhàn)哪年結(jié)束?" 你別去web_search啊
? 錯(cuò)誤恢復(fù)
工具報(bào)錯(cuò)了怎么辦?
搜索沒(méi)結(jié)果,是放棄還是換個(gè)關(guān)鍵詞重試?
每個(gè)場(chǎng)景評(píng)分:? 滿(mǎn)分(2分)、?? 半分(1分)、? 零分
Qwen3.5 全家桶測(cè)試結(jié)果:27B 獨(dú)占鰲頭
原作者 stevibe 把 Qwen3.5 全系列模型都拉出來(lái)溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本
結(jié)果出來(lái),我直接震驚了,397B 的巨無(wú)霸打不過(guò) 27B:
模型
通過(guò)數(shù)
Qwen3.5-27B15/15
唯一滿(mǎn)分的原版模型
Qwen3.5-27B 蒸餾版15/15
蒸餾也滿(mǎn)分,工具調(diào)用能力保留完整
Qwen3.5-397B
13/15
兩個(gè)測(cè)試未通過(guò)
Qwen3.5-122B
14/15
一個(gè)測(cè)試未通過(guò)
Qwen3.5-35B
13/15
兩個(gè)測(cè)試未通過(guò)
小參數(shù)模型(0.8B~14B)
大量超時(shí)
陷入工具調(diào)用死循環(huán)
最暴露模型的一道題
15 個(gè)場(chǎng)景里,最有意思的是第 15 題(TC-15):
"搜索冰島的人口數(shù)量,然后計(jì)算其 2% "
看起來(lái)簡(jiǎn)單吧?先搜索,拿到數(shù)據(jù),再算個(gè)乘法。但就這道題,暴露了不同尺寸模型的致命弱點(diǎn):
小模型(0.8B~14B):直接編數(shù)據(jù),連搜索都不做,或者陷入死循環(huán)反復(fù)調(diào)用同一個(gè)工具,直到 30 秒超時(shí)
大模型(35B、122B、397B):明明搜索結(jié)果返回了精確數(shù)字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信
?27B:老老實(shí)實(shí)搜索,拿到 372,520,傳給計(jì)算器算
372520 * 0.02 = 7450.4,完美
一句話(huà)總結(jié):
小模型會(huì)憑空捏造數(shù)據(jù),大模型會(huì)忽略數(shù)據(jù),27B 直接串行處理了。
這其實(shí)揭示了一個(gè)深層問(wèn)題:大參數(shù)模型因?yàn)?見(jiàn)多識(shí)廣",反而更傾向于依賴(lài)自己的記憶,對(duì)工具返回的實(shí)際數(shù)據(jù)產(chǎn)生了某種"不信任"
量化測(cè)試:Q6 是最佳選擇
確定了 27B 是最能打的模型后,下一個(gè)問(wèn)題來(lái)了:該用哪個(gè)量化版本?
stevibe 繼續(xù)測(cè)試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:
![]()
Qwen3.5-27B 量化版本
量化級(jí)別
通過(guò)數(shù)
Q8
15/15 ?
Q615/15
Q5
14/15
Q4
14/15
Q3
14/15
Q2
13/15
結(jié)論很清晰:Q6 是最佳甜蜜點(diǎn)
跟 Q8 拿到了一模一樣的滿(mǎn)分,但占用空間更小,推理速度更快
Q5 往下就開(kāi)始丟分了,說(shuō)明量化到一定程度確實(shí)會(huì)損失工具調(diào)用的精確性
更有意思的是,測(cè)試結(jié)果幾乎呈線(xiàn)性下降,這說(shuō)明 ToolCall-15 這個(gè)基準(zhǔn)測(cè)試確實(shí)在測(cè)量一些真實(shí)的東西,分?jǐn)?shù)變化不是隨機(jī)噪聲
下面是量化版本的詳細(xì)對(duì)比圖:
![]()
量化版本測(cè)試結(jié)果對(duì)比
有人質(zhì)疑:用 Temperature 0 測(cè)試是否公平,日常使用不都是 Temp 1 嗎?
stevibe 解釋?zhuān)篢emp 1 確實(shí)是通用場(chǎng)景下的默認(rèn)設(shè)置,但對(duì)于工具調(diào)用而言,Temperature 0 表現(xiàn)更好。Databricks 的研究發(fā)現(xiàn),在函數(shù)調(diào)用任務(wù)中,Temp 0 和 0.7 之間的準(zhǔn)確率可能相差高達(dá) 10%。
這很好理解——工具調(diào)用本質(zhì)上是結(jié)構(gòu)化輸出:選對(duì)工具、傳對(duì)參數(shù)、按對(duì)格式。你需要的是確定性,而不是創(chuàng)造性。這跟你用低 Temperature 生成 JSON 或代碼是一個(gè)道理。
伯克利大學(xué)的 BFCL和 Databricks 的評(píng)估中,都使用較低的溫度來(lái)測(cè)試函數(shù)調(diào)用能力,可重復(fù)性基本上要求這樣做。當(dāng)然,如果你的使用場(chǎng)景包含創(chuàng)意元素,0.7+ 完全合理,目標(biāo)不同。
總結(jié):"Qwen3.5-27B 它緊湊、推理能力強(qiáng)、工具調(diào)用出色,Q6 精度 YYDS"
加上更是如有神助了!
ToolCall-15 這個(gè)開(kāi)源項(xiàng)目本身也值得一玩,如果你想評(píng)估自己本地部署的模型在工具調(diào)用上到底行不行,直接拿來(lái)用就好。
.5
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.