我之前也寫過
工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣
問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?
ToolCall-15:15 道題,照出模型真面目
這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:
15 個場景,覆蓋 5 大類能力(每類 3 個)
12 個工具,模型每次都能看到全部工具
模擬響應,確保結果確定性、可復現
Temperature 設為 0,排除隨機性干擾
不挑測試,全部跑完,沒有選擇性地只跑好看的
下面是 ToolCall-15 的測試看板:
![]()
ToolCall-15 測試看板 五大考核維度,全是實戰場景
ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:
類別
測試內容
舉例
工具選擇
能不能選對工具?
問柏林天氣,該用get_weather還是web_search?
參數精度
參數傳對了嗎?
用戶要華氏溫度,你傳了fahrenheit沒?
多步鏈式
能不能串聯多個工具?
搜文件 → 讀內容 → 查聯系人 → 發郵件
克制與拒絕
不該用工具時能忍住嗎?
"二戰哪年結束?" 你別去web_search啊
? 錯誤恢復
工具報錯了怎么辦?
搜索沒結果,是放棄還是換個關鍵詞重試?
每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分
Qwen3.5 全家桶測試結果:27B 獨占鰲頭
原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本
結果出來,我直接震驚了,397B 的巨無霸打不過 27B:
模型
通過數
Qwen3.5-27B15/15
唯一滿分的原版模型
Qwen3.5-27B 蒸餾版15/15
蒸餾也滿分,工具調用能力保留完整
Qwen3.5-397B
13/15
兩個測試未通過
Qwen3.5-122B
14/15
一個測試未通過
Qwen3.5-35B
13/15
兩個測試未通過
小參數模型(0.8B~14B)
大量超時
陷入工具調用死循環
最暴露模型的一道題
15 個場景里,最有意思的是第 15 題(TC-15):
"搜索冰島的人口數量,然后計算其 2% "
看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點:
小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環反復調用同一個工具,直到 30 秒超時
大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信
?27B:老老實實搜索,拿到 372,520,傳給計算器算
372520 * 0.02 = 7450.4,完美
一句話總結:
小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。
這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"
量化測試:Q6 是最佳選擇
確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?
stevibe 繼續測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:
![]()
Qwen3.5-27B 量化版本
量化級別
通過數
Q8
15/15 ?
Q615/15
Q5
14/15
Q4
14/15
Q3
14/15
Q2
13/15
結論很清晰:Q6 是最佳甜蜜點
跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快
Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性
更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲
下面是量化版本的詳細對比圖:
![]()
量化版本測試結果對比
有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?
stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。
這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。
伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創意元素,0.7+ 完全合理,目標不同。
總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"
加上更是如有神助了!
ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。
.5
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.