<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Qwen3.5 系列,最優選擇 27B,最優精度 Q6

      0
      分享至

      我之前也寫過

      工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣

      問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?

      ToolCall-15:15 道題,照出模型真面目

      這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:

      • 15 個場景,覆蓋 5 大類能力(每類 3 個)

      • 12 個工具,模型每次都能看到全部工具

      • 模擬響應,確保結果確定性、可復現

      • Temperature 設為 0,排除隨機性干擾

      • 不挑測試,全部跑完,沒有選擇性地只跑好看的

      下面是 ToolCall-15 的測試看板:


      ToolCall-15 測試看板 五大考核維度,全是實戰場景

      ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:

      類別

      測試內容

      舉例

      工具選擇

      能不能選對工具?

      問柏林天氣,該用get_weather還是web_search

      參數精度

      參數傳對了嗎?

      用戶要華氏溫度,你傳了fahrenheit沒?

      多步鏈式

      能不能串聯多個工具?

      搜文件 → 讀內容 → 查聯系人 → 發郵件

      克制與拒絕

      不該用工具時能忍住嗎?

      "二戰哪年結束?" 你別去web_search

      ? 錯誤恢復

      工具報錯了怎么辦?

      搜索沒結果,是放棄還是換個關鍵詞重試?

      每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分

      Qwen3.5 全家桶測試結果:27B 獨占鰲頭

      原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本

      結果出來,我直接震驚了,397B 的巨無霸打不過 27B:

      模型

      通過數

      Qwen3.5-27B15/15

      唯一滿分的原版模型

      Qwen3.5-27B 蒸餾版15/15

      蒸餾也滿分,工具調用能力保留完整

      Qwen3.5-397B

      13/15

      兩個測試未通過

      Qwen3.5-122B

      14/15

      一個測試未通過

      Qwen3.5-35B

      13/15

      兩個測試未通過

      小參數模型(0.8B~14B)

      大量超時

      陷入工具調用死循環


      最暴露模型的一道題

      15 個場景里,最有意思的是第 15 題(TC-15):

      "搜索冰島的人口數量,然后計算其 2% "

      看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點

      • 小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環反復調用同一個工具,直到 30 秒超時

      • 大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信

      • ?27B:老老實實搜索,拿到 372,520,傳給計算器算372520 * 0.02 = 7450.4,完美

      一句話總結:

      小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。

      這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"

      量化測試:Q6 是最佳選擇

      確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?

      stevibe 繼續測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:


      Qwen3.5-27B 量化版本

      量化級別

      通過數

      Q8

      15/15 ?

      Q615/15

      Q5

      14/15

      Q4

      14/15

      Q3

      14/15

      Q2

      13/15

      結論很清晰:Q6 是最佳甜蜜點

      跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快

      Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性

      更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲

      下面是量化版本的詳細對比圖:


      量化版本測試結果對比

      有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?

      stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。

      這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

      伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創意元素,0.7+ 完全合理,目標不同。

      總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"

      加上更是如有神助了!

      ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      教育
      家居
      旅游
      公開課
      軍事航空

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      家居要聞

      歲月靜好 典雅新章

      旅游要聞

      河南中牟:地鐵直達赴春約 “微度假”成春日近郊游爆款

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗自殺無人機突進 逼退林肯號航母

      無障礙瀏覽 進入關懷版