網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LLM多跳推理深度測(cè)試：四項(xiàng)指標(biāo)精準(zhǔn)定位模型的推理極限

2026-01-16 20:41:02　來(lái)源: deephub

北京舉報(bào)

分享至

LLM 在多步驟問(wèn)題求解上的表現(xiàn)已經(jīng)相當(dāng)不錯(cuò)了，但復(fù)雜邏輯鏈的處理仍然是個(gè)難題。模型的推理深度直接決定了它在多跳推理任務(wù)中能走多遠(yuǎn)、有多可靠。

本文會(huì)介紹推理深度的核心機(jī)制然后用四項(xiàng)壓力測(cè)試指標(biāo)對(duì) Llama 3.2 和 Qwen 3 做個(gè)橫向?qū)Ρ瓤纯此鼈兊倪壿嫎O限在哪里。

什么是多跳推理

多跳問(wèn)題要求模型沿著邏輯鏈一步步往下走，每一"跳"就是一次推理，把初始問(wèn)題和最終答案之間的邏輯缺口補(bǔ)上。

下圖展示了數(shù)學(xué)任務(wù)中推理深度如何隨邏輯運(yùn)算數(shù)量遞增：

推理深度就是輸入到結(jié)論之間的邏輯距離。圖 A 左邊的問(wèn)題是 d = 2，右邊是 d = 4。

不管什么類型的任務(wù)多跳問(wèn)題都有幾個(gè)共同點(diǎn)：答案藏在層層子問(wèn)題下面；模型得在不出幻覺(jué)、不犯錯(cuò)的情況下跑完整條鏈；深度越高越難，鏈條中間哪怕錯(cuò)一步，后面就全廢了。

任務(wù)復(fù)雜度與推理深度的對(duì)應(yīng)關(guān)系

選什么模型架構(gòu)，得先看清任務(wù)需要多少步推理。

這里把主要的 LLM 任務(wù)分成三檔：淺層（d < 3）、中等（d = 3–5）、深層（d = 6+），每一檔的工程需求差別很大。

推理深度的分類

圖 B：各任務(wù)領(lǐng)域的推理深度

表里每個(gè)格子包含任務(wù)類型、工程需求和市面上對(duì)應(yīng)的模型。從左到右模型的工作模式從簡(jiǎn)單的模式匹配變成多步驟的執(zhí)行功能。

淺層推理：一次性模式匹配

淺層任務(wù)只有 1 到 2 步推理。模型做的事情很簡(jiǎn)單：輸入特征，直接映射到輸出標(biāo)簽，不需要規(guī)劃，不需要推敲，就是單次推理加局部特征提取。

舉幾個(gè) d = 1 的例子：表格數(shù)據(jù)上根據(jù)閾值判斷交易是否欺詐；NLP 里判斷評(píng)論是正面還是負(fù)面；圖像分類里區(qū)分貓和狗。

這類任務(wù)用 BERT、DistilBERT 或 Gemini Flash 就夠了。表格數(shù)據(jù)的話，LightGBM 這種傳統(tǒng)樹(shù)模型可能比 LLM 更合適，延遲低、精度高。

中等推理：上下文整合

中等任務(wù)的推理深度到 5，模型需要把分散的信息點(diǎn)拼成一個(gè)連貫結(jié)構(gòu)。上下文窗口里得維護(hù)中間狀態(tài)，保證最后的輸出和開(kāi)頭邏輯上能對(duì)得上。核心是上下文綜合加多點(diǎn)注意力。

d = 5 的例子：多時(shí)間跨度的需求預(yù)測(cè)，要考慮季節(jié)性、節(jié)假日、趨勢(shì)變化；總結(jié) 50 頁(yè)法律記錄還得保持發(fā)言者的意圖；從復(fù)雜 PDF 發(fā)票里提數(shù)據(jù)然后算稅差。

GPT-45、Claude 4.5 Sonnet 這類擅長(zhǎng)上下文理解的模型比較適合。

深層推理：系統(tǒng) 2 思維

深層任務(wù)推理深度 6+的最大的特點(diǎn)是順序依賴——當(dāng)前步驟對(duì)不對(duì)，完全取決于前面每一步有沒(méi)有出問(wèn)題。這意味著模型得有分支邏輯、錯(cuò)誤檢測(cè)和回溯能力，核心是測(cè)試時(shí)計(jì)算加 CoT 強(qiáng)化。

而d = 10 長(zhǎng)什么樣？人形機(jī)器人在不平地面上保持平衡的同時(shí)計(jì)算抬起未知物體需要多大扭矩；調(diào)試橫跨三個(gè)文件、兩種語(yǔ)言的微服務(wù)架構(gòu) bug；從稀疏 2D 視頻幀重建 NeRF。

這種任務(wù)得用系統(tǒng) 2 思維的模型，比如 OpenAI o1/o3 和 DeepSeek-R1——它們會(huì)在給出答案之前先把邏輯想清楚，如果沒(méi)有自我糾正循環(huán)的中端模型往往走到一半就開(kāi)始產(chǎn)生幻覺(jué)。

深層推理的工程要求

部署深層推理模型，基礎(chǔ)設(shè)施得從簡(jiǎn)單推理轉(zhuǎn)向復(fù)雜狀態(tài)管理。

測(cè)試時(shí)計(jì)算這塊，深層推理器和淺層模型完全不一樣：它的性能隨思考時(shí)間增長(zhǎng)。DeepSeek-R1 這類模型會(huì)生成幾千個(gè)內(nèi)部 CoT Token，邊走邊驗(yàn)證假設(shè)、丟棄錯(cuò)誤路徑。

KV 緩存管理也是個(gè)大問(wèn)題。深層任務(wù)需要很大的緩存容量來(lái)處理長(zhǎng)上下文和推理鏈，得用緩存壓縮或 PagedAttention 來(lái)防止災(zāi)難性遺忘。

還有反饋循環(huán)，深層推理模型會(huì)自己批評(píng)自己——比如寫(xiě)代碼時(shí)會(huì)模擬執(zhí)行、發(fā)現(xiàn)潛在異常，然后在內(nèi)部重寫(xiě)邏輯塊。

這里的關(guān)鍵是讓推理預(yù)算匹配推理深度。把一個(gè) d=10 級(jí)別的推理模型用在 d=1 的情感分析任務(wù)上，純粹是浪費(fèi)算力。

怎么測(cè)量 LLM 的推理極限

測(cè)量推理深度沒(méi)有萬(wàn)全的方法需要看具體目標(biāo)。一般 4 項(xiàng)指標(biāo)：Multi-LogiEval（準(zhǔn)確率隨推理深度增加衰減多少）、過(guò)程基準(zhǔn)測(cè)試（模型在哪一步開(kāi)始產(chǎn)生幻覺(jué)）、泛化性系數(shù)（模型用的是第一性原理還是模式匹配）、思考-輸出比（模型給答案之前想了多久）。

1、Multi-LogiEval

Multi-LogiEval 是最常見(jiàn)的壓力測(cè)試框架是專門用來(lái)找 LLM 推理深度的天花板的，它測(cè)的是步驟感知的準(zhǔn)確率衰減也就是推理深度往上加的時(shí)候，模型的邏輯連貫性在哪個(gè)點(diǎn)開(kāi)始崩。

核心指標(biāo)

這個(gè)方法把準(zhǔn)確率畫(huà)成推理深度的函數(shù)，找出推理墻，也就是模型準(zhǔn)確率（Acc@d）跌破臨界閾值（比如 50%）的那個(gè)深度。

Acc@d 就是正確答案數(shù)除以總問(wèn)題數(shù)：

衰減率計(jì)算的是深度增加時(shí)準(zhǔn)確率掉了多少：

Acc@d8 和 Acc@d2 分別是模型在 d = 8 和 d = 2 時(shí)的準(zhǔn)確率。

比如從 d = 2 開(kāi)始算衰減率：d = 3 掉 20 點(diǎn)，d = 4 掉 30 點(diǎn)，d = 5 掉 32 點(diǎn)，d = 6 掉 40 點(diǎn)，d = 7 掉 55 點(diǎn)低于閾值這就是撞墻了，d = 8 掉 68 點(diǎn)。

實(shí)現(xiàn)方法：遞增復(fù)雜度階梯

實(shí)現(xiàn)這個(gè)方法要先創(chuàng)建同構(gòu)邏輯任務(wù)：多個(gè)任務(wù)共享相同的核心概念，但隨著鏈條延長(zhǎng)逐步加入邏輯干擾。

拿數(shù)學(xué)問(wèn)題舉例，設(shè)計(jì)三個(gè)任務(wù)：基線（d = 2，淺層推理，建立基準(zhǔn)準(zhǔn)確率）、任務(wù) A（d = 5，中等推理）、任務(wù) B（d = 8，深層推理）。

給每個(gè)任務(wù)寫(xiě)提示詞，配合 CoT 來(lái)定位失敗節(jié)點(diǎn)：

逐步思考，并為你的每個(gè)計(jì)算步驟編號(hào)。

基線問(wèn)題：

一列火車起始有 50 名乘客。10 人下車，5 人上車。現(xiàn)在火車上有多少人？

邏輯步驟（d = 2）：起始 50，減 10 得 40，加 5 得 45。正確答案：45。

任務(wù) A：

一列火車起始有 50 名乘客。第一站 10 人下車、5 人上車。第二站剩余乘客的 20% 下車。現(xiàn)在火車上有多少人？

邏輯步驟（d = 5）：50 減 10 得 40，加 5 得 45，45 乘 0.2 得 9，45 減 9 得 36。正確答案：36。

這里加了百分比運(yùn)算，模型得在執(zhí)行非簡(jiǎn)單加減法時(shí)維護(hù)運(yùn)行狀態(tài)。

任務(wù) B：

一列火車起始有 50 名乘客。第一站 10 人下車、5 人上車。第二站剩余乘客的 20% 下車。第三站乘客人數(shù)翻倍。最后一站 20 人下車、10 人上車。但車站工作人員決定火車上只能保留 30 人。現(xiàn)在必須有多少人下車？

邏輯步驟：50 減 10 得 40，加 5 得 45，45 乘 0.2 得 9，45 減 9 得 36，36 乘 2 得 72，72 減 20 得 52，52 加 10 得 62，62 減 30 得 32。正確答案：32。

步驟 5 有翻倍，步驟 8 有容量約束。順序依賴性極高，步驟 3 錯(cuò)了后面全完蛋。

定量分析

每個(gè)任務(wù)跑 N=100 次迭代，生成統(tǒng)計(jì)顯著的衰減曲線。

import re
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoConfig
model_id = 'Qwen/Qwen3-8B'
# config tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
# config model
config = AutoConfig.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
config=config,
trust_remote_code=True,
dtype=torch.float16,
device_map="cpu"
)
# config llm pipeline
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
# prompt
messages = [{"role": "user", "content": prompt}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
# iteration
n_iterations = 20
for i in range(n_iterations):
# call generator
output_list = generator(
formatted_prompt,
max_new_tokens=512,
do_sample=True,
temperature=0.7
)
# extract answer
output = output_list[0]['generated_text']
answer_part = output.replace(formatted_prompt, "")
matches = re.findall(r"The correct answer: (\d+)", answer_part)
# count success
if matches and int(matches[-1]) == answers[d]: success_count += 1
# calc acc_d score
acc = success_count / n_iterations

生產(chǎn)環(huán)境做基準(zhǔn)測(cè)試時(shí)一般設(shè) temperature=0 保證可重復(fù)性。但壓力測(cè)試隨機(jī)失敗的話，會(huì)故意在 0.7 到 1.2 之間進(jìn)行調(diào)整。

結(jié)果如下：

表 1. Multi-LogiEval 壓力測(cè)試結(jié)果

Llama 3.2 的推理深度明顯強(qiáng)于 Qwen 3。兩個(gè)模型在 2 步邏輯上都接近滿分但到 8 步的時(shí)候，Qwen 3 垮了，Llama 3.2 還能保持 65%。Qwen 3 的衰減率很慘，Llama 3.2 則相對(duì)穩(wěn)定，邏輯持久力明顯更強(qiáng)。

推理墻在中端模型里很常見(jiàn)。它們往往在 d = 5 左右出現(xiàn)斷崖式下跌（比如從 80% 掉到 40%），而 OpenAI o3 或 DeepSeek-R1 這類推理模型能把平穩(wěn)線拉得更長(zhǎng)。

擴(kuò)展評(píng)估

為了排除提示運(yùn)氣，可以生成 20 個(gè)邏輯階梯變體：把"火車乘客"換成"倉(cāng)庫(kù)庫(kù)存"或"網(wǎng)絡(luò)緩沖區(qū)數(shù)據(jù)包"。

然后觀察失敗模式是一致的還是隨機(jī)的。如果模型在所有 20 個(gè)變體的 d = 4 處都失敗，說(shuō)明演繹狀態(tài)管理有結(jié)構(gòu)性缺陷。如果失敗點(diǎn)隨機(jī)分布，那問(wèn)題可能是上下文窗口噪聲或注意力漂移，就是模型在同一提示的不同迭代中沒(méi)法穩(wěn)定地檢索相關(guān)信息。

隨機(jī)失敗能暴露邏輯極限的底層機(jī)制。

"中間丟失"注意力：模型抓不住長(zhǎng)上下文窗口中間位置的信息。解決辦法是提示工程——把關(guān)鍵數(shù)據(jù)挪到開(kāi)頭或結(jié)尾，重復(fù)關(guān)鍵指令，或者讓模型執(zhí)行任務(wù)前先總結(jié)一遍上下文。

Token 競(jìng)爭(zhēng)：不相關(guān)的 Token 搶走了注意力權(quán)重，特別是在高噪聲環(huán)境下。解決辦法是用嚴(yán)格格式（比如 ### DATA ###）或約束語(yǔ)（DO NOT …），再配合少樣本采樣。

Softmax 方差：浮點(diǎn)數(shù)的微小波動(dòng)可能讓模型漏掉之前抓到的邏輯連接。解決辦法是貪婪解碼或者直接把溫度降到 0。

Multi-LogiEval 的優(yōu)勢(shì)

這個(gè)方法能精確定位推理墻在哪里；涵蓋 30 多條推理規(guī)則，評(píng)估比較全面；而且是零樣本測(cè)試，測(cè)的是模型的內(nèi)在推理能力而不是從少樣本提示里抄答案的能力。

局限性

性能在墻那里直接斷崖，但基準(zhǔn)測(cè)試不告訴你模型過(guò)了極限之后怎么修。邏輯鏈?zhǔn)侨斯ど傻模瑸榱丝刂粕疃瓤赡茱@得不太自然。還有個(gè)問(wèn)題是算術(shù)混淆——模型撞墻可能不是因?yàn)閬G了邏輯，而是算錯(cuò)了一步。步驟 4 錯(cuò)了是因?yàn)閿?shù)學(xué)算錯(cuò)，雖然錯(cuò)誤一路傳到最后，但模型其實(shí)一直在老老實(shí)實(shí)地執(zhí)行邏輯。

用在哪里

模型選型的時(shí)候Multi-LogiEval 能看出哪個(gè)模型在長(zhǎng)鏈思維上更有耐力。

做架構(gòu)分析時(shí)可以看增加參數(shù)量到底有沒(méi)有增加推理深度：70B 模型是真的比 8B 更聰明，還是只是記住了更多事實(shí)。

部署自主智能體之前Multi-LogiEval 能預(yù)估智能體在 10 步工作流程的第 7 步掛掉的概率。

2、過(guò)程基準(zhǔn)測(cè)試

過(guò)程基準(zhǔn)測(cè)試用更大的語(yǔ)言模型做 LLM-as-a-Judge給 CoT 里的每一步打分。

核心指標(biāo)

它算的是逐步有效性分?jǐn)?shù)：

下表是 d = 8 的任務(wù) B 的結(jié)果：

表 2. Qwen 3 和 Llama 3.2 在任務(wù) B 上的逐步有效性熱力圖

Judge 給每一步打分：有效是 1，無(wú)效是 0。

Qwen 3 在步驟 5 出了幻覺(jué)，所以它的推理深度被 Judge 卡在 4。步驟 5 之后就算偶然蒙對(duì)了，Judge 也不認(rèn)，因?yàn)檫@些答案建立在幻覺(jué)前提上。最終 Qwen 3 拿了 4/8沒(méi)過(guò)，而Llama 3.2 全程正確，滿分通過(guò)。

優(yōu)勢(shì)

能精確定位失敗節(jié)點(diǎn)；提供模型實(shí)際推理深度的清晰畫(huà)面；過(guò)濾掉僥幸猜對(duì)的情況，區(qū)分真懂邏輯和純靠蒙；給 RLHF 提供更好的獎(jiǎng)勵(lì)信號(hào)，因?yàn)楠?jiǎng)勵(lì)的是具體的邏輯行為。

局限性

計(jì)算成本高——評(píng)估一條 10 步推理鏈的每一步，可能比標(biāo)準(zhǔn)基準(zhǔn)測(cè)試貴 10 倍還慢。結(jié)果質(zhì)量取決于 Judge 模型的能力，如果 Judge 不夠強(qiáng)可能漏掉微妙的邏輯謬誤。鏈條太長(zhǎng)的話Judge 自己也可能跟丟早期約束，導(dǎo)致評(píng)估本身出問(wèn)題。

用在哪里

醫(yī)療或工程這種安全關(guān)鍵領(lǐng)域，計(jì)算的每一步都要驗(yàn)證，過(guò)程基準(zhǔn)測(cè)試能確保中間沒(méi)有隱藏錯(cuò)誤。

AI 輔導(dǎo)場(chǎng)景下，系統(tǒng)得能準(zhǔn)確告訴學(xué)生哪一步錯(cuò)了，比如"步驟 1 到 3 是對(duì)的，但步驟 4 乘百分比時(shí)算錯(cuò)了"。

法律分析、財(cái)務(wù)預(yù)測(cè)這類邏輯密集型工作流程，一個(gè)邏輯步驟出錯(cuò)（比如誤讀稅法條款）就能讓整份報(bào)告作廢。

還能檢測(cè)數(shù)據(jù)污染——如果最終答案對(duì)了但中間步驟是錯(cuò)的，說(shuō)明模型可能只是記住了訓(xùn)練數(shù)據(jù)里的答案。

3、泛化系數(shù)

泛化性系數(shù)測(cè)的是推理有多脆弱：如果模型太依賴模式匹配，換個(gè)說(shuō)法它就可能會(huì)崩掉。

拿任務(wù) B 舉例，把"火車乘客"改成"倉(cāng)庫(kù)庫(kù)存"，其他邏輯完全一樣，這就是擾動(dòng)測(cè)試：

表 3. 任務(wù) B 同構(gòu)變體的擾動(dòng)測(cè)試

核心指標(biāo)

泛化性系數(shù) ρ 的計(jì)算公式：

C 是原始任務(wù)，V_i 是第 i 個(gè)同構(gòu)變體，n 是變體總數(shù)，score 是二元指標(biāo)（成功 1，失敗 0）。

這個(gè)公式的目標(biāo)是區(qū)分真正的推理和模式匹配，跑 n = 10 個(gè)同構(gòu)變體的擾動(dòng)測(cè)試就能看出來(lái)。

ρ = 1.0 說(shuō)明模型完全不受措辭影響，邏輯扎實(shí)。0.5 < ρ < 1.0 說(shuō)明模型有點(diǎn)脆，能理解邏輯但容易被注意力漂移帶偏。ρ = 0.0 說(shuō)明模型大概率只是記住了規(guī)范答案，根本不會(huì)推理。

擾動(dòng)測(cè)試結(jié)果：

表 4. 擾動(dòng)測(cè)試結(jié)果

Qwen 3 系數(shù)低說(shuō)明它大概率在做模式匹配：能認(rèn)出火車類型的應(yīng)用題，但換成倉(cāng)庫(kù)場(chǎng)景就不行了。真實(shí)推理深度比基準(zhǔn)測(cè)試?yán)锉憩F(xiàn)出來(lái)的要淺。

Llama 3.2 系數(shù)高，說(shuō)明它用的是第一性原理邏輯，把乘客和貨物都當(dāng)成抽象變量處理。它是真的在執(zhí)行邏輯步驟，而不是在熟悉的題型格式里預(yù)測(cè)下一個(gè)最可能的 Token。

優(yōu)勢(shì)

這是檢測(cè)數(shù)據(jù)污染最有效的方法。對(duì)多個(gè)同構(gòu)版本取平均分，能揭示模型在不可預(yù)測(cè)場(chǎng)景下的真實(shí)推理深度。而且跨語(yǔ)言、跨領(lǐng)域通用——醫(yī)療診斷、Python 編碼都能測(cè)。

局限性

完美的擾動(dòng)很難造。有些變體可能觸發(fā)安全護(hù)欄，或者難度意外變高。測(cè)試量也大——要拿到統(tǒng)計(jì)顯著的系數(shù)，得準(zhǔn)備 5000 道題（每題 5 個(gè)變體）而不是 1000 道。還有個(gè)問(wèn)題是模型可能因?yàn)榉沁壿嬙蚴。热缢X(jué)得倉(cāng)庫(kù)版本措辭更正式，反而發(fā)揮更好。

用在哪里

企業(yè)部署 AI 工作流程時(shí)，比如發(fā)票摘要，來(lái)自航運(yùn)公司和本地供應(yīng)商的發(fā)票長(zhǎng)得不一樣，但 AI 得都能處理。泛化性系數(shù)能確認(rèn)模型不會(huì)被不同術(shù)語(yǔ)繞暈。

材料科學(xué)、化學(xué)這類單位經(jīng)常變的領(lǐng)域，密度算 g/cm^3 或 kg/m^3 都得能算對(duì)。

模型在原版準(zhǔn)確率 95%、擾動(dòng)版只有 40%？這就是過(guò)擬合的明證。

自動(dòng)代碼生成的話，變量名叫 list_a 還是 user_inventory_data 都得能處理。

4、思考-輸出比

思考-輸出比通過(guò)模型給答案之前生成了多少隱藏 Token 來(lái)衡量推理深度。

核心指標(biāo)

公式很簡(jiǎn)單，內(nèi)部推理 Token 數(shù)除以最終答案 Token 數(shù)：

T_{hidden} 是在

標(biāo)簽里生成的 Token 數(shù)，T_{output} 是用戶看到的答案 Token 數(shù)。

R_to > 10 是深層推理任務(wù)，R_to = 1.0 是標(biāo)準(zhǔn)解釋，R_to < 0.1 是直接回答、幾乎沒(méi)思考。

Qwen 3 和 Llama 3.2 在任務(wù) B 上的表現(xiàn)：

表 5. 思考-輸出比比較

Qwen 3 每輸出 1 個(gè)詞，內(nèi)部生成了 7 個(gè) Token。正是這些隱藏工作讓一個(gè) 8B 小模型在崩潰之前能達(dá)到任務(wù) B 的推理深度。

Llama 3.2 則是零隱藏 Token，直接出答案。

優(yōu)勢(shì)

這是模型"認(rèn)知努力"的直接指標(biāo)，推理模型用隱藏 Token 回溯，監(jiān)控這些能看出模型有沒(méi)有在給答案之前發(fā)現(xiàn)并修正自己的錯(cuò)誤。做推理效率調(diào)優(yōu)時(shí)能確保模型想得夠久所以答對(duì)，但又不至于太久導(dǎo)致成本爆炸或延遲太高。還能檢測(cè)假推理——真正的推理模型思考長(zhǎng)度會(huì)隨問(wèn)題難度動(dòng)態(tài)變化，而不是永遠(yuǎn)套一個(gè) CoT 模板。

局限性

很多商業(yè)模型不暴露隱藏 Token所以這個(gè)指標(biāo)一開(kāi)始就沒(méi)法算，另外還有沉思循環(huán)的問(wèn)題——模型卡在邏輯循環(huán)里會(huì)消耗大量?jī)?nèi)部 Token，響應(yīng)質(zhì)量沒(méi)變好。推理深度高了之后有些模型會(huì)開(kāi)始為內(nèi)部效率優(yōu)化而不是人們可讀性優(yōu)化，內(nèi)部 Token 里會(huì)出現(xiàn)混合語(yǔ)言甚至亂碼。

用在哪里

評(píng)估系統(tǒng) 2 思維能力——那些號(hào)稱能做博士級(jí)科學(xué)題、高級(jí)編碼、法律分析的模型。

做成本效益分析時(shí)，如果 7B 模型思考-輸出比很高但準(zhǔn)確率和 70B 模型一樣，那 7B 模型可能更聰明但更慢、單次查詢更貴。

調(diào)試邏輯崩潰時(shí)，能看出模型什么時(shí)候撞墻然后放棄了。

總結(jié)

四項(xiàng)指標(biāo)對(duì) Qwen 3 和 Llama 3.2 在任務(wù) B 上的深層推理能力做了全面評(píng)估。

表 6. 壓力測(cè)試結(jié)果

Llama 3.2 是直覺(jué)型推理器，推理能力直接燒進(jìn)了預(yù)訓(xùn)練權(quán)重里（T_{hidden} = 0），所以能用第一性原理解決問(wèn)題。

Qwen 3 是系統(tǒng) 2 推敲型，得跟自己"對(duì)話"才能解復(fù)雜題（R_to = 7）。但它撐不住太深的推理（推理墻 = 6，acc@d=8 = 24%）——雖然步驟 5 崩掉是因?yàn)樗阈g(shù)錯(cuò)誤，不是邏輯問(wèn)題。

選型建議：Llama 3.2（8B）適合對(duì)速度和穩(wěn)定性要求高的生產(chǎn)環(huán)境，它的推理不受措辭影響。Qwen 3（8B）適合研究場(chǎng)景或復(fù)雜的多步驟提示任務(wù)，前提是能接受隱藏 Token 帶來(lái)的延遲。做數(shù)學(xué)題的話記得給它配個(gè)外部計(jì)算器工具，防止低級(jí)算術(shù)錯(cuò)誤。

https://avoid.overfit.cn/post/533b5bef0e344a50a42c8f2b69e6a530

By Kuriko IWAI

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.