<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      LLM多跳推理深度測(cè)試:四項(xiàng)指標(biāo)精準(zhǔn)定位模型的推理極限

      0
      分享至

      LLM 在多步驟問(wèn)題求解上的表現(xiàn)已經(jīng)相當(dāng)不錯(cuò)了,但復(fù)雜邏輯鏈的處理仍然是個(gè)難題。模型的推理深度直接決定了它在多跳推理任務(wù)中能走多遠(yuǎn)、有多可靠。

      本文會(huì)介紹推理深度的核心機(jī)制然后用四項(xiàng)壓力測(cè)試指標(biāo)對(duì) Llama 3.2 和 Qwen 3 做個(gè)橫向?qū)Ρ瓤纯此鼈兊倪壿嫎O限在哪里。



      什么是多跳推理

      多跳問(wèn)題要求模型沿著邏輯鏈一步步往下走,每一"跳"就是一次推理,把初始問(wèn)題和最終答案之間的邏輯缺口補(bǔ)上。

      下圖展示了數(shù)學(xué)任務(wù)中推理深度如何隨邏輯運(yùn)算數(shù)量遞增:



      推理深度就是輸入到結(jié)論之間的邏輯距離。圖 A 左邊的問(wèn)題是 d = 2,右邊是 d = 4。

      不管什么類型的任務(wù)多跳問(wèn)題都有幾個(gè)共同點(diǎn):答案藏在層層子問(wèn)題下面;模型得在不出幻覺(jué)、不犯錯(cuò)的情況下跑完整條鏈;深度越高越難,鏈條中間哪怕錯(cuò)一步,后面就全廢了。

      任務(wù)復(fù)雜度與推理深度的對(duì)應(yīng)關(guān)系

      選什么模型架構(gòu),得先看清任務(wù)需要多少步推理。

      這里把主要的 LLM 任務(wù)分成三檔:淺層(d < 3)、中等(d = 3–5)、深層(d = 6+),每一檔的工程需求差別很大。

      推理深度的分類



      圖 B:各任務(wù)領(lǐng)域的推理深度

      表里每個(gè)格子包含任務(wù)類型、工程需求和市面上對(duì)應(yīng)的模型。從左到右模型的工作模式從簡(jiǎn)單的模式匹配變成多步驟的執(zhí)行功能。

      淺層推理:一次性模式匹配

      淺層任務(wù)只有 1 到 2 步推理。模型做的事情很簡(jiǎn)單:輸入特征,直接映射到輸出標(biāo)簽,不需要規(guī)劃,不需要推敲,就是單次推理加局部特征提取。

      舉幾個(gè) d = 1 的例子:表格數(shù)據(jù)上根據(jù)閾值判斷交易是否欺詐;NLP 里判斷評(píng)論是正面還是負(fù)面;圖像分類里區(qū)分貓和狗。

      這類任務(wù)用 BERT、DistilBERT 或 Gemini Flash 就夠了。表格數(shù)據(jù)的話,LightGBM 這種傳統(tǒng)樹(shù)模型可能比 LLM 更合適,延遲低、精度高。

      中等推理:上下文整合

      中等任務(wù)的推理深度到 5,模型需要把分散的信息點(diǎn)拼成一個(gè)連貫結(jié)構(gòu)。上下文窗口里得維護(hù)中間狀態(tài),保證最后的輸出和開(kāi)頭邏輯上能對(duì)得上。核心是上下文綜合加多點(diǎn)注意力。

      d = 5 的例子:多時(shí)間跨度的需求預(yù)測(cè),要考慮季節(jié)性、節(jié)假日、趨勢(shì)變化;總結(jié) 50 頁(yè)法律記錄還得保持發(fā)言者的意圖;從復(fù)雜 PDF 發(fā)票里提數(shù)據(jù)然后算稅差。

      GPT-45、Claude 4.5 Sonnet 這類擅長(zhǎng)上下文理解的模型比較適合。

      深層推理:系統(tǒng) 2 思維

      深層任務(wù)推理深度 6+的最大的特點(diǎn)是順序依賴——當(dāng)前步驟對(duì)不對(duì),完全取決于前面每一步有沒(méi)有出問(wèn)題。這意味著模型得有分支邏輯、錯(cuò)誤檢測(cè)和回溯能力,核心是測(cè)試時(shí)計(jì)算加 CoT 強(qiáng)化。

      而d = 10 長(zhǎng)什么樣?人形機(jī)器人在不平地面上保持平衡的同時(shí)計(jì)算抬起未知物體需要多大扭矩;調(diào)試橫跨三個(gè)文件、兩種語(yǔ)言的微服務(wù)架構(gòu) bug;從稀疏 2D 視頻幀重建 NeRF。

      這種任務(wù)得用系統(tǒng) 2 思維的模型,比如 OpenAI o1/o3 和 DeepSeek-R1——它們會(huì)在給出答案之前先把邏輯想清楚,如果沒(méi)有自我糾正循環(huán)的中端模型往往走到一半就開(kāi)始產(chǎn)生幻覺(jué)。

      深層推理的工程要求

      部署深層推理模型,基礎(chǔ)設(shè)施得從簡(jiǎn)單推理轉(zhuǎn)向復(fù)雜狀態(tài)管理。

      測(cè)試時(shí)計(jì)算這塊,深層推理器和淺層模型完全不一樣:它的性能隨思考時(shí)間增長(zhǎng)。DeepSeek-R1 這類模型會(huì)生成幾千個(gè)內(nèi)部 CoT Token,邊走邊驗(yàn)證假設(shè)、丟棄錯(cuò)誤路徑。

      KV 緩存管理也是個(gè)大問(wèn)題。深層任務(wù)需要很大的緩存容量來(lái)處理長(zhǎng)上下文和推理鏈,得用緩存壓縮或 PagedAttention 來(lái)防止災(zāi)難性遺忘。

      還有反饋循環(huán),深層推理模型會(huì)自己批評(píng)自己——比如寫(xiě)代碼時(shí)會(huì)模擬執(zhí)行、發(fā)現(xiàn)潛在異常,然后在內(nèi)部重寫(xiě)邏輯塊。

      這里的關(guān)鍵是讓推理預(yù)算匹配推理深度。把一個(gè) d=10 級(jí)別的推理模型用在 d=1 的情感分析任務(wù)上,純粹是浪費(fèi)算力。

      怎么測(cè)量 LLM 的推理極限

      測(cè)量推理深度沒(méi)有萬(wàn)全的方法需要看具體目標(biāo)。一般 4 項(xiàng)指標(biāo):Multi-LogiEval(準(zhǔn)確率隨推理深度增加衰減多少)、過(guò)程基準(zhǔn)測(cè)試(模型在哪一步開(kāi)始產(chǎn)生幻覺(jué))、泛化性系數(shù)(模型用的是第一性原理還是模式匹配)、思考-輸出比(模型給答案之前想了多久)。

      1、Multi-LogiEval

      Multi-LogiEval 是最常見(jiàn)的壓力測(cè)試框架是專門用來(lái)找 LLM 推理深度的天花板的,它測(cè)的是步驟感知的準(zhǔn)確率衰減也就是推理深度往上加的時(shí)候,模型的邏輯連貫性在哪個(gè)點(diǎn)開(kāi)始崩。

      核心指標(biāo)

      這個(gè)方法把準(zhǔn)確率畫(huà)成推理深度的函數(shù),找出推理墻,也就是模型準(zhǔn)確率(Acc@d)跌破臨界閾值(比如 50%)的那個(gè)深度。

      Acc@d 就是正確答案數(shù)除以總問(wèn)題數(shù):



      衰減率計(jì)算的是深度增加時(shí)準(zhǔn)確率掉了多少:



      Acc@d8 和 Acc@d2 分別是模型在 d = 8 和 d = 2 時(shí)的準(zhǔn)確率。

      比如從 d = 2 開(kāi)始算衰減率:d = 3 掉 20 點(diǎn),d = 4 掉 30 點(diǎn),d = 5 掉 32 點(diǎn),d = 6 掉 40 點(diǎn),d = 7 掉 55 點(diǎn)低于閾值這就是撞墻了,d = 8 掉 68 點(diǎn)。

      實(shí)現(xiàn)方法:遞增復(fù)雜度階梯

      實(shí)現(xiàn)這個(gè)方法要先創(chuàng)建同構(gòu)邏輯任務(wù):多個(gè)任務(wù)共享相同的核心概念,但隨著鏈條延長(zhǎng)逐步加入邏輯干擾。

      拿數(shù)學(xué)問(wèn)題舉例,設(shè)計(jì)三個(gè)任務(wù):基線(d = 2,淺層推理,建立基準(zhǔn)準(zhǔn)確率)、任務(wù) A(d = 5,中等推理)、任務(wù) B(d = 8,深層推理)。

      給每個(gè)任務(wù)寫(xiě)提示詞,配合 CoT 來(lái)定位失敗節(jié)點(diǎn):

      逐步思考,并為你的每個(gè)計(jì)算步驟編號(hào)。

      基線問(wèn)題:

      一列火車起始有 50 名乘客。10 人下車,5 人上車。現(xiàn)在火車上有多少人?

      邏輯步驟(d = 2):起始 50,減 10 得 40,加 5 得 45。正確答案:45。

      任務(wù) A:

      一列火車起始有 50 名乘客。第一站 10 人下車、5 人上車。第二站剩余乘客的 20% 下車。現(xiàn)在火車上有多少人?

      邏輯步驟(d = 5):50 減 10 得 40,加 5 得 45,45 乘 0.2 得 9,45 減 9 得 36。正確答案:36。

      這里加了百分比運(yùn)算,模型得在執(zhí)行非簡(jiǎn)單加減法時(shí)維護(hù)運(yùn)行狀態(tài)。

      任務(wù) B:

      一列火車起始有 50 名乘客。第一站 10 人下車、5 人上車。第二站剩余乘客的 20% 下車。第三站乘客人數(shù)翻倍。最后一站 20 人下車、10 人上車。但車站工作人員決定火車上只能保留 30 人。現(xiàn)在必須有多少人下車?

      邏輯步驟:50 減 10 得 40,加 5 得 45,45 乘 0.2 得 9,45 減 9 得 36,36 乘 2 得 72,72 減 20 得 52,52 加 10 得 62,62 減 30 得 32。正確答案:32。

      步驟 5 有翻倍,步驟 8 有容量約束。順序依賴性極高,步驟 3 錯(cuò)了后面全完蛋。

      定量分析

      每個(gè)任務(wù)跑 N=100 次迭代,生成統(tǒng)計(jì)顯著的衰減曲線。

      import re
      import torch
      from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoConfig
      model_id = 'Qwen/Qwen3-8B'
      # config tokenizer
      tokenizer = AutoTokenizer.from_pretrained(model_id)
      # config model
      config = AutoConfig.from_pretrained(model_id)
      model = AutoModelForCausalLM.from_pretrained(
      model_id,
      config=config,
      trust_remote_code=True,
      dtype=torch.float16,
      device_map="cpu"
      )
      # config llm pipeline
      generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
      # prompt
      messages = [{"role": "user", "content": prompt}]
      formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
      # iteration
      n_iterations = 20
      for i in range(n_iterations):
      # call generator
      output_list = generator(
      formatted_prompt,
      max_new_tokens=512,
      do_sample=True,
      temperature=0.7
      )
      # extract answer
      output = output_list[0]['generated_text']
      answer_part = output.replace(formatted_prompt, "")
      matches = re.findall(r"The correct answer: (\d+)", answer_part)
      # count success
      if matches and int(matches[-1]) == answers[d]: success_count += 1
      # calc acc_d score
      acc = success_count / n_iterations

      生產(chǎn)環(huán)境做基準(zhǔn)測(cè)試時(shí)一般設(shè) temperature=0 保證可重復(fù)性。但壓力測(cè)試隨機(jī)失敗的話,會(huì)故意在 0.7 到 1.2 之間進(jìn)行調(diào)整。

      結(jié)果如下:



      表 1. Multi-LogiEval 壓力測(cè)試結(jié)果

      Llama 3.2 的推理深度明顯強(qiáng)于 Qwen 3。兩個(gè)模型在 2 步邏輯上都接近滿分但到 8 步的時(shí)候,Qwen 3 垮了,Llama 3.2 還能保持 65%。Qwen 3 的衰減率很慘,Llama 3.2 則相對(duì)穩(wěn)定,邏輯持久力明顯更強(qiáng)。

      推理墻在中端模型里很常見(jiàn)。它們往往在 d = 5 左右出現(xiàn)斷崖式下跌(比如從 80% 掉到 40%),而 OpenAI o3 或 DeepSeek-R1 這類推理模型能把平穩(wěn)線拉得更長(zhǎng)。

      擴(kuò)展評(píng)估

      為了排除提示運(yùn)氣,可以生成 20 個(gè)邏輯階梯變體:把"火車乘客"換成"倉(cāng)庫(kù)庫(kù)存"或"網(wǎng)絡(luò)緩沖區(qū)數(shù)據(jù)包"。

      然后觀察失敗模式是一致的還是隨機(jī)的。如果模型在所有 20 個(gè)變體的 d = 4 處都失敗,說(shuō)明演繹狀態(tài)管理有結(jié)構(gòu)性缺陷。如果失敗點(diǎn)隨機(jī)分布,那問(wèn)題可能是上下文窗口噪聲或注意力漂移,就是模型在同一提示的不同迭代中沒(méi)法穩(wěn)定地檢索相關(guān)信息。

      隨機(jī)失敗能暴露邏輯極限的底層機(jī)制。

      "中間丟失"注意力:模型抓不住長(zhǎng)上下文窗口中間位置的信息。解決辦法是提示工程——把關(guān)鍵數(shù)據(jù)挪到開(kāi)頭或結(jié)尾,重復(fù)關(guān)鍵指令,或者讓模型執(zhí)行任務(wù)前先總結(jié)一遍上下文。

      Token 競(jìng)爭(zhēng):不相關(guān)的 Token 搶走了注意力權(quán)重,特別是在高噪聲環(huán)境下。解決辦法是用嚴(yán)格格式(比如 ### DATA ###)或約束語(yǔ)(DO NOT …),再配合少樣本采樣。

      Softmax 方差:浮點(diǎn)數(shù)的微小波動(dòng)可能讓模型漏掉之前抓到的邏輯連接。解決辦法是貪婪解碼或者直接把溫度降到 0。

      Multi-LogiEval 的優(yōu)勢(shì)

      這個(gè)方法能精確定位推理墻在哪里;涵蓋 30 多條推理規(guī)則,評(píng)估比較全面;而且是零樣本測(cè)試,測(cè)的是模型的內(nèi)在推理能力而不是從少樣本提示里抄答案的能力。

      局限性

      性能在墻那里直接斷崖,但基準(zhǔn)測(cè)試不告訴你模型過(guò)了極限之后怎么修。邏輯鏈?zhǔn)侨斯ど傻模瑸榱丝刂粕疃瓤赡茱@得不太自然。還有個(gè)問(wèn)題是算術(shù)混淆——模型撞墻可能不是因?yàn)閬G了邏輯,而是算錯(cuò)了一步。步驟 4 錯(cuò)了是因?yàn)閿?shù)學(xué)算錯(cuò),雖然錯(cuò)誤一路傳到最后,但模型其實(shí)一直在老老實(shí)實(shí)地執(zhí)行邏輯。

      用在哪里

      模型選型的時(shí)候Multi-LogiEval 能看出哪個(gè)模型在長(zhǎng)鏈思維上更有耐力。

      做架構(gòu)分析時(shí)可以看增加參數(shù)量到底有沒(méi)有增加推理深度:70B 模型是真的比 8B 更聰明,還是只是記住了更多事實(shí)。

      部署自主智能體之前Multi-LogiEval 能預(yù)估智能體在 10 步工作流程的第 7 步掛掉的概率。

      2、過(guò)程基準(zhǔn)測(cè)試

      過(guò)程基準(zhǔn)測(cè)試用更大的語(yǔ)言模型做 LLM-as-a-Judge給 CoT 里的每一步打分。

      核心指標(biāo)

      它算的是逐步有效性分?jǐn)?shù):



      下表是 d = 8 的任務(wù) B 的結(jié)果:



      表 2. Qwen 3 和 Llama 3.2 在任務(wù) B 上的逐步有效性熱力圖

      Judge 給每一步打分:有效是 1,無(wú)效是 0。

      Qwen 3 在步驟 5 出了幻覺(jué),所以它的推理深度被 Judge 卡在 4。步驟 5 之后就算偶然蒙對(duì)了,Judge 也不認(rèn),因?yàn)檫@些答案建立在幻覺(jué)前提上。最終 Qwen 3 拿了 4/8沒(méi)過(guò),而Llama 3.2 全程正確,滿分通過(guò)。

      優(yōu)勢(shì)

      能精確定位失敗節(jié)點(diǎn);提供模型實(shí)際推理深度的清晰畫(huà)面;過(guò)濾掉僥幸猜對(duì)的情況,區(qū)分真懂邏輯和純靠蒙;給 RLHF 提供更好的獎(jiǎng)勵(lì)信號(hào),因?yàn)楠?jiǎng)勵(lì)的是具體的邏輯行為。

      局限性

      計(jì)算成本高——評(píng)估一條 10 步推理鏈的每一步,可能比標(biāo)準(zhǔn)基準(zhǔn)測(cè)試貴 10 倍還慢。結(jié)果質(zhì)量取決于 Judge 模型的能力,如果 Judge 不夠強(qiáng)可能漏掉微妙的邏輯謬誤。鏈條太長(zhǎng)的話Judge 自己也可能跟丟早期約束,導(dǎo)致評(píng)估本身出問(wèn)題。

      用在哪里

      醫(yī)療或工程這種安全關(guān)鍵領(lǐng)域,計(jì)算的每一步都要驗(yàn)證,過(guò)程基準(zhǔn)測(cè)試能確保中間沒(méi)有隱藏錯(cuò)誤。

      AI 輔導(dǎo)場(chǎng)景下,系統(tǒng)得能準(zhǔn)確告訴學(xué)生哪一步錯(cuò)了,比如"步驟 1 到 3 是對(duì)的,但步驟 4 乘百分比時(shí)算錯(cuò)了"。

      法律分析、財(cái)務(wù)預(yù)測(cè)這類邏輯密集型工作流程,一個(gè)邏輯步驟出錯(cuò)(比如誤讀稅法條款)就能讓整份報(bào)告作廢。

      還能檢測(cè)數(shù)據(jù)污染——如果最終答案對(duì)了但中間步驟是錯(cuò)的,說(shuō)明模型可能只是記住了訓(xùn)練數(shù)據(jù)里的答案。

      3、泛化系數(shù)

      泛化性系數(shù)測(cè)的是推理有多脆弱:如果模型太依賴模式匹配,換個(gè)說(shuō)法它就可能會(huì)崩掉。

      拿任務(wù) B 舉例,把"火車乘客"改成"倉(cāng)庫(kù)庫(kù)存",其他邏輯完全一樣,這就是擾動(dòng)測(cè)試:



      表 3. 任務(wù) B 同構(gòu)變體的擾動(dòng)測(cè)試

      核心指標(biāo)

      泛化性系數(shù) ρ 的計(jì)算公式:



      C 是原始任務(wù),V_i 是第 i 個(gè)同構(gòu)變體,n 是變體總數(shù),score 是二元指標(biāo)(成功 1,失敗 0)。

      這個(gè)公式的目標(biāo)是區(qū)分真正的推理和模式匹配,跑 n = 10 個(gè)同構(gòu)變體的擾動(dòng)測(cè)試就能看出來(lái)。

      ρ = 1.0 說(shuō)明模型完全不受措辭影響,邏輯扎實(shí)。0.5 < ρ < 1.0 說(shuō)明模型有點(diǎn)脆,能理解邏輯但容易被注意力漂移帶偏。ρ = 0.0 說(shuō)明模型大概率只是記住了規(guī)范答案,根本不會(huì)推理。

      擾動(dòng)測(cè)試結(jié)果:



      表 4. 擾動(dòng)測(cè)試結(jié)果

      Qwen 3 系數(shù)低說(shuō)明它大概率在做模式匹配:能認(rèn)出火車類型的應(yīng)用題,但換成倉(cāng)庫(kù)場(chǎng)景就不行了。真實(shí)推理深度比基準(zhǔn)測(cè)試?yán)锉憩F(xiàn)出來(lái)的要淺。

      Llama 3.2 系數(shù)高,說(shuō)明它用的是第一性原理邏輯,把乘客和貨物都當(dāng)成抽象變量處理。它是真的在執(zhí)行邏輯步驟,而不是在熟悉的題型格式里預(yù)測(cè)下一個(gè)最可能的 Token。

      優(yōu)勢(shì)

      這是檢測(cè)數(shù)據(jù)污染最有效的方法。對(duì)多個(gè)同構(gòu)版本取平均分,能揭示模型在不可預(yù)測(cè)場(chǎng)景下的真實(shí)推理深度。而且跨語(yǔ)言、跨領(lǐng)域通用——醫(yī)療診斷、Python 編碼都能測(cè)。

      局限性

      完美的擾動(dòng)很難造。有些變體可能觸發(fā)安全護(hù)欄,或者難度意外變高。測(cè)試量也大——要拿到統(tǒng)計(jì)顯著的系數(shù),得準(zhǔn)備 5000 道題(每題 5 個(gè)變體)而不是 1000 道。還有個(gè)問(wèn)題是模型可能因?yàn)榉沁壿嬙蚴。热缢X(jué)得倉(cāng)庫(kù)版本措辭更正式,反而發(fā)揮更好。

      用在哪里

      企業(yè)部署 AI 工作流程時(shí),比如發(fā)票摘要,來(lái)自航運(yùn)公司和本地供應(yīng)商的發(fā)票長(zhǎng)得不一樣,但 AI 得都能處理。泛化性系數(shù)能確認(rèn)模型不會(huì)被不同術(shù)語(yǔ)繞暈。

      材料科學(xué)、化學(xué)這類單位經(jīng)常變的領(lǐng)域,密度算 g/cm^3 或 kg/m^3 都得能算對(duì)。

      模型在原版準(zhǔn)確率 95%、擾動(dòng)版只有 40%?這就是過(guò)擬合的明證。

      自動(dòng)代碼生成的話,變量名叫 list_a 還是 user_inventory_data 都得能處理。

      4、思考-輸出比

      思考-輸出比通過(guò)模型給答案之前生成了多少隱藏 Token 來(lái)衡量推理深度。

      核心指標(biāo)

      公式很簡(jiǎn)單,內(nèi)部推理 Token 數(shù)除以最終答案 Token 數(shù):



      T_{hidden} 是在

      標(biāo)簽里生成的 Token 數(shù),T_{output} 是用戶看到的答案 Token 數(shù)。

      R_to > 10 是深層推理任務(wù),R_to = 1.0 是標(biāo)準(zhǔn)解釋,R_to < 0.1 是直接回答、幾乎沒(méi)思考。

      Qwen 3 和 Llama 3.2 在任務(wù) B 上的表現(xiàn):



      表 5. 思考-輸出比比較

      Qwen 3 每輸出 1 個(gè)詞,內(nèi)部生成了 7 個(gè) Token。正是這些隱藏工作讓一個(gè) 8B 小模型在崩潰之前能達(dá)到任務(wù) B 的推理深度。

      Llama 3.2 則是零隱藏 Token,直接出答案。

      優(yōu)勢(shì)

      這是模型"認(rèn)知努力"的直接指標(biāo),推理模型用隱藏 Token 回溯,監(jiān)控這些能看出模型有沒(méi)有在給答案之前發(fā)現(xiàn)并修正自己的錯(cuò)誤。做推理效率調(diào)優(yōu)時(shí)能確保模型想得夠久所以答對(duì),但又不至于太久導(dǎo)致成本爆炸或延遲太高。還能檢測(cè)假推理——真正的推理模型思考長(zhǎng)度會(huì)隨問(wèn)題難度動(dòng)態(tài)變化,而不是永遠(yuǎn)套一個(gè) CoT 模板。

      局限性

      很多商業(yè)模型不暴露隱藏 Token所以這個(gè)指標(biāo)一開(kāi)始就沒(méi)法算,另外還有沉思循環(huán)的問(wèn)題——模型卡在邏輯循環(huán)里會(huì)消耗大量?jī)?nèi)部 Token,響應(yīng)質(zhì)量沒(méi)變好。推理深度高了之后有些模型會(huì)開(kāi)始為內(nèi)部效率優(yōu)化而不是人們可讀性優(yōu)化,內(nèi)部 Token 里會(huì)出現(xiàn)混合語(yǔ)言甚至亂碼。

      用在哪里

      評(píng)估系統(tǒng) 2 思維能力——那些號(hào)稱能做博士級(jí)科學(xué)題、高級(jí)編碼、法律分析的模型。

      做成本效益分析時(shí),如果 7B 模型思考-輸出比很高但準(zhǔn)確率和 70B 模型一樣,那 7B 模型可能更聰明但更慢、單次查詢更貴。

      調(diào)試邏輯崩潰時(shí),能看出模型什么時(shí)候撞墻然后放棄了。

      總結(jié)

      四項(xiàng)指標(biāo)對(duì) Qwen 3 和 Llama 3.2 在任務(wù) B 上的深層推理能力做了全面評(píng)估。



      表 6. 壓力測(cè)試結(jié)果

      Llama 3.2 是直覺(jué)型推理器,推理能力直接燒進(jìn)了預(yù)訓(xùn)練權(quán)重里(T_{hidden} = 0),所以能用第一性原理解決問(wèn)題。

      Qwen 3 是系統(tǒng) 2 推敲型,得跟自己"對(duì)話"才能解復(fù)雜題(R_to = 7)。但它撐不住太深的推理(推理墻 = 6,acc@d=8 = 24%)——雖然步驟 5 崩掉是因?yàn)樗阈g(shù)錯(cuò)誤,不是邏輯問(wèn)題。

      選型建議:Llama 3.2(8B)適合對(duì)速度和穩(wěn)定性要求高的生產(chǎn)環(huán)境,它的推理不受措辭影響。Qwen 3(8B)適合研究場(chǎng)景或復(fù)雜的多步驟提示任務(wù),前提是能接受隱藏 Token 帶來(lái)的延遲。做數(shù)學(xué)題的話記得給它配個(gè)外部計(jì)算器工具,防止低級(jí)算術(shù)錯(cuò)誤。

      https://avoid.overfit.cn/post/533b5bef0e344a50a42c8f2b69e6a530

      By Kuriko IWAI

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗最大“內(nèi)鬼”被抓?革命衛(wèi)隊(duì):勾結(jié)以色列,指揮官卡尼被拘!

      伊朗最大“內(nèi)鬼”被抓?革命衛(wèi)隊(duì):勾結(jié)以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節(jié)狂轟22+5三分 生涯30次單節(jié)20+升歷史第四

      打瘋了!東契奇首節(jié)狂轟22+5三分 生涯30次單節(jié)20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫(kù)爾德第一夫人宣言:我們不是任人驅(qū)使的炮灰!

      伊拉克庫(kù)爾德第一夫人宣言:我們不是任人驅(qū)使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長(zhǎng)得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長(zhǎng)得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國(guó)最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國(guó)最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關(guān)閉霍爾木茲海峽就能掐全球脖子?因?yàn)橐晾试褪侨澜缱詈玫?>
    </a>
        <h3>
      <a href=風(fēng)向觀察
      2026-03-06 21:31:15
      兩會(huì)不到3天,5大好消息傳來(lái)!老百姓暗暗叫好:希望國(guó)家盡快落實(shí)

      兩會(huì)不到3天,5大好消息傳來(lái)!老百姓暗暗叫好:希望國(guó)家盡快落實(shí)

      談史論天地
      2026-03-07 06:54:29
      1979年,張國(guó)燾凍死在養(yǎng)老院,許世友:除了主席,沒(méi)人是他的對(duì)手

      1979年,張國(guó)燾凍死在養(yǎng)老院,許世友:除了主席,沒(méi)人是他的對(duì)手

      文史季季紅
      2026-03-05 13:35:03
      寫(xiě)入教科書(shū)的一天:F-35在德黑蘭完成全球首次實(shí)戰(zhàn)空對(duì)空擊殺

      寫(xiě)入教科書(shū)的一天:F-35在德黑蘭完成全球首次實(shí)戰(zhàn)空對(duì)空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環(huán)球網(wǎng)資訊
      2026-03-07 06:39:29
      為什么美國(guó)的華人華裔地位那么低 網(wǎng)友從各方面分析 真就那樣

      為什么美國(guó)的華人華裔地位那么低 網(wǎng)友從各方面分析 真就那樣

      侃神評(píng)故事
      2026-03-06 07:10:03
      我包養(yǎng)過(guò)一個(gè)女大學(xué)生,七年花了一千多萬(wàn)

      我包養(yǎng)過(guò)一個(gè)女大學(xué)生,七年花了一千多萬(wàn)

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經(jīng)變態(tài)至此了?

      性壓抑已經(jīng)變態(tài)至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進(jìn)入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

      蘿莉島,是進(jìn)入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚(yú)”火了,原來(lái)低認(rèn)知的家長(zhǎng),真能搞出人命!

      一份“煮熟的三文魚(yú)”火了,原來(lái)低認(rèn)知的家長(zhǎng),真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬(wàn)萬(wàn)沒(méi)想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬(wàn)萬(wàn)沒(méi)想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發(fā)現(xiàn)還是1911年!上海寶山驚現(xiàn)1只,專家:可能是坐船來(lái)的

      上次被發(fā)現(xiàn)還是1911年!上海寶山驚現(xiàn)1只,專家:可能是坐船來(lái)的

      萬(wàn)象硬核本尊
      2026-03-06 23:54:22
      女子實(shí)名舉報(bào)某團(tuán)外賣:不上大額券就讓我變成“凌晨營(yíng)業(yè)”,你們真黑!

      女子實(shí)名舉報(bào)某團(tuán)外賣:不上大額券就讓我變成“凌晨營(yíng)業(yè)”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復(fù)出15分12板7助攻凱爾特人大勝獨(dú)行俠,布朗24分7板7助

      塔圖姆復(fù)出15分12板7助攻凱爾特人大勝獨(dú)行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數(shù)據(jù)挖掘知識(shí)
      1940文章數(shù) 1456關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽(tīng)懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽(tīng)懵了

      體育要聞

      塔圖姆歸來(lái):凱爾特人的春之綠

      娛樂(lè)要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財(cái)經(jīng)要聞

      針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩(wěn)

      態(tài)度原創(chuàng)

      教育
      旅游
      時(shí)尚
      公開(kāi)課
      軍事航空

      教育要聞

      兩會(huì)速遞|教育部部長(zhǎng):將實(shí)施新一輪學(xué)生心理健康促進(jìn)行動(dòng)

      旅游要聞

      文旅部部長(zhǎng):7名外國(guó)游客到上海旅游,買了40箱貨;“成為中國(guó)人”成了熱詞

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡(jiǎn)單舒適

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:使用無(wú)人機(jī)擊中美軍"林肯"號(hào)航母

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版