網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

微軟發(fā)布首個(gè)測(cè)試時(shí)擴(kuò)展大規(guī)模研究，還給出了終極指南

2025-12-10 18:39:30　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：Panda

如果說(shuō)大模型的預(yù)訓(xùn)練（Pre-training）是一場(chǎng)拼算力、拼數(shù)據(jù)的「軍備競(jìng)賽」，那么測(cè)試時(shí)擴(kuò)展（Test-time scaling, TTS）更像是一場(chǎng)在推理階段進(jìn)行的「即時(shí)戰(zhàn)略游戲」。

現(xiàn)在的共識(shí)是：讓模型在回答問(wèn)題前「多想一會(huì)兒」，往往能得到更好的結(jié)果。這聽(tīng)起來(lái)像是一個(gè)完美的免費(fèi)午餐：只要能在推理時(shí)動(dòng)態(tài)分配更多計(jì)算資源，就能讓模型的智商原地起飛。

但問(wèn)題來(lái)了：我們?cè)撛趺醋?LLM「多想」？

好比讓一群學(xué)生做題：是讓一個(gè)學(xué)生反復(fù)修改答案（序列策略）？還是讓一百個(gè)學(xué)生同時(shí)做題然后投票（并行策略）？亦或是讓他們開(kāi)個(gè)會(huì)討論一下（混合策略）？

更重要的是，有些「學(xué)生」（模型）雖然聰明，但想得越多反而越容易鉆牛角尖；而另一些則必須深思熟慮才能解出難題。

究竟哪個(gè) TTS 策略才是那個(gè)「天選之子」？

為了結(jié)束這場(chǎng)盲人摸象般的爭(zhēng)論，微軟終于出手了。

他們進(jìn)行了一項(xiàng)針對(duì) TTS 的系統(tǒng)性研究：涵蓋了從 7B 到 235B 參數(shù)量的 8 個(gè)開(kāi)源 LLM，在 4 個(gè)推理數(shù)據(jù)集上瘋狂生成了超過(guò) 300 億個(gè) token。

論文標(biāo)題：The Art of Scaling Test-Time Compute for Large Language Models
論文地址：https://arxiv.org/abs/2512.02008

這項(xiàng)研究不僅打破了「一種策略通吃」的幻想，還發(fā)現(xiàn)了一個(gè)顛覆認(rèn)知的現(xiàn)象：模型之間存在著明顯的性格差異，分化為「短視界」和「長(zhǎng)視界」兩大陣營(yíng)。

基于這些洞見(jiàn)，微軟團(tuán)隊(duì)更是直接甩出了一套綜合了問(wèn)題難度、模型類(lèi)型和計(jì)算預(yù)算的「實(shí)用配方」。下面，讓我們一起走進(jìn)這項(xiàng)揭示了 LLM 推理本質(zhì)的重磅研究。

測(cè)試時(shí)擴(kuò)展方法簡(jiǎn)介

LLM 的測(cè)試時(shí)擴(kuò)展策略多種多樣，通常分為并行、序列、混合 / 元方法（meta）以及內(nèi)部計(jì)算機(jī)制（圖 2）。雖然每類(lèi)方法在特定設(shè)置下都顯示出潛力，但沒(méi)有單一策略是普遍最佳的

并行擴(kuò)展策略

通過(guò)聚合多個(gè)獨(dú)立采樣的推理路徑的答案來(lái)提升性能。Self-consistency 對(duì)多樣的推理路徑進(jìn)行采樣并選擇出現(xiàn)頻率最高的最終答案，顯著提升了算術(shù)和符號(hào)任務(wù)的性能。Best-of-n 采樣作為一種簡(jiǎn)單的并行方法被廣泛使用，不過(guò)最近也有人提出了更具原則性的投票策略，如加權(quán)多數(shù)投票和多智能體驗(yàn)證（MAV）。Short-m@k 利用了早停機(jī)制：它并行運(yùn)行 k 條推理鏈，并根據(jù)完成路徑的比例提前終止。

序列擴(kuò)展策略

通過(guò)迭代式的修正、重啟或回溯來(lái)擴(kuò)展推理深度。思維鏈（CoT）提示是一個(gè)基礎(chǔ)理念，隨后的工作如 STaR 和 Reflexion 探索了通過(guò)試錯(cuò)或語(yǔ)言自我反思進(jìn)行修正。思維樹(shù)（ToT）和思維圖（GoT）通過(guò)結(jié)構(gòu)化的廣度優(yōu)先或 DAG 風(fēng)格搜索進(jìn)一步擴(kuò)展了這一點(diǎn)。AlphaGeometry 將符號(hào)證明搜索與 LLM 結(jié)合，以實(shí)現(xiàn)步驟級(jí)的序列控制。S1 微調(diào)模型以教授自我修正策略，利用了更高的測(cè)試時(shí)計(jì)算量。

混合擴(kuò)展策略

該策略融合了以上兩個(gè)維度。Meta-Reasoner 使用上下文多臂老虎機(jī)根據(jù)感知的任務(wù)難度動(dòng)態(tài)選擇 TTS 策略。AgentTTS 和 START 部署智能體（具有工具調(diào)用能力的 LLM）在直接生成或更復(fù)雜的推理之間進(jìn)行切換。PEARL 交替進(jìn)行草稿生成與修正，模擬自我改進(jìn)循環(huán)。這些元調(diào)度器（meta-schedulers）認(rèn)識(shí)到僅靠深度或并行擴(kuò)展是不夠的，旨在根據(jù)模型行為和提示動(dòng)態(tài)調(diào)整策略。相比之下，內(nèi)部擴(kuò)展策略修改模型在推理過(guò)程中的內(nèi)部計(jì)算量，而不顯式調(diào)整外部樣本數(shù)或推理步驟數(shù)。HALT-CoT 和 SoftCoT++ 的方法是估計(jì)答案的不確定性，如果置信度高則提前終止。

沒(méi)有哪種策略是普遍最佳的。多項(xiàng)實(shí)證研究加強(qiáng)了這一觀點(diǎn)，即沒(méi)有 TTS 策略能持續(xù)占據(jù)主導(dǎo)地位。

微軟這項(xiàng)研究分析的算法包括最先完成搜索（First Finish Search, FFS，算法 1）、最后完成搜索（Last Finish Search, LFS，算法 2）和束搜索（Beam Search），前兩者由變量 k 和 N 參數(shù)化，而后者僅由 N 參數(shù)化。

FFS-k@N 意味著采樣 N 個(gè)輸出并在最短的 k 個(gè)樣本中執(zhí)行多數(shù)投票（MV）以確定結(jié)果；而 LFS-k@N 僅僅涉及選擇最長(zhǎng)的 k 個(gè)樣本而非最短的，隨后對(duì)這些樣本進(jìn)行多數(shù)投票。

束搜索涉及維護(hù)一組高概率的部分假設(shè)（partial hypotheses），并在解碼過(guò)程中不斷更新這些前綴。

研究結(jié)果

束搜索顯示出逆擴(kuò)展或無(wú)擴(kuò)展

研究的第一個(gè)爆點(diǎn)來(lái)自于對(duì)經(jīng)典算法束搜索（Beam Search）的宣判。

在實(shí)驗(yàn)中，研究人員觀察到了一個(gè)極其反直覺(jué)的現(xiàn)象：在「短視界」和「非推理」這兩個(gè)模型家族中，束搜索表現(xiàn)出了一致的逆擴(kuò)展（inverse-scaling）模式：隨著束大小 N 的增加，性能單調(diào)下降（圖 1）。

看圖便知，對(duì)于像 R1 和 QwQ-32B 這樣的模型，一旦束大小（Beam Size, N）超過(guò) 2，準(zhǔn)確率不僅沒(méi)有提升，反而像坐過(guò)山車(chē)一樣急劇下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 這樣的「長(zhǎng)視界」模型，增加 N 也未能帶來(lái)收益，準(zhǔn)確率曲線(xiàn)要么躺平，要么緩慢下滑。

這意味著什么？意味著在束搜索上投入更多的計(jì)算量（增加 N 會(huì)消耗更多 token），不僅是浪費(fèi)，甚至是有害的。簡(jiǎn)直是花錢(qián)買(mǎi)罪受。

推理路徑長(zhǎng)度與質(zhì)量的相關(guān)性

這項(xiàng)研究最核心的貢獻(xiàn)，在于揭示了推理路徑長(zhǎng)度與質(zhì)量之間復(fù)雜的相關(guān)性。這對(duì)于深入理解像 FFS 和 LFS 這樣基于長(zhǎng)度的過(guò)濾策略至關(guān)重要。

FFS 和 LFS 基于兩個(gè)截然相反的觀點(diǎn)：越短越好和越長(zhǎng)越好。

為了調(diào)查哪種假設(shè)（或哪些假設(shè)）適用于特定模型，該團(tuán)隊(duì)報(bào)告了給定推理路徑長(zhǎng)度區(qū)間和問(wèn)題難度下的準(zhǔn)確率（表 1）。

請(qǐng)注意，問(wèn)題難度是通過(guò)所有模型和路徑的平均準(zhǔn)確率來(lái)衡量的，而報(bào)告的準(zhǔn)確率是通過(guò)特定模型的所有輸出來(lái)衡量的。一個(gè)關(guān)鍵的考量是，問(wèn)題難度與推理路徑長(zhǎng)度存在混淆（confounded，圖 3）：短路徑通常源于較容易的問(wèn)題，而長(zhǎng)路徑往往對(duì)應(yīng)較難的問(wèn)題。

為緩解這種混淆效應(yīng)，他們將分析限制在同時(shí)具有短路徑和長(zhǎng)路徑的任務(wù)上。對(duì)于每個(gè)此類(lèi)數(shù)據(jù)集，他們分別計(jì)算短路徑和長(zhǎng)路徑的單一準(zhǔn)確率值，然后在數(shù)據(jù)集之間平均這些值，從而防止數(shù)據(jù)集大小的差異不成比例地影響聚合結(jié)果。

結(jié)果，他們將六個(gè)推理模型清晰地劃分為兩大陣營(yíng)：

1. 短視界模型

代表成員：R1, QwQ-32B, DAPO-32B
行為特征：對(duì)于給定的問(wèn)題難度，更短的推理路徑比更長(zhǎng)的路徑更可能是正確的。

這意味著這些模型在推理時(shí)往往「直擊要害」，如果它們開(kāi)始長(zhǎng)篇大論，很可能是在「胡言亂語(yǔ)」或者陷入了無(wú)效循環(huán)。

有趣的是，DAPO-32B 盡管使用了 GRPO 等技術(shù)，依然表現(xiàn)出與 R1 相似的長(zhǎng)度偏置，說(shuō)明目前的后訓(xùn)練技術(shù)在緩解長(zhǎng)度偏置方面可能還很有限。

2. 長(zhǎng)視界模型

代表成員：Qwen3-32B, GPT-OSS-120B
行為特征：它們的表現(xiàn)更為復(fù)雜且「世故」。

在簡(jiǎn)單問(wèn)題上，它們傾向于較短的路徑。但在困難問(wèn)題上，它們則偏好較長(zhǎng)的路徑。

這類(lèi)模型展現(xiàn)出了更強(qiáng)的適應(yīng)性：遇到難題時(shí)，它們確實(shí)在利用額外的計(jì)算步驟進(jìn)行有效推理，而非無(wú)效空轉(zhuǎn)。

深度分析：預(yù)算與策略的博弈

既然模型性格迥異，那么在給定的計(jì)算預(yù)算（Token 消耗量）下，我們?cè)撊绾芜x擇最佳的 k 和 N？

研究團(tuán)隊(duì)通過(guò)分析 FFS-k@N 和 LFS-k@N 的性能曲線(xiàn)，發(fā)現(xiàn)了幾個(gè)關(guān)鍵趨勢(shì)：

LFS 的奧義在于「全員投票」

對(duì)于 LFS 系列方法，給定總計(jì)算量下的最大性能總是當(dāng) k 很大時(shí)（即 k=N）實(shí)現(xiàn)。注意，當(dāng) k=N 時(shí)，LFS 實(shí)際上就退化成了多數(shù)投票（MV-N）。

結(jié)論非常簡(jiǎn)單粗暴：在消耗相同 token 的情況下，直接做多數(shù)投票（MV@N）總是優(yōu)于刻意篩選最長(zhǎng)路徑的 LFS-k@N。

FFS 的微妙權(quán)衡

對(duì)于短視界模型：較大的 N 值總是最好的。這意味著你應(yīng)該采樣很多樣本，然后從中選出最短的那一批進(jìn)行投票。

對(duì)于長(zhǎng)視界模型：存在權(quán)衡。如果你想用高計(jì)算量換取高性能，你必須選擇較小的 N（本質(zhì)上是執(zhí)行簡(jiǎn)單解碼）；而在非推理模型上則相反。

這一分析告訴我們，最佳 TTS 策略是隨著預(yù)算的增加而動(dòng)態(tài)擴(kuò)展的

終極配方：如何為你的模型選擇 TTS 策略？

基于上述海量實(shí)驗(yàn)數(shù)據(jù)，微軟團(tuán)隊(duì)總結(jié)出了一套極具操作性的「決策矩陣」。這不僅是理論分析，更是給算法工程師們的實(shí)戰(zhàn)手冊(cè)。

讓我們來(lái)拆解這個(gè)配方的內(nèi)在邏輯：

場(chǎng)景一：如果你使用的是「短視界模型」（如 R1, QwQ）

這類(lèi)模型有個(gè)特點(diǎn)：無(wú)論題目難易，它們總是覺(jué)得「長(zhǎng)話(huà)短說(shuō)」的答案更靠譜。

低計(jì)算預(yù)算時(shí)：使用 FFS，且設(shè)定 k=1。即：采樣 N 個(gè)答案，直接挑最短的那個(gè)作為最終答案。簡(jiǎn)單、快速、有效。

高計(jì)算預(yù)算時(shí)：使用 FFS，且設(shè)定 k=N（等同于 MV@N）。即：采樣 N 個(gè)答案，因?yàn)?N 個(gè)最短路徑就是所有路徑，所以這實(shí)際上就是標(biāo)準(zhǔn)的多數(shù)投票。

核心邏輯：對(duì)于短視界模型，性能隨 N 的增大而提升。因此，只要預(yù)算允許，把 N 拉滿(mǎn)，做多數(shù)投票即可。

場(chǎng)景二：如果你使用的是「長(zhǎng)視界模型」（如 Qwen3）

這類(lèi)模型比較「糾結(jié)」，策略選擇稍微復(fù)雜一些。

面對(duì)高難度問(wèn)題（High Difficulty）：模型傾向于長(zhǎng)路徑。由于 LFS@N 隨 N 增加而提升：

高計(jì)算預(yù)算：使用大 N 的 MV@N。
低計(jì)算預(yù)算：使用小 N（理想情況下 N=1）的簡(jiǎn)單解碼（SD）。

這里有一個(gè)有趣的結(jié)論：在保持 k=N 的情況下（即 MV），性能隨 k 增大而提升。

面對(duì)低難度問(wèn)題（Low Difficulty）：此時(shí)模型偏好短路徑（殺雞焉用牛刀）。

高計(jì)算預(yù)算：使用大 k 的 FFS。
低計(jì)算預(yù)算：使用小 k 的 FFS。

在這種設(shè)置下，設(shè)定 N=k（即 MV@N）依然是穩(wěn)健的選擇。

總結(jié)來(lái)看，盡管模型類(lèi)型和任務(wù)難度千差萬(wàn)別，但最終的「配方」卻表現(xiàn)出了驚人的殊途同歸：對(duì)于絕大多數(shù)情況，多數(shù)投票（MV@N）或者是其變體（如 FFS 中的 k=N）往往是性?xún)r(jià)比最高的選擇。特別是對(duì)于「短視界」模型，不要試圖通過(guò)讓它「多想」來(lái)強(qiáng)行提升效果，更多時(shí)候，從大量的快速回答中通過(guò)投票篩選出共識(shí)，才是正確的打開(kāi)方式。

微軟的這項(xiàng)研究，實(shí)際上是在為 LLM 的推理能力「祛魅」。它告訴我們，測(cè)試時(shí)擴(kuò)展并不是簡(jiǎn)單地堆砌算力，更不是盲目地追求更長(zhǎng)的思維鏈。

理解模型的「視界」屬性是設(shè)計(jì)高效推理系統(tǒng)的第一步。而在算力昂貴的今天，這份基于 300 億 token 實(shí)測(cè)得出的決策配方，無(wú)疑為我們節(jié)省了大量的試錯(cuò)成本。

下一次，當(dāng)你準(zhǔn)備讓你的模型「再想一下」時(shí)，不妨先查查這份配方，看看你是否正在為一個(gè)「短視界」的模型，強(qiáng)加它并不擅長(zhǎng)的長(zhǎng)考重?fù)?dān)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.