![]()
如今,Test-Time Scaling(測試時擴展)已成為提升模型推理能力的關鍵路徑。而在這一浪潮中,塊擴散語言模型(Block Diffusion Language Models, BDLMs)憑借其獨特的并行解碼能力,被視為超越傳統自回歸(AR)模型推理效率的有力競爭者。
然而,現有的 BDLMs 在面對長鏈推理時,陷入了一個兩難的效率 - 效果博弈:大塊(Large Block)解碼速度極快,但在復雜推理中容易出錯,導致性能大幅下降;而小塊(Small Block)雖然推理準確,但退化為接近自回歸的速度,失去了擴散模型的并行優勢。同時,現有的解碼策略(如固定置信度)無法適應長推理鏈中 “難易交替” 的動態特性。這引出了一個核心問題:如何在保持 Block Diffusion 高效并行優勢的同時,解鎖其在復雜推理任務上的 Test-Time Scaling 潛力?
近期,復旦大學 NLP 實驗室(FDU NLP)、北京大學知識計算實驗室(KCL)聯合美團 LongCat Team 提出了一種 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通過引入“粗思考,細求證” (Think Coarse Critic Fine, TCCF) 范式與有界自適應置信度解碼 (Bounded Adaptive Confidence Decoding, BACD),成功打破了速度與精度的零和博弈。
![]()
- 論文標題:Advancing Block Diffusion Language Models for Test-Time Scaling
- 論文鏈接:https://arxiv.org/abs/2602.09555
- 代碼鏈接:https://github.com/LuLuLuyi/TDAR
- 模型鏈接: https://huggingface.co/lulululuyi/TDAR-8B-Thinking
![]()
TDAR-8B-Thinking 在 AIME24 上的性能與速度對比圖。TDAR 位于右上角,展示了在保持高推理速度的同時實現了 SOTA 的準確率。
核心創新:雙重自適應機制
為了解決上述痛點,研究團隊提出了一套統一的測試時擴展框架 TDAR,如下圖所示,該框架包含兩個核心設計:有界自適應置信度解碼(BACD)與 “粗思考,細求證” (Think Coarse Critic Fine, TCCF) 范式。
![]()
TDAR 方法概覽。展示了 TCCF 流程(Coarse Thinking -> Fine Critic)以及 BACD 的動態閾值機制。
1. 解碼層:BACD (Bounded Adaptive Confidence Decoding)
傳統的動態解碼往往依賴固定的置信度閾值,這在長鏈推理中極易導致 “一步錯,步步錯”。研究團隊提出了有界自適應置信度解碼(BACD)算法,該算法利用已生成 token 的平均置信度作為信號,動態調整當前的去噪閾值。同時,為了實現效率和效果的兼顧,增加了雙重邊界保護機制:上限(Upper Bound)負責在模型自信時激進加速,下限(Lower Bound)負責在模型不確定時強制保守,防止錯誤累積。這使得模型能夠像人類一樣,簡單步驟快思考,困難步驟慢推敲。
![]()
2. 范式層:TCCF (Think Coarse, Critic Fine)
長鏈推理并非均勻的過程,而是由 “探索” 和 “驗證” 組成的異質序列。在探索階段,思維發散但推理內容較為粗糙,而在驗證階段,需要更加精細的驗證和總結。研究團隊提出了 TCCF 范式,根據推理階段的功能分配不同的計算粒度:
- Think Coarse(粗思考):使用 大 Block Size (block_size=16) 進行快速的探索性推理,迅速鋪開思維路徑。
- Critic Fine(細求證):使用 小 Block Size (block_size=1) 進行精細的驗證、糾錯和總結,確保最終答案的正確性。
此外,為了支持大 Block 的高效訓練,研究團隊引入了 Progressive Block Size Extension(漸進式塊大小擴展) 策略,有效緩解了 Block Size 增大帶來的性能衰退。
實驗結果:速度與精度的雙重飛躍
研究團隊在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6個主流推理基準上評估了 TDAR-8B-Thinking。
實驗結果表明,TDAR-8B-Thinking 在 8B 規模的 Block Diffusion 模型中取得了最佳性能,平均性能超越前 SOTA 模型 TraDo-8B 3.4 個百分點,解碼速度從 1.27 TPF 飆升至 2.97 TPF。
結合 BACD 算法后,速度進一步提升至 3.37 TPF 且性能再漲 1.6 個百分點;疊加 TCCF 范式后,在 AIME24 復雜數學任務上準確率從 36.3% 提升至 42.9%,同時維持 3.04 TPF 的高速度,實現了速度與性能的完美平衡。
![]()
實驗結果表格。TDAR-8B 及其變體在各項指標上均優于現有的自回歸和擴散模型基線。
深度分析:解構 TDAR 的性能來源
為了探究 TDAR 高效背后的機制,研究團隊對 Block Size、解碼策略及 TCCF 范式進行了多維度的量化分析。
1. 突破效率瓶頸:BACD 解鎖高能效區間
研究團隊將 BACD 與 BDLMs 中主流的采樣算法進行了對比,包括 Static Confidence Decoding(固定步數,性能上限但效率低)和 Dynamic Confidence Decoding(動態閾值)。
首先,研究團隊比較了在不同閾值下的性能與速度權衡。如下圖所示,對于 Dynamic Confidence Decoding,隨著置信度閾值(Threshold)的降低,模型的性能會出現肉眼可見的衰退。相比之下,BACD 在獲得持續效率增益的同時,依然維持了穩定的性能表現。
![]()
BACD 與 Dynamic Confidence 等方法的效率 - 準確率在不同 threshold 對比
研究團隊對 BACD 在不同閾值下,模型輸出的行為進行了分析,相比于標準的動態置信度解碼,BACD 在不同閾值下表現出極高的穩定性。分析顯示,BACD 有效避免了低閾值下的 “模型崩潰” 和 “重復生成” 問題,證明了 BACD 在動態調整去噪步數時具有顯著的優越性。
![]()
BACD 在不同閾值下的性能穩定性分析。
2. Block Size 的權衡
Block Size 是影響 BDLMs 性能與效率的關鍵變量。研究團隊深入探究了其非線性影響:
如下圖所示,隨著 Block Size 增大,推理速度呈線性增長,但生成質量會出現顯著衰退。通過權衡分析,研究團隊鎖定 B=16 為 8B 模型的最佳平衡點(Sweet Spot)。TDAR 在此設置下,既保留了并行解碼的速度優勢,又通過漸進式訓練(Progressive Extension)維持了強大的推理能力。
![]()
不同 Block Size 下模型性能與效率的 Trade-off 分析。
3. TCCF 的普適性增益
在不同的解碼算法下應用 TCCF 機制,比較其在 AIME24 上的表現,如下圖所示。結果表明,無論是在 Dynamic Confidence 還是 BACD 算法下,引入 TCCF(即從 Coarse 到 Fine 的轉換)都能帶來一致且顯著的性能提升。
特別是在 BACD 算法中,TCCF 有效提升了不同閾值下的性能下限。這證明了 “粗思考,細求證” 機制能有效彌補單一解碼策略在細節處理上的不足,實現了 1+1>2 的效果。
![]()
TCCF 策略在不同解碼算法及閾值下的性能增益分析。
結論與展望:釋放 BDLMs 的推理潛力
TDAR 的提出,標志著 Block Diffusion 語言模型在復雜推理任務上邁出了重要一步。從此以后,大 Block Size 不再是禁區,通過漸進式訓練和 BACD 解碼,大 Block 也可以兼顧質量與速度。而 TCCF 范式的提出,證明了針對推理階段動態分配計算粒度的必要性。
TDAR 不僅為 BDLMs 的 Test-Time Scaling 提供了一套高效的解決方案,也為未來并行推理模型的設計提供了新的思路。
團隊成員均來自美團LongCat后訓練團隊:
陸毅,復旦大學自然語言處理實驗室碩士在讀,研究方向為大語言模型,復雜推理,導師為桂韜老師。
孔德陽,北京大學軟件工程國家研究中心碩士在讀,研究方向為大語言模型,復雜推理,導師為葉蔚副研究員。
王嘉寧,獲得華東師范大學博士學位,曾前往UCSD訪問學習,在ACL、EMNLP、AAAI、ICLR等頂會發表論文數十篇,目前就職于美團,LongCat-Flash-Thinking核心作者之一,研究方向為大模型訓練與復雜推理。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.