<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      復旦北大聯合美團提出TDAR:破解Block Diffusion速度精度悖論

      0
      分享至



      如今,Test-Time Scaling(測試時擴展)已成為提升模型推理能力的關鍵路徑。而在這一浪潮中,塊擴散語言模型(Block Diffusion Language Models, BDLMs)憑借其獨特的并行解碼能力,被視為超越傳統自回歸(AR)模型推理效率的有力競爭者。

      然而,現有的 BDLMs 在面對長鏈推理時,陷入了一個兩難的效率 - 效果博弈:大塊(Large Block)解碼速度極快,但在復雜推理中容易出錯,導致性能大幅下降;而小塊(Small Block)雖然推理準確,但退化為接近自回歸的速度,失去了擴散模型的并行優勢。同時,現有的解碼策略(如固定置信度)無法適應長推理鏈中 “難易交替” 的動態特性。這引出了一個核心問題:如何在保持 Block Diffusion 高效并行優勢的同時,解鎖其在復雜推理任務上的 Test-Time Scaling 潛力?

      近期,復旦大學 NLP 實驗室(FDU NLP)、北京大學知識計算實驗室(KCL)聯合美團 LongCat Team 提出了一種 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通過引入“粗思考,細求證” (Think Coarse Critic Fine, TCCF) 范式與有界自適應置信度解碼 (Bounded Adaptive Confidence Decoding, BACD),成功打破了速度與精度的零和博弈。



      • 論文標題:Advancing Block Diffusion Language Models for Test-Time Scaling
      • 論文鏈接:https://arxiv.org/abs/2602.09555
      • 代碼鏈接:https://github.com/LuLuLuyi/TDAR
      • 模型鏈接: https://huggingface.co/lulululuyi/TDAR-8B-Thinking



      TDAR-8B-Thinking 在 AIME24 上的性能與速度對比圖。TDAR 位于右上角,展示了在保持高推理速度的同時實現了 SOTA 的準確率。

      核心創新:雙重自適應機制

      為了解決上述痛點,研究團隊提出了一套統一的測試時擴展框架 TDAR,如下圖所示,該框架包含兩個核心設計:有界自適應置信度解碼(BACD)與 “粗思考,細求證” (Think Coarse Critic Fine, TCCF) 范式。



      TDAR 方法概覽。展示了 TCCF 流程(Coarse Thinking -> Fine Critic)以及 BACD 的動態閾值機制。

      1. 解碼層:BACD (Bounded Adaptive Confidence Decoding)

      傳統的動態解碼往往依賴固定的置信度閾值,這在長鏈推理中極易導致 “一步錯,步步錯”。研究團隊提出了有界自適應置信度解碼(BACD)算法,該算法利用已生成 token 的平均置信度作為信號,動態調整當前的去噪閾值。同時,為了實現效率和效果的兼顧,增加了雙重邊界保護機制:上限(Upper Bound)負責在模型自信時激進加速,下限(Lower Bound)負責在模型不確定時強制保守,防止錯誤累積。這使得模型能夠像人類一樣,簡單步驟快思考,困難步驟慢推敲。



      2. 范式層:TCCF (Think Coarse, Critic Fine)

      長鏈推理并非均勻的過程,而是由 “探索” 和 “驗證” 組成的異質序列。在探索階段,思維發散但推理內容較為粗糙,而在驗證階段,需要更加精細的驗證和總結。研究團隊提出了 TCCF 范式,根據推理階段的功能分配不同的計算粒度:

      • Think Coarse(粗思考):使用 大 Block Size (block_size=16) 進行快速的探索性推理,迅速鋪開思維路徑。
      • Critic Fine(細求證):使用 小 Block Size (block_size=1) 進行精細的驗證、糾錯和總結,確保最終答案的正確性。

      此外,為了支持大 Block 的高效訓練,研究團隊引入了 Progressive Block Size Extension(漸進式塊大小擴展) 策略,有效緩解了 Block Size 增大帶來的性能衰退。

      實驗結果:速度與精度的雙重飛躍

      研究團隊在 Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench 共6個主流推理基準上評估了 TDAR-8B-Thinking。

      實驗結果表明,TDAR-8B-Thinking 在 8B 規模的 Block Diffusion 模型中取得了最佳性能,平均性能超越前 SOTA 模型 TraDo-8B 3.4 個百分點,解碼速度從 1.27 TPF 飆升至 2.97 TPF。

      結合 BACD 算法后,速度進一步提升至 3.37 TPF 且性能再漲 1.6 個百分點;疊加 TCCF 范式后,在 AIME24 復雜數學任務上準確率從 36.3% 提升至 42.9%,同時維持 3.04 TPF 的高速度,實現了速度與性能的完美平衡。



      實驗結果表格。TDAR-8B 及其變體在各項指標上均優于現有的自回歸和擴散模型基線。

      深度分析:解構 TDAR 的性能來源

      為了探究 TDAR 高效背后的機制,研究團隊對 Block Size、解碼策略及 TCCF 范式進行了多維度的量化分析。

      1. 突破效率瓶頸:BACD 解鎖高能效區間

      研究團隊將 BACD 與 BDLMs 中主流的采樣算法進行了對比,包括 Static Confidence Decoding(固定步數,性能上限但效率低)和 Dynamic Confidence Decoding(動態閾值)。

      首先,研究團隊比較了在不同閾值下的性能與速度權衡。如下圖所示,對于 Dynamic Confidence Decoding,隨著置信度閾值(Threshold)的降低,模型的性能會出現肉眼可見的衰退。相比之下,BACD 在獲得持續效率增益的同時,依然維持了穩定的性能表現。



      BACD 與 Dynamic Confidence 等方法的效率 - 準確率在不同 threshold 對比

      研究團隊對 BACD 在不同閾值下,模型輸出的行為進行了分析,相比于標準的動態置信度解碼,BACD 在不同閾值下表現出極高的穩定性。分析顯示,BACD 有效避免了低閾值下的 “模型崩潰” 和 “重復生成” 問題,證明了 BACD 在動態調整去噪步數時具有顯著的優越性。



      BACD 在不同閾值下的性能穩定性分析。

      2. Block Size 的權衡

      Block Size 是影響 BDLMs 性能與效率的關鍵變量。研究團隊深入探究了其非線性影響:

      如下圖所示,隨著 Block Size 增大,推理速度呈線性增長,但生成質量會出現顯著衰退。通過權衡分析,研究團隊鎖定 B=16 為 8B 模型的最佳平衡點(Sweet Spot)。TDAR 在此設置下,既保留了并行解碼的速度優勢,又通過漸進式訓練(Progressive Extension)維持了強大的推理能力。



      不同 Block Size 下模型性能與效率的 Trade-off 分析。

      3. TCCF 的普適性增益

      在不同的解碼算法下應用 TCCF 機制,比較其在 AIME24 上的表現,如下圖所示。結果表明,無論是在 Dynamic Confidence 還是 BACD 算法下,引入 TCCF(即從 Coarse 到 Fine 的轉換)都能帶來一致且顯著的性能提升。

      特別是在 BACD 算法中,TCCF 有效提升了不同閾值下的性能下限。這證明了 “粗思考,細求證” 機制能有效彌補單一解碼策略在細節處理上的不足,實現了 1+1>2 的效果。



      TCCF 策略在不同解碼算法及閾值下的性能增益分析。

      結論與展望:釋放 BDLMs 的推理潛力

      TDAR 的提出,標志著 Block Diffusion 語言模型在復雜推理任務上邁出了重要一步。從此以后,大 Block Size 不再是禁區,通過漸進式訓練和 BACD 解碼,大 Block 也可以兼顧質量與速度。而 TCCF 范式的提出,證明了針對推理階段動態分配計算粒度的必要性。

      TDAR 不僅為 BDLMs 的 Test-Time Scaling 提供了一套高效的解決方案,也為未來并行推理模型的設計提供了新的思路。

      團隊成員均來自美團LongCat后訓練團隊:

      陸毅,復旦大學自然語言處理實驗室碩士在讀,研究方向為大語言模型,復雜推理,導師為桂韜老師。

      孔德陽,北京大學軟件工程國家研究中心碩士在讀,研究方向為大語言模型,復雜推理,導師為葉蔚副研究員。

      王嘉寧,獲得華東師范大學博士學位,曾前往UCSD訪問學習,在ACL、EMNLP、AAAI、ICLR等頂會發表論文數十篇,目前就職于美團,LongCat-Flash-Thinking核心作者之一,研究方向為大模型訓練與復雜推理。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      84年,娘留算命先生吃飯,臨走他指著小妹道:她的福你享

      84年,娘留算命先生吃飯,臨走他指著小妹道:她的福你享

      人間百態大全
      2026-03-12 06:30:07
      小楊阿姨待不住了,隔空示弱老板娘,馬筱梅曬親媽燉的麻油雞湯

      小楊阿姨待不住了,隔空示弱老板娘,馬筱梅曬親媽燉的麻油雞湯

      小娛樂悠悠
      2026-03-12 11:58:19
      血殺:七百年的宗室滅絕史

      血殺:七百年的宗室滅絕史

      無心鏡
      2026-03-12 08:08:42
      特朗普再次威脅將切斷與西班牙貿易往來

      特朗普再次威脅將切斷與西班牙貿易往來

      財聯社
      2026-03-12 01:41:32
      渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬別要

      渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬別要

      哄動一時啊
      2026-02-27 23:35:44
      特朗普人還沒到,先改訪華規格,中方已接到通知,美國要彎道超車

      特朗普人還沒到,先改訪華規格,中方已接到通知,美國要彎道超車

      面包夾知識
      2026-03-11 20:16:29
      再也不小瞧“空氣炸鍋”了!果然,只要思路打開,就好用到離譜

      再也不小瞧“空氣炸鍋”了!果然,只要思路打開,就好用到離譜

      美家指南
      2026-02-24 15:48:11
      隊報:伊朗女足一人改主意泄露庇護住所,澳政府隨后轉移球員

      隊報:伊朗女足一人改主意泄露庇護住所,澳政府隨后轉移球員

      懂球帝
      2026-03-11 20:22:10
      倫納德45分!快船153-128屠狼!誕生5個現實:2換1、2換5交易穩賺

      倫納德45分!快船153-128屠狼!誕生5個現實:2換1、2換5交易穩賺

      毒舌NBA
      2026-03-12 13:09:18
      為什么全世界最瘦的是日本人?評論區的回答笑暈了,簡直一針見血

      為什么全世界最瘦的是日本人?評論區的回答笑暈了,簡直一針見血

      另子維愛讀史
      2026-03-06 20:14:42
      55歲知名醫學教授遭車禍身亡:傳肇事者逃逸,過程披露最后照流出

      55歲知名醫學教授遭車禍身亡:傳肇事者逃逸,過程披露最后照流出

      博士觀察
      2026-03-12 14:39:53
      梅婷首公開女兒閨房,整潔而有書香氣,這才是真正的富養

      梅婷首公開女兒閨房,整潔而有書香氣,這才是真正的富養

      觀察鑒娛
      2026-03-11 09:40:24
      吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

      吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

      另子維愛讀史
      2026-02-27 20:31:34
      太有趣!孫穎莎重慶賽開門紅,承認不敢吃辣,和王楚欽理由竟一樣

      太有趣!孫穎莎重慶賽開門紅,承認不敢吃辣,和王楚欽理由竟一樣

      阿志侃體育
      2026-03-12 15:14:41
      13日至14日為本輪雨雪最強時段!青甘寧等地留意對交通、設施農業影響

      13日至14日為本輪雨雪最強時段!青甘寧等地留意對交通、設施農業影響

      環球網資訊
      2026-03-12 10:21:09
      總把長壽歸功于基因好?研究:全球百歲老人的共性是這份長壽菜單

      總把長壽歸功于基因好?研究:全球百歲老人的共性是這份長壽菜單

      時光派健康抗衰
      2026-03-10 11:00:03
      迪拜機場再次被炸!被困女星已失聯,工作室一言不發,后果不敢想

      迪拜機場再次被炸!被困女星已失聯,工作室一言不發,后果不敢想

      阿萊美食匯
      2026-03-11 20:40:27
      原中國女排隊長馮坤近照曝光,英姿颯爽氣場十足,笑容和藹顯富態

      原中國女排隊長馮坤近照曝光,英姿颯爽氣場十足,笑容和藹顯富態

      籃球看比賽
      2026-03-12 11:00:16
      玄學提醒:父母千萬別向孩子“借運”!你借一次,孩子傷一輩子

      玄學提醒:父母千萬別向孩子“借運”!你借一次,孩子傷一輩子

      戶外阿毽
      2026-03-12 19:27:09
      越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

      越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

      許三歲
      2026-03-12 17:53:05
      2026-03-12 20:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12487文章數 142584關注度
      往期回顧 全部

      科技要聞

      當養蝦人開始卸載,大廠的戰爭才真正開始

      頭條要聞

      男子做核磁被遺忘在機器上6小時 涉事醫生:交接失誤

      頭條要聞

      男子做核磁被遺忘在機器上6小時 涉事醫生:交接失誤

      體育要聞

      建議將“出球型門將”納入反詐app

      娛樂要聞

      田亮一家新年全家福!森碟變清純少女

      財經要聞

      盧鋒:從特朗普團隊群演看時代變局

      汽車要聞

      大眾2025財報:轉型雖有陣痛 "大象"已然起跑

      態度原創

      旅游
      本地
      游戲
      親子
      公開課

      旅游要聞

      賞花游本周末將迎高峰,北京成最受歡迎春游目的地

      本地新聞

      坐標北京,過敏季反向遷徒

      魂師對決:當前版本必練7人組盤點!真就是角色越多必練越少?

      親子要聞

      今天我們來吃一些開心搞怪的糖果食玩

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版