擴(kuò)散LLM推理新范式：打破生成長度限制，實現(xiàn)動態(tài)自適應(yīng)調(diào)節(jié)

2025-08-08 18:59:59　來源: 機(jī)器之心Pro

河北舉報

分享至

隨著 Gemini-Diffusion，Seed-Diffusion 等擴(kuò)散大語言模型（DLLM）的發(fā)布，這一領(lǐng)域成為了工業(yè)界和學(xué)術(shù)界的熱門方向。但是，當(dāng)前 DLLM 存在著在推理時必須采用預(yù)設(shè)固定長度的限制，對于不同任務(wù)都需要專門調(diào)整才能達(dá)到最優(yōu)效果。

為了解決這一本質(zhì)的問題，香港中文大學(xué) MMLab，上海 AI 實驗室等提出 DAEDAL，賦予 DLLM 可以根據(jù)問題的具體情況自主調(diào)整回答長度的能力，彌補(bǔ)了 DLLM 與自回歸 LLM 的關(guān)鍵差距，為更靈活、高效、強(qiáng)大的擴(kuò)散大語言模型打下了基石。

論文標(biāo)題：Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
論文地址：https://arxiv.org/abs/2508.00819
代碼地址：https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作為一種 Training Free 的去噪策略，從一個統(tǒng)一且很短的初始長度開始，讓模型根據(jù)自己的需求在生成中調(diào)節(jié)長度，動態(tài)擴(kuò)展，達(dá)到了和現(xiàn)有去噪策略在每個評測基準(zhǔn)上精心調(diào)整生成長度得到的最佳性能相當(dāng)?shù)谋憩F(xiàn)，有時甚至更勝一籌。

圖 1 (a) DAEDAL 使用統(tǒng)一且很短的初始長度，在多個基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能。(b) DAEDAL 能夠根據(jù)每個問題，在生成過程中自適應(yīng)地動態(tài)調(diào)整長度，相比之下，現(xiàn)有方法則對所有問題都只能采用單一的固定長度。

DAEDAL 介紹

擴(kuò)散大語言模型（DLLM）潛力巨大，但其現(xiàn)有推理流程存在一個關(guān)鍵的問題：需要預(yù)定義的，固定的生成長度。與能夠邊思考邊決定 “說” 多少的人類和自回歸模型不同，現(xiàn)有的 DLLM 需要預(yù)先設(shè)定確切的輸出長度。這導(dǎo)致了一個兩難的困境：設(shè)置太短，模型在復(fù)雜問題上難以發(fā)揮全部實力，可能導(dǎo)致做錯；設(shè)置太長，則會浪費大量的計算資源，同時，實驗中還發(fā)現(xiàn)過長的生成長度可能導(dǎo)致性能下降。

作者在探索中發(fā)現(xiàn)，這一問題的解決方案就蘊(yùn)藏在模型自身之中。DLLM 在生成時會不斷地全局規(guī)劃其整體輸出，而它的預(yù)測置信度正是其內(nèi)部狀態(tài)的強(qiáng)大信號。作者發(fā)現(xiàn)了兩種關(guān)鍵信號：

DLLM 在序列末端生成序列結(jié)束符 (EOS) 的意愿直接反映了其對全局預(yù)算的規(guī)劃。當(dāng)預(yù)設(shè)長度充足時，模型會自信地在末尾規(guī)劃出結(jié)束區(qū)域，從而高置信度地預(yù)測 EOS。反之，當(dāng)長度不足時，模型會試圖利用所有可用空間來完成核心內(nèi)容，因而抑制了在末尾生成 EOS 的置信度。
在去噪過程中，對某個特定詞元的極低預(yù)測置信度，則可作為一種局部信號，這不僅代表了模型對該詞元的不確定性，更深層次地，它表明當(dāng)前的局部上下文過于受限，不足以支撐一個復(fù)雜的邏輯步驟或細(xì)節(jié)的展開，或是需要插入空間對過去生成的內(nèi)容進(jìn)行補(bǔ)充和修正。

圖 2 該熱力圖展示了在對一個長度為 128 的全掩碼輸入進(jìn)行首次預(yù)測后，于序列末端測得的平均 EOS 詞元置信度之差。該差值的計算方式為：用 “長度充足” 問題（在少于 128 長度的 setting 下被正確回答）的平均置信度減去 “長度不足” 問題（僅在長度更長的 setting 才能被正確回答）的平均置信度。圖中大面積的綠色（差值 > 0）表明，對于長度充足的問題，結(jié)尾 EOS 序列置信度更高，驗證了文中的核心發(fā)現(xiàn)。

基于發(fā)現(xiàn)，作者提出了 DAEDAL，一種無需訓(xùn)練的兩階段推理策略，利用這些內(nèi)部信號，賦予 DLLM 根據(jù)每個問題的具體情況，動態(tài)自主調(diào)整回答長度的能力。

圖 3 DAEDAL 與現(xiàn)有基線方法流程對比

1. 初始長度調(diào)整 (Initial Length Adjustment): 在去噪流程開始前，DAEDAL 從一個統(tǒng)一的很短初始長度出發(fā)。它會通過檢測序列末端的 EOS 序列平均置信度來衡量：“對于這個任務(wù)，當(dāng)前分配的長度是否充足？”。如果置信度很低，即模型規(guī)劃充分利用全部長度，就表明模型認(rèn)為長度預(yù)算不足。此時，DAEDAL 會通過增加 [MASK] 詞元來擴(kuò)展序列長度，并重復(fù)此過程，直到模型確信長度預(yù)算充足。這為任務(wù)設(shè)定了一個合理的全局規(guī)劃長度。

2. 迭代式掩碼插入 (Iterative Mask Insertion): 在逐步去噪的過程中，DAEDAL 會持續(xù)監(jiān)控模型的置信度。如果它發(fā)現(xiàn)模型對某個 [MASK] 位置極不確定，便會將其標(biāo)記為 “擴(kuò)展點”。DAEDAL 通過將這個單個 [MASK] 替換為由多個 [MASK]，動態(tài)且精準(zhǔn)地在模型最需要的地方為序列注入 “思考空間”，以便其在回復(fù)中進(jìn)行補(bǔ)充修補(bǔ)，或是有足夠空間去進(jìn)行更復(fù)雜的思考。

通過結(jié)合這兩個階段，不需要進(jìn)行任何訓(xùn)練，DAEDAL 使得 DLLM 能夠根據(jù)每個問題的具體情況自主調(diào)整其回答的長度，展現(xiàn)了強(qiáng)大的效果。

實驗結(jié)果

圖 4 DAEDAL 在 4 個基準(zhǔn)測試上與基線方法性能對比以及生成長度可視化

DAEDAL 使用統(tǒng)一的短初始長度即可取得強(qiáng)大性能。實驗結(jié)果清晰地展示了 DAEDAL 的優(yōu)越性能。盡管 DAEDAL 默認(rèn)從一個較短的初始長度開始，但其兩階段的長度調(diào)整與擴(kuò)展機(jī)制，不僅使其性能顯著優(yōu)于使用相同短初始長度的基線方法，更能達(dá)到與基線方法在所有固定長度中精心調(diào)優(yōu)后的峰值性能相當(dāng)、甚至在某些情況下超越后者的水平。

這一發(fā)現(xiàn)凸顯了 DAEDAL 的有效性，并揭示了固定長度范式的內(nèi)在不便之處，因為基線方法的最佳長度因不同基準(zhǔn)而異，這更強(qiáng)調(diào)了動態(tài)長度適應(yīng)的必要性。為了直觀展示這種動態(tài)適應(yīng)性，圖 3 對比了 DAEDAL 所用總生成長度（N_token）的分布與基線方法所用的單一最佳長度。

DAEDAL 能自適應(yīng)地找到最佳生成長度。進(jìn)一步的分析表明，DAEDAL 能智能地預(yù)估并生成恰當(dāng)長度的回答。在多數(shù)情況下，DAEDAL 產(chǎn)生的有效詞元數(shù)（E_token）與基線方法在最佳性能配置下的有效詞元數(shù)相當(dāng)。這表明 DAEDAL 能自適應(yīng)地找到模型內(nèi)在的、針對特定任務(wù)所需詞元長度的 “舒適點”。基線方法的行為也印證了這一點：當(dāng)設(shè)置的長度過長時，即使有效詞元數(shù)可能繼續(xù)增加，性能反而可能會下降。DAEDAL 的自適應(yīng)特性有效避免了這種因過度擴(kuò)展導(dǎo)致的性能下降。

DAEDAL 能夠提升計算資源利用率。在取得優(yōu)越準(zhǔn)確率的同時，DAEDAL 生成的總詞元數(shù)（N_token）通常低于基線方法在最佳性能 setting 下的總詞元數(shù)。相近的有效詞元數(shù)和更低的總詞元數(shù)帶來了更高的有效詞元利用率（E_ratio）。這大大地提升了計算資源的利用率。

總結(jié)

DAEDAL 通過其初始長度調(diào)整（Initial Length Adjustment）和迭代式掩碼插入（Iterative Mask Insertion）機(jī)制，不僅在多個基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能，還能為每個任務(wù)自適應(yīng)地分配合適的長度。這使得模型在性能和計算效率上都取得了實質(zhì)性的提升。DAEDA 彌補(bǔ)了擴(kuò)散大語言模型與自回歸大語言模型在核心能力上的一個關(guān)鍵差距，為更靈活、高效、強(qiáng)大的擴(kuò)散大語言模型打下了基石。

作者介紹

本文第一作者是香港中文大學(xué) MMLab 的博士生李勁松，導(dǎo)師林達(dá)華教授，主要研究方向是多模態(tài)大模型和大語言模型。曾在 NeurIPS，ECCV，ACL 等頂級會議發(fā)表多篇論文，Google 學(xué)術(shù)引用超 1400 次。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.