![]()
在生成式 AI 的浪潮中,自回歸(Autoregressive, AR)模型憑借其卓越的性能占據(jù)了統(tǒng)治地位。然而,其「從左到右」逐個(gè)預(yù)測(cè) Token 的串行機(jī)制,天生限制了并行生成的可能性。
作為一種極具潛力的替代方案,擴(kuò)散語(yǔ)言模型(Diffusion Language Models, dLLMs)引入了全新的非自回歸范式:通過迭代去噪來(lái)優(yōu)化文本序列 。這種機(jī)制不僅支持雙向上下文建模,更允許并行更新多個(gè) Token,為更快的生成速度和更強(qiáng)的可控性打開了大門。
但在「美好愿景」與「實(shí)際落地」之間,橫亙著一道巨大的鴻溝 ——效率。
相比于高度成熟的 AR 模型,dLLM 面臨著訓(xùn)練成本高昂、推理步驟繁瑣、KV Cache 難以復(fù)用等棘手問題 。為了厘清這一新興領(lǐng)域的關(guān)鍵技術(shù)路徑,自動(dòng)化所、香港中文大學(xué)與香港大學(xué)等機(jī)構(gòu)撰寫了一篇最新的綜述論文,該綜述系統(tǒng)地梳理了高效 dLLM 的研究進(jìn)展,從訓(xùn)練、推理、上下文及系統(tǒng)框架等維度,拆解 dLLM 是如何一步步跨越效率瓶頸的。
![]()
![]()
- 論文標(biāo)題:Efficient Diffusion Language Models: A Comprehensive Survey
- 論文鏈接:https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey
- 項(xiàng)目倉(cāng)庫(kù):https://github.com/FelixMessi/Awesome-Efficient-dLLMs
一、訓(xùn)練效率:如何站在 AR 的肩膀上起飛?
dLLM 若要從頭訓(xùn)練,不僅數(shù)據(jù)需求大,算力消耗也極其驚人。因此,如何「借力」現(xiàn)有的預(yù)訓(xùn)練模型成為關(guān)鍵。
論文將訓(xùn)練側(cè)的提效策略主要?dú)w納為「AR 到 dLLM 的遷移」與「架構(gòu)優(yōu)化」。
- 從 AR 到擴(kuò)散模型的無(wú)縫遷移:
與其從零開始,不如利用已有的 AR 模型權(quán)重。DiffuLLaMA 和 Dream 等工作探索了通過調(diào)整注意力掩碼(Attention Mask)或引入特定的過渡微調(diào)階段,將 AR 模型的能力「蒸餾」或「轉(zhuǎn)換」為擴(kuò)散模型 。更有趣的是Block Diffusion(塊擴(kuò)散)的思路,它保留了部分自回歸的結(jié)構(gòu)(塊與塊之間串行),但在塊內(nèi)部進(jìn)行并行擴(kuò)散,這種折中方案在保留 AR 預(yù)訓(xùn)練優(yōu)勢(shì)的同時(shí),顯著降低了適應(yīng)成本 。
- 架構(gòu)層面的「加減法」:
為了減少計(jì)算量,研究人員開始對(duì)架構(gòu)動(dòng)刀。E2D2 采用了編碼器 - 解碼器(Encoder-Decoder)架構(gòu),讓編碼器處理清晰的輸入,解碼器專注于去噪,從而復(fù)用特征并降低訓(xùn)練成本 。此外,MoE(混合專家)架構(gòu)也被引入 dLLM(如 LLaDA-MoE),通過稀疏激活在保持模型容量的同時(shí)減少推理時(shí)的參數(shù)計(jì)算量 。
二、推理加速:并行解碼與采樣策略的博弈
推理速度是 dLLM 能否落地的核心痛點(diǎn)。由于擴(kuò)散過程本質(zhì)上是多步迭代,如果每一步都全量計(jì)算,延遲將無(wú)法接受。綜述將推理加速主要分為「并行解碼」和「壓縮技術(shù)」兩大類。
![]()
1. 并行解碼(Parallel Decoding)
dLLM 的核心優(yōu)勢(shì)在于可以一次性更新多個(gè) Token。但具體更新哪些?更新多少?
- 啟發(fā)式方法(Heuristic Methods):這類方法不需要重新訓(xùn)練模型,而是利用「不確定性」作為信號(hào)。例如 Fast-dLLM 會(huì)計(jì)算每個(gè) Token 的置信度,只有置信度高的 Token 才會(huì)保留,低的則繼續(xù)去噪 。還有基于「屬性感知」的采樣,利用生成的局部一致性或早期收斂現(xiàn)象來(lái)提前終止計(jì)算 。
- 基于學(xué)習(xí)的方法(Learning-based Methods):這是一種更「主動(dòng)」的策略。通過訓(xùn)練額外的輕量級(jí)網(wǎng)絡(luò)或使用強(qiáng)化學(xué)習(xí)(RL),讓模型自己學(xué)會(huì)規(guī)劃「這一步該解開哪些 Token」。dParallel和LSD等工作通過蒸餾技術(shù),讓學(xué)生模型用更少的步數(shù)模仿教師模型的采樣軌跡 。
2. 壓縮與量化
除了少走幾步,把模型「變小」也是硬道理。雖然量化(Quantization)在 AR 模型中已很成熟,但 dLLM 對(duì)異常值和時(shí)間步(Timestep)高度敏感。QDLM和Quant-dLLM等工作專門針對(duì)擴(kuò)散過程中的激活分布特點(diǎn),設(shè)計(jì)了細(xì)粒度的量化方案,甚至實(shí)現(xiàn)了 2-bit 的極低比特量化 。
三、KV Cache 管理:應(yīng)對(duì)「動(dòng)態(tài)」挑戰(zhàn)
這是 dLLM 與 AR 模型在底層機(jī)制上最大的不同點(diǎn),也是工程優(yōu)化的深水區(qū)。
在 AR 模型中,歷史 Token 是固定的,因此 KV Cache 可以一直復(fù)用。但在 dLLM 中,整個(gè)序列在每一步去噪中都在變化,雙向注意力機(jī)制意味著所有 Token 互相依賴,導(dǎo)致標(biāo)準(zhǔn)的 KV Cache 失效。
![]()
綜述總結(jié)了三種應(yīng)對(duì)策略:
1.架構(gòu)范式調(diào)整:采用 Block Diffusion 或 DualCache 設(shè)計(jì),將序列分為「固定的前綴」和「動(dòng)態(tài)的后綴」,只對(duì)變化的部分進(jìn)行重計(jì)算 。
2.自適應(yīng)刷新(Adaptive Refresh):利用 Token 的穩(wěn)定性。如果某個(gè) Token 的特征在兩步之間變化很小(Similarity Threshold),就直接復(fù)用上一輪的 Cache,否則才更新。dKV-Cache 和 d2Cache 就是此類策略的代表 。
3.稀疏化與驅(qū)逐(Sparsity & Eviction):既然存不下,就只存重要的。通過注意力顯著性(Attention Saliency)判斷哪些 Token 對(duì)當(dāng)前生成最關(guān)鍵,動(dòng)態(tài)驅(qū)逐不重要的 KV 對(duì),從而在有限顯存下支持更長(zhǎng)的序列 。
四、投機(jī)解碼:dLLM 的「自我博弈」與「協(xié)同作戰(zhàn)」
投機(jī)解碼(Speculative Decoding, SD)在 dLLM 中呈現(xiàn)出兩種獨(dú)特的形態(tài):
- dLLM-only 自我投機(jī):模型自己預(yù)測(cè)未來(lái)的中間狀態(tài)(Self-Speculation),或者利用 "Jump-Share" 機(jī)制,在迭代中跳過某些去噪步驟并共享計(jì)算結(jié)果 。
- dLLM-AR 協(xié)同(Synergy):結(jié)合 AR 和 dLLM 的長(zhǎng)處。一種思路是用小的 AR 模型輔助 dLLM 判斷采樣的聯(lián)合概率;另一種則是用 dLLM 快速生成草稿(Draft),再由大參數(shù)的 AR 模型進(jìn)行驗(yàn)證(Verify)。這種 "Diffusion-as-Drafter" 的模式正在成為提升 AR 模型整體吞吐量的新熱點(diǎn) 。
五、總結(jié)與展望:邁向生產(chǎn)環(huán)境
除了上述算法層面的優(yōu)化,論文還探討了上下文擴(kuò)展(Context Scalability)和系統(tǒng)框架(System Framework)。目前,包括 SGLang 在內(nèi)的主流推理引擎已開始初步支持 dLLM,但相比 vLLM 對(duì) AR 模型的那種極致優(yōu)化,dLLM 的生態(tài)系統(tǒng)仍處于「基建」階段 。
未來(lái)值得關(guān)注的方向:
1.統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn):目前的效率對(duì)比往往基于不同的假設(shè),急需建立涵蓋訓(xùn)練成本、顯存占用、端到端延遲的統(tǒng)一 Benchmark。
2.硬件感知的內(nèi)核優(yōu)化:目前的加速很多停留在算法層,缺乏針對(duì) FlashAttention 那樣底層的 CUDA Kernel 優(yōu)化,這限制了理論加速比向?qū)嶋H墻鐘時(shí)間(Wall-clock time)的轉(zhuǎn)化 。
3.多模態(tài)融合:dLLM 天然適合多模態(tài)任務(wù)(因?yàn)閳D像生成本身多為擴(kuò)散模型),如何在多模態(tài)場(chǎng)景下實(shí)現(xiàn)統(tǒng)一的高效推理,將是下一個(gè)爆發(fā)點(diǎn) 。
這篇綜述不僅是對(duì)現(xiàn)有技術(shù)的總結(jié),更是一份「作戰(zhàn)地圖」。它清晰地表明,dLLM 正從純粹的學(xué)術(shù)探索走向工業(yè)級(jí)應(yīng)用。隨著 KV Cache 管理、并行解碼策略的日益成熟,我們有理由相信,在不久的將來(lái),dLLM 將在需要高質(zhì)量、高可控性生成的場(chǎng)景中,成為 AR 模型強(qiáng)有力的競(jìng)爭(zhēng)者甚至互補(bǔ)者。
延伸閱讀與資源
紙上得來(lái)終覺淺。為了方便大家查閱文中提到的所有算法實(shí)現(xiàn)及后續(xù)更新的論文,作者整理了配套的 GitHub 資源庫(kù)。如果你關(guān)注擴(kuò)散語(yǔ)言模型推理加速、模型壓縮 或 高性能計(jì)算,建議將此鏈接加入書簽:
- https://github.com/FelixMessi/Awesome-Efficient-dLLMs
該倉(cāng)庫(kù)實(shí)時(shí)追蹤 dLLM 領(lǐng)域的最新動(dòng)態(tài),歡迎 Star 關(guān)注或貢獻(xiàn)你的代碼!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.