<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      訓(xùn)練到推理「瘦身」演進(jìn):首篇高效擴(kuò)散語言模型(dLLM)深度綜述

      0
      分享至



      在生成式 AI 的浪潮中,自回歸(Autoregressive, AR)模型憑借其卓越的性能占據(jù)了統(tǒng)治地位。然而,其「從左到右」逐個(gè)預(yù)測(cè) Token 的串行機(jī)制,天生限制了并行生成的可能性。

      作為一種極具潛力的替代方案,擴(kuò)散語言模型(Diffusion Language Models, dLLMs)引入了全新的非自回歸范式:通過迭代去噪來優(yōu)化文本序列 。這種機(jī)制不僅支持雙向上下文建模,更允許并行更新多個(gè) Token,為更快的生成速度和更強(qiáng)的可控性打開了大門。

      但在「美好愿景」與「實(shí)際落地」之間,橫亙著一道巨大的鴻溝 ——效率。

      相比于高度成熟的 AR 模型,dLLM 面臨著訓(xùn)練成本高昂、推理步驟繁瑣、KV Cache 難以復(fù)用等棘手問題 。為了厘清這一新興領(lǐng)域的關(guān)鍵技術(shù)路徑,自動(dòng)化所、香港中文大學(xué)與香港大學(xué)等機(jī)構(gòu)撰寫了一篇最新的綜述論文,該綜述系統(tǒng)地梳理了高效 dLLM 的研究進(jìn)展,從訓(xùn)練、推理、上下文及系統(tǒng)框架等維度,拆解 dLLM 是如何一步步跨越效率瓶頸的。





      • 論文標(biāo)題:Efficient Diffusion Language Models: A Comprehensive Survey
      • 論文鏈接:https://www.authorea.com/users/1021451/articles/1381451-efficient-diffusion-language-models-a-comprehensive-survey
      • 項(xiàng)目倉庫:https://github.com/FelixMessi/Awesome-Efficient-dLLMs

      一、訓(xùn)練效率:如何站在 AR 的肩膀上起飛?

      dLLM 若要從頭訓(xùn)練,不僅數(shù)據(jù)需求大,算力消耗也極其驚人。因此,如何「借力」現(xiàn)有的預(yù)訓(xùn)練模型成為關(guān)鍵。

      論文將訓(xùn)練側(cè)的提效策略主要?dú)w納為「AR 到 dLLM 的遷移」與「架構(gòu)優(yōu)化」。

      • 從 AR 到擴(kuò)散模型的無縫遷移:

      與其從零開始,不如利用已有的 AR 模型權(quán)重。DiffuLLaMA 和 Dream 等工作探索了通過調(diào)整注意力掩碼(Attention Mask)或引入特定的過渡微調(diào)階段,將 AR 模型的能力「蒸餾」或「轉(zhuǎn)換」為擴(kuò)散模型 。更有趣的是Block Diffusion(塊擴(kuò)散)的思路,它保留了部分自回歸的結(jié)構(gòu)(塊與塊之間串行),但在塊內(nèi)部進(jìn)行并行擴(kuò)散,這種折中方案在保留 AR 預(yù)訓(xùn)練優(yōu)勢(shì)的同時(shí),顯著降低了適應(yīng)成本 。

      • 架構(gòu)層面的「加減法」:

      為了減少計(jì)算量,研究人員開始對(duì)架構(gòu)動(dòng)刀。E2D2 采用了編碼器 - 解碼器(Encoder-Decoder)架構(gòu),讓編碼器處理清晰的輸入,解碼器專注于去噪,從而復(fù)用特征并降低訓(xùn)練成本 。此外,MoE(混合專家)架構(gòu)也被引入 dLLM(如 LLaDA-MoE),通過稀疏激活在保持模型容量的同時(shí)減少推理時(shí)的參數(shù)計(jì)算量 。

      二、推理加速:并行解碼與采樣策略的博弈

      推理速度是 dLLM 能否落地的核心痛點(diǎn)。由于擴(kuò)散過程本質(zhì)上是多步迭代,如果每一步都全量計(jì)算,延遲將無法接受。綜述將推理加速主要分為「并行解碼」和「壓縮技術(shù)」兩大類。



      1. 并行解碼(Parallel Decoding)

      dLLM 的核心優(yōu)勢(shì)在于可以一次性更新多個(gè) Token。但具體更新哪些?更新多少?

      • 啟發(fā)式方法(Heuristic Methods):這類方法不需要重新訓(xùn)練模型,而是利用「不確定性」作為信號(hào)。例如 Fast-dLLM 會(huì)計(jì)算每個(gè) Token 的置信度,只有置信度高的 Token 才會(huì)保留,低的則繼續(xù)去噪 。還有基于「屬性感知」的采樣,利用生成的局部一致性或早期收斂現(xiàn)象來提前終止計(jì)算 。

      • 基于學(xué)習(xí)的方法(Learning-based Methods):這是一種更「主動(dòng)」的策略。通過訓(xùn)練額外的輕量級(jí)網(wǎng)絡(luò)或使用強(qiáng)化學(xué)習(xí)(RL),讓模型自己學(xué)會(huì)規(guī)劃「這一步該解開哪些 Token」。dParallel和LSD等工作通過蒸餾技術(shù),讓學(xué)生模型用更少的步數(shù)模仿教師模型的采樣軌跡 。

      2. 壓縮與量化

      除了少走幾步,把模型「變小」也是硬道理。雖然量化(Quantization)在 AR 模型中已很成熟,但 dLLM 對(duì)異常值和時(shí)間步(Timestep)高度敏感。QDLM和Quant-dLLM等工作專門針對(duì)擴(kuò)散過程中的激活分布特點(diǎn),設(shè)計(jì)了細(xì)粒度的量化方案,甚至實(shí)現(xiàn)了 2-bit 的極低比特量化 。

      三、KV Cache 管理:應(yīng)對(duì)「動(dòng)態(tài)」挑戰(zhàn)

      這是 dLLM 與 AR 模型在底層機(jī)制上最大的不同點(diǎn),也是工程優(yōu)化的深水區(qū)。

      在 AR 模型中,歷史 Token 是固定的,因此 KV Cache 可以一直復(fù)用。但在 dLLM 中,整個(gè)序列在每一步去噪中都在變化,雙向注意力機(jī)制意味著所有 Token 互相依賴,導(dǎo)致標(biāo)準(zhǔn)的 KV Cache 失效。



      綜述總結(jié)了三種應(yīng)對(duì)策略:

      1.架構(gòu)范式調(diào)整:采用 Block Diffusion 或 DualCache 設(shè)計(jì),將序列分為「固定的前綴」和「動(dòng)態(tài)的后綴」,只對(duì)變化的部分進(jìn)行重計(jì)算 。

      2.自適應(yīng)刷新(Adaptive Refresh):利用 Token 的穩(wěn)定性。如果某個(gè) Token 的特征在兩步之間變化很小(Similarity Threshold),就直接復(fù)用上一輪的 Cache,否則才更新。dKV-Cache 和 d2Cache 就是此類策略的代表 。

      3.稀疏化與驅(qū)逐(Sparsity & Eviction):既然存不下,就只存重要的。通過注意力顯著性(Attention Saliency)判斷哪些 Token 對(duì)當(dāng)前生成最關(guān)鍵,動(dòng)態(tài)驅(qū)逐不重要的 KV 對(duì),從而在有限顯存下支持更長的序列 。

      四、投機(jī)解碼:dLLM 的「自我博弈」與「協(xié)同作戰(zhàn)」

      投機(jī)解碼(Speculative Decoding, SD)在 dLLM 中呈現(xiàn)出兩種獨(dú)特的形態(tài):

      • dLLM-only 自我投機(jī):模型自己預(yù)測(cè)未來的中間狀態(tài)(Self-Speculation),或者利用 "Jump-Share" 機(jī)制,在迭代中跳過某些去噪步驟并共享計(jì)算結(jié)果 。
      • dLLM-AR 協(xié)同(Synergy):結(jié)合 AR 和 dLLM 的長處。一種思路是用小的 AR 模型輔助 dLLM 判斷采樣的聯(lián)合概率;另一種則是用 dLLM 快速生成草稿(Draft),再由大參數(shù)的 AR 模型進(jìn)行驗(yàn)證(Verify)。這種 "Diffusion-as-Drafter" 的模式正在成為提升 AR 模型整體吞吐量的新熱點(diǎn) 。

      五、總結(jié)與展望:邁向生產(chǎn)環(huán)境

      除了上述算法層面的優(yōu)化,論文還探討了上下文擴(kuò)展(Context Scalability)和系統(tǒng)框架(System Framework)。目前,包括 SGLang 在內(nèi)的主流推理引擎已開始初步支持 dLLM,但相比 vLLM 對(duì) AR 模型的那種極致優(yōu)化,dLLM 的生態(tài)系統(tǒng)仍處于「基建」階段 。

      未來值得關(guān)注的方向:

      1.統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn):目前的效率對(duì)比往往基于不同的假設(shè),急需建立涵蓋訓(xùn)練成本、顯存占用、端到端延遲的統(tǒng)一 Benchmark。

      2.硬件感知的內(nèi)核優(yōu)化:目前的加速很多停留在算法層,缺乏針對(duì) FlashAttention 那樣底層的 CUDA Kernel 優(yōu)化,這限制了理論加速比向?qū)嶋H墻鐘時(shí)間(Wall-clock time)的轉(zhuǎn)化 。

      3.多模態(tài)融合:dLLM 天然適合多模態(tài)任務(wù)(因?yàn)閳D像生成本身多為擴(kuò)散模型),如何在多模態(tài)場(chǎng)景下實(shí)現(xiàn)統(tǒng)一的高效推理,將是下一個(gè)爆發(fā)點(diǎn) 。

      這篇綜述不僅是對(duì)現(xiàn)有技術(shù)的總結(jié),更是一份「作戰(zhàn)地圖」。它清晰地表明,dLLM 正從純粹的學(xué)術(shù)探索走向工業(yè)級(jí)應(yīng)用。隨著 KV Cache 管理、并行解碼策略的日益成熟,我們有理由相信,在不久的將來,dLLM 將在需要高質(zhì)量、高可控性生成的場(chǎng)景中,成為 AR 模型強(qiáng)有力的競(jìng)爭(zhēng)者甚至互補(bǔ)者。

      延伸閱讀與資源

      紙上得來終覺淺。為了方便大家查閱文中提到的所有算法實(shí)現(xiàn)及后續(xù)更新的論文,作者整理了配套的 GitHub 資源庫。如果你關(guān)注擴(kuò)散語言模型推理加速、模型壓縮 或 高性能計(jì)算,建議將此鏈接加入書簽:

      • https://github.com/FelixMessi/Awesome-Efficient-dLLMs

      該倉庫實(shí)時(shí)追蹤 dLLM 領(lǐng)域的最新動(dòng)態(tài),歡迎 Star 關(guān)注或貢獻(xiàn)你的代碼!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      卓榮泰竄訪日本,我外交部一句話定調(diào),柯文哲另有心思,不簡(jiǎn)單

      卓榮泰竄訪日本,我外交部一句話定調(diào),柯文哲另有心思,不簡(jiǎn)單

      阿紿聊社會(huì)
      2026-03-10 08:41:36
      南寧一校長開會(huì)時(shí)說“呦西”,事后公開道歉

      南寧一校長開會(huì)時(shí)說“呦西”,事后公開道歉

      麥杰遜
      2026-03-08 13:13:41
      醫(yī)生怒斥:別再拿這些瓶子裝東西了,患癌再后悔就晚了!趕緊扔掉

      醫(yī)生怒斥:別再拿這些瓶子裝東西了,患癌再后悔就晚了!趕緊扔掉

      39健康網(wǎng)
      2026-01-18 20:45:54
      是以色列干的!沒想到美國開始甩鍋了。

      是以色列干的!沒想到美國開始甩鍋了。

      荊楚寰宇文樞
      2026-03-10 22:57:20
      前TVB御用奸人罕回港驚變白頭翁戾氣全消,離巢後事業(yè)家庭兩得意

      前TVB御用奸人罕回港驚變白頭翁戾氣全消,離巢後事業(yè)家庭兩得意

      粵睇先生
      2026-03-10 19:44:04
      潑湯女徹底涼涼!身份被扒是老師,疑被解雇,嚴(yán)重的還在后面

      潑湯女徹底涼涼!身份被扒是老師,疑被解雇,嚴(yán)重的還在后面

      社會(huì)日日鮮
      2026-03-11 03:33:43
      美國清醒了,中國解放臺(tái)灣根本不需要登陸。

      美國清醒了,中國解放臺(tái)灣根本不需要登陸。

      安安說
      2026-01-19 14:23:04
      【特稿】美軍死亡人數(shù)上升 預(yù)計(jì)會(huì)有更大傷亡 

      【特稿】美軍死亡人數(shù)上升 預(yù)計(jì)會(huì)有更大傷亡 

      新華社
      2026-03-09 14:08:03
      伊朗:反世襲制的革命,為何最終走向了新世襲?

      伊朗:反世襲制的革命,為何最終走向了新世襲?

      劉曉原
      2026-03-09 19:11:31
      中央定調(diào)!退休新規(guī)實(shí)施,公務(wù)員事業(yè)單位不能申請(qǐng)延退,啥原因?

      中央定調(diào)!退休新規(guī)實(shí)施,公務(wù)員事業(yè)單位不能申請(qǐng)延退,啥原因?

      社保小達(dá)人
      2026-01-20 10:50:09
      美防長稱將對(duì)伊朗發(fā)起“最高強(qiáng)度”打擊

      美防長稱將對(duì)伊朗發(fā)起“最高強(qiáng)度”打擊

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-03-10 21:59:32
      老板兒子高考583分,司機(jī)隨禮2888,司機(jī)女兒考710,老板回禮666

      老板兒子高考583分,司機(jī)隨禮2888,司機(jī)女兒考710,老板回禮666

      蕭竹輕語
      2025-07-24 20:04:53
      張?jiān)迄i直言反感爸爸家:天天直播拍視頻,只想待在媽媽身邊

      張?jiān)迄i直言反感爸爸家:天天直播拍視頻,只想待在媽媽身邊

      可樂談情感
      2026-03-10 18:06:56
      純電車為什么應(yīng)該小型化?小電車為什么這么香?

      純電車為什么應(yīng)該小型化?小電車為什么這么香?

      凡兮說
      2026-03-10 19:30:24
      愛因斯坦晚年為何研究神學(xué)?他發(fā)現(xiàn)了什么,讓他恐懼了 30 年?

      愛因斯坦晚年為何研究神學(xué)?他發(fā)現(xiàn)了什么,讓他恐懼了 30 年?

      Thurman在昆明
      2026-03-08 22:30:48
      楊子姍上海豪宅曝光,女兒專屬滑梯,餐廳廚房寬敞如跑道

      楊子姍上海豪宅曝光,女兒專屬滑梯,餐廳廚房寬敞如跑道

      全球風(fēng)情大揭秘
      2026-03-11 03:04:49
      超市手撕袋別亂拿!售貨員提醒,好多人白花錢還傷身

      超市手撕袋別亂拿!售貨員提醒,好多人白花錢還傷身

      開心美食白科
      2026-03-08 00:33:12
      普京:責(zé)成俄政府評(píng)估對(duì)歐停供能源可行性,在中東地區(qū)持續(xù)沖突背景下,俄能源企業(yè)要抓住當(dāng)前時(shí)機(jī),利用新增收入來減輕債務(wù)

      普京:責(zé)成俄政府評(píng)估對(duì)歐停供能源可行性,在中東地區(qū)持續(xù)沖突背景下,俄能源企業(yè)要抓住當(dāng)前時(shí)機(jī),利用新增收入來減輕債務(wù)

      每日經(jīng)濟(jì)新聞
      2026-03-10 16:49:28
      哈佛研究:吃一個(gè)西紅柿,就等于喝了一大口可樂,真的還是假的?

      哈佛研究:吃一個(gè)西紅柿,就等于喝了一大口可樂,真的還是假的?

      泠泠說史
      2025-11-10 14:17:05
      騎士贏球大功臣出爐,哈登賽后攤牌!阿特金森有不滿,新援創(chuàng)新高

      騎士贏球大功臣出爐,哈登賽后攤牌!阿特金森有不滿,新援創(chuàng)新高

      魚崖大話籃球
      2026-03-10 10:58:22
      2026-03-11 04:23:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

      體育要聞

      加蘭沒那么差,但鱸魚會(huì)用嗎?

      娛樂要聞

      《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      時(shí)尚
      健康
      親子
      家居
      公開課

      看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      家長和同學(xué)們都應(yīng)該知道的20英里法則

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版