![]()
DrDiff框架的核心思想是“動態化”,其創新性體現在三個緊密協同的技術組件上,宛如為模型裝上了“智能調度中樞”。
作者丨王可澤
![]()
拓元智慧團隊聯合來自中山大學人機物智能融合實驗室、阿里巴巴集團及Snap Inc的研究團隊,針對了困擾業界已久的長文本生成中“效率”與“質量”難以兼得的根本性挑戰,開發出DrDiff(動態路由擴散)框架(已被NLP 頂會 EMNLP 2025錄用接收)。該框架通過創新的動態資源調度機制,在保證生成內容連貫性的同時,將計算復雜度降至線性,為AI輔助學術科研、長篇內容創作、自動報告生成等應用提供了有力的基礎支撐。
![]()
論文題目:
DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for
Breaking the Efficiency-Quality Trade-off
論文鏈接:https://arxiv.org/pdf/2509.02785
論文通訊作者王可澤博士:國家級青年人才、中山大學計算機學院副教授、博士生導師、拓元智慧高級算法總監,曾獲吳文俊人工智能自然科學獎二等,人工智能學會CAAI優秀博士論文獎,國際著名學術評估機構AI 2000年最有影響力學者提名獎。主要研究方向有因果驅動認知的復雜推理、多智能體良好高階推理、多模態生產式AI、具身智能等。
01
研究背景:長文本生成的固有瓶頸
盡管大型語言模型(LLM)在各類任務上表現出色,但在生成超過數萬token的超長文本時,其性能會顯著下降。核心問題源于Transformer架構固有的二次計算復雜度(O(n2)),導致處理長序列時計算資源消耗巨大。現有解決方案,如稀疏注意力(如Longformer)或擴散模型(如DiffuSeq),多采用固定模式的資源分配,無法靈活應對文本中不同片段、不同生成階段的異質性需求,從而導致:
長程依賴衰減:模型難以維持遠距離的語義連貫性,易出現內容重復或邏輯斷裂。
資源分配次優:對簡單和復雜文本片段“一視同仁”,造成算力浪費或關鍵部分計算不足。
生成質量隨長度退化:文本越長,模型越容易“遺忘”前文信息,質量下降越明顯。
02
核心技術突破:動態智能的三大支柱
DrDiff框架的核心思想是“動態化”,其創新性體現在三個緊密協同的技術組件上,宛如為模型裝上了“智能調度中樞”:
1.分層稀疏注意力(HSA):自適應的感受野切換
HSA機制徹底改變了固定注意力模式的思路。它根據實時輸入序列長度(N)動態構建稀疏注意力掩碼:
![]()
短文本(N ≤ 512):啟用密集注意力模式,捕獲全部細節。
中等文本(512 < N ≤ 4K):切換至局部(窗口w=256)+ 稀疏膨脹(δ?) 組合模式,高效覆蓋中短程依賴。
長文本(4K< N ≤ 8K):采用稀疏膨脹(δ? > δ?)+ 全局節點(G?) 模式,擴大感受野。
超長文本(N > 8K):啟用超長序列模式(M??K?),結合稀疏局部注意力和基于關鍵token比例(ρ=0.05)的全局注意力,理論上將復雜度降至線性O(n)。
這種基于長度的分層策略,確保了無論文本多長,模型總能以最經濟的計算成本激活最合適的注意力模式。
2.動態專家調度(DES):按需分配的計算資源
DrDiff在去噪網絡的前饋網絡(FFN)層集成了混合專家(MoE)架構。其動態性體現在:
專業化專家:不同專家可具有不同容量(如隱藏層維度為標準FFN的0.5倍)或不同結構(如特定激活函數),甚至可在預訓練時針對語法生成、主題內容等子任務進行輕微微調,形成功能特化。
智能路由:一個輕量級路由網絡(小型MLP)會分析經過HSA處理后的隱藏狀態,該狀態已編碼了當前上下文的復雜度和特征。路由網絡據此生成門控權重,動態選擇Top-1或Top-2最合適的專家來處理當前token。
負載均衡:通過輔助損失函數確保所有專家都能得到充分訓練,避免某些專家過載而其他專家閑置。這意味著簡單、重復的文本由“輕量級專家”快速處理,而復雜、關鍵的語義樞紐則分配給“重量級專家”深度計算,實現了前所未有的計算效率。
3.語義錨點狀態(SAS):引導擴散路徑的“燈塔”
為優化超長文本的生成路徑,DrDiff在去噪過程的特定中間時間步(如t? = T/4, T/2, 3T/4)引入語義錨點狀態(???)作為顯式引導。
構建方式:???可以是基于輸入文本Z?的核心語義摘要(通過預訓練的輕量摘要模型獲得)所對應的理想噪聲狀態,也可以是通過對大量真實文本在t?時刻的噪聲狀態進行聚類得到的典型簇中心。
訓練與推理:在訓練時,除了標準的去噪損失,還增加了一個SAS引導損失(L_SAS),強制模型在關鍵時間步的預測狀態向預設的語義錨點靠近。這使得整個去噪軌跡更加平滑、目標明確。
加速推理:這種“燈塔”式的指引顯著降低了擴散過程的隨機性和曲折度,使得DPM-Solver++等高效的ODE求解器能夠采用更大的步長,從而將采樣步數從訓練時的2000步大幅減少至50步左右,實現了數量級般的生成加速。
03
權威評測結果:小模型,大能量
研究成果在多項標準基準測試中得到了驗證:
長文本理解(LongBench):參數量僅2.2億(220M)的DrDiff,取得了33.5%的綜合準確率,性能超越了參數量高達700億(70B)的LLaMA-3.1-70B(32.1%)等大型模型。尤其在處理長序列(35.6%)、長對話(38.7%)和長結構化數據(34.6%)任務上展現出顯著優勢。
![]()
生成與問答任務:在WikiHop、TriviaQA、HotpotQA等數據集上,DrDiff的綜合表現(平均分數~80.7)與GPT-4o、Qwen2.5-72B等頂級閉源模型仍存差距,但顯著領先于Longformer、LLaMA系列同參數量級模型及DiffuSeq等擴散基線,證明了其架構的優越性。
![]()
效率驗證:實驗表明,在處理16K token的長序列時,DrDiff的訓練時間比DiffuSeq減少56%,甚至比高度優化的Longformer快9%-10%。
![]()
04
未來展望與意義
DrDiff的成功標志著長文本生成進入了“動態智能化”的新階段。其提出的動態路由、分層注意力和語義引導機制,為后續相關研究提供了寶貴的方向。團隊計劃未來進一步探索其在極長文本(>20K token)、多模態數據融合以及特定垂直領域(如科技、法律文獻生成)中的應用,持續推動生成式AI的能力邊界。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.