網易首頁 > 網易號 > 正文申請入駐

長文本生成迎來新突破：拓元智慧推出 DrDiff ，實現效率與質量雙提升

2025-10-21 21:01:35　來源: AI科技評論

廣東舉報

分享至

DrDiff框架的核心思想是“動態化”，其創新性體現在三個緊密協同的技術組件上，宛如為模型裝上了“智能調度中樞”。

作者丨王可澤

拓元智慧團隊聯合來自中山大學人機物智能融合實驗室、阿里巴巴集團及Snap Inc的研究團隊，針對了困擾業界已久的長文本生成中“效率”與“質量”難以兼得的根本性挑戰，開發出DrDiff（動態路由擴散）框架（已被NLP 頂會 EMNLP 2025錄用接收）。該框架通過創新的動態資源調度機制，在保證生成內容連貫性的同時，將計算復雜度降至線性，為AI輔助學術科研、長篇內容創作、自動報告生成等應用提供了有力的基礎支撐。

論文題目：

DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for

Breaking the Efficiency-Quality Trade-off

論文鏈接：

https://arxiv.org/pdf/2509.02785

論文通訊作者王可澤博士：國家級青年人才、中山大學計算機學院副教授、博士生導師、拓元智慧高級算法總監，曾獲吳文俊人工智能自然科學獎二等，人工智能學會CAAI優秀博士論文獎，國際著名學術評估機構AI 2000年最有影響力學者提名獎。主要研究方向有因果驅動認知的復雜推理、多智能體良好高階推理、多模態生產式AI、具身智能等。

研究背景：長文本生成的固有瓶頸

盡管大型語言模型（LLM）在各類任務上表現出色，但在生成超過數萬token的超長文本時，其性能會顯著下降。核心問題源于Transformer架構固有的二次計算復雜度（O(n2)），導致處理長序列時計算資源消耗巨大。現有解決方案，如稀疏注意力（如Longformer）或擴散模型（如DiffuSeq），多采用固定模式的資源分配，無法靈活應對文本中不同片段、不同生成階段的異質性需求，從而導致：

長程依賴衰減：模型難以維持遠距離的語義連貫性，易出現內容重復或邏輯斷裂。
資源分配次優：對簡單和復雜文本片段“一視同仁”，造成算力浪費或關鍵部分計算不足。
生成質量隨長度退化：文本越長，模型越容易“遺忘”前文信息，質量下降越明顯。

核心技術突破：動態智能的三大支柱

DrDiff框架的核心思想是“動態化”，其創新性體現在三個緊密協同的技術組件上，宛如為模型裝上了“智能調度中樞”：

1.分層稀疏注意力（HSA）：自適應的感受野切換

HSA機制徹底改變了固定注意力模式的思路。它根據實時輸入序列長度（N）動態構建稀疏注意力掩碼：

短文本（N ≤ 512）：啟用密集注意力模式，捕獲全部細節。
中等文本（512 < N ≤ 4K）：切換至局部（窗口w=256）+ 稀疏膨脹（δ?）組合模式，高效覆蓋中短程依賴。
長文本（4K< N ≤ 8K）：采用稀疏膨脹（δ? > δ?）+ 全局節點（G?）模式，擴大感受野。
超長文本（N > 8K）：啟用超長序列模式（M??K?），結合稀疏局部注意力和基于關鍵token比例（ρ=0.05）的全局注意力，理論上將復雜度降至線性O(n)。
這種基于長度的分層策略，確保了無論文本多長，模型總能以最經濟的計算成本激活最合適的注意力模式。

2.動態專家調度（DES）：按需分配的計算資源

DrDiff在去噪網絡的前饋網絡（FFN）層集成了混合專家（MoE）架構。其動態性體現在：

專業化專家：不同專家可具有不同容量（如隱藏層維度為標準FFN的0.5倍）或不同結構（如特定激活函數），甚至可在預訓練時針對語法生成、主題內容等子任務進行輕微微調，形成功能特化。
智能路由：一個輕量級路由網絡（小型MLP）會分析經過HSA處理后的隱藏狀態，該狀態已編碼了當前上下文的復雜度和特征。路由網絡據此生成門控權重，動態選擇Top-1或Top-2最合適的專家來處理當前token。
負載均衡：通過輔助損失函數確保所有專家都能得到充分訓練，避免某些專家過載而其他專家閑置。這意味著簡單、重復的文本由“輕量級專家”快速處理，而復雜、關鍵的語義樞紐則分配給“重量級專家”深度計算，實現了前所未有的計算效率。

3.語義錨點狀態（SAS）：引導擴散路徑的“燈塔”

為優化超長文本的生成路徑，DrDiff在去噪過程的特定中間時間步（如t? = T/4, T/2, 3T/4）引入語義錨點狀態（???）作為顯式引導。

構建方式：???可以是基于輸入文本Z?的核心語義摘要（通過預訓練的輕量摘要模型獲得）所對應的理想噪聲狀態，也可以是通過對大量真實文本在t?時刻的噪聲狀態進行聚類得到的典型簇中心。
訓練與推理：在訓練時，除了標準的去噪損失，還增加了一個SAS引導損失（L_SAS），強制模型在關鍵時間步的預測狀態向預設的語義錨點靠近。這使得整個去噪軌跡更加平滑、目標明確。
加速推理：這種“燈塔”式的指引顯著降低了擴散過程的隨機性和曲折度，使得DPM-Solver++等高效的ODE求解器能夠采用更大的步長，從而將采樣步數從訓練時的2000步大幅減少至50步左右，實現了數量級般的生成加速。

權威評測結果：小模型，大能量

研究成果在多項標準基準測試中得到了驗證：

長文本理解（LongBench）：參數量僅2.2億（220M）的DrDiff，取得了33.5%的綜合準確率，性能超越了參數量高達700億（70B）的LLaMA-3.1-70B（32.1%）等大型模型。尤其在處理長序列（35.6%）、長對話（38.7%）和長結構化數據（34.6%）任務上展現出顯著優勢。

生成與問答任務：在WikiHop、TriviaQA、HotpotQA等數據集上，DrDiff的綜合表現（平均分數~80.7）與GPT-4o、Qwen2.5-72B等頂級閉源模型仍存差距，但顯著領先于Longformer、LLaMA系列同參數量級模型及DiffuSeq等擴散基線，證明了其架構的優越性。

效率驗證：實驗表明，在處理16K token的長序列時，DrDiff的訓練時間比DiffuSeq減少56%，甚至比高度優化的Longformer快9%-10%。

未來展望與意義

DrDiff的成功標志著長文本生成進入了“動態智能化”的新階段。其提出的動態路由、分層注意力和語義引導機制，為后續相關研究提供了寶貴的方向。團隊計劃未來進一步探索其在極長文本（>20K token）、多模態數據融合以及特定垂直領域（如科技、法律文獻生成）中的應用，持續推動生成式AI的能力邊界。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.