網易首頁 > 網易號 > 正文申請入駐

華為發布業界首個擴散語言模型Agent，部分場景提速8倍！

2026-02-10 15:20:40　來源: 量子位

湖南舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

大模型通往現實世界的“最后三公里”，Agent已然成為最具代表性的入場券。

但當下的共識發生了微妙的變化：

衡量一個Agent夠不夠強，早已不再看它能不能“答對問題”，而是看它在面對多輪推理、工具調用及復雜協作時，能否用最短的路徑、最少的交互預算，穩定地搞定任務

在這一背景下，一個長期被行業忽視的底層命題浮出水面：

當Agent的框架、工具、數據和訓練方式都保持一致時，僅僅改變語言模型的生成范式（Autoregressive vs Diffusion），是否會系統性地改變Agent的規劃與行為模式？

近日，來自華為諾亞方舟實驗室、華為先進計算與存儲實驗室、UCL、南洋理工大學、清華大學和北京大學的研究團隊，在最新工作《DLLM Agent: See Farther, Run Faster》中，對這一問題給出了迄今為止最“對照實驗式”的回答。

他們發現，僅僅是把“底座”換成了擴散式大模型（DLLM），Agent就像突然開了“上帝視角”，執行速度不僅提升了30%以上，甚至在部分復雜任務中跑出了8倍于傳統AR模型的效率。

文章鏈接：
https://arxiv.org/pdf/2602.07451

官方網頁：
https://noah-dllm.github.io/

核心結論一覽

在完全相同的Agent工作流、訓練數據和交互預算下，研究發現：

在準確率基本持平的前提下，DLLM Agent端到端執行速度平均提升30%以上
在成功解題的條件下，DLLM Agent使用更少的交互輪次和工具調用
DLLM展現出更強的planner能力：更早收斂到正確軌跡、回溯和冗余更少；
這種優勢并非僅來自并行解碼速度，而是體現在Agent級別的規劃與決策行為上。

一個“極端公平”的對照實驗設計

為了避免“框架差異”、“提示工程”、“數據不一致”等干擾因素，作者采用了非常嚴格的對照實驗設置：

使用同一個Agent框架：DeepDiver（多智能架構，層級式規劃，https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver）；
使用同一套工具接口與解析規則
使用完全相同的Agent任務進行繼續訓練；
統一context長度上限（32K）、最大交互輪數、tool call上限
唯一變化因素：Agent背后的生成范式

Autoregressive LLM（AR）：openpangu 7b-v1

Diffusion Large Language Model（DLLM）：openpangu diffusion 7b，這個模型是從openpangu 7b-v1續訓得到的，模型的基礎推理能力相似。

這意味著，實驗中觀察到的行為差異，不能歸因于數據/模型的基礎能力或workflow，而只能來自生成范式本身。

不過，考慮到生成范式的不同，針對多輪長鏈交互的DLLM訓練，作者使用了針對性調整的Mask策略和Attention裁剪策略，提升了DLLM Agent訓練和推理的一致性。

同樣的終點，更短的路徑

在構建了對照平臺后，研究團隊將關注點轉向了核心指標：即DLLM這種生成范式的改變，究竟能在多大程度上提升Agent的實戰表現？

實驗結果證明，DLLM Agent的優勢并非僅僅來自“算得快”，更在于它在復雜規劃中“走得直”

1、BrowseComp-zh基準測試：效率的全面跨越

研究團隊在包含110條任務的BrowseComp-zh（中文多輪Web瀏覽）子集上，完成了性能測試。

通過對海量測試結果的深度復盤，研究人員觀察到了幾個關鍵規律：

DLLM Agent在準確率持平的情況下，

平均工具調用次數顯著減少；
Agent軌跡平均更短；
端到端延遲下降約30%。

但同時也暴露出一個現實問題：原生DLLM更容易產生結構化tool-call錯誤。

此外，作者還展示了DLLM Agent和AR Agent在Information Seeker完成問題上的分布，可以清晰地看到DLLM Agent在處理問題時，往往能以更少的交互次數完成同樣的任務。

2、案例實錄：8.18倍速度落差的背后

為了更直觀地展現這種“走直路”的能力，可以看一個典型的多約束檢索案例（涉及動物命名+中國互聯網公司+團隊合并+軟硬件等多個維度），query如下：

結果發現，盡管AR Agent和DLLM Agent最終都給出了正確答案，但其執行邏輯卻展現出巨大的差異，不僅表現在端到端有8.18×的速度差異上（如下表）：

也表現在具體的planner執行過程上——

DLLM Agent的planner質量更高，從而在部分case上表現出來遠超過基礎模型的效率差異的端到端性能收益。

DLLM為何是天生的“強Planner”？

論文并未停留在表面的數據對比，而是深入分析了entropy和confidence與擴散過程中的內部動態，試圖從生成范式的底層原理，來解釋DLLM為何在規劃上更具優勢。

一、Planner Agent：先全局、后細節

在任務拆解階段，DLLM Planner表現出獨特的兩階段特征，這與人類先構思大綱再填補內容的思維方式不謀而合：

階段一：并行提取關鍵信息

用戶問題中的4個核心約束，往往在1–2個diffusion step內就能被同時識別。

階段二：逐步細化任務結構

在已有全局框架下，再逐步補充具體的邏輯細節。

這與AR的差異，主要體現在：

AR必須按token順序“邊想邊寫”；
一旦早期判斷偏差，往往只能通過多輪todo/re-plan/verification來修正。

這也直接解釋了，為什么AR Agent在實驗中更容易產生多個todo_v1/todo_v2冗余規劃文檔的原因。下圖詳細解釋了planner在這個過程中的變化：

二、Information Seeker：先定方向，再填參數

在具體的工具調用階段，DLLM的生成模式呈現出一種極其穩定的結構化傾向：

它會首先確定調用哪個工具；
隨后，并行生成參數與細節；
整個tool-call被視為一個整體“動作塊”，并在生成過程中被反復refinement。

相比之下，AR Agent的生成過程更像是一條不可回頭的流水線：函數名→參數1→參數2→ …

一旦前面的token出現語法或邏輯錯誤，AR無法原地修正，只能寄希望于下一輪tool call來補救

三、注意力演化：確定性的迅速鎖定

研究團隊通過對擴散過程中Mask Token的熵（Entropy）演化，以及不同階段Attention的集中與分散的分析，得出了更深層的結論：

在DLLM的生成過程中，高不確定性集中在決策的早期階段
一旦高層決策形成，后續細節的生成會表現出極高的收斂速度
attention機制呈現出更明顯的“全局 → 局部”協調模式，這與AR僅僅追求token-level的局部最優決策，形成了鮮明對比。

不過，作者并沒有回避DLLM的不足之處——

Diffusion模型在處理Agent場景時，對結構化輸出更敏感

通過設計訓推一致的Mask策略與Attention策略（如context-clean corruption和span-aware attention mask），可以提升DLLM Agent的推理性能。

這意味著，要充分發揮DLLM的潛力，并不能將其作為AR的簡單替代品，而需要針對Agent的交互場景，重新對齊接口與訓練目標

生成范式重塑Agent設計維度

這項工作為Agent研究提供了一個全新的視角——

生成范式本身，會深刻塑造Agent的行為方式。

在完全相同的數據基底與技術框架下，DLLM Agent展現出了超越傳統自回歸模型的執行效率：

更早形成全局計劃
更少走彎路
更快速度結束任務

這使得Diffusion不再只是“另一種生成模型”，而成為構建高效Agent的一個全新設計維度。

下方Demo直觀展示了DLLM Agent在效率上的顯著優勢（同類對比示例可參考原論文中的Case1）：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.