允中 發自 凹非寺
量子位 | 公眾號 QbitAI
大模型通往現實世界的“最后三公里”,Agent已然成為最具代表性的入場券。
但當下的共識發生了微妙的變化:
衡量一個Agent夠不夠強,早已不再看它能不能“答對問題”,而是看它在面對多輪推理、工具調用及復雜協作時,能否用最短的路徑、最少的交互預算,穩定地搞定任務
在這一背景下,一個長期被行業忽視的底層命題浮出水面:
- 當Agent的框架、工具、數據和訓練方式都保持一致時,僅僅改變語言模型的生成范式(Autoregressive vs Diffusion),是否會系統性地改變Agent的規劃與行為模式?
近日,來自華為諾亞方舟實驗室、華為先進計算與存儲實驗室、UCL、南洋理工大學、清華大學和北京大學的研究團隊,在最新工作《DLLM Agent: See Farther, Run Faster》中,對這一問題給出了迄今為止最“對照實驗式”的回答。
他們發現,僅僅是把“底座”換成了擴散式大模型(DLLM),Agent就像突然開了“上帝視角”,執行速度不僅提升了30%以上,甚至在部分復雜任務中跑出了8倍于傳統AR模型的效率。
文章鏈接:
https://arxiv.org/pdf/2602.07451
官方網頁:
https://noah-dllm.github.io/
核心結論一覽
在完全相同的Agent工作流、訓練數據和交互預算下,研究發現:
- 在準確率基本持平的前提下,DLLM Agent端到端執行速度平均提升30%以上
- 在成功解題的條件下,DLLM Agent使用更少的交互輪次和工具調用
- DLLM展現出更強的planner能力:更早收斂到正確軌跡、回溯和冗余更少;
- 這種優勢并非僅來自并行解碼速度,而是體現在Agent級別的規劃與決策行為上。
一個“極端公平”的對照實驗設計
為了避免“框架差異”、“提示工程”、“數據不一致”等干擾因素,作者采用了非常嚴格的對照實驗設置:
- 使用同一個Agent框架:DeepDiver(多智能架構,層級式規劃,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
- 使用同一套工具接口與解析規則
- 使用完全相同的Agent任務進行繼續訓練;
- 統一context長度上限(32K)、最大交互輪數、tool call上限
- 唯一變化因素:Agent背后的生成范式
Autoregressive LLM(AR):openpangu 7b-v1
Diffusion Large Language Model(DLLM):openpangu diffusion 7b,這個模型是從openpangu 7b-v1續訓得到的,模型的基礎推理能力相似。
這意味著,實驗中觀察到的行為差異,不能歸因于數據/模型的基礎能力或workflow,而只能來自生成范式本身。
不過,考慮到生成范式的不同,針對多輪長鏈交互的DLLM訓練,作者使用了針對性調整的Mask策略和Attention裁剪策略,提升了DLLM Agent訓練和推理的一致性。
同樣的終點,更短的路徑
在構建了對照平臺后,研究團隊將關注點轉向了核心指標:即DLLM這種生成范式的改變,究竟能在多大程度上提升Agent的實戰表現?
實驗結果證明,DLLM Agent的優勢并非僅僅來自“算得快”,更在于它在復雜規劃中“走得直”
1、BrowseComp-zh基準測試:效率的全面跨越
研究團隊在包含110條任務的BrowseComp-zh(中文多輪Web瀏覽)子集上,完成了性能測試。
![]()
通過對海量測試結果的深度復盤,研究人員觀察到了幾個關鍵規律:
DLLM Agent在準確率持平的情況下,
- 平均工具調用次數顯著減少;
- Agent軌跡平均更短;
- 端到端延遲下降約30%。
但同時也暴露出一個現實問題:原生DLLM更容易產生結構化tool-call錯誤。
此外,作者還展示了DLLM Agent和AR Agent在Information Seeker完成問題上的分布,可以清晰地看到DLLM Agent在處理問題時,往往能以更少的交互次數完成同樣的任務。
![]()
2、案例實錄:8.18倍速度落差的背后
為了更直觀地展現這種“走直路”的能力,可以看一個典型的多約束檢索案例(涉及動物命名+中國互聯網公司+團隊合并+軟硬件等多個維度),query如下:
![]()
結果發現,盡管AR Agent和DLLM Agent最終都給出了正確答案,但其執行邏輯卻展現出巨大的差異,不僅表現在端到端有8.18×的速度差異上(如下表):
![]()
也表現在具體的planner執行過程上——
DLLM Agent的planner質量更高,從而在部分case上表現出來遠超過基礎模型的效率差異的端到端性能收益。
![]()
DLLM為何是天生的“強Planner”?
論文并未停留在表面的數據對比,而是深入分析了entropy和confidence與擴散過程中的內部動態,試圖從生成范式的底層原理,來解釋DLLM為何在規劃上更具優勢。
一、Planner Agent:先全局、后細節
在任務拆解階段,DLLM Planner表現出獨特的兩階段特征,這與人類先構思大綱再填補內容的思維方式不謀而合:
階段一:并行提取關鍵信息
用戶問題中的4個核心約束,往往在1–2個diffusion step內就能被同時識別。
階段二:逐步細化任務結構
在已有全局框架下,再逐步補充具體的邏輯細節。
這與AR的差異,主要體現在:
- AR必須按token順序“邊想邊寫”;
- 一旦早期判斷偏差,往往只能通過多輪todo/re-plan/verification來修正。
這也直接解釋了,為什么AR Agent在實驗中更容易產生多個todo_v1/todo_v2冗余規劃文檔的原因。下圖詳細解釋了planner在這個過程中的變化:
![]()
二、Information Seeker:先定方向,再填參數
在具體的工具調用階段,DLLM的生成模式呈現出一種極其穩定的結構化傾向:
- 它會首先確定調用哪個工具;
- 隨后,并行生成參數與細節;
- 整個tool-call被視為一個整體“動作塊”,并在生成過程中被反復refinement。
相比之下,AR Agent的生成過程更像是一條不可回頭的流水線:函數名→參數1→參數2→ …
一旦前面的token出現語法或邏輯錯誤,AR無法原地修正,只能寄希望于下一輪tool call來補救
![]()
三、注意力演化:確定性的迅速鎖定
研究團隊通過對擴散過程中Mask Token的熵(Entropy)演化,以及不同階段Attention的集中與分散的分析,得出了更深層的結論:
- 在DLLM的生成過程中,高不確定性集中在決策的早期階段
- 一旦高層決策形成,后續細節的生成會表現出極高的收斂速度
- attention機制呈現出更明顯的“全局 → 局部”協調模式,這與AR僅僅追求token-level的局部最優決策,形成了鮮明對比。
不過,作者并沒有回避DLLM的不足之處——
Diffusion模型在處理Agent場景時,對結構化輸出更敏感
通過設計訓推一致的Mask策略與Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。
這意味著,要充分發揮DLLM的潛力,并不能將其作為AR的簡單替代品,而需要針對Agent的交互場景,重新對齊接口與訓練目標
生成范式重塑Agent設計維度
這項工作為Agent研究提供了一個全新的視角——
生成范式本身,會深刻塑造Agent的行為方式。
在完全相同的數據基底與技術框架下,DLLM Agent展現出了超越傳統自回歸模型的執行效率:
- 更早形成全局計劃
- 更少走彎路
- 更快速度結束任務
這使得Diffusion不再只是“另一種生成模型”,而成為構建高效Agent的一個全新設計維度。
下方Demo直觀展示了DLLM Agent在效率上的顯著優勢(同類對比示例可參考原論文中的Case1):

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.