網易首頁 > 網易號 > 正文申請入駐

速度提升，能力卻暴跌？擴散模型做智能體的殘酷真相

2026-02-12 14:19:24　來源: 機器之心Pro

河北舉報

分享至

基于自回歸語言模型的智能體已在許多場景中展現出完成復雜任務的能力，但高昂的推理成本和低下的執行效率問題仍然是制約智能體工作流（Agentic Workflow）發展的關鍵瓶頸。

與傳統的自回歸式語言模型不同，擴散語言模型（Diffusion-Based Language Models）采用并行解碼機制，顯著提升了生成速度，似乎為突破這一瓶頸帶來了全新的可能性。

現有的關于 Llada、Dream 等擴散語言模型的研究中，這類模型在大幅度提高生成效率的同時，在 MMLU、GSM8K 等基準任務上保持了與自回歸語言模型相當的通用能力。然而其在智能體任務上的表現尚缺乏系統性的評估。

基于這一問題，近期南洋理工大學的陶大程教授團隊聯合東南大學、阿里巴巴等發布了一份綜合評測報告，通過對 2 個自回歸語言模型和 4 個擴散語言模型在具身智能體（Embodied Agent）和工具調用智能體（Tool-Calling Agent）上的一系列實驗，揭示了一個反直覺的發現：擴散語言模型在智能體能力方面存在系統性缺陷，顯著落后于同規模的自回歸模型！

這項工作揭示了一個深刻的教訓（Bitter Lesson）：盡管擴散語言模型實現了高效的并行推理，但也顯著削弱了其因果推理和反思能力，難以可靠地執行具身智能體的長鏈推理任務；同時，并行解碼機制使得輸出具有更高的不確定性，這對于精確性要求極高的工具調用任務造成了重大挑戰。

論文標題：The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
論文地址：
https://arxiv.org/pdf/2601.12979
項目地址：
https://coldmist-lu.github.io/DiffuAgent/
代碼地址：
https://github.com/Coldmist-Lu/DiffuAgent/

一、為何失敗？擴散模型

難以完成智能體任務的三大原因

具身智能任務：因果推理能力不足，陷入重復循環

研究基于 AgentBoard 中的三個典型具身智能任務（AlfWorld、ScienceWorld 和 BabyAI）測試了模型的長鏈規劃推理能力。結果顯示，擴散語言模型的成功率（Success Rate）和平均任務進度（Progress Rate）均顯著低于自回歸模型，在部分任務甚至無法產生任何正確樣例。

深入分析發現，擴散模型難以進行因果性的推理和實時反思，頻繁陷入重復性操作循環（retry loop，見下圖 a），而自回歸語言模型則極少出現此類問題。

工具調用任務：格式輸出混亂，多輪調用幾乎失效

研究采用伯克利函數調用基準（BFCL v3）進行評估，發現擴散語言模型在單輪與多輪工具調用場景中均落后于自回歸模型。尤其在具有挑戰性的多輪任務中，擴散模型幾乎無法成功完成一次完整調用工作流。

進一步分析表明，擴散語言模型更容易產生格式不規范、語義模糊的調用輸出（見下圖 b），在要求嚴格的結構化輸出場景下表現尤為突出。

效率與能力的權衡：并行解碼的隱性代價

盡管擴散語言模型以高吞吐量為賣點，但研究發現，更高的生成效率并不等同于更強的智能體能力（如下圖 c）。相反，并行解碼機制會削弱擴散語言模型的因果推理能力，并降低其在精確格式化輸出方面的表現。

二、還有救嗎？多智能體

評估框架 DiffuAgent 探尋真實潛力

由于擴散語言模型直接執行智能體工作流時會產生大量的失敗案例，這對深入分析其能力帶來了困難。為了探明擴散語言模型作為智能體的真實潛力，研究團隊提出了一個多智能體評測框架 DiffuAgent，將復雜的智能體任務按能力維度拆解為多個模塊，在智能體執行每個步驟的前后進行針對性評測：

具身智能任務的模塊化評估包括：用于定期儲存智能體的運行軌跡、提供歷史信息的記憶模塊；以及用于檢測模型是否能主動識別當前軌跡中的問題，并及時終止無效嘗試的自驗證模塊。

工具調用任務的模塊化評估包括：在產生調用指令前，預先篩選出合適的工具候選的工具選擇模塊；以及對不規范的 JSON 格式進行自動糾正的格式修正模塊。

三、能做什么？擴散模型

在各智能體模塊中的能力邊界

為深入分析擴散語言模型在智能體工作流中的具體表現，研究采用多智能體架構設計：以自回歸語言模型作為主控模塊，將擴散語言模型分別應用于不同的輔助模塊，從而評估其對智能體整體性能的影響。

記憶模塊：表現相當甚至更優

當擴散語言模型作為記憶模塊時，其對智能體準確性的影響與自回歸模型相當，使用 Llada、Dream 等模型時甚至效果優于自回歸模型。

自驗證模塊：終止決策更加穩健

實驗發現，自回歸模型作為自驗證模塊時容易過早終止任務，即在智能體還未完成充分探索時就提前終止；而擴散模型在此場景下的終止判斷更加可靠穩定。

工具調用模塊：選擇能力強，格式修正能力弱

在工具調用任務上，擴散語言模型能有效地完成工具選擇；但由于其并行生成機制帶來的模糊性，在需要精確格式的工具編輯任務上表現欠佳。

核心發現：并行解碼機制帶來的權衡與局限

對擴散語言模型在各智能體模塊的表現分析，進一步驗證了前文揭示的系統性缺陷：并行生成模式雖然導致了因果推理能力的缺失和動態決策能力的不足，但其在推理要求低的文本總結（記憶模塊）和狀態識別提取（自驗證模塊）等靜態任務上表現出色；雖然難以完成高精確性的格式化輸出（格式修正模塊），卻能有效的進行信息提取（工具選擇模塊）。這揭示了擴散模型「能力不均衡」的特性：擅長靜態處理，弱于動態推理。

四、未來方向：對于

擴散語言模型智能體研究的啟示

基于上述系統性評估，本研究從訓練、解碼和評估三個維度為擴散語言模型的研究者提供以下建議：

訓練層面：應強化因果推理與解構化能力。在預訓練和微調階段引入具有強因果關系數據，如多步推理任務和軌跡，并大幅增加結構化內容的比重，如 JSON 代碼、API 調用等，從源頭提升模型對格式規范的理解，并建立對因果依賴關系的敏感性。

解碼層面：探索自適應的混合生成策略。模型應基于任務特性自適應地選擇解碼方式，對關鍵的推理步驟采用自回歸解碼確保因果連貫，而對于靜態任務和需要全局視野的長文本生成，采用并行解碼以提升效率；此外可在解碼過程中引入格式約束和校正來彌補不確定性的短板。

評估層面：建立面向智能體應用的基準體系。當前擴散模型的評估過度依賴 MMLU、GSM8K 等通用基準，這些基準無法反應智能體任務關于因果推理、多輪交互和工具調用等需求。研究者應報告模型在例如 DiffuAgent 智能體評估框架的結果，并建立覆蓋真實應用場景的評估體系，避免「跑分高但不實用」的問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.