<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      速度提升,能力卻暴跌?擴散模型做智能體的殘酷真相

      0
      分享至



      基于自回歸語言模型的智能體已在許多場景中展現出完成復雜任務的能力,但高昂的推理成本和低下的執行效率問題仍然是制約智能體工作流(Agentic Workflow)發展的關鍵瓶頸。

      與傳統的自回歸式語言模型不同,擴散語言模型(Diffusion-Based Language Models)采用并行解碼機制,顯著提升了生成速度,似乎為突破這一瓶頸帶來了全新的可能性。

      現有的關于 Llada、Dream 等擴散語言模型的研究中,這類模型在大幅度提高生成效率的同時,在 MMLU、GSM8K 等基準任務上保持了與自回歸語言模型相當的通用能力。然而其在智能體任務上的表現尚缺乏系統性的評估。

      基于這一問題,近期南洋理工大學的陶大程教授團隊聯合東南大學、阿里巴巴等發布了一份綜合評測報告,通過對 2 個自回歸語言模型和 4 個擴散語言模型在具身智能體(Embodied Agent)和工具調用智能體(Tool-Calling Agent)上的一系列實驗,揭示了一個反直覺的發現:擴散語言模型在智能體能力方面存在系統性缺陷,顯著落后于同規模的自回歸模型!

      這項工作揭示了一個深刻的教訓(Bitter Lesson):盡管擴散語言模型實現了高效的并行推理,但也顯著削弱了其因果推理和反思能力,難以可靠地執行具身智能體的長鏈推理任務;同時,并行解碼機制使得輸出具有更高的不確定性,這對于精確性要求極高的工具調用任務造成了重大挑戰。



      • 論文標題:The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
      • 論文地址:
      • https://arxiv.org/pdf/2601.12979
      • 項目地址:
      • https://coldmist-lu.github.io/DiffuAgent/
      • 代碼地址:
      • https://github.com/Coldmist-Lu/DiffuAgent/



      一、為何失敗?擴散模型

      難以完成智能體任務的三大原因



      • 具身智能任務:因果推理能力不足,陷入重復循環

      研究基于 AgentBoard 中的三個典型具身智能任務(AlfWorld、ScienceWorld 和 BabyAI)測試了模型的長鏈規劃推理能力。結果顯示,擴散語言模型的成功率(Success Rate)和平均任務進度(Progress Rate)均顯著低于自回歸模型,在部分任務甚至無法產生任何正確樣例。

      深入分析發現,擴散模型難以進行因果性的推理和實時反思,頻繁陷入重復性操作循環(retry loop,見下圖 a),而自回歸語言模型則極少出現此類問題。

      • 工具調用任務:格式輸出混亂,多輪調用幾乎失效

      研究采用伯克利函數調用基準(BFCL v3)進行評估,發現擴散語言模型在單輪與多輪工具調用場景中均落后于自回歸模型。尤其在具有挑戰性的多輪任務中,擴散模型幾乎無法成功完成一次完整調用工作流。

      進一步分析表明,擴散語言模型更容易產生格式不規范、語義模糊的調用輸出(見下圖 b),在要求嚴格的結構化輸出場景下表現尤為突出。

      • 效率與能力的權衡:并行解碼的隱性代價

      盡管擴散語言模型以高吞吐量為賣點,但研究發現,更高的生成效率并不等同于更強的智能體能力(如下圖 c)。相反,并行解碼機制會削弱擴散語言模型的因果推理能力,并降低其在精確格式化輸出方面的表現。



      二、還有救嗎?多智能體

      評估框架 DiffuAgent 探尋真實潛力



      由于擴散語言模型直接執行智能體工作流時會產生大量的失敗案例,這對深入分析其能力帶來了困難。為了探明擴散語言模型作為智能體的真實潛力,研究團隊提出了一個多智能體評測框架 DiffuAgent,將復雜的智能體任務按能力維度拆解為多個模塊,在智能體執行每個步驟的前后進行針對性評測:

      • 具身智能任務的模塊化評估包括:用于定期儲存智能體的運行軌跡、提供歷史信息的記憶模塊;以及用于檢測模型是否能主動識別當前軌跡中的問題,并及時終止無效嘗試的自驗證模塊。

      • 工具調用任務的模塊化評估包括:在產生調用指令前,預先篩選出合適的工具候選的工具選擇模塊;以及對不規范的 JSON 格式進行自動糾正的格式修正模塊。

      三、能做什么?擴散模型

      在各智能體模塊中的能力邊界

      為深入分析擴散語言模型在智能體工作流中的具體表現,研究采用多智能體架構設計:以自回歸語言模型作為主控模塊,將擴散語言模型分別應用于不同的輔助模塊,從而評估其對智能體整體性能的影響。

      記憶模塊:表現相當甚至更優



      當擴散語言模型作為記憶模塊時,其對智能體準確性的影響與自回歸模型相當,使用 Llada、Dream 等模型時甚至效果優于自回歸模型。

      自驗證模塊:終止決策更加穩健



      實驗發現,自回歸模型作為自驗證模塊時容易過早終止任務,即在智能體還未完成充分探索時就提前終止;而擴散模型在此場景下的終止判斷更加可靠穩定。

      工具調用模塊:選擇能力強,格式修正能力弱



      在工具調用任務上,擴散語言模型能有效地完成工具選擇;但由于其并行生成機制帶來的模糊性,在需要精確格式的工具編輯任務上表現欠佳。

      核心發現:并行解碼機制帶來的權衡與局限

      對擴散語言模型在各智能體模塊的表現分析,進一步驗證了前文揭示的系統性缺陷:并行生成模式雖然導致了因果推理能力的缺失和動態決策能力的不足,但其在推理要求低的文本總結(記憶模塊)和狀態識別提取(自驗證模塊)等靜態任務上表現出色;雖然難以完成高精確性的格式化輸出(格式修正模塊),卻能有效的進行信息提取(工具選擇模塊)。這揭示了擴散模型「能力不均衡」的特性:擅長靜態處理,弱于動態推理。

      四、未來方向:對于

      擴散語言模型智能體研究的啟示

      基于上述系統性評估,本研究從訓練、解碼和評估三個維度為擴散語言模型的研究者提供以下建議:

      • 訓練層面:應強化因果推理與解構化能力。在預訓練和微調階段引入具有強因果關系數據,如多步推理任務和軌跡,并大幅增加結構化內容的比重,如 JSON 代碼、API 調用等,從源頭提升模型對格式規范的理解,并建立對因果依賴關系的敏感性。

      • 解碼層面:探索自適應的混合生成策略。模型應基于任務特性自適應地選擇解碼方式,對關鍵的推理步驟采用自回歸解碼確保因果連貫,而對于靜態任務和需要全局視野的長文本生成,采用并行解碼以提升效率;此外可在解碼過程中引入格式約束和校正來彌補不確定性的短板。

      • 評估層面:建立面向智能體應用的基準體系。當前擴散模型的評估過度依賴 MMLU、GSM8K 等通用基準,這些基準無法反應智能體任務關于因果推理、多輪交互和工具調用等需求。研究者應報告模型在例如 DiffuAgent 智能體評估框架的結果,并建立覆蓋真實應用場景的評估體系,避免「跑分高但不實用」的問題。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      太扎心了!女方開口要48.8萬彩禮,小伙要回金首飾,提了一輛寶馬

      太扎心了!女方開口要48.8萬彩禮,小伙要回金首飾,提了一輛寶馬

      火山詩話
      2026-02-12 07:09:19
      教過很多孩子,回頭看才敢告訴你:小學差的,到初中大概率還是差

      教過很多孩子,回頭看才敢告訴你:小學差的,到初中大概率還是差

      好爸育兒
      2026-02-11 20:45:27
      約基奇轟26+15+11仍無緣今日最佳!對不起,你碰到不講理的小卡了

      約基奇轟26+15+11仍無緣今日最佳!對不起,你碰到不講理的小卡了

      世界體育圈
      2026-02-12 13:48:56
      公司發布通知:管理層停薪,請大家珍惜在崗機會!

      公司發布通知:管理層停薪,請大家珍惜在崗機會!

      黯泉
      2026-02-11 23:26:26
      特朗普通過涉臺惡法,對華發出終極威脅,不到24小時,普京出手了

      特朗普通過涉臺惡法,對華發出終極威脅,不到24小時,普京出手了

      觀星賞月
      2026-02-12 15:39:01
      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發生不當關系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      Seedance 2.0殺入豆包!海外網友翻墻跪求,國內用戶免費用,附一手實測

      Seedance 2.0殺入豆包!海外網友翻墻跪求,國內用戶免費用,附一手實測

      智東西
      2026-02-11 21:57:05
      1952年大涼山救出雙眼潰爛的奴隸,身份曝光:竟是強渡大渡河英雄

      1952年大涼山救出雙眼潰爛的奴隸,身份曝光:竟是強渡大渡河英雄

      z千年歷史老號
      2026-02-07 21:09:43
      提醒大家:洗衣機里,不管有幾件衣服,千萬要記得放幾個塑料袋!

      提醒大家:洗衣機里,不管有幾件衣服,千萬要記得放幾個塑料袋!

      美食格物
      2026-02-04 22:51:09
      Seedance2.0太震撼,很多人都將因此失業

      Seedance2.0太震撼,很多人都將因此失業

      磐石之心
      2026-02-11 22:59:15
      重要賽事!2月12日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      重要賽事!2月12日晚19:30!中央5套CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-02-12 12:40:25
      莫言說:當你老了,躺在病床上面,無依無靠時,你就會明白:這輩子最親的,并非血脈至親,竟是這3樣東西。

      莫言說:當你老了,躺在病床上面,無依無靠時,你就會明白:這輩子最親的,并非血脈至親,竟是這3樣東西。

      品讀時刻
      2026-02-11 17:17:59
      多處窩點被搗毀!宜賓87人被查!

      多處窩點被搗毀!宜賓87人被查!

      宜賓零距離
      2026-02-12 15:31:39
      商務部:推動安世荷蘭盡快派員來華

      商務部:推動安世荷蘭盡快派員來華

      澎湃新聞
      2025-12-11 15:38:26
      烏軍收復7個村莊,俄州長提意見被扣上“叛逃”帽子

      烏軍收復7個村莊,俄州長提意見被扣上“叛逃”帽子

      史政先鋒
      2026-02-11 21:16:41
      香港房東徹底啞火了?李亞鵬和嫣然天使不僅能還上房租還要搬走了

      香港房東徹底啞火了?李亞鵬和嫣然天使不僅能還上房租還要搬走了

      安寧007
      2026-02-10 23:05:12
      注意安全通行的通告!甘肅一公路發生滑塌!

      注意安全通行的通告!甘肅一公路發生滑塌!

      甘肅圈圈
      2026-02-12 05:03:56
      赫魯曉夫做夢也沒想到,那個在宴會上指著他鼻子怒吼“我塊頭大”的中國硬漢,最后竟一語成讖!

      赫魯曉夫做夢也沒想到,那個在宴會上指著他鼻子怒吼“我塊頭大”的中國硬漢,最后竟一語成讖!

      源溯歷史
      2026-01-03 20:11:11
      《人民日報》:很多人的病,都是長期與不舒服的人在一起得來的

      《人民日報》:很多人的病,都是長期與不舒服的人在一起得來的

      富書
      2026-02-06 14:17:11
      偏差不到10米,長征十號甲試驗箭牛在哪里?

      偏差不到10米,長征十號甲試驗箭牛在哪里?

      觀察者網
      2026-02-12 09:04:05
      2026-02-12 17:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12295文章數 142564關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節前的暗戰

      頭條要聞

      影石年會送出5套房 員工:獲獎房者都是90后、無高管

      頭條要聞

      影石年會送出5套房 員工:獲獎房者都是90后、無高管

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態度原創

      教育
      家居
      旅游
      手機
      公開課

      教育要聞

      巧用線段圖,倒推法解題!

      家居要聞

      本真棲居 愛暖伴流年

      旅游要聞

      河北館陶:“一品一播”激活新春文旅消費新活力

      手機要聞

      安卓17來了:代號肉桂卷

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版