<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      UIUC清華微軟聯合提出PlugMem:當Agent記憶告別經歷,存儲經驗

      0
      分享至



      隨著大語言模型 Agent 開始在對話、問答與復雜交互環境中長期運行,“記憶該如何設計” 正在成為一個繞不開的核心問題。



      • 論文標題:PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents
      • 論文鏈接:https://arxiv.org/abs/2603.0329
      • 微軟研究院官方博客:https://msft.it/6017Qc9vv
      • 作者單位:UIUC、清華大學、微軟研究院
      • 研究方向:LLM Agent?長期記憶?知識抽象?任務泛化

      UIUC、清華、微軟研究院聯合提出:

      一種 “可插拔” 的通用 Agent 記憶模塊 PlugMem

      來自UIUC、清華大學與微軟研究院的研究團隊,近日提出了一種面向LLM Agent 的任務無關記憶模塊 PlugMem。該工作試圖回答一個在 Agent 研究中反復出現、卻始終沒有統一答案的問題:

      Agent 的長期記憶,究竟該 “存什么”,才能真正幫助它在不同任務中做出更好的決策?

      在當前主流設計中,大多數 Agent 的記憶仍停留在 “存經歷、再檢索” 的范式:

      要么把對話、軌跡、網頁觀察等原始內容直接存下來,要么在此基礎上做簡單壓縮或檢索增強(如 RAG、GraphRAG)。

      問題在于,這類方法在任務切換時往往失效:

      一個在長對話中表現良好的記憶機制,放到 Web Agent 或多跳問答中,幾乎無法直接復用。

      一個典型的失敗場景:

      Agent 記住了 “經歷”,卻忘了 “經驗”

      作者在論文中給出了一個極具代表性的隱含例子:

      • 在長期對話中,Agent 多次與用戶討論飲食偏好
      • 在網頁任務中,Agent 多次成功完成 “搜索 — 篩選 — 下單” 的流程

      但當 Agent 面臨一個新任務時(比如推薦菜譜,或在陌生電商頁面購物):

      • 原始對話記錄太長、太雜,直接檢索會引入大量無關上下文
      • 完整網頁軌跡高度依賴具體頁面結構,幾乎無法遷移

      真正對決策有幫助的,其實只是兩類高度抽象的信息:

      • 「用戶是素食者、對乳制品過敏」(事實性知識)
      • 「在電商頁面中尋找最低價的一般流程」(可復用的行動策略)

      但這些信息,往往并不存在于任何一條原始記憶中,而是分散在大量經歷里。

      PlugMem 的核心判斷:

      決策相關信息,應該以 “知識” 為單位被存儲

      基于這一觀察,PlugMem 提出了一種與主流 Agent 記憶設計明顯不同的思路:

      記憶的基本單位,不應是 “文本” 或 “軌跡”,而應是 “可決策的知識”。

      具體來說,系統將 Agent 的長期記憶明確拆分為三類:

      • 情景記憶(Episodic):原始交互與行為軌跡,作為可追溯證據
      • 語義記憶(Semantic):從經歷中抽象出的事實性命題(knowing that)
      • 程序記憶(Procedural):可跨任務復用的行動處方(knowing how)



      與 GraphRAG 等方法不同,PlugMem 構建的并不是 “實體圖” 或 “文本圖”, 而是一個以命題(proposition)和處方(prescription)為節點的知識中心記憶圖

      換句話說,Agent 檢索的不是 “我曾經做過什么”,而是 “我已經學會了什么”。

      一個關鍵技術細節:

      同一套記憶結構,如何同時支持三類任務?

      論文中一個很有說服力的點在于:

      PlugMem 在不做任何任務特化修改的情況下,被直接用于三類差異極大的任務:

      1. 長時對話記憶(LongMemEval)
      2. 多跳知識問答(HotpotQA)
      3. Web Agent 決策(WebArena)

      在每種任務中,系統會動態判斷當前更需要哪一類記憶:

      • 回憶具體經歷 → 使用情景記憶
      • 推理事實關系 → 使用語義記憶
      • 執行復雜操作 → 使用程序記憶

      而檢索與推理始終圍繞知識級節點展開,而不是原始文本。

      評估與分析:

      實驗在回答哪些問題?

      PlugMem 的實驗設計,圍繞三個明確的問題展開。這三個問題,分別對應 Agent 記憶系統中最關鍵、也最容易被混用的三個層面:通用性、因果結構,以及可遷移性。

      RQ1:同一套記憶機制,

      能否同時適用于不同類型的 Agent 任務?

      第一個問題關注的是 PlugMem 的適用范圍。

      作者將同一個 PlugMem 實現,直接用于三類結構差異極大的任務:

      • LongMemEval:強調跨輪次對話中的事實一致性
      • HotpotQA:強調多跳知識檢索與組合推理
      • WebArena:強調交互式環境中的程序性操作

      這些任務對記憶的需求并不相同:

      有的依賴對過往事實的回憶,有的依賴知識之間的關聯,有的則依賴對行動策略的復用。

      實驗結果顯示,在三類任務中,PlugMem 都能夠在提升任務表現的同時,顯著降低 Agent 側所消耗的記憶 token 數量。這表明,將記憶表示為知識級單元,有助于在不同任務中穩定提升單位記憶的決策價值。



      這一結果為后續分析提供了基礎前提:記憶的組織方式,會系統性地影響其在不同任務中的有效性。

      一個中間視角:

      如何比較不同任務中的 “記憶效率”?

      在進一步分析之前,作者引入了一個統一的評估視角,用于衡量記憶系統在不同任務中的性價比。

      具體而言,論文將記憶的作用表述為:在給定狀態下,記憶對 Agent 正確決策概率所帶來的信息增益,并將這一增益歸一化到所使用的記憶 token 數量上。由此得到的 “信息密度” 指標,使得不同任務、不同記憶設計可以在同一尺度下進行比較。

      這一評估框架,為后續的消融分析和跨任務比較提供了統一坐標系。

      RQ2:結構化、檢索與推理,

      各自在記憶系統中起什么作用?

      第二個問題關注的是 PlugMem 內部各組件的作用分工。



      作者通過系統性的消融實驗,分別移除結構化模塊、檢索模塊和推理模塊,觀察性能與記憶消耗的變化。實驗結果呈現出清晰的分工關系:

      • 檢索模塊決定記憶是否能夠被有效利用

      當檢索被移除后,記憶幾乎無法在決策中發揮作用。

      • 結構化模塊決定檢索到的內容質量

      在缺少結構化的情況下,系統更容易檢索到冗余、粒度不合適的原始信息,從而限制性能提升空間。

      • 推理模塊主要影響記憶使用效率

      移除推理模塊后,性能變化相對有限,但記憶 token 消耗顯著增加,表明其主要作用在于壓縮與整合。

      這組實驗明確區分了三個常被混為一談的概念:

      檢索讓記憶 “可達”,結構化讓記憶 “可用”,推理讓記憶 “省著用”。

      RQ3:Agent 記憶能否作為可繼承的經驗,

      在新任務中繼續發揮作用?

      第三個問題關注的是記憶的可遷移性。

      在 WebArena 中,作者將任務劃分為 online 與 offline 兩個階段:

      Agent 只允許在 online 階段寫入記憶,而 offline 階段則在基本凍結記憶的情況下進行評估。

      這一設置刻意避免了通過重復試錯積累熟練度的可能性,重點考察已有記憶是否能夠支持新任務中的決策。

      實驗結果表明,即使在 offline 階段,PlugMem 仍能顯著提升任務成功率,尤其是在涉及多站點組合操作的任務中。這表明系統中存儲的程序性與語義知識,能夠被新的 Agent 實例直接復用,而不依賴于具體的交互軌跡。

      小結

      通過這三組問題,實驗逐步澄清了 PlugMem 所刻畫的 Agent 記憶形態:

      • 記憶以知識為基本單位
      • 決策相關信息可以在不同任務間復用
      • 結構化與檢索決定 “能否用”,推理決定 “如何高效地用”

      在這一意義上,PlugMem 的實驗不僅驗證了方法本身,也為理解 Agent 長期記憶的設計與評估提供了一組清晰的分析視角。

      總體來看,PlugMem 從記憶的基本單位、組織方式與評估視角三個層面,系統性地重審了 Agent 長期記憶這一問題。通過將經歷抽象為可復用的語義與程序性知識,并在多類任務中進行統一評估,作者展示了一種更接近 “經驗繼承” 而非 “歷史回放” 的 Agent 記憶形態。這一思路,也為后續構建可遷移、可積累經驗的通用 Agent 提供了新的設計基線。

      作者簡介:

      楊可,清華大學本科、UIUC計算機三年級博士生,主要研究AI agents、語言模型、信息檢索與算法審計。本項目由其承擔領導與主要寫作工作,為排序第一作者,并與陳子曦、何宣、蔣積澤共同作為共同第一作者。該成果由UIUC、清華大學與微軟研究院合作完成,并接受Michel Galley、汪成龍博士建議,得到高劍峰、韓家煒、翟成祥教授指導。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      周啟豪委屈吐槽,陳幸同不被定義,感情敗給現實

      周啟豪委屈吐槽,陳幸同不被定義,感情敗給現實

      東方不敗然多多
      2026-03-11 17:09:27
      是否刺殺伊朗新領袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標;想在伊朗復制“委內瑞拉模式”

      是否刺殺伊朗新領袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標;想在伊朗復制“委內瑞拉模式”

      極目新聞
      2026-03-10 14:47:01
      瘋了!波切蒂諾給皇馬下死命令:挖 4 人才肯執教,英超被薅禿

      瘋了!波切蒂諾給皇馬下死命令:挖 4 人才肯執教,英超被薅禿

      奶蓋熊本熊
      2026-03-11 03:07:39
      你什么時候感覺中國強大起來了?網友:國足是用來平衡國運的

      你什么時候感覺中國強大起來了?網友:國足是用來平衡國運的

      帶你感受人間冷暖
      2026-02-22 11:44:45
      日本,開始擺爛了

      日本,開始擺爛了

      新浪財經
      2026-03-10 18:55:27
      京東有獎發票活動火了!有人中10萬現金 有人連中4次最高獎

      京東有獎發票活動火了!有人中10萬現金 有人連中4次最高獎

      快科技
      2026-03-10 17:24:14
      外國專家:毛澤東之所以打仗厲害,主要有3大“看家本領”

      外國專家:毛澤東之所以打仗厲害,主要有3大“看家本領”

      小港哎歷史
      2026-03-01 09:00:03
      關于和伊朗談判,特朗普最新表態!

      關于和伊朗談判,特朗普最新表態!

      每日經濟新聞
      2026-03-10 21:15:06
      2B的丁字褲呢?《守望先鋒》尼爾聯動皮膚遭質疑和諧

      2B的丁字褲呢?《守望先鋒》尼爾聯動皮膚遭質疑和諧

      游民星空
      2026-03-11 12:26:05
      行程有變,特朗普訪華規格縮水,中方對美說不,美國先遣隊已離京

      行程有變,特朗普訪華規格縮水,中方對美說不,美國先遣隊已離京

      知法而形
      2026-03-10 20:29:56
      演都不演了,剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      演都不演了,剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      一娛三分地
      2026-03-03 13:51:03
      以色列軍方和情報界人士說,伊朗發生了重大事件,規模堪比尋呼機

      以色列軍方和情報界人士說,伊朗發生了重大事件,規模堪比尋呼機

      雪中風車
      2026-03-11 09:57:54
      難怪美國打算停火了,特朗普連收3條噩耗,自己兒子也要遭殃

      難怪美國打算停火了,特朗普連收3條噩耗,自己兒子也要遭殃

      娛樂小可愛蛙
      2026-03-10 19:26:17
      國民黨再掀內斗,張亞中向鄭麗文叫板,韓國瑜打臉柯文哲,不簡單

      國民黨再掀內斗,張亞中向鄭麗文叫板,韓國瑜打臉柯文哲,不簡單

      DS北風
      2026-03-11 18:42:04
      深圳一幼兒園學費217360元!網友自嘲:都說經濟差,原來只是我窮

      深圳一幼兒園學費217360元!網友自嘲:都說經濟差,原來只是我窮

      川渝視覺
      2026-03-11 16:21:54
      腦梗的源頭被查出,肥肉沒上榜,第1名很多人可能每天都在吃!

      腦梗的源頭被查出,肥肉沒上榜,第1名很多人可能每天都在吃!

      全球軍事記
      2025-11-29 13:46:37
      延安時期:我黨真的一窮二白嗎?紅軍的主要收入是什么?

      延安時期:我黨真的一窮二白嗎?紅軍的主要收入是什么?

      冰語歷史
      2026-03-07 07:38:08
      日本外長電話怒斥伊朗:要求伊朗立刻放人,伊朗外長強硬回擊日本

      日本外長電話怒斥伊朗:要求伊朗立刻放人,伊朗外長強硬回擊日本

      影像溫度
      2026-03-10 09:21:04
      你那“迷人的老祖宗”真不值得崇拜

      你那“迷人的老祖宗”真不值得崇拜

      浪子說
      2026-03-11 07:14:11
      國際油價上演歷史性大反轉,一夜暴跌超35美元

      國際油價上演歷史性大反轉,一夜暴跌超35美元

      流蘇晚晴
      2026-03-11 18:36:12
      2026-03-11 19:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12477文章數 142582關注度
      往期回顧 全部

      科技要聞

      騰訊急了急了,微信絕密AI智能體首度曝光

      頭條要聞

      重慶13歲少年"街舞世界杯"奪冠 最初目標僅是進下一輪

      頭條要聞

      重慶13歲少年"街舞世界杯"奪冠 最初目標僅是進下一輪

      體育要聞

      郭艾倫重傷,CBA下半賽季還能期待些什么

      娛樂要聞

      楊冪連續五年為劉詩詩慶生,劉詩詩回應

      財經要聞

      喚醒10萬億存量資金 公積金改革大潮來了

      汽車要聞

      蓮花糾偏, 馮擎峰的“收”與“守”

      態度原創

      本地
      時尚
      手機
      公開課
      軍事航空

      本地新聞

      這檔韓國玄學綜藝,讓多少人看得頭皮發麻

      看來看去還是這些穿搭最高級,不老套、不死板,舒適又顯氣質

      手機要聞

      「全球最平整折疊屏」來了!OPPO Find N6開箱上手體驗

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      朝鮮"崔賢"號驅逐艦進行戰略巡航導彈試射

      無障礙瀏覽 進入關懷版