網易首頁 > 網易號 > 正文申請入駐

UIUC清華微軟聯合提出PlugMem：當Agent記憶告別經歷，存儲經驗

2026-03-11 17:54:43　來源: 機器之心Pro

河北舉報

分享至

隨著大語言模型 Agent 開始在對話、問答與復雜交互環境中長期運行，“記憶該如何設計” 正在成為一個繞不開的核心問題。

論文標題：PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents
論文鏈接：https://arxiv.org/abs/2603.0329
微軟研究院官方博客：https://msft.it/6017Qc9vv
作者單位：UIUC、清華大學、微軟研究院
研究方向：LLM Agent?長期記憶?知識抽象?任務泛化

UIUC、清華、微軟研究院聯合提出：

一種 “可插拔” 的通用 Agent 記憶模塊 PlugMem

來自UIUC、清華大學與微軟研究院的研究團隊，近日提出了一種面向LLM Agent 的任務無關記憶模塊 PlugMem。該工作試圖回答一個在 Agent 研究中反復出現、卻始終沒有統一答案的問題：

Agent 的長期記憶，究竟該 “存什么”，才能真正幫助它在不同任務中做出更好的決策？

在當前主流設計中，大多數 Agent 的記憶仍停留在 “存經歷、再檢索” 的范式：

要么把對話、軌跡、網頁觀察等原始內容直接存下來，要么在此基礎上做簡單壓縮或檢索增強（如 RAG、GraphRAG）。

問題在于，這類方法在任務切換時往往失效：

一個在長對話中表現良好的記憶機制，放到 Web Agent 或多跳問答中，幾乎無法直接復用。

一個典型的失敗場景：

Agent 記住了 “經歷”，卻忘了 “經驗”

作者在論文中給出了一個極具代表性的隱含例子：

在長期對話中，Agent 多次與用戶討論飲食偏好
在網頁任務中，Agent 多次成功完成 “搜索 — 篩選 — 下單” 的流程

但當 Agent 面臨一個新任務時（比如推薦菜譜，或在陌生電商頁面購物）：

原始對話記錄太長、太雜，直接檢索會引入大量無關上下文
完整網頁軌跡高度依賴具體頁面結構，幾乎無法遷移

真正對決策有幫助的，其實只是兩類高度抽象的信息：

「用戶是素食者、對乳制品過敏」（事實性知識）
「在電商頁面中尋找最低價的一般流程」（可復用的行動策略）

但這些信息，往往并不存在于任何一條原始記憶中，而是分散在大量經歷里。

PlugMem 的核心判斷：

決策相關信息，應該以 “知識” 為單位被存儲

基于這一觀察，PlugMem 提出了一種與主流 Agent 記憶設計明顯不同的思路：

記憶的基本單位，不應是 “文本” 或 “軌跡”，而應是 “可決策的知識”。

具體來說，系統將 Agent 的長期記憶明確拆分為三類：

情景記憶（Episodic）：原始交互與行為軌跡，作為可追溯證據
語義記憶（Semantic）：從經歷中抽象出的事實性命題（knowing that）
程序記憶（Procedural）：可跨任務復用的行動處方（knowing how）

與 GraphRAG 等方法不同，PlugMem 構建的并不是 “實體圖” 或 “文本圖”，而是一個以命題（proposition）和處方（prescription）為節點的知識中心記憶圖。

換句話說，Agent 檢索的不是 “我曾經做過什么”，而是 “我已經學會了什么”。

一個關鍵技術細節：

同一套記憶結構，如何同時支持三類任務？

論文中一個很有說服力的點在于：

PlugMem 在不做任何任務特化修改的情況下，被直接用于三類差異極大的任務：

長時對話記憶（LongMemEval）
多跳知識問答（HotpotQA）
Web Agent 決策（WebArena）

在每種任務中，系統會動態判斷當前更需要哪一類記憶：

回憶具體經歷 → 使用情景記憶
推理事實關系 → 使用語義記憶
執行復雜操作 → 使用程序記憶

而檢索與推理始終圍繞知識級節點展開，而不是原始文本。

評估與分析：

實驗在回答哪些問題？

PlugMem 的實驗設計，圍繞三個明確的問題展開。這三個問題，分別對應 Agent 記憶系統中最關鍵、也最容易被混用的三個層面：通用性、因果結構，以及可遷移性。

RQ1：同一套記憶機制，

能否同時適用于不同類型的 Agent 任務？

第一個問題關注的是 PlugMem 的適用范圍。

作者將同一個 PlugMem 實現，直接用于三類結構差異極大的任務：

LongMemEval：強調跨輪次對話中的事實一致性
HotpotQA：強調多跳知識檢索與組合推理
WebArena：強調交互式環境中的程序性操作

這些任務對記憶的需求并不相同：

有的依賴對過往事實的回憶，有的依賴知識之間的關聯，有的則依賴對行動策略的復用。

實驗結果顯示，在三類任務中，PlugMem 都能夠在提升任務表現的同時，顯著降低 Agent 側所消耗的記憶 token 數量。這表明，將記憶表示為知識級單元，有助于在不同任務中穩定提升單位記憶的決策價值。

這一結果為后續分析提供了基礎前提：記憶的組織方式，會系統性地影響其在不同任務中的有效性。

一個中間視角：

如何比較不同任務中的 “記憶效率”？

在進一步分析之前，作者引入了一個統一的評估視角，用于衡量記憶系統在不同任務中的性價比。

具體而言，論文將記憶的作用表述為：在給定狀態下，記憶對 Agent 正確決策概率所帶來的信息增益，并將這一增益歸一化到所使用的記憶 token 數量上。由此得到的 “信息密度” 指標，使得不同任務、不同記憶設計可以在同一尺度下進行比較。

這一評估框架，為后續的消融分析和跨任務比較提供了統一坐標系。

RQ2：結構化、檢索與推理，

各自在記憶系統中起什么作用？

第二個問題關注的是 PlugMem 內部各組件的作用分工。

作者通過系統性的消融實驗，分別移除結構化模塊、檢索模塊和推理模塊，觀察性能與記憶消耗的變化。實驗結果呈現出清晰的分工關系：

檢索模塊決定記憶是否能夠被有效利用

當檢索被移除后，記憶幾乎無法在決策中發揮作用。

結構化模塊決定檢索到的內容質量

在缺少結構化的情況下，系統更容易檢索到冗余、粒度不合適的原始信息，從而限制性能提升空間。

推理模塊主要影響記憶使用效率

移除推理模塊后，性能變化相對有限，但記憶 token 消耗顯著增加，表明其主要作用在于壓縮與整合。

這組實驗明確區分了三個常被混為一談的概念：

檢索讓記憶 “可達”，結構化讓記憶 “可用”，推理讓記憶 “省著用”。

RQ3：Agent 記憶能否作為可繼承的經驗，

在新任務中繼續發揮作用？

第三個問題關注的是記憶的可遷移性。

在 WebArena 中，作者將任務劃分為 online 與 offline 兩個階段：

Agent 只允許在 online 階段寫入記憶，而 offline 階段則在基本凍結記憶的情況下進行評估。

這一設置刻意避免了通過重復試錯積累熟練度的可能性，重點考察已有記憶是否能夠支持新任務中的決策。

實驗結果表明，即使在 offline 階段，PlugMem 仍能顯著提升任務成功率，尤其是在涉及多站點組合操作的任務中。這表明系統中存儲的程序性與語義知識，能夠被新的 Agent 實例直接復用，而不依賴于具體的交互軌跡。

小結

通過這三組問題，實驗逐步澄清了 PlugMem 所刻畫的 Agent 記憶形態：

記憶以知識為基本單位
決策相關信息可以在不同任務間復用
結構化與檢索決定 “能否用”，推理決定 “如何高效地用”

在這一意義上，PlugMem 的實驗不僅驗證了方法本身，也為理解 Agent 長期記憶的設計與評估提供了一組清晰的分析視角。

總體來看，PlugMem 從記憶的基本單位、組織方式與評估視角三個層面，系統性地重審了 Agent 長期記憶這一問題。通過將經歷抽象為可復用的語義與程序性知識，并在多類任務中進行統一評估，作者展示了一種更接近 “經驗繼承” 而非 “歷史回放” 的 Agent 記憶形態。這一思路，也為后續構建可遷移、可積累經驗的通用 Agent 提供了新的設計基線。

作者簡介：

楊可，清華大學本科、UIUC計算機三年級博士生，主要研究AI agents、語言模型、信息檢索與算法審計。本項目由其承擔領導與主要寫作工作，為排序第一作者，并與陳子曦、何宣、蔣積澤共同作為共同第一作者。該成果由UIUC、清華大學與微軟研究院合作完成，并接受Michel Galley、汪成龍博士建議，得到高劍峰、韓家煒、翟成祥教授指導。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.