![]()
隨著大語言模型 Agent 開始在對話、問答與復雜交互環境中長期運行,“記憶該如何設計” 正在成為一個繞不開的核心問題。
![]()
- 論文標題:PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents
- 論文鏈接:https://arxiv.org/abs/2603.0329
- 微軟研究院官方博客:https://msft.it/6017Qc9vv
- 作者單位:UIUC、清華大學、微軟研究院
- 研究方向:LLM Agent?長期記憶?知識抽象?任務泛化
UIUC、清華、微軟研究院聯合提出:
一種 “可插拔” 的通用 Agent 記憶模塊 PlugMem
來自UIUC、清華大學與微軟研究院的研究團隊,近日提出了一種面向LLM Agent 的任務無關記憶模塊 PlugMem。該工作試圖回答一個在 Agent 研究中反復出現、卻始終沒有統一答案的問題:
Agent 的長期記憶,究竟該 “存什么”,才能真正幫助它在不同任務中做出更好的決策?
在當前主流設計中,大多數 Agent 的記憶仍停留在 “存經歷、再檢索” 的范式:
要么把對話、軌跡、網頁觀察等原始內容直接存下來,要么在此基礎上做簡單壓縮或檢索增強(如 RAG、GraphRAG)。
問題在于,這類方法在任務切換時往往失效:
一個在長對話中表現良好的記憶機制,放到 Web Agent 或多跳問答中,幾乎無法直接復用。
一個典型的失敗場景:
Agent 記住了 “經歷”,卻忘了 “經驗”
作者在論文中給出了一個極具代表性的隱含例子:
- 在長期對話中,Agent 多次與用戶討論飲食偏好
- 在網頁任務中,Agent 多次成功完成 “搜索 — 篩選 — 下單” 的流程
但當 Agent 面臨一個新任務時(比如推薦菜譜,或在陌生電商頁面購物):
- 原始對話記錄太長、太雜,直接檢索會引入大量無關上下文
- 完整網頁軌跡高度依賴具體頁面結構,幾乎無法遷移
真正對決策有幫助的,其實只是兩類高度抽象的信息:
- 「用戶是素食者、對乳制品過敏」(事實性知識)
- 「在電商頁面中尋找最低價的一般流程」(可復用的行動策略)
但這些信息,往往并不存在于任何一條原始記憶中,而是分散在大量經歷里。
PlugMem 的核心判斷:
決策相關信息,應該以 “知識” 為單位被存儲
基于這一觀察,PlugMem 提出了一種與主流 Agent 記憶設計明顯不同的思路:
記憶的基本單位,不應是 “文本” 或 “軌跡”,而應是 “可決策的知識”。
具體來說,系統將 Agent 的長期記憶明確拆分為三類:
- 情景記憶(Episodic):原始交互與行為軌跡,作為可追溯證據
- 語義記憶(Semantic):從經歷中抽象出的事實性命題(knowing that)
- 程序記憶(Procedural):可跨任務復用的行動處方(knowing how)
![]()
與 GraphRAG 等方法不同,PlugMem 構建的并不是 “實體圖” 或 “文本圖”, 而是一個以命題(proposition)和處方(prescription)為節點的知識中心記憶圖。
換句話說,Agent 檢索的不是 “我曾經做過什么”,而是 “我已經學會了什么”。
一個關鍵技術細節:
同一套記憶結構,如何同時支持三類任務?
論文中一個很有說服力的點在于:
PlugMem 在不做任何任務特化修改的情況下,被直接用于三類差異極大的任務:
- 長時對話記憶(LongMemEval)
- 多跳知識問答(HotpotQA)
- Web Agent 決策(WebArena)
在每種任務中,系統會動態判斷當前更需要哪一類記憶:
- 回憶具體經歷 → 使用情景記憶
- 推理事實關系 → 使用語義記憶
- 執行復雜操作 → 使用程序記憶
而檢索與推理始終圍繞知識級節點展開,而不是原始文本。
評估與分析:
實驗在回答哪些問題?
PlugMem 的實驗設計,圍繞三個明確的問題展開。這三個問題,分別對應 Agent 記憶系統中最關鍵、也最容易被混用的三個層面:通用性、因果結構,以及可遷移性。
RQ1:同一套記憶機制,
能否同時適用于不同類型的 Agent 任務?
第一個問題關注的是 PlugMem 的適用范圍。
作者將同一個 PlugMem 實現,直接用于三類結構差異極大的任務:
- LongMemEval:強調跨輪次對話中的事實一致性
- HotpotQA:強調多跳知識檢索與組合推理
- WebArena:強調交互式環境中的程序性操作
這些任務對記憶的需求并不相同:
有的依賴對過往事實的回憶,有的依賴知識之間的關聯,有的則依賴對行動策略的復用。
實驗結果顯示,在三類任務中,PlugMem 都能夠在提升任務表現的同時,顯著降低 Agent 側所消耗的記憶 token 數量。這表明,將記憶表示為知識級單元,有助于在不同任務中穩定提升單位記憶的決策價值。
![]()
這一結果為后續分析提供了基礎前提:記憶的組織方式,會系統性地影響其在不同任務中的有效性。
一個中間視角:
如何比較不同任務中的 “記憶效率”?
在進一步分析之前,作者引入了一個統一的評估視角,用于衡量記憶系統在不同任務中的性價比。
具體而言,論文將記憶的作用表述為:在給定狀態下,記憶對 Agent 正確決策概率所帶來的信息增益,并將這一增益歸一化到所使用的記憶 token 數量上。由此得到的 “信息密度” 指標,使得不同任務、不同記憶設計可以在同一尺度下進行比較。
這一評估框架,為后續的消融分析和跨任務比較提供了統一坐標系。
RQ2:結構化、檢索與推理,
各自在記憶系統中起什么作用?
第二個問題關注的是 PlugMem 內部各組件的作用分工。
![]()
作者通過系統性的消融實驗,分別移除結構化模塊、檢索模塊和推理模塊,觀察性能與記憶消耗的變化。實驗結果呈現出清晰的分工關系:
- 檢索模塊決定記憶是否能夠被有效利用
當檢索被移除后,記憶幾乎無法在決策中發揮作用。
- 結構化模塊決定檢索到的內容質量
在缺少結構化的情況下,系統更容易檢索到冗余、粒度不合適的原始信息,從而限制性能提升空間。
- 推理模塊主要影響記憶使用效率
移除推理模塊后,性能變化相對有限,但記憶 token 消耗顯著增加,表明其主要作用在于壓縮與整合。
這組實驗明確區分了三個常被混為一談的概念:
檢索讓記憶 “可達”,結構化讓記憶 “可用”,推理讓記憶 “省著用”。
RQ3:Agent 記憶能否作為可繼承的經驗,
在新任務中繼續發揮作用?
第三個問題關注的是記憶的可遷移性。
在 WebArena 中,作者將任務劃分為 online 與 offline 兩個階段:
Agent 只允許在 online 階段寫入記憶,而 offline 階段則在基本凍結記憶的情況下進行評估。
這一設置刻意避免了通過重復試錯積累熟練度的可能性,重點考察已有記憶是否能夠支持新任務中的決策。
實驗結果表明,即使在 offline 階段,PlugMem 仍能顯著提升任務成功率,尤其是在涉及多站點組合操作的任務中。這表明系統中存儲的程序性與語義知識,能夠被新的 Agent 實例直接復用,而不依賴于具體的交互軌跡。
小結
通過這三組問題,實驗逐步澄清了 PlugMem 所刻畫的 Agent 記憶形態:
- 記憶以知識為基本單位
- 決策相關信息可以在不同任務間復用
- 結構化與檢索決定 “能否用”,推理決定 “如何高效地用”
在這一意義上,PlugMem 的實驗不僅驗證了方法本身,也為理解 Agent 長期記憶的設計與評估提供了一組清晰的分析視角。
總體來看,PlugMem 從記憶的基本單位、組織方式與評估視角三個層面,系統性地重審了 Agent 長期記憶這一問題。通過將經歷抽象為可復用的語義與程序性知識,并在多類任務中進行統一評估,作者展示了一種更接近 “經驗繼承” 而非 “歷史回放” 的 Agent 記憶形態。這一思路,也為后續構建可遷移、可積累經驗的通用 Agent 提供了新的設計基線。
作者簡介:
楊可,清華大學本科、UIUC計算機三年級博士生,主要研究AI agents、語言模型、信息檢索與算法審計。本項目由其承擔領導與主要寫作工作,為排序第一作者,并與陳子曦、何宣、蔣積澤共同作為共同第一作者。該成果由UIUC、清華大學與微軟研究院合作完成,并接受Michel Galley、汪成龍博士建議,得到高劍峰、韓家煒、翟成祥教授指導。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.