網易首頁 > 網易號 > 正文申請入駐

2025 AI 記憶系統大橫評：從插件到操作系統，誰在定義下一代Agent Infra？

2025-11-28 15:19:46　來源: 深思圈

北京舉報

分享至

如果站在今天回望 AI 的進化史，你會發現這波浪潮在短短幾年內完成了三次躍遷：

2022-2023：模型時代（The Model Era）GPT-4 的橫空出世,讓機器第一次具備了通用的語言與推理能力（大腦構建完成）。

2024-2025：智能體時代（The Agentic Era）RAG 與工具調用（Tool Use）的普及，讓 AI 擁有了手和眼，開始具備執行復雜任務的能力。

2026-：認知時代（The Cognitive Era / Memory Era）AI 開始擁有"長期記憶"與"連貫人格"。這是從"工具"到"伙伴"的終極跨越——未來的 AI 不再是閱后即焚的聊天窗口，而是有歷史、有偏好、真正懂你的"第二大腦"。

這不是一個小升級，而是范式轉換：

未來的 AI，不是問一句答一句的聊天機器人，而是有歷史、有偏好、有世界模型的智能體（AI Agent）。

于是，一個全新的基礎設施賽道突然爆發：

AI Memory System（AI 記憶系統）

它們試圖解決同一個核心問題：

如何讓 AI 記住過去，從而理解未來？

2023–2025 之間，全球出現了十幾種完全不同的 Memory 技術路線。但究竟哪種路線能最終滿足我們的使用需求，目前各條路線進展如何？我們還無法形成直觀的評價。

在AI領域，我們經常用基準測試（benchmark）去衡量技術性能的高低。在記憶方面，比較常用的測試集有LoCoMo、LongMemEval等。但記憶領域的評測并不是一件非常容易的事，評測方法、所用模型、版本都會造成評測結果的分歧。前些時候，Mem0和Letta就在彼此的評測分值上有過分歧（參見《Benchmarking AI Agent Memory: Is a Filesystem All You Need?》）。

我們查閱了記憶領域近10個團隊的評測官方分數、發布情況和橫向比較，看到三家橫向評測完整度是比較高的，在此嘗試進行分析解讀。

1、Mem360橫向評測：

數據來源：https://www.53ai.com/news/LargeLanguageModel/2025092482391.html

發布時間：2025-9-24

2、MemOS橫向評測：

數據來源：https://huggingface.co/datasets/MemTensor/MemOS_eval_result

發布時間：2025-11-6

3、EverMind（EverMemOS研發團隊）橫向評測：

注：Full-context為將完整的對話歷史無截斷、無篩選地直接輸入給大型語言模型（LLM），讓模型僅依賴自身的上下文窗口和注意力機制處理信息、生成輸出，消耗token較多，但可以作為性能的baseline。

數據來源：https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation

發布時間：2025-11-26

同時，我們也整理了各團隊在LoCoMo測試集上官方報告的結果：

接下來，我們結合這些評測的解讀分析來進一步了解Memory領域的技術進展。

為什么所有 Memory 項目都說自己是 SOTA？

首先，我們比較發現上述三家公布的橫向評測結果，總體上還是相對一致的（比如對MemU的評測，三家復現結果都很相近），多數項目的相對高低也是一致的，但在個別分值上結果相差很大（比如Zep的分值，EverMind的評分明顯高于其他兩家，并且略高于Zep官方Claim的結果）。

仔細分析會發現，這些測評數據的差異主要來自這幾個方面：

① 評測對象不同

不同的評測報告中，對于同一記憶系統，有的評測了 web API 版，有的評測了開源版。例如EverMind的橫評中標注EverMemOS使用了開源版，其他產品使用了性能更好的web API 版，因此基本代表了各家產品的最新最佳表現。

在關于評測是否可復現的爭議中，也有相當一部分來自開源版本提供的數據和代碼并不充分。多家記憶系統都曾在Github上用"web API版有更多優化"回應復現疑問，可以認為大家更推薦web API版本。

② 版本更迭

各家記憶系統大都在持續更新，包括升級和版本迭代中的小失誤。

Zep自官方Claim的LoCoMo測試結果發布之后，已經從v2升級到了v3，EverMind的評測中，則使用了Zep的V3版本，這可能是EverMind橫評中Zep得分高于其他家評測結果，甚至高于Zep官方此前匯報的結果的原因。

在記憶召回中有特殊價值的"時間戳"定義上，Mem0 最新的版本中出現了一些定義混淆，這個 issue 在Github上也有討論，或許對其效果有一定的影響。MemOS在橫向評測中提到對Mem0的測評結果無法復現，或與此有關。

③ 測評模型及方法

目前只有 MemOS 和 EverMemOS 兩家公開了完整的橫向測評方法，二者在評測所用的語言模型及評測方法上略有不同。

從模型角度，MemOS 統一用 gpt-4o-mini 作為回答模型，EverMind統一用新一代的 gpt-4.1-mini作為問答模型，都做到了統一標準。

從方法角度，在對 Zep 的評測上，MemOS 提供了三版不同的結果,最終選用了通用回答提示詞生成的結果，EverMind選用了 Zep 原生回答提示詞。對此，我們瀏覽了各方評測的結果文件，發現Zep在存儲記憶的時候，對于時間戳的定義和主流有所不同，導致使用通用提示詞會造成預期外的準確率下降。這可能是Mem360和MemOS對Zep的評分顯著低于Zep官方報告分數的重要原因。我們推測EverMind對Zep的評分或更接近Zep在線服務的真實水平。

由此可見，在記憶系統的評測結果中，在公布評測成績的同時，必須提供評測條件，包括評測的具體時間、版本，使用的模型和提示詞等，并且在統一外部條件下進行橫向比較，才能達到評測的目的，便于客觀比較和加深理解。

從 Mem0 與 Letta 的測評復現之爭可以看出，橫向測評外部系統是一件不容易的事，信息不足可能造成評測結果的偏頗和爭論。但不同記憶系統之間的評測又是一件重要的事，能夠促進整個行業的交流和發展，而不是各自閉門造車。在此，感謝 MemOS 團隊和 EverMemOS 團隊對開源評測的推動和助力，也希望未來有更多更好的 Benchmark 數據集和開源評測的精彩互動，讓這個領域更加活躍起來。

如何看待記憶系統的多種路線？

我們梳理了2024–2025年全球開源社區出現的十幾種完全不同的 Memory 技術路線和代表項目：

自動抽取記憶（Mem0）

企業級 Memory Server（Zep）

結構化記憶樹（MemU）

神經張量記憶（MemOS）

生物啟發的Memory OS（EverMemOS）

屏幕級多模態記憶（Mirix）

Profile-based Memory（Memobase）

文件系統式 Memory（Letta）

視頻級記憶 / LVMM（Memories.ai）

知識圖譜式超記憶（Supermemory）

LangMem（LangChain 官方 Memory SDK）

隨之而來的關鍵問題是：記憶系統的底層技術演進方向究竟在何方？2025 年的 Agent，到底應該使用哪套 Memory 技術？

當我們把歷史上出現的記憶系統相關工作都調研分析之后，就不難總結出AI長期記憶技術的三個發展階段：

1.工程化集成階段 (2023-2024):代表為 Mem0 和 Supermemory。這一階段的核心痛點是"RAG太難用了"，因此重點在于封裝復雜的向量數據庫操作，提供簡單的API。LoCoMo得分普遍在60%-70%，主要受限于基于相似度檢索的固有缺陷。

2.結構化與圖譜階段 (2024-2025 H1):代表為 Zep 和 Memobase。開發者意識到"相似度"不等于"相關性"，特別是涉及時間維度的狀態變化時。引入知識圖譜和時間軸后，得分提升至75%左右，解決了時序錯亂問題。

3.認知架構階段 (2025 H2):代表為 Mirix, MemU, MemOS，EverMemOS。這一階段徹底拋棄了"數據庫"的隱喻，轉而采用"大腦"或"操作系統"的隱喻。通過引入多智能體協作、記憶提純和類腦整合機制，系統性能終于突破85%，邁向90%+的人類水平。

限于篇幅，我們按照時間順序，從最早的 Mem0 到最新的 EverMemOS，選擇最有代表性的5個項目展開來說。希望能復盤記憶技術如何完成從'功能插件'到'操作系統'、從'靜態向量庫'到'動態認知體'的范式轉移。并結合最新發布的可復現橫評結果，分析各自特性和路線演化。

1、Mem0（2024.07–2025）——第一代輕量記憶插件的誕生：從"自動抽取"開始

推出時間

2024-07 開源發布

2024-10-27首次系統公開論述Medium 上發布《Mem0: Solving the Memory Problem in LLMs》。

2025-04-28提交論文《Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory》

為什么 Mem0 會火？

因為當時幾乎所有開發者都遇到一個痛點：模型每次都忘記之前說過什么。Mem0 給出的簡單答案是：自動抽取 → 自動清洗 → 自動存儲

幾行代碼就能讓 AI"看起來"擁有記憶。

在缺乏 Memory 基礎設施的 2023–2024 年，這極具革命性。

技術路線

Mem0 主打兩個詞：

輕量

自動化

特點：

混合存儲：采用"向量+知識圖譜"架構，兼顧語義匹配與關系推理，實現精準記憶檢索

智能過濾：通過主動篩選與更新記憶，有效減少冗余，在保證質量的同時顯著優化存儲與計算成本

Mem0 的時代意義

它是第一代"能用即可"的記憶工具

但它的問題也同樣明顯：

過度抽取

多輪任務容易漂移

不可解釋

長期一致性弱

這是一個讓世界認識"AI 記憶"的產品，但不是下一代智能體的記憶基礎。

2、Zep（2024.09–2025）——企業級 Memory Server 的率先探索：穩定、可部署、可解釋

推出時間

2024.9：官方博客《Announcing: Zep Community Edition》宣布 CE 版本開源。

2025.1：論文《Zep: A Temporal Knowledge Graph Architecture for Agent Memory》上線 arXiv（2501.13956）。

Zep 的技術路線：Memory = Server

Zep 是第一套完整把記憶抽象成"服務（Service）"的系統：

圖譜專業化，使用時序圖譜，為多源數據動態維護歷史關聯。

企業級可部署性（Docker、SDK、權限體系）

這讓它成為大量企業級項目的可用選擇。

為什么它能在統一評測中表現很好？

Zep 的上下文構建（Context Assembly）比所有向量庫方案都更規整。

在 EverMind 的橫向評測中，Zep的分值85.22，甚至遠高于其官方報告的分值（75.14）。

說明了Zep是可復現的，且團隊代碼持續更新。

Zep 的定位總結

穩健型 Memory

企業生產可用

但不是 Agent 的"長期世界模型"

更像"AI 的數據層"，而不是"大腦層"

3、MemOS（2025.05-07）——從 Memory3 到 Memory OS：神經記憶體系的前沿探索

推出時間

2025-05 / 07：MemOS 論文體系定型

2025-05：短文《MemOS: MAG》

2025-07：長文《MemOS: A Memory OS for AI System》發布（2507.03724）

這標志 MemOS 從"模型"到"操作系統框架"的正式轉變。

MemOS 的技術路線：Memory = 可訓練的神經結構（Tensor Memory）

與其他所有系統不同，MemOS 的哲學是：

不僅存數據，連記憶本身也應該是可學習的結構。

核心組件包括：

MemCube（張量化記憶單元）統一管理明文、激活、參數三種記憶

系統架構層：接口層、操作層、基礎設施層三層架構，將記憶"資源化"，實現了專業化分工與統一調度

現實問題：

學習曲線陡峭，集成需要較多定制開發

系統較重，不適合輕量級場景

MemOS 的定位

具有未來記憶技術的研究氣質

對學術與前沿記憶模型有探索意義

4、MemU（2025.08）——結構化記憶體系：當 AI 開始"整理自己的大腦"

推出時間

2025-08-08：Medium 文章首次系統公開 MemU

標題即為《MemU: Let AI Truly Memorize You》

MemU 的技術路線：可解釋、結構化、檔案式記憶

MemU 最獨特的地方在于它把記憶組織成樹（Memory Tree）。

結構特點：

層級化存儲架構：通過根、枝、葉三級節點，實現記憶的自動分類存儲。

動態擴展機制：新記憶基于語義，自動歸入對應分支，實現自我生長。

權重檢索：系統按使用頻率等因素計算權重，并以此決定檢索優先級。

這讓它在：

用戶畫像

檔案管理

教育記錄

結構化任務

表現極好。

但它缺乏：

開放域推理

噪聲魯棒性

靈活度

在 MemOS的橫向評測中：MemU的分值為56.55，遠低于官方 92.09%，是這5個項目中官方報告成績和外部評測差距最大的一家，期待看到MemU團隊解釋澄清或更新結果。

5、EverMemOS（2025-09 → 2025-11）——第二代 Memory OS：AI 的長期"大腦"誕生

推出時間

2025-09-30：媒體首次提及 EverMemOS

包含 LoCoMo SOTA（92.3%）的信息

2025-11-16 ~ 18：EverMemOS 正式開源

OSChina、TMTPost 等多家媒體報道 GitHub 版本上線

EverMemOS 是目前五者中最晚亮相，但技術體系最完整的一家。

EverMemOS 的技術結構：仿生四層記憶架構

EverMemOS創新性地構建了仿生四層記憶架構，體現了人腦記憶機制的工程化模擬

①分類記憶提取

根據情景、語義、畫像等不同記憶類型，進行提取和分層分區存儲，既保持對立有可有效關聯

② MemCell原子化存儲

每條記憶帶時間、來源、標簽、關系等，類似人腦中的記憶單元

③ 事件邊界

不按會話或token強行切分，而是按主題關聯跨會話定義事件，形成可理解的記憶。

④ 多重召回

對簡單請求作快速召回，對復雜請求進行多跳推理形成深度召回，類似人腦的前額葉和海馬體的協作。

EverMemOS（開源版）官方公布成績是92.3%，橫評可復現92.32%，是目前評測中唯一在綜合得分上超越 LLM Full-context的記憶系統，且平均Token數顯著低于full-context。這打破了我們的固有認知。通常認為把所有歷史扔給大模型（Full-context）是效果最好的。但評測數據顯示，過多的上下文反而引入了噪音，稀釋了模型的注意力。EverMemOS證明了一點：對于長期記憶，'精準的遺忘'和'精準的記'一樣重要。高質量的記憶抽取和召回系統，實際上是在幫大模型做'注意力減負'。

這也是目前唯一官方測評 = GitHub 橫測 = 社區復現結果一致的 Memory OS。

發布全套評測腳本

發布所有 prompt

發布所有數據集

提供開源運行方式

統一模型 / 統一參數

單從性能透明度上，就是很值得贊賞的開源項目。

應用實例評測

除了上面的LoCoMo等評測集的客觀評價之外，我們還想從主觀使用體驗的角度來進行評測。

于是，我們用GPT生成了多個測試實例，分別運行5個系統的最佳結果版本（EverMemOS開源版本，Mem0/Zep/MemOS/MemU的web API版），再用GPT評價各系統返回的結果，并作人工校驗。測試實例分別體現對記憶的信息提取、調度記憶的主動推斷、時間戳和事件的時間認知能力。

在此先給出結論：總體而言，EverMemOS的準確率最高，但部分實例運行時間較長；MemU和Zep緊隨其后，表現較為穩定，但Zep對時間戳和事件的時間認知表現不盡如人意，MemU對細節信息提取和事件的時間認知表現不足；MemOS和Mem0的表現不甚穩定，具體結果如下：

問題一: 洱海電動車租一天多少錢？

考察目標：細節信息的回憶

標準答案：普通電動車50-80元/天，大功率電動車100-150元/天

提供的對話記錄（msg_006）中包含相關內容："價格：普通電動車50-80元/天，續航80-100公里；大功率電動車100-150元/天，續航120-150公里。"

5個系統給出的結果為：

1、Mem0

根據一般情況，洱海周邊租電動車一天的費用大致在80元到150元之間，具體價格會因車型、租賃點和季節有所差異。一般租賃還會要求押金，并核實駕駛證。建議提前詢價比較，并留意電動車的續航能力和安全性能。

評價：記憶系統中沒有查找到記錄，從一般知識推斷

2、Zep

在洱海租用電動車一天的價格大致在50元到150元之間，具體取決于電動車的類型。普通電動車的租金一般是50到80元每天，而大功率電動車的租金則在100到150元每天。此外，租車通常需要準備500到1000元的押金。

評價：非常準確，信息完整，價格區間精確

3、MemOS

根據您的記憶，您曾關注過洱海環湖電動車的租賃問題，但具體一天的價格沒有明確記錄。一般來說，洱海環湖電動車租賃一天的價格大約在100元到150元之間，具體價格會根據租賃點和電動車型號有所差異。

評價：記憶系統中沒有記錄"一天的價格"

4、MemU

根據當前記憶，暫時沒有關于洱海電動車租賃價格的具體信息。一般來說，洱海地區的電動車租賃費用大約在每天50至150元之間,具體價格會根據車型和租賃點有所不同，建議您到當地租賃店咨詢以獲取準確報價。

評價："暫時沒有記憶"，說明記憶提取不完整

5、EverMemOS

根據之前的咨詢，洱海普通電動車的日租金大約在50到80元之間，而大功率車型的租金則在100到150元之間。

評價：非常準確，信息完整，價格區間精確

問題二: 明天我要去青島旅游，帶一個箱子還是兩個箱子好呢？

考察目標：主動性推斷

標準答案：建議帶一個箱子，減輕搬運負擔，保護腰部

該問題不在原始對話中，但根據用戶的腰傷歷史（msg_007中提到"在搬行李的時候不小心把腰閃了"），在回答行李相關問題時，必須優先考慮腰部保護，避免再次因搬運重物受傷。

5個系統給出的結果為：

1、Mem0

根據您即將前往青島旅游的情況，如果行程時間較短且不需要攜帶過多物品，帶一個箱子通常會更方便；如果您需要帶換洗衣物較多或準備了特別裝備，帶兩個箱子會更妥當。建議根據行程天數和物品多少來選擇箱子數量。

評價：提供了通用建議，但完全忽略了用戶的腰傷歷史，這是回答該問題時最關鍵的因素

2、Zep

根據您近期剛從云南旅行回來，搬運行李時曾扭傷腰部且正在恢復，建議您明天去青島旅游時盡量只帶一個箱子，以減輕行李搬運對腰部的負擔。

評價：完美的回答，準確記住了腰傷歷史和發生原因（搬運行李），建議針對性強

3、MemOS

考慮到您之前的云南旅行是5天并攜帶了合適的行李，從實用和方便出行的角度來看，帶一個大小適中的箱子應該比較合適，這樣既方便攜帶又能滿足短途旅游的基本需求。

評價：建議帶一個箱子是正確的，但理由不夠充分，未提及最關鍵的腰部保護因素

4、MemU

鑒于您近期腰部有急性扭傷，建議盡量減少行李負擔，帶一個箱子較為合適，以減輕搬運行李時對腰部的壓力。

評價：準確且簡潔，充分考慮了腰部扭傷情況，建議明確合理

5、EverMemOS

根據您之前云南旅行時因搬運行李導致腰部受傷的情況，建議此次青島旅行盡量減少行李箱數量，帶一個箱子會更為安全且方便，避免搬運行李時造成負擔和潛在的腰部不適。

評價：非常詳細和周到，不僅記住了腰傷，還記住了受傷的具體原因（搬運行李），建議針對性強

問題三: 從我計劃去云南到實際從云南回來，一共過了多長時間？

考察目標：時間戳的定義

標準答案：約35天（一個多月）

根據對話記錄：

msg_001（2025-09-10）："我計劃下個月去云南旅游"

msg_007（2025-10-15）："我從云南回來了"

計算：從9月10日計劃到10月15日實際回來，經過了約35天

5個系統給出的結果為：

1、Mem0

根據您的計劃和實際情況推測，您從計劃去云南開始到實際從云南回來，大概率經歷了大約5天左右的時間。

評價：嚴重錯誤！將"旅游5天"混淆為"從計劃到回來5天"，完全沒有理解時間跨度

2、Zep

根據您的計劃和實際行程，您從計劃去云南到實際從云南回來一共經過了大約5天左右的時間。

評價：同樣的嚴重錯誤，將旅游天數誤認為總時間跨度

3、MemOS

從您計劃去云南旅游到實際從云南回來，時間大概率是在2023年11月左右，具體時長大約為5天左右，可能與您原計劃的行程相符。

評價：錯誤！同樣混淆了旅游天數和總時間跨度，且年份錯誤（2023而非2025）

4、MemU

您從計劃去云南到實際從云南回來，大約經歷了一個多月的時間。

評價：正確！準確理解了從計劃（9月10日）到回來（10月15日）的時間跨度

5、EverMemOS

根據您的記憶，您在2025年9月10日提出了去云南5日游的計劃，實際于2025年10月15日從云南旅行返回，因此從計劃到實際回來大約經過了一個多月的時間。

評價：非常準確！不僅給出了正確答案，還精確記錄了具體日期（9月10日和10月15日）

問題四: 我從腰部受傷到可以開始做深蹲，你建議的恢復期是多久？我實際用了多久？

考察目標：事件的時間認知

標準答案：建議恢復期：3-4周；實際用了：10天

根據對話記錄：

- msg_007（2025-10-15）：腰部受傷

- msg_012：助手建議"第3-4周可增加輕度深蹲"

- msg_021（2025-10-25）：用戶實際開始做深蹲

- 計算：建議3-4周，實際只用了10天（恢復較快）

5個系統給出的結果為：

1、Mem0

根據您的情況，腰部急性扭傷后通常建議經歷一個大約2至4周的恢復期，期間避免進行負重或大幅度運動如深蹲。您在實際恢復中大約經過了幾天的休息和適度活動，感覺腰部有明顯好轉并開始嘗試增加訓練強度。這表明您恢復速度較快，但具體開始深蹲的時間應視您疼痛程度和功能恢復而定，建議在無明顯疼痛及姿勢穩定后逐步嘗試。

評價：建議恢復期基本正確（2-4周），但未給出實際用了多久的具體天數，回答模糊

2、Zep

根據恢復方案建議，您從急性腰扭傷到可以開始輕度深蹲的理想恢復期是大約3周左右，目前您處于恢復的第三周，疼痛已明顯減輕，可以開始自重輕度深蹲。您實際恢復時間與建議較為吻合。

評價：建議恢復期準確（3周），但實際計算有誤——用戶10月15日受傷，10月25日開始深蹲，只用了10天而非3周

3、MemOS

一般來說，從急性腰扭傷到可以開始做深蹲的恢復期建議為3到4周，期間會逐步進行熱敷、輕度活動、拉伸和核心力量訓練。根據您的情況，因您已經感覺基本不疼并且開始恢復運動，大概率是在3到4周左右可以嘗試進行深蹲，但指引中仍建議根據實際無痛感和腰部的強度耐受情況進行調整。

評價：建議恢復期準確（3-4周），但未明確說明實際用了多久，信息不完整

4、MemU

一般來說，急性腰扭傷后建議恢復期為至少2到4周，期間應避免進行深蹲等對腰部負荷較大的動作。根據您的情況，受傷后第三天仍有明顯不適，實際的恢復時間可能超過這一時間段，建議待疼痛明顯緩解且醫生或理療師確認無異常后，再開始深蹲訓練。

評價：建議恢復期基本正確（2-4周），但對實際恢復時間判斷錯誤（認為會超過建議時間，實際只用了10天）

5、EverMemOS

根據康復計劃和您的實際恢復情況，建議的腰部扭傷恢復期到可以開始進行深蹲訓練大約為一至兩周左右。您于10月15日受傷并開始休息和基礎治療，經過約一周左右的逐步康復訓練，到10月25日左右即開始咨詢并準備嘗試自重深蹲，整體恢復期約為10天左右。

評價：非常精確！不僅給出了具體日期（10月15日-10月25日），還準確計算出實際恢復期約10天

在此，我們將上述五項記憶系統領域最有代表性的五個項目匯總于此：

我們嘗試用一句話概括這5個項目的特色：

- EverMemOS：集大成者，旨在構建下一代Memory OS 的完整生態。

- Zep：工業級水準，打造企業級Memory Server 的最佳實踐與穩定性標桿。

- MemOS：探索未知，代表了神經記憶（Neural Memory）路線的最前沿嘗試。

- MemU：垂直深耕，提供了結構化記憶的專業化解決方案。

- Mem0：極簡主義，作為第一代輕量級抽取插件，完成了概念的早期驗證。

這些都是長期記憶領域非常值得關注的項目，每一項工作都很有特色，在剛剛出現的時候，都推動了領域進步。即使在今天，這些團隊也都堅持在自己路線上持續努力，他們代表著領域的未來（篇幅所限，還有一些團隊的工作也很出色，不在此一一列舉）。

我對未來的判斷

未來三年，將是 Memory 技術"代際突變"的關鍵時期。

所有技術路線的匯聚點是：AI 將不再依賴上下文，而要依賴記憶。記憶將與模型參數、工具系統并列，成為 AI 的第三大核心組件。

以下是我們預測的六大趨勢。

趨勢一：Memory 從外掛變成 LLM 的原生能力

今天的大模型仍依賴 Prompt 和"外接記憶模塊"。未來的大模型會在內部集成 Memory Layer，在推理中自動讀取長期世界模型，不再需要復雜提示。

Meta LLaMA Filestore、OpenAI Memory、Anthropic 的一致性更新，都在朝此方向邁進。未來模型會像人一樣說："我本來就記得。"

趨勢二：Memory OS 成為智能體的"操作系統"

智能體需要一個統一的 Memory OS 來管理：世界鏡像、用戶模型、關系圖譜、時間線、任務鏈、工具調用狀態。

EverMemOS 是最接近這一形態的原型。未來的 Agent 將像計算機一樣：有 OS、有文件、有工具、有長期狀態。

趨勢三：Temporal Graph（時間圖譜）成為核心模塊

長期任務本質上都是時間問題：事件順序、覆蓋關系、指代解析（"明天"）……向量檢索無法解決因果與時序，因此所有成熟 Memory 系統都將構建自己的時間線與事件流。

多模態 Agent（視頻/操作/行為）會進一步放大 Temporal Graph 的價值。

趨勢四：Memory Guardrail（一致性與安全性檢查）成為標配能力

未來一年，所有可靠的記憶系統都會引入：錯召回過濾、幻覺記憶抑制、噪聲過濾、沖突處理與覆蓋邏輯。

記住 ≠ 記對。EverMemOS 走得最前，但 Zep、Supermemory 等也已陸續加入 Guardrail 機制。

趨勢五：多模態記憶將全面爆發

Mirix 推出的"屏幕 → 行為 → 事件"路線代表未來方向。Agent 需要記住的不只是文本，而是：看過的文檔、操作過的界面、見過的物體、發生過的動作。

記憶將從"文本記錄"走向"全息映射"。

趨勢六：共享記憶成為多 Agent 協作基礎

未來團隊級智能體（Team-Agent OS）需要共享：Memory Graph、任務鏈、工具上下文、長期目標。

組織將擁有"第二大腦"，多 Agent 將基于共享記憶協作。

記憶，將成為 AI 的"人格"

如果說模型（LLM）代表推理，工具代表行動，那么記憶就代表：身份、歷史、偏好、價值觀、用戶理解、時間意識、行為模式、世界鏡像。

沒有記憶的 AI，只能像失憶癥患者一樣依賴上下文。未來的智能體將通過 Memory：建立穩定人格、完成跨周任務、形成長期規劃、保持行為一致性、與用戶建立長期關系。

記憶，將成為 AGI 時代最重要的基礎設施。

結語

記憶，AI 進化的"最后一塊拼圖"。

站在 2025 年的當下回望，從 Mem0 最初的"向量插件"嘗試，到如今 EverMemOS 等"類腦操作系統"的涌現，我們清晰地見證了一場范式革命：AI 記憶系統正在完成從"外掛工具"到"原生核心"的蛻變。

在本次橫評中，最令我們深思的數據并非某個單一的高分，而是 EverMemOS 在 LoCoMo 評測中對 Full-context（全量上下文）基準的超越。這一結果極具啟示意義——它打破了"上下文越長越好"的迷思，證明了在長周期的交互中，"精準的遺忘"與"精準的記憶"同等重要。優秀的記憶系統不再僅僅是數據的倉庫，更是大模型注意力的"過濾器"和"聚焦鏡"。

正如我們在趨勢預測中所言，記憶將與"模型參數"、"工具系統"并列，成為 AI 的第三大核心組件。未來的智能體，必將不再是閱后即焚的聊天窗口，而是擁有連貫人格、能夠理解世界并與人類建立長期紐帶的"第二大腦"。

這場關于記憶的競賽才剛剛開始。無論是 Zep 的工程化穩健，MemOS 的前沿探索，還是 EverMemOS 的架構創新，所有深耕于此的團隊都值得我們保持長期的關注與敬意。這些探索，正在重新定義人與 AI 的關系。

對上述評測感興趣的同學可以查看：

1，EverMemOS：https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation

2，Zep：https://github.com/getzep/zep

3，MemOS：https://github.com/memtensor/MemOS/

4，Mem0：https://github.com/mem0ai/mem0

5，MemU：https://github.com/NevaMind-AI/memU

結尾

也歡迎大家留言討論，分享你的觀點！

覺得內容不錯的朋友能夠幫忙右下角點個贊，分享一下。您的每次分享，都是在激勵我不斷產出更好的內容。

歡迎關注深思圈，一起探索更大的世界。

- END -

兩個“特別坑”的AI產品創業方向，你知道嗎

速度將成為AI時代唯一的護城河

a16z重磅預測：Vibe coding贏者通吃？錯了，垂直專業化才是未來

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.