![]()
如果站在今天回望 AI 的進(jìn)化史,你會(huì)發(fā)現(xiàn)這波浪潮在短短幾年內(nèi)完成了三次躍遷:
2022-2023:模型時(shí)代(The Model Era)GPT-4 的橫空出世,讓機(jī)器第一次具備了通用的語言與推理能力(大腦構(gòu)建完成)。
2024-2025:智能體時(shí)代(The Agentic Era)RAG 與工具調(diào)用(Tool Use)的普及,讓 AI 擁有了手和眼,開始具備執(zhí)行復(fù)雜任務(wù)的能力。
2026-:認(rèn)知時(shí)代(The Cognitive Era / Memory Era)AI 開始擁有"長期記憶"與"連貫人格"。這是從"工具"到"伙伴"的終極跨越——未來的 AI 不再是閱后即焚的聊天窗口,而是有歷史、有偏好、真正懂你的"第二大腦"。
這不是一個(gè)小升級(jí),而是范式轉(zhuǎn)換:
未來的 AI,不是問一句答一句的聊天機(jī)器人,而是有歷史、有偏好、有世界模型的智能體(AI Agent)。
于是,一個(gè)全新的基礎(chǔ)設(shè)施賽道突然爆發(fā):
AI Memory System(AI 記憶系統(tǒng))
它們?cè)噲D解決同一個(gè)核心問題:
如何讓 AI 記住過去,從而理解未來?
2023–2025 之間,全球出現(xiàn)了十幾種完全不同的 Memory 技術(shù)路線。但究竟哪種路線能最終滿足我們的使用需求,目前各條路線進(jìn)展如何?我們還無法形成直觀的評(píng)價(jià)。
在AI領(lǐng)域,我們經(jīng)常用基準(zhǔn)測試(benchmark)去衡量技術(shù)性能的高低。在記憶方面,比較常用的測試集有LoCoMo、LongMemEval等。但記憶領(lǐng)域的評(píng)測并不是一件非常容易的事,評(píng)測方法、所用模型、版本都會(huì)造成評(píng)測結(jié)果的分歧。前些時(shí)候,Mem0和Letta就在彼此的評(píng)測分值上有過分歧(參見《Benchmarking AI Agent Memory: Is a Filesystem All You Need?》)。
我們查閱了記憶領(lǐng)域近10個(gè)團(tuán)隊(duì)的評(píng)測官方分?jǐn)?shù)、發(fā)布情況和橫向比較,看到三家橫向評(píng)測完整度是比較高的,在此嘗試進(jìn)行分析解讀。
1、Mem360橫向評(píng)測:
![]()
數(shù)據(jù)來源:https://www.53ai.com/news/LargeLanguageModel/2025092482391.html
發(fā)布時(shí)間:2025-9-24
2、MemOS橫向評(píng)測:
![]()
數(shù)據(jù)來源:https://huggingface.co/datasets/MemTensor/MemOS_eval_result
發(fā)布時(shí)間:2025-11-6
3、EverMind(EverMemOS研發(fā)團(tuán)隊(duì))橫向評(píng)測:
![]()
注:Full-context為將完整的對(duì)話歷史無截?cái)唷o篩選地直接輸入給大型語言模型(LLM),讓模型僅依賴自身的上下文窗口和注意力機(jī)制處理信息、生成輸出,消耗token較多,但可以作為性能的baseline。
數(shù)據(jù)來源:https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation
發(fā)布時(shí)間:2025-11-26
同時(shí),我們也整理了各團(tuán)隊(duì)在LoCoMo測試集上官方報(bào)告的結(jié)果:
![]()
接下來,我們結(jié)合這些評(píng)測的解讀分析來進(jìn)一步了解Memory領(lǐng)域的技術(shù)進(jìn)展。
為什么所有 Memory 項(xiàng)目都說自己是 SOTA?
首先,我們比較發(fā)現(xiàn)上述三家公布的橫向評(píng)測結(jié)果,總體上還是相對(duì)一致的(比如對(duì)MemU的評(píng)測,三家復(fù)現(xiàn)結(jié)果都很相近),多數(shù)項(xiàng)目的相對(duì)高低也是一致的,但在個(gè)別分值上結(jié)果相差很大(比如Zep的分值,EverMind的評(píng)分明顯高于其他兩家,并且略高于Zep官方Claim的結(jié)果)。
仔細(xì)分析會(huì)發(fā)現(xiàn),這些測評(píng)數(shù)據(jù)的差異主要來自這幾個(gè)方面:
① 評(píng)測對(duì)象不同
不同的評(píng)測報(bào)告中,對(duì)于同一記憶系統(tǒng),有的評(píng)測了 web API 版,有的評(píng)測了開源版。例如EverMind的橫評(píng)中標(biāo)注EverMemOS使用了開源版,其他產(chǎn)品使用了性能更好的web API 版,因此基本代表了各家產(chǎn)品的最新最佳表現(xiàn)。
在關(guān)于評(píng)測是否可復(fù)現(xiàn)的爭議中,也有相當(dāng)一部分來自開源版本提供的數(shù)據(jù)和代碼并不充分。多家記憶系統(tǒng)都曾在Github上用"web API版有更多優(yōu)化"回應(yīng)復(fù)現(xiàn)疑問,可以認(rèn)為大家更推薦web API版本。
② 版本更迭
各家記憶系統(tǒng)大都在持續(xù)更新,包括升級(jí)和版本迭代中的小失誤。
Zep自官方Claim的LoCoMo測試結(jié)果發(fā)布之后,已經(jīng)從v2升級(jí)到了v3,EverMind的評(píng)測中,則使用了Zep的V3版本,這可能是EverMind橫評(píng)中Zep得分高于其他家評(píng)測結(jié)果,甚至高于Zep官方此前匯報(bào)的結(jié)果的原因。
在記憶召回中有特殊價(jià)值的"時(shí)間戳"定義上,Mem0 最新的版本中出現(xiàn)了一些定義混淆,這個(gè) issue 在Github上也有討論,或許對(duì)其效果有一定的影響。MemOS在橫向評(píng)測中提到對(duì)Mem0的測評(píng)結(jié)果無法復(fù)現(xiàn),或與此有關(guān)。
③ 測評(píng)模型及方法
目前只有 MemOS 和 EverMemOS 兩家公開了完整的橫向測評(píng)方法,二者在評(píng)測所用的語言模型及評(píng)測方法上略有不同。
從模型角度,MemOS 統(tǒng)一用 gpt-4o-mini 作為回答模型,EverMind統(tǒng)一用新一代的 gpt-4.1-mini作為問答模型,都做到了統(tǒng)一標(biāo)準(zhǔn)。
從方法角度,在對(duì) Zep 的評(píng)測上,MemOS 提供了三版不同的結(jié)果,最終選用了通用回答提示詞生成的結(jié)果,EverMind選用了 Zep 原生回答提示詞。對(duì)此,我們?yōu)g覽了各方評(píng)測的結(jié)果文件,發(fā)現(xiàn)Zep在存儲(chǔ)記憶的時(shí)候,對(duì)于時(shí)間戳的定義和主流有所不同,導(dǎo)致使用通用提示詞會(huì)造成預(yù)期外的準(zhǔn)確率下降。這可能是Mem360和MemOS對(duì)Zep的評(píng)分顯著低于Zep官方報(bào)告分?jǐn)?shù)的重要原因。我們推測EverMind對(duì)Zep的評(píng)分或更接近Zep在線服務(wù)的真實(shí)水平。
由此可見,在記憶系統(tǒng)的評(píng)測結(jié)果中,在公布評(píng)測成績的同時(shí),必須提供評(píng)測條件,包括評(píng)測的具體時(shí)間、版本,使用的模型和提示詞等,并且在統(tǒng)一外部條件下進(jìn)行橫向比較,才能達(dá)到評(píng)測的目的,便于客觀比較和加深理解。
從 Mem0 與 Letta 的測評(píng)復(fù)現(xiàn)之爭可以看出,橫向測評(píng)外部系統(tǒng)是一件不容易的事,信息不足可能造成評(píng)測結(jié)果的偏頗和爭論。但不同記憶系統(tǒng)之間的評(píng)測又是一件重要的事,能夠促進(jìn)整個(gè)行業(yè)的交流和發(fā)展,而不是各自閉門造車。在此,感謝 MemOS 團(tuán)隊(duì)和 EverMemOS 團(tuán)隊(duì)對(duì)開源評(píng)測的推動(dòng)和助力,也希望未來有更多更好的 Benchmark 數(shù)據(jù)集和開源評(píng)測的精彩互動(dòng),讓這個(gè)領(lǐng)域更加活躍起來。
如何看待記憶系統(tǒng)的多種路線?
我們梳理了2024–2025年全球開源社區(qū)出現(xiàn)的十幾種完全不同的 Memory 技術(shù)路線和代表項(xiàng)目:
自動(dòng)抽取記憶(Mem0)
企業(yè)級(jí) Memory Server(Zep)
結(jié)構(gòu)化記憶樹(MemU)
神經(jīng)張量記憶(MemOS)
生物啟發(fā)的Memory OS(EverMemOS)
屏幕級(jí)多模態(tài)記憶(Mirix)
Profile-based Memory(Memobase)
文件系統(tǒng)式 Memory(Letta)
視頻級(jí)記憶 / LVMM(Memories.ai)
知識(shí)圖譜式超記憶(Supermemory)
LangMem(LangChain 官方 Memory SDK)
隨之而來的關(guān)鍵問題是:記憶系統(tǒng)的底層技術(shù)演進(jìn)方向究竟在何方?2025 年的 Agent,到底應(yīng)該使用哪套 Memory 技術(shù)?
當(dāng)我們把歷史上出現(xiàn)的記憶系統(tǒng)相關(guān)工作都調(diào)研分析之后,就不難總結(jié)出AI長期記憶技術(shù)的三個(gè)發(fā)展階段:
1.工程化集成階段 (2023-2024):代表為 Mem0 和 Supermemory。這一階段的核心痛點(diǎn)是"RAG太難用了",因此重點(diǎn)在于封裝復(fù)雜的向量數(shù)據(jù)庫操作,提供簡單的API。LoCoMo得分普遍在60%-70%,主要受限于基于相似度檢索的固有缺陷。
2.結(jié)構(gòu)化與圖譜階段 (2024-2025 H1):代表為 Zep 和 Memobase。開發(fā)者意識(shí)到"相似度"不等于"相關(guān)性",特別是涉及時(shí)間維度的狀態(tài)變化時(shí)。引入知識(shí)圖譜和時(shí)間軸后,得分提升至75%左右,解決了時(shí)序錯(cuò)亂問題。
3.認(rèn)知架構(gòu)階段 (2025 H2):代表為 Mirix, MemU, MemOS,EverMemOS。這一階段徹底拋棄了"數(shù)據(jù)庫"的隱喻,轉(zhuǎn)而采用"大腦"或"操作系統(tǒng)"的隱喻。通過引入多智能體協(xié)作、記憶提純和類腦整合機(jī)制,系統(tǒng)性能終于突破85%,邁向90%+的人類水平。
限于篇幅,我們按照時(shí)間順序,從最早的 Mem0 到最新的 EverMemOS,選擇最有代表性的5個(gè)項(xiàng)目展開來說。希望能復(fù)盤記憶技術(shù)如何完成從'功能插件'到'操作系統(tǒng)'、從'靜態(tài)向量庫'到'動(dòng)態(tài)認(rèn)知體'的范式轉(zhuǎn)移。并結(jié)合最新發(fā)布的可復(fù)現(xiàn)橫評(píng)結(jié)果,分析各自特性和路線演化。
1、Mem0(2024.07–2025)——第一代輕量記憶插件的誕生:從"自動(dòng)抽取"開始
推出時(shí)間
2024-07 開源發(fā)布
2024-10-27首次系統(tǒng)公開論述Medium 上發(fā)布《Mem0: Solving the Memory Problem in LLMs》。
2025-04-28提交論文《Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory》
為什么 Mem0 會(huì)火?
因?yàn)楫?dāng)時(shí)幾乎所有開發(fā)者都遇到一個(gè)痛點(diǎn):模型每次都忘記之前說過什么。Mem0 給出的簡單答案是:自動(dòng)抽取 → 自動(dòng)清洗 → 自動(dòng)存儲(chǔ)
幾行代碼就能讓 AI"看起來"擁有記憶。
在缺乏 Memory 基礎(chǔ)設(shè)施的 2023–2024 年,這極具革命性。
技術(shù)路線
Mem0 主打兩個(gè)詞:
輕量
自動(dòng)化
特點(diǎn):
混合存儲(chǔ):采用"向量+知識(shí)圖譜"架構(gòu),兼顧語義匹配與關(guān)系推理,實(shí)現(xiàn)精準(zhǔn)記憶檢索
智能過濾:通過主動(dòng)篩選與更新記憶,有效減少冗余,在保證質(zhì)量的同時(shí)顯著優(yōu)化存儲(chǔ)與計(jì)算成本
Mem0 的時(shí)代意義
它是第一代"能用即可"的記憶工具
但它的問題也同樣明顯:
過度抽取
多輪任務(wù)容易漂移
不可解釋
長期一致性弱
這是一個(gè)讓世界認(rèn)識(shí)"AI 記憶"的產(chǎn)品,但不是下一代智能體的記憶基礎(chǔ)。
2、Zep(2024.09–2025)——企業(yè)級(jí) Memory Server 的率先探索:穩(wěn)定、可部署、可解釋
推出時(shí)間
2024.9:官方博客《Announcing: Zep Community Edition》宣布 CE 版本開源。
2025.1:論文《Zep: A Temporal Knowledge Graph Architecture for Agent Memory》上線 arXiv(2501.13956)。
Zep 的技術(shù)路線:Memory = Server
Zep 是第一套完整把記憶抽象成"服務(wù)(Service)"的系統(tǒng):
圖譜專業(yè)化,使用時(shí)序圖譜,為多源數(shù)據(jù)動(dòng)態(tài)維護(hù)歷史關(guān)聯(lián)。
企業(yè)級(jí)可部署性(Docker、SDK、權(quán)限體系)
這讓它成為大量企業(yè)級(jí)項(xiàng)目的可用選擇。
為什么它能在統(tǒng)一評(píng)測中表現(xiàn)很好?
Zep 的上下文構(gòu)建(Context Assembly)比所有向量庫方案都更規(guī)整。
在 EverMind 的橫向評(píng)測中,Zep的分值85.22,甚至遠(yuǎn)高于其官方報(bào)告的分值(75.14)。
說明了Zep是可復(fù)現(xiàn)的,且團(tuán)隊(duì)代碼持續(xù)更新。
Zep 的定位總結(jié)
穩(wěn)健型 Memory
企業(yè)生產(chǎn)可用
但不是 Agent 的"長期世界模型"
更像"AI 的數(shù)據(jù)層",而不是"大腦層"
3、MemOS(2025.05-07)——從 Memory3 到 Memory OS:神經(jīng)記憶體系的前沿探索
推出時(shí)間
2025-05 / 07:MemOS 論文體系定型
2025-05:短文《MemOS: MAG》
2025-07:長文《MemOS: A Memory OS for AI System》發(fā)布(2507.03724)
這標(biāo)志 MemOS 從"模型"到"操作系統(tǒng)框架"的正式轉(zhuǎn)變。
MemOS 的技術(shù)路線:Memory = 可訓(xùn)練的神經(jīng)結(jié)構(gòu)(Tensor Memory)
與其他所有系統(tǒng)不同,MemOS 的哲學(xué)是:
不僅存數(shù)據(jù),連記憶本身也應(yīng)該是可學(xué)習(xí)的結(jié)構(gòu)。
核心組件包括:
MemCube(張量化記憶單元)統(tǒng)一管理明文、激活、參數(shù)三種記憶
系統(tǒng)架構(gòu)層:接口層、操作層、基礎(chǔ)設(shè)施層三層架構(gòu),將記憶"資源化",實(shí)現(xiàn)了專業(yè)化分工與統(tǒng)一調(diào)度
現(xiàn)實(shí)問題:
學(xué)習(xí)曲線陡峭,集成需要較多定制開發(fā)
系統(tǒng)較重,不適合輕量級(jí)場景
MemOS 的定位
具有未來記憶技術(shù)的研究氣質(zhì)
對(duì)學(xué)術(shù)與前沿記憶模型有探索意義
4、MemU(2025.08)——結(jié)構(gòu)化記憶體系:當(dāng) AI 開始"整理自己的大腦"
推出時(shí)間
2025-08-08:Medium 文章首次系統(tǒng)公開 MemU
標(biāo)題即為《MemU: Let AI Truly Memorize You》
MemU 的技術(shù)路線:可解釋、結(jié)構(gòu)化、檔案式記憶
MemU 最獨(dú)特的地方在于它把記憶組織成樹(Memory Tree)。
結(jié)構(gòu)特點(diǎn):
層級(jí)化存儲(chǔ)架構(gòu):通過根、枝、葉三級(jí)節(jié)點(diǎn),實(shí)現(xiàn)記憶的自動(dòng)分類存儲(chǔ)。
動(dòng)態(tài)擴(kuò)展機(jī)制:新記憶基于語義,自動(dòng)歸入對(duì)應(yīng)分支,實(shí)現(xiàn)自我生長。
權(quán)重檢索:系統(tǒng)按使用頻率等因素計(jì)算權(quán)重,并以此決定檢索優(yōu)先級(jí)。
這讓它在:
用戶畫像
檔案管理
教育記錄
結(jié)構(gòu)化任務(wù)
表現(xiàn)極好。
但它缺乏:
開放域推理
噪聲魯棒性
靈活度
在 MemOS的橫向評(píng)測中:MemU的分值為56.55,遠(yuǎn)低于官方 92.09%,是這5個(gè)項(xiàng)目中官方報(bào)告成績和外部評(píng)測差距最大的一家,期待看到MemU團(tuán)隊(duì)解釋澄清或更新結(jié)果。
5、EverMemOS(2025-09 → 2025-11)——第二代 Memory OS:AI 的長期"大腦"誕生
推出時(shí)間
2025-09-30:媒體首次提及 EverMemOS
包含 LoCoMo SOTA(92.3%)的信息
2025-11-16 ~ 18:EverMemOS 正式開源
OSChina、TMTPost 等多家媒體報(bào)道 GitHub 版本上線
EverMemOS 是目前五者中最晚亮相,但技術(shù)體系最完整的一家。
EverMemOS 的技術(shù)結(jié)構(gòu):仿生四層記憶架構(gòu)
EverMemOS創(chuàng)新性地構(gòu)建了仿生四層記憶架構(gòu),體現(xiàn)了人腦記憶機(jī)制的工程化模擬
①分類記憶提取
根據(jù)情景、語義、畫像等不同記憶類型,進(jìn)行提取和分層分區(qū)存儲(chǔ),既保持對(duì)立有可有效關(guān)聯(lián)
② MemCell原子化存儲(chǔ)
每條記憶帶時(shí)間、來源、標(biāo)簽、關(guān)系等,類似人腦中的記憶單元
③ 事件邊界
不按會(huì)話或token強(qiáng)行切分,而是按主題關(guān)聯(lián)跨會(huì)話定義事件,形成可理解的記憶。
④ 多重召回
對(duì)簡單請(qǐng)求作快速召回,對(duì)復(fù)雜請(qǐng)求進(jìn)行多跳推理形成深度召回,類似人腦的前額葉和海馬體的協(xié)作。
EverMemOS(開源版)官方公布成績是92.3%,橫評(píng)可復(fù)現(xiàn)92.32%,是目前評(píng)測中唯一在綜合得分上超越 LLM Full-context的記憶系統(tǒng),且平均Token數(shù)顯著低于full-context。這打破了我們的固有認(rèn)知。通常認(rèn)為把所有歷史扔給大模型(Full-context)是效果最好的。但評(píng)測數(shù)據(jù)顯示,過多的上下文反而引入了噪音,稀釋了模型的注意力。EverMemOS證明了一點(diǎn):對(duì)于長期記憶,'精準(zhǔn)的遺忘'和'精準(zhǔn)的記'一樣重要。高質(zhì)量的記憶抽取和召回系統(tǒng),實(shí)際上是在幫大模型做'注意力減負(fù)'。
這也是目前唯一官方測評(píng) = GitHub 橫測 = 社區(qū)復(fù)現(xiàn)結(jié)果一致的 Memory OS。
發(fā)布全套評(píng)測腳本
發(fā)布所有 prompt
發(fā)布所有數(shù)據(jù)集
提供開源運(yùn)行方式
統(tǒng)一模型 / 統(tǒng)一參數(shù)
單從性能透明度上,就是很值得贊賞的開源項(xiàng)目。
應(yīng)用實(shí)例評(píng)測
除了上面的LoCoMo等評(píng)測集的客觀評(píng)價(jià)之外,我們還想從主觀使用體驗(yàn)的角度來進(jìn)行評(píng)測。
于是,我們用GPT生成了多個(gè)測試實(shí)例,分別運(yùn)行5個(gè)系統(tǒng)的最佳結(jié)果版本(EverMemOS開源版本,Mem0/Zep/MemOS/MemU的web API版),再用GPT評(píng)價(jià)各系統(tǒng)返回的結(jié)果,并作人工校驗(yàn)。測試實(shí)例分別體現(xiàn)對(duì)記憶的信息提取、調(diào)度記憶的主動(dòng)推斷、時(shí)間戳和事件的時(shí)間認(rèn)知能力。
在此先給出結(jié)論:總體而言,EverMemOS的準(zhǔn)確率最高,但部分實(shí)例運(yùn)行時(shí)間較長;MemU和Zep緊隨其后,表現(xiàn)較為穩(wěn)定,但Zep對(duì)時(shí)間戳和事件的時(shí)間認(rèn)知表現(xiàn)不盡如人意,MemU對(duì)細(xì)節(jié)信息提取和事件的時(shí)間認(rèn)知表現(xiàn)不足;MemOS和Mem0的表現(xiàn)不甚穩(wěn)定,具體結(jié)果如下:
問題一: 洱海電動(dòng)車租一天多少錢?
考察目標(biāo):細(xì)節(jié)信息的回憶
標(biāo)準(zhǔn)答案:普通電動(dòng)車50-80元/天,大功率電動(dòng)車100-150元/天
提供的對(duì)話記錄(msg_006)中包含相關(guān)內(nèi)容:"價(jià)格:普通電動(dòng)車50-80元/天,續(xù)航80-100公里;大功率電動(dòng)車100-150元/天,續(xù)航120-150公里。"
5個(gè)系統(tǒng)給出的結(jié)果為:
1、Mem0
根據(jù)一般情況,洱海周邊租電動(dòng)車一天的費(fèi)用大致在80元到150元之間,具體價(jià)格會(huì)因車型、租賃點(diǎn)和季節(jié)有所差異。一般租賃還會(huì)要求押金,并核實(shí)駕駛證。建議提前詢價(jià)比較,并留意電動(dòng)車的續(xù)航能力和安全性能。
評(píng)價(jià):記憶系統(tǒng)中沒有查找到記錄,從一般知識(shí)推斷
2、Zep
在洱海租用電動(dòng)車一天的價(jià)格大致在50元到150元之間,具體取決于電動(dòng)車的類型。普通電動(dòng)車的租金一般是50到80元每天,而大功率電動(dòng)車的租金則在100到150元每天。此外,租車通常需要準(zhǔn)備500到1000元的押金。
評(píng)價(jià):非常準(zhǔn)確,信息完整,價(jià)格區(qū)間精確
3、MemOS
根據(jù)您的記憶,您曾關(guān)注過洱海環(huán)湖電動(dòng)車的租賃問題,但具體一天的價(jià)格沒有明確記錄。一般來說,洱海環(huán)湖電動(dòng)車租賃一天的價(jià)格大約在100元到150元之間,具體價(jià)格會(huì)根據(jù)租賃點(diǎn)和電動(dòng)車型號(hào)有所差異。
評(píng)價(jià):記憶系統(tǒng)中沒有記錄"一天的價(jià)格"
4、MemU
根據(jù)當(dāng)前記憶,暫時(shí)沒有關(guān)于洱海電動(dòng)車租賃價(jià)格的具體信息。一般來說,洱海地區(qū)的電動(dòng)車租賃費(fèi)用大約在每天50至150元之間,具體價(jià)格會(huì)根據(jù)車型和租賃點(diǎn)有所不同,建議您到當(dāng)?shù)刈赓U店咨詢以獲取準(zhǔn)確報(bào)價(jià)。
評(píng)價(jià):"暫時(shí)沒有記憶",說明記憶提取不完整
5、EverMemOS
根據(jù)之前的咨詢,洱海普通電動(dòng)車的日租金大約在50到80元之間,而大功率車型的租金則在100到150元之間。
評(píng)價(jià):非常準(zhǔn)確,信息完整,價(jià)格區(qū)間精確
問題二: 明天我要去青島旅游,帶一個(gè)箱子還是兩個(gè)箱子好呢?
考察目標(biāo):主動(dòng)性推斷
標(biāo)準(zhǔn)答案:建議帶一個(gè)箱子,減輕搬運(yùn)負(fù)擔(dān),保護(hù)腰部
該問題不在原始對(duì)話中,但根據(jù)用戶的腰傷歷史(msg_007中提到"在搬行李的時(shí)候不小心把腰閃了"),在回答行李相關(guān)問題時(shí),必須優(yōu)先考慮腰部保護(hù),避免再次因搬運(yùn)重物受傷。
5個(gè)系統(tǒng)給出的結(jié)果為:
1、Mem0
根據(jù)您即將前往青島旅游的情況,如果行程時(shí)間較短且不需要攜帶過多物品,帶一個(gè)箱子通常會(huì)更方便;如果您需要帶換洗衣物較多或準(zhǔn)備了特別裝備,帶兩個(gè)箱子會(huì)更妥當(dāng)。建議根據(jù)行程天數(shù)和物品多少來選擇箱子數(shù)量。
評(píng)價(jià):提供了通用建議,但完全忽略了用戶的腰傷歷史,這是回答該問題時(shí)最關(guān)鍵的因素
2、Zep
根據(jù)您近期剛從云南旅行回來,搬運(yùn)行李時(shí)曾扭傷腰部且正在恢復(fù),建議您明天去青島旅游時(shí)盡量只帶一個(gè)箱子,以減輕行李搬運(yùn)對(duì)腰部的負(fù)擔(dān)。
評(píng)價(jià):完美的回答,準(zhǔn)確記住了腰傷歷史和發(fā)生原因(搬運(yùn)行李),建議針對(duì)性強(qiáng)
3、MemOS
考慮到您之前的云南旅行是5天并攜帶了合適的行李,從實(shí)用和方便出行的角度來看,帶一個(gè)大小適中的箱子應(yīng)該比較合適,這樣既方便攜帶又能滿足短途旅游的基本需求。
評(píng)價(jià):建議帶一個(gè)箱子是正確的,但理由不夠充分,未提及最關(guān)鍵的腰部保護(hù)因素
4、MemU
鑒于您近期腰部有急性扭傷,建議盡量減少行李負(fù)擔(dān),帶一個(gè)箱子較為合適,以減輕搬運(yùn)行李時(shí)對(duì)腰部的壓力。
評(píng)價(jià):準(zhǔn)確且簡潔,充分考慮了腰部扭傷情況,建議明確合理
5、EverMemOS
根據(jù)您之前云南旅行時(shí)因搬運(yùn)行李導(dǎo)致腰部受傷的情況,建議此次青島旅行盡量減少行李箱數(shù)量,帶一個(gè)箱子會(huì)更為安全且方便,避免搬運(yùn)行李時(shí)造成負(fù)擔(dān)和潛在的腰部不適。
評(píng)價(jià):非常詳細(xì)和周到,不僅記住了腰傷,還記住了受傷的具體原因(搬運(yùn)行李),建議針對(duì)性強(qiáng)
問題三: 從我計(jì)劃去云南到實(shí)際從云南回來,一共過了多長時(shí)間?
考察目標(biāo):時(shí)間戳的定義
標(biāo)準(zhǔn)答案:約35天(一個(gè)多月)
根據(jù)對(duì)話記錄:
msg_001(2025-09-10):"我計(jì)劃下個(gè)月去云南旅游"
msg_007(2025-10-15):"我從云南回來了"
計(jì)算:從9月10日計(jì)劃到10月15日實(shí)際回來,經(jīng)過了約35天
5個(gè)系統(tǒng)給出的結(jié)果為:
1、Mem0
根據(jù)您的計(jì)劃和實(shí)際情況推測,您從計(jì)劃去云南開始到實(shí)際從云南回來,大概率經(jīng)歷了大約5天左右的時(shí)間。
評(píng)價(jià):嚴(yán)重錯(cuò)誤!將"旅游5天"混淆為"從計(jì)劃到回來5天",完全沒有理解時(shí)間跨度
2、Zep
根據(jù)您的計(jì)劃和實(shí)際行程,您從計(jì)劃去云南到實(shí)際從云南回來一共經(jīng)過了大約5天左右的時(shí)間。
評(píng)價(jià):同樣的嚴(yán)重錯(cuò)誤,將旅游天數(shù)誤認(rèn)為總時(shí)間跨度
3、MemOS
從您計(jì)劃去云南旅游到實(shí)際從云南回來,時(shí)間大概率是在2023年11月左右,具體時(shí)長大約為5天左右,可能與您原計(jì)劃的行程相符。
評(píng)價(jià):錯(cuò)誤!同樣混淆了旅游天數(shù)和總時(shí)間跨度,且年份錯(cuò)誤(2023而非2025)
4、MemU
您從計(jì)劃去云南到實(shí)際從云南回來,大約經(jīng)歷了一個(gè)多月的時(shí)間。
評(píng)價(jià):正確!準(zhǔn)確理解了從計(jì)劃(9月10日)到回來(10月15日)的時(shí)間跨度
5、EverMemOS
根據(jù)您的記憶,您在2025年9月10日提出了去云南5日游的計(jì)劃,實(shí)際于2025年10月15日從云南旅行返回,因此從計(jì)劃到實(shí)際回來大約經(jīng)過了一個(gè)多月的時(shí)間。
評(píng)價(jià):非常準(zhǔn)確!不僅給出了正確答案,還精確記錄了具體日期(9月10日和10月15日)
問題四: 我從腰部受傷到可以開始做深蹲,你建議的恢復(fù)期是多久?我實(shí)際用了多久?
考察目標(biāo):事件的時(shí)間認(rèn)知
標(biāo)準(zhǔn)答案:建議恢復(fù)期:3-4周;實(shí)際用了:10天
根據(jù)對(duì)話記錄:
- msg_007(2025-10-15):腰部受傷
- msg_012:助手建議"第3-4周可增加輕度深蹲"
- msg_021(2025-10-25):用戶實(shí)際開始做深蹲
- 計(jì)算:建議3-4周,實(shí)際只用了10天(恢復(fù)較快)
5個(gè)系統(tǒng)給出的結(jié)果為:
1、Mem0
根據(jù)您的情況,腰部急性扭傷后通常建議經(jīng)歷一個(gè)大約2至4周的恢復(fù)期,期間避免進(jìn)行負(fù)重或大幅度運(yùn)動(dòng)如深蹲。您在實(shí)際恢復(fù)中大約經(jīng)過了幾天的休息和適度活動(dòng),感覺腰部有明顯好轉(zhuǎn)并開始嘗試增加訓(xùn)練強(qiáng)度。這表明您恢復(fù)速度較快,但具體開始深蹲的時(shí)間應(yīng)視您疼痛程度和功能恢復(fù)而定,建議在無明顯疼痛及姿勢穩(wěn)定后逐步嘗試。
評(píng)價(jià):建議恢復(fù)期基本正確(2-4周),但未給出實(shí)際用了多久的具體天數(shù),回答模糊
2、Zep
根據(jù)恢復(fù)方案建議,您從急性腰扭傷到可以開始輕度深蹲的理想恢復(fù)期是大約3周左右,目前您處于恢復(fù)的第三周,疼痛已明顯減輕,可以開始自重輕度深蹲。您實(shí)際恢復(fù)時(shí)間與建議較為吻合。
評(píng)價(jià):建議恢復(fù)期準(zhǔn)確(3周),但實(shí)際計(jì)算有誤——用戶10月15日受傷,10月25日開始深蹲,只用了10天而非3周
3、MemOS
一般來說,從急性腰扭傷到可以開始做深蹲的恢復(fù)期建議為3到4周,期間會(huì)逐步進(jìn)行熱敷、輕度活動(dòng)、拉伸和核心力量訓(xùn)練。根據(jù)您的情況,因您已經(jīng)感覺基本不疼并且開始恢復(fù)運(yùn)動(dòng),大概率是在3到4周左右可以嘗試進(jìn)行深蹲,但指引中仍建議根據(jù)實(shí)際無痛感和腰部的強(qiáng)度耐受情況進(jìn)行調(diào)整。
評(píng)價(jià):建議恢復(fù)期準(zhǔn)確(3-4周),但未明確說明實(shí)際用了多久,信息不完整
4、MemU
一般來說,急性腰扭傷后建議恢復(fù)期為至少2到4周,期間應(yīng)避免進(jìn)行深蹲等對(duì)腰部負(fù)荷較大的動(dòng)作。根據(jù)您的情況,受傷后第三天仍有明顯不適,實(shí)際的恢復(fù)時(shí)間可能超過這一時(shí)間段,建議待疼痛明顯緩解且醫(yī)生或理療師確認(rèn)無異常后,再開始深蹲訓(xùn)練。
評(píng)價(jià):建議恢復(fù)期基本正確(2-4周),但對(duì)實(shí)際恢復(fù)時(shí)間判斷錯(cuò)誤(認(rèn)為會(huì)超過建議時(shí)間,實(shí)際只用了10天)
5、EverMemOS
根據(jù)康復(fù)計(jì)劃和您的實(shí)際恢復(fù)情況,建議的腰部扭傷恢復(fù)期到可以開始進(jìn)行深蹲訓(xùn)練大約為一至兩周左右。您于10月15日受傷并開始休息和基礎(chǔ)治療,經(jīng)過約一周左右的逐步康復(fù)訓(xùn)練,到10月25日左右即開始咨詢并準(zhǔn)備嘗試自重深蹲,整體恢復(fù)期約為10天左右。
評(píng)價(jià):非常精確!不僅給出了具體日期(10月15日-10月25日),還準(zhǔn)確計(jì)算出實(shí)際恢復(fù)期約10天
在此,我們將上述五項(xiàng)記憶系統(tǒng)領(lǐng)域最有代表性的五個(gè)項(xiàng)目匯總于此:
![]()
我們嘗試用一句話概括這5個(gè)項(xiàng)目的特色:
- EverMemOS:集大成者,旨在構(gòu)建下一代Memory OS 的完整生態(tài)。
- Zep:工業(yè)級(jí)水準(zhǔn),打造企業(yè)級(jí)Memory Server 的最佳實(shí)踐與穩(wěn)定性標(biāo)桿。
- MemOS:探索未知,代表了神經(jīng)記憶(Neural Memory)路線的最前沿嘗試。
- MemU:垂直深耕,提供了結(jié)構(gòu)化記憶的專業(yè)化解決方案。
- Mem0:極簡主義,作為第一代輕量級(jí)抽取插件,完成了概念的早期驗(yàn)證。
這些都是長期記憶領(lǐng)域非常值得關(guān)注的項(xiàng)目,每一項(xiàng)工作都很有特色,在剛剛出現(xiàn)的時(shí)候,都推動(dòng)了領(lǐng)域進(jìn)步。即使在今天,這些團(tuán)隊(duì)也都堅(jiān)持在自己路線上持續(xù)努力,他們代表著領(lǐng)域的未來(篇幅所限,還有一些團(tuán)隊(duì)的工作也很出色,不在此一一列舉)。
我對(duì)未來的判斷
未來三年,將是 Memory 技術(shù)"代際突變"的關(guān)鍵時(shí)期。
所有技術(shù)路線的匯聚點(diǎn)是:AI 將不再依賴上下文,而要依賴記憶。記憶將與模型參數(shù)、工具系統(tǒng)并列,成為 AI 的第三大核心組件。
以下是我們預(yù)測的六大趨勢。
趨勢一:Memory 從外掛變成 LLM 的原生能力
今天的大模型仍依賴 Prompt 和"外接記憶模塊"。未來的大模型會(huì)在內(nèi)部集成 Memory Layer,在推理中自動(dòng)讀取長期世界模型,不再需要復(fù)雜提示。
Meta LLaMA Filestore、OpenAI Memory、Anthropic 的一致性更新,都在朝此方向邁進(jìn)。未來模型會(huì)像人一樣說:"我本來就記得。"
趨勢二:Memory OS 成為智能體的"操作系統(tǒng)"
智能體需要一個(gè)統(tǒng)一的 Memory OS 來管理:世界鏡像、用戶模型、關(guān)系圖譜、時(shí)間線、任務(wù)鏈、工具調(diào)用狀態(tài)。
EverMemOS 是最接近這一形態(tài)的原型。未來的 Agent 將像計(jì)算機(jī)一樣:有 OS、有文件、有工具、有長期狀態(tài)。
趨勢三:Temporal Graph(時(shí)間圖譜)成為核心模塊
長期任務(wù)本質(zhì)上都是時(shí)間問題:事件順序、覆蓋關(guān)系、指代解析("明天")……向量檢索無法解決因果與時(shí)序,因此所有成熟 Memory 系統(tǒng)都將構(gòu)建自己的時(shí)間線與事件流。
多模態(tài) Agent(視頻/操作/行為)會(huì)進(jìn)一步放大 Temporal Graph 的價(jià)值。
趨勢四:Memory Guardrail(一致性與安全性檢查)成為標(biāo)配能力
未來一年,所有可靠的記憶系統(tǒng)都會(huì)引入:錯(cuò)召回過濾、幻覺記憶抑制、噪聲過濾、沖突處理與覆蓋邏輯。
記住 ≠ 記對(duì)。EverMemOS 走得最前,但 Zep、Supermemory 等也已陸續(xù)加入 Guardrail 機(jī)制。
趨勢五:多模態(tài)記憶將全面爆發(fā)
Mirix 推出的"屏幕 → 行為 → 事件"路線代表未來方向。Agent 需要記住的不只是文本,而是:看過的文檔、操作過的界面、見過的物體、發(fā)生過的動(dòng)作。
記憶將從"文本記錄"走向"全息映射"。
趨勢六:共享記憶成為多 Agent 協(xié)作基礎(chǔ)
未來團(tuán)隊(duì)級(jí)智能體(Team-Agent OS)需要共享:Memory Graph、任務(wù)鏈、工具上下文、長期目標(biāo)。
組織將擁有"第二大腦",多 Agent 將基于共享記憶協(xié)作。
記憶,將成為 AI 的"人格"
如果說模型(LLM)代表推理,工具代表行動(dòng),那么記憶就代表:身份、歷史、偏好、價(jià)值觀、用戶理解、時(shí)間意識(shí)、行為模式、世界鏡像。
沒有記憶的 AI,只能像失憶癥患者一樣依賴上下文。未來的智能體將通過 Memory:建立穩(wěn)定人格、完成跨周任務(wù)、形成長期規(guī)劃、保持行為一致性、與用戶建立長期關(guān)系。
記憶,將成為 AGI 時(shí)代最重要的基礎(chǔ)設(shè)施。
結(jié)語
記憶,AI 進(jìn)化的"最后一塊拼圖"。
站在 2025 年的當(dāng)下回望,從 Mem0 最初的"向量插件"嘗試,到如今 EverMemOS 等"類腦操作系統(tǒng)"的涌現(xiàn),我們清晰地見證了一場范式革命:AI 記憶系統(tǒng)正在完成從"外掛工具"到"原生核心"的蛻變。
在本次橫評(píng)中,最令我們深思的數(shù)據(jù)并非某個(gè)單一的高分,而是 EverMemOS 在 LoCoMo 評(píng)測中對(duì) Full-context(全量上下文)基準(zhǔn)的超越。這一結(jié)果極具啟示意義——它打破了"上下文越長越好"的迷思,證明了在長周期的交互中,"精準(zhǔn)的遺忘"與"精準(zhǔn)的記憶"同等重要。優(yōu)秀的記憶系統(tǒng)不再僅僅是數(shù)據(jù)的倉庫,更是大模型注意力的"過濾器"和"聚焦鏡"。
正如我們?cè)谮厔蓊A(yù)測中所言,記憶將與"模型參數(shù)"、"工具系統(tǒng)"并列,成為 AI 的第三大核心組件。未來的智能體,必將不再是閱后即焚的聊天窗口,而是擁有連貫人格、能夠理解世界并與人類建立長期紐帶的"第二大腦"。
這場關(guān)于記憶的競賽才剛剛開始。無論是 Zep 的工程化穩(wěn)健,MemOS 的前沿探索,還是 EverMemOS 的架構(gòu)創(chuàng)新,所有深耕于此的團(tuán)隊(duì)都值得我們保持長期的關(guān)注與敬意。這些探索,正在重新定義人與 AI 的關(guān)系。
對(duì)上述評(píng)測感興趣的同學(xué)可以查看:
1,EverMemOS:https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation
2,Zep:https://github.com/getzep/zep
3,MemOS:https://github.com/memtensor/MemOS/
4,Mem0:https://github.com/mem0ai/mem0
5,MemU:https://github.com/NevaMind-AI/memU
結(jié)尾
也歡迎大家留言討論,分享你的觀點(diǎn)!
覺得內(nèi)容不錯(cuò)的朋友能夠幫忙右下角點(diǎn)個(gè)贊,分享一下。您的每次分享,都是在激勵(lì)我不斷產(chǎn)出更好的內(nèi)容。
歡迎關(guān)注深思圈,一起探索更大的世界。
- END -
兩個(gè)“特別坑”的AI產(chǎn)品創(chuàng)業(yè)方向,你知道嗎
![]()
速度將成為AI時(shí)代唯一的護(hù)城河
![]()
a16z重磅預(yù)測:Vibe coding贏者通吃?錯(cuò)了,垂直專業(yè)化才是未來
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.