你的「龍蝦」真記得你嗎？劍橋發(fā)布長期個性化記憶基準(zhǔn)ATM-Bench

2026-04-20 12:44:27　來源: 機器之心Pro

河北舉報

分享至

ATM-Bench 將「個人 AI 助手是否真的記得你」這件事，變成了一個研究的測試基準(zhǔn)。結(jié)果并不樂觀：專用記憶智能體系統(tǒng)普遍低于 20%，而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現(xiàn)不佳，最高準(zhǔn)確率不到 40%。

想象一個場景：媽媽問我：「你上次去日本旅行幫我買的相機，現(xiàn)在還在保修期內(nèi)嗎？」

對人類來說，這不算難。就算一時記不起來，也可以翻翻收據(jù)、照片，或者查一下當(dāng)時的郵件。大腦會將線索串起來，逐漸定位或是搜索到相關(guān)記憶。但對今天的 AI 來說，這類問題遠沒有看上去那么簡單。

最近，來自劍橋大學(xué)的團隊開源了面向 AI 個人助理的長期記憶基準(zhǔn)測試 ATM-Bench。他們評測一個直接的問題：當(dāng) AI 真正面對一個人多年真實生活數(shù)據(jù)時，它到底能不能「記住你」？

實驗結(jié)果并不樂觀。在該 ATM-Bench-Hard 基準(zhǔn)上，當(dāng)前非常熱門的開源智能體「小龍蝦」OpenClaw 僅達到 25.4% 的準(zhǔn)確率；而被許多人視為編程智能體標(biāo)桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數(shù)開源專用記憶系統(tǒng)，準(zhǔn)確率甚至低于 20%。

論文地址： https://arxiv.org/abs/2603.01990
項目主頁： https://atmbench.github.io

視頻鏈接：https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

ATM-Bench：系統(tǒng)評估 AI 長期個性化記憶能力的基準(zhǔn)

過去已經(jīng)有不少工作在評估 AI 的「記憶能力」，例如 LoCoMo、LongMemEval 等，它們大多聚焦于對話歷史，但真實世界中的個人記憶，遠不止聊天記錄。一個人的生活記憶通常分散在：

照片：旅行、聚會、用餐、日常片段
視頻：重要時刻、活動過程、環(huán)境變化
郵件：機票、酒店、餐廳預(yù)訂、票據(jù)、確認(rèn)函

而且這些記憶往往橫跨幾年，互相之間并不對其。為此，ATM-Bench 提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準(zhǔn)。它的幾個關(guān)鍵特征是：

時間跨度約 4 年；
覆蓋圖像、視頻、郵件三類模態(tài)，超一萬條記憶數(shù)據(jù)；
記憶數(shù)據(jù)來自真實個人生活，而非合成對話；
圖像、視頻數(shù)據(jù)包含地點、時間等元數(shù)據(jù)，地點包含 4 大洲；
包含 1000 + 條完全人工標(biāo)注的問題、答案與證據(jù)。

ATM-Bench 考驗了智能體能不能像一個真正的個人助理那樣，找到隱藏在記憶庫深處的正確記憶，并給出可靠答案。

挑戰(zhàn) AI 的記憶盲區(qū)

ATM-Bench 的核心難點包含：

個性化指代：我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」；
多來源拼接：照片時間戳要和郵件確認(rèn)函對齊；
記憶沖突：預(yù)訂金額和最終發(fā)票金額不一致；
元數(shù)據(jù)噪音：GPS 由于定位準(zhǔn)確度本身就可能出錯。

這里展示了三種難題的案例。

個性化引用解析 ——Grace 到底是誰？

示例：「我想剪一個視頻發(fā)小紅書，幫我把 Grace 偷偷摸摸的照片視頻找出來。」

判斷 Grace 是朋友、家人，還是寵物；
在圖片或視頻里識別這個對象；
再理解「偷偷摸摸」這種帶主觀色彩的描述。

證據(jù)沖突怎么選？

示例：「我最近去葡萄牙旅行住酒店花了多少錢？」

這類問題常常對應(yīng)多份證據(jù)：過時的預(yù)訂確認(rèn)郵件，最終結(jié)算發(fā)票等。

AI 需要理解不同來源之間可能存在沖突，也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6，也拿著過時的預(yù)訂郵件而不是最終的發(fā)票當(dāng)作答案。

看不見的線索，才最考驗 AI 的長期記憶

示例：「我在 Fancett 餐廳點了什么？」

陷阱在于：「Fancett」這個名字只出現(xiàn)在郵件確認(rèn)單里，而照片本身并沒有 GPS 標(biāo)簽。

要回答這個問題，AI 必須先：

從郵件中找到與 Fancett 相關(guān)的預(yù)訂信息；
提取對應(yīng)時間并鎖定時間窗口；
再跨模態(tài)到相冊中找到同一時段的照片；
最后從視覺內(nèi)容中判斷點了什么菜。

這類問題僅靠單一模態(tài)無法解決，需在郵件中挖掘文本線索，將時間范圍縮小，找到照片并回答問題。少了任何一環(huán)，問題都無法被正確回答。

實驗結(jié)果

團隊在 ATM-Bench-Hard 上測試了多種專用記憶系統(tǒng)，包括 A-Mem、HippoRAG2、mem0、MemoryOS。

結(jié)果并不理想：最好的系統(tǒng)準(zhǔn)確率不到 20%。這些系統(tǒng)本來就是為記憶而設(shè)計的，但當(dāng)任務(wù)超過了僅僅是對話歷史，記憶變得真實、長期、個性化、跨模態(tài)的生活場景時，它們依然顯得力不從心。

除開源專用記憶系統(tǒng)之外，團隊還測試了當(dāng)前最強的通用智能體系統(tǒng)。這類智能體具備完整的代碼執(zhí)行能力、文件系統(tǒng)訪問權(quán)限和工具調(diào)用能力，具有比專用記憶系統(tǒng)擁有更強的工程能力與搜索能力。

核心發(fā)現(xiàn)：

表現(xiàn)最好的 Codex 也只有 39.7% 的準(zhǔn)確率，連及格線都夠不著；
Claude Code + Opus 4.6 作為編程智能體的標(biāo)桿，也只有 33.8%，盡管明顯優(yōu)于多數(shù)專用記憶系統(tǒng)，但仍難以勝任真實長期記憶 QA；
OpenCode（Kimi K2.5）達到 30.3%，而 OpenClaw（Kimi K2.5）為 25.4%；
Token 開銷非常高：Codex 消耗了 15.46M tokens，OpenClaw 也達到 9.63M，即便投入大量工具調(diào)用與上下文預(yù)算，效果仍然有限。

這說明，即便給 AI 配齊代碼執(zhí)行、文件搜索、索引構(gòu)建等整套工具鏈，長期個性化記憶問答仍然是一個根本性難題。

ATM-Bench 的實驗結(jié)果雖然「慘淡」，但作者團隊相信這為未來的長期記憶機制與個性化 AI 助手的研究開辟了新的方向。

OpenClaw、Codex、Claude Code 的集體表現(xiàn)不佳告訴我們：工具鏈再完善、模型再強大，也彌補不了記憶架構(gòu)上的根本缺陷。

當(dāng) AI 真正能夠像人類一樣，在數(shù)年的記憶長河中準(zhǔn)確檢索、關(guān)聯(lián)、推理，我們離真正的「個性化 AI」才會更近一步。

在那之前，也許我們不該對智能體的記憶能力期待太高，畢竟，它們連「去年給媽媽買的相機」都記不住，OpenClaw、Codex、Claude Code 都不行。

數(shù)據(jù)集已開源

ATM-Bench 數(shù)據(jù)集現(xiàn)已在 HuggingFace 上線：

https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含：

完全人工標(biāo)注的 1069 個 QA 對
多模態(tài)證據(jù)標(biāo)注
NIAH 大海撈針評估支持
開箱即用的基準(zhǔn)測試代碼

作者介紹

梅敬標(biāo)，劍橋大學(xué)機器智能實驗室博士四年級在讀，師從 Bill Byrne 教授，獲劍橋信托基金獎學(xué)金資助。本科及碩士均畢業(yè)于劍橋大學(xué)工程系，主修信息與計算機工程與電子工程。

其主要研究方向為多模態(tài)大語言模型的應(yīng)用，涵蓋多模態(tài)檢索、模型安全、強化學(xué)習(xí)及智能體系統(tǒng)等領(lǐng)域。相關(guān)成果已發(fā)表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國際頂級會議，累計發(fā)表論文十余篇。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.