網易首頁 > 網易號 > 正文申請入駐

AI用3年時光，來了解你！首個AI Clone長期記憶基準

2026-01-21 18:28:29　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】現有AI記憶評測存在局限，如數據源單一、忽視變化本質、注入成本高等。CloneMem通過層次化生成框架構建合成人生，設計貼近真實場景的評測任務，涵蓋多種問題類型。實驗發現簡單方法在檢索上更有效，復雜系統會丟失關鍵細節，記憶系統應保留細節和時間脈絡，還原而非壓縮信息，以更好地理解人。

AI數字分身正在從科幻走向現實：幫你回郵件、管理日程，甚至可以直接替你和別人coffee chat。

但問題是：AI如何深度了解你并與你保持同步？

不僅要「知道」你叫什么，住在哪里，喜歡聽什么音樂，喜歡吃什么，更要「持續了解」：這幾年你經歷了什么、你的想法是如何一步步轉變的、為什么去年你想要跳槽，但今年卻想要留下。

這些，才真正定義了你是誰。

針對這一問題，開源學術社區QuantaAlpha聯合國內外知名高校團隊提出了CloneMem——首個專門評估AI Clone長期記憶能力的基準測試，并提供了中英文雙語版本。

論文鏈接：https://arxiv.org/pdf/2601.07023

代碼數據：https://github.com/AvatarMemory/CloneMemBench

AI Clone 應用場景示意圖

人生的關鍵變化

往往不發生在聊天框里

現有AI記憶評測主要考察模型能否記住用戶與AI之間說過的話。但這套評測范式存在三個根本局限：

數據源單一。

僅依賴用戶與AI的對話記錄，而這些記錄往往只反映了生活中的某些片段。更關鍵的是，對話內容高度依賴用戶主動表達，本身就已經經過個人的二次敘述，很難還原一個人真實而連續的生活軌跡。

忽視「變化」的本質。

現有基準關注的是「AI 能否記住某個事實」，而非「AI 能否理解這個人是怎么一步步變成現在這樣的」——經歷如何塑造情緒，情緒如何影響觀點，觀點又如何左右選擇。

注入成本高。

想讓AI了解你，你得不斷主動和它聊。但誰有時間每天給AI寫日記？這種機制難以長期維持。

CloneMem與現有記憶評測基準對比

數據怎么造？

層次化生成一個合成人生

真實用戶數據涉及隱私，研究團隊設計了一套層次化生成框架：

宏觀層面，基于大五人格初始化人物設定，構建職業、家庭、情緒、價值觀等長期人生弧線；中觀層面，將每個重大事件拆分為多個階段，維護內部狀態快照（能量、壓力、情緒、關注焦點），狀態在階段間傳遞以保證連貫性；微觀層面，為每個階段生成具體事件，并同步產出日記、帖子、消息等多種媒介內容。

這種自頂向下的設計確保了經歷、情緒、觀點在長時間跨度上保持一致。

CloneMem 完整的數據構建流程

面向真實交互場景的評測任務設計

CloneMem設計了一系列貼近真實使用場景的評測任務。所有問題都從「與AI Clone聊天的朋友」視角出發，而不是系統自問自答。

提問者像現實中的熟人一樣，會在不同時間點向AI Clone詢問你的近況和想法。

更關鍵的是，這些問題不是集中在某一個時間段，而是貫穿在你完整的人生時間線上，這也就意味著模型需要在橫跨數年的日記、社交媒體、聊天記錄和郵件等多源記錄里，找到關鍵信息，并理解經歷如何影響情緒，情緒如何塑造觀點，觀點又如何推動選擇，才能做出正確的判斷。

CloneMem評測任務示例

CloneMem設計了7種問題類型，涵蓋了事實回憶、規律識別、變化對比、長期軌跡理解、因果推理、反事實推理，以及無法回答的情況。

而考慮到在真實場景下的開放式問答難度不低，CloneMem也為每道簡答題設計了對應的選擇題版本，用來降低難度。

實驗發現

簡單方法反超，復雜系統壓縮掉關鍵細節

研究團隊從檢索能力、記憶有效性和回答一致性等多個維度，對Flat Retriever、A-MEM和Mem0三種記憶系統進行了評估，結果卻有些出人意料。

在檢索層面，簡單方法反而更有效

在多數指標上，最簡單的Flat Retriever表現最好。原因是抽象和總結雖然有助于搜索，但會損失細節保真度。而AI Clone任務高度依賴時間順序、原始表述、事件間的細微關聯，而這些信息往往在摘要的過程中被壓縮掉了。

不同記憶系統的 QA 性能與記憶效用對比（Oracle 為使用真實上下文的上界）

在表征層面，記憶系統只記事件，而不記狀態

以老沈為例，他正在經歷中年危機，連續兩周在凌晨瀏覽招聘網站，搜索各種崗位信息。記憶系統非常誠實的記下了這些行為，但無法表征他還在猶豫，一份簡歷都沒投出去的狀態。

因此當被問到老沈有沒有看重的公司時，模型面對一堆求職相關的行為記錄，自然會腦補出老沈看重了幾家公司，然而實際上，他什么都沒有決定。

在生成層面，模型容易被敘事慣性所帶偏

即使檢索到了正確的信息，模型仍然傾向于套用高概率敘事模板，而并沒有依據事實證據。比如當問老沈為什么愿意向妻子敞開心扉，正確答案是他意識到長期強撐正在傷害家庭，模型卻回答女兒的一幅畫觸動了他，這聽起來很合理，但證據完全對不上。

對記憶系統設計的啟示

CloneMem的實驗結果指向一個核心問題：當前的記憶系統把記住當成了目標，但AI Clone真正需要的是還原。

這意味著記憶系統不能只做信息壓縮，而要保留原始表述和時間脈絡；不能只記發生了什么事，還要能表征一個人正在經歷什么階段；不能總是給出答案，而要在證據不足時學會說不知道。

換句話說，AI Clone的記憶不應該是一個越壓越小的知識庫，而應該是一個保留完整證據鏈的底座，因為理解一個人，靠的不是摘要，而是細節。

QuantaAlpha

QuantaAlpha成立于2025年4月，由來自國內外知名院校的老師和學生組成，使命是探索智能的「量子」，引領智能體研究的「阿爾法」前沿，從CodeAgent到自進化智能，再到金融與跨領域專用智能體，致力于重塑人工智能的邊界。

2026年，研究團隊將在CodeAgent、DeepResearch、Agent Memory、Agentic Reasoning/Agentic RL、自進化與協同學習等方向持續產出高質量研究成果，歡迎對我們方向感興趣的同學加入我們！

團隊主頁：https://quantaalpha.github.io/

參考資料：

https://arxiv.org/pdf/2601.07023

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

智能體卷王誕生！干活自動配結項報告，1.5張截圖就把事說清了

量子位 2026-01-10 14:38:21
10 跟貼 10
拒絕DeepSeek的清華學霸，如何拿捏OpenAI的最新大模型？

智東西 2026-01-20 22:49:06
13 跟貼 13

AI能否「圣地巡禮」？多模態大模型全新評估基準VIR-Bench來了

機器之心Pro 2025-10-15 16:05:02
0 跟貼 0

大模型碰到真難題了，測了500道，o3 Pro僅通過15%

機器之心Pro 2025-09-15 10:45:10
1 跟貼 1
擊敗GPT、Gemini，復旦×創智孵化創業團隊模思智能，語音模型上新

機器之心Pro 2026-01-20 18:29:15
0 跟貼 0

阿里云重新定義AI時代數據庫

華爾街見聞官方 2026-01-21 18:15:01
0 跟貼 0

非Transformer架構新突破，液態神經網絡推理小模型只用900M內存

機器之心Pro 2026-01-21 18:08:27
2 跟貼 2
碼農只剩6個月？Anthropic CEO斷言AI接管一切代碼，爆沖諾獎級智能！

新智元 2026-01-21 13:17:15
24 跟貼 24

當豆包“看懂”畢加索：一次美術館的AI解說實驗，如何成為多模態競爭的試金石？

每日經濟新聞 2026-01-21 22:03:07
0 跟貼 0
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
DeepSeek-R2要來了？

新智元 2026-01-21 09:57:59
59 跟貼 59
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
智譜新模型也用DeepSeek的MLA，蘋果M5就能跑

量子位 2026-01-20 17:17:42
2 跟貼 2
開源新王炸！10B多模態小模型屠榜，性能媲美20倍巨無霸

智東西 2026-01-20 23:17:30
4 跟貼 4
R1一周年，DeepSeek Model 1悄然現身

機器之心Pro 2026-01-21 10:11:16
1 跟貼 1
歐洲基準天然氣期貨一度下跌5%

每日經濟新聞 2026-01-21 15:26:05
0 跟貼 0
受過傷動過手術，沒準之前是個大帥哥，命運軌跡一刻扭轉！

旅行指南者 2026-01-20 10:22:13
0 跟貼 0
央視主持董卿海霞人生軌跡各異，你更欣賞誰？

宣熠愛吃瓜 2026-01-19 16:57:26
1 跟貼 1
李晨范冰冰：感情爭議中的甜蜜、風波與各自人生軌跡

我是孤獨的小船 2026-01-19 05:44:58
1 跟貼 1
索尼宣布將剝離電視機業務，與中國TCL成立合資公司，TCL持股51%

魯中晨報 2026-01-20 21:47:04
4069 跟貼 4069
1166找規律:想了半個小時也沒有想出來，累的腦子疼，一年級的女

我服子佩 2026-01-20 16:14:26
1 跟貼 1
找規律，12,3,4，（），5

大力小學數學 2026-01-17 14:44:00
0 跟貼 0
江敦濤，被罷免

新京報政事兒 2026-01-21 09:13:31
180 跟貼 180
代碼泄密！DeepSeek下一代“王炸”模型架構曝光

智東西 2026-01-21 13:06:16
50 跟貼 50
終端優惠7000元！探店第四代吉利博越L，空間體面智能升級

蝸牛車志V 2026-01-19 17:09:46
0 跟貼 0
馬克龍喊話中國對歐增加投資外交部回應

澎湃新聞 2026-01-21 15:40:55
19 跟貼 19
什么是智能新硬派？試駕iCAR V27

閆闖說車 2026-01-19 10:00:00
0 跟貼 0
1171新升二年級:第一組的規律就把你引道坑里去了，其實另有其他

我服子佩 2026-01-21 13:21:27
1 跟貼 1
城市公園驚現鱷魚，游客誤認是模型，結果嚇得眾人腿軟

嘻哈搞笑局 2026-01-19 00:00:00
0 跟貼 0
用運動軌跡做出來的畫，物理也是一門藝術，小時候可喜歡玩這種了

青島資訊 2026-01-17 09:25:49
0 跟貼 0
孟加拉虎 3D 模型 DIY

制造科技 2026-01-21 19:51:40
0 跟貼 0
豆包再向C端猛沖

華爾街見聞官方 2026-01-21 19:38:09
0 跟貼 0
河南擬調整分時電價

大象新聞 2026-01-21 11:33:03
114 跟貼 114
特變電工：黃金年產量約2.5-3噸

財聯社 2026-01-21 15:47:08
10 跟貼 10
伊朗導彈襲擊證券中心，鐵穹攔截軌跡全錯亂，精準命中目標沒商量

趣味加工廠 2026-01-21 00:00:00
1 跟貼 1
深圳官方明確：中小學期末不統考！

南方都市報 2026-01-21 19:21:23
0 跟貼 0
網友呼吁為賀嬌龍立塑像，新疆日報發文回應

新京報 2026-01-21 15:24:22
770 跟貼 770
德方數據顯示：中國機床出口超過德國躍居全球首位

財聯社 2026-01-21 10:19:06
74 跟貼 74
論文圖片遭受質疑，作者嘗試重復研究來補救，耗時兩年后終被撤稿

醫咖會 2026-01-21 19:36:49
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

14380文章數 66521關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

家居

親子

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI用3年時光，來了解你！首個AI Clone長期記憶基準

給機器人做仿真訓練 這家創企年營收破億

西安高校創始人兩女兒爭繼承權 判完才發現公證書造假

西安高校創始人兩女兒爭繼承權 判完才發現公證書造假

只會防守反擊？不好意思，我們要踢決賽了

首位捐款的明星 苗圃現身嫣然醫院捐款

丹麥打響第一槍 歐洲用資本保衛格陵蘭島

2026款上汽大眾朗逸正式上市 售價12.09萬起

態度原創

一百多年前的中國，太雄偉震撼了！

褪去浮華 觸達松弛與欣喜

如何做好呼吸道合胞病毒防護 聽聽兒科醫生怎么說

特朗普：對美國的真正威脅是聯合國和北約

給機器人做仿真訓練這家創企年營收破億

西安高校創始人兩女兒爭繼承權判完才發現公證書造假

西安高校創始人兩女兒爭繼承權判完才發現公證書造假

首位捐款的明星苗圃現身嫣然醫院捐款

丹麥打響第一槍歐洲用資本保衛格陵蘭島

2026款上汽大眾朗逸正式上市售價12.09萬起

褪去浮華觸達松弛與欣喜

如何做好呼吸道合胞病毒防護　聽聽兒科醫生怎么說