![]()
新智元報道
編輯:LRST
【新智元導讀】現有AI記憶評測存在局限,如數據源單一、忽視變化本質、注入成本高等。CloneMem通過層次化生成框架構建合成人生,設計貼近真實場景的評測任務,涵蓋多種問題類型。實驗發現簡單方法在檢索上更有效,復雜系統會丟失關鍵細節,記憶系統應保留細節和時間脈絡,還原而非壓縮信息,以更好地理解人。
AI數字分身正在從科幻走向現實:幫你回郵件、管理日程,甚至可以直接替你和別人coffee chat。
但問題是:AI如何深度了解你并與你保持同步?
不僅要「知道」你叫什么,住在哪里,喜歡聽什么音樂,喜歡吃什么,更要「持續了解」:這幾年你經歷了什么、你的想法是如何一步步轉變的、為什么去年你想要跳槽,但今年卻想要留下。
這些,才真正定義了你是誰。
針對這一問題,開源學術社區QuantaAlpha聯合國內外知名高校團隊提出了CloneMem——首個專門評估AI Clone長期記憶能力的基準測試,并提供了中英文雙語版本。
![]()
論文鏈接:https://arxiv.org/pdf/2601.07023
代碼數據:https://github.com/AvatarMemory/CloneMemBench
![]()
AI Clone 應用場景示意圖
人生的關鍵變化
往往不發生在聊天框里
現有AI記憶評測主要考察模型能否記住用戶與AI之間說過的話。但這套評測范式存在三個根本局限:
數據源單一。
僅依賴用戶與AI的對話記錄,而這些記錄往往只反映了生活中的某些片段。更關鍵的是,對話內容高度依賴用戶主動表達,本身就已經經過個人的二次敘述,很難還原一個人真實而連續的生活軌跡。
忽視「變化」的本質。
現有基準關注的是「AI 能否記住某個事實」,而非「AI 能否理解這個人是怎么一步步變成現在這樣的」——經歷如何塑造情緒,情緒如何影響觀點,觀點又如何左右選擇。
注入成本高。
想讓AI了解你,你得不斷主動和它聊。但誰有時間每天給AI寫日記?這種機制難以長期維持。
![]()
CloneMem與現有記憶評測基準對比
數據怎么造?
層次化生成一個合成人生
真實用戶數據涉及隱私,研究團隊設計了一套層次化生成框架:
宏觀層面,基于大五人格初始化人物設定,構建職業、家庭、情緒、價值觀等長期人生弧線;中觀層面,將每個重大事件拆分為多個階段,維護內部狀態快照(能量、壓力、情緒、關注焦點),狀態在階段間傳遞以保證連貫性;微觀層面,為每個階段生成具體事件,并同步產出日記、帖子、消息等多種媒介內容。
這種自頂向下的設計確保了經歷、情緒、觀點在長時間跨度上保持一致。
![]()
CloneMem 完整的數據構建流程
面向真實交互場景的評測任務設計
CloneMem設計了一系列貼近真實使用場景的評測任務。所有問題都從「與AI Clone聊天的朋友」視角出發,而不是系統自問自答。
提問者像現實中的熟人一樣,會在不同時間點向AI Clone詢問你的近況和想法。
更關鍵的是,這些問題不是集中在某一個時間段,而是貫穿在你完整的人生時間線上,這也就意味著模型需要在橫跨數年的日記、社交媒體、聊天記錄和郵件等多源記錄里,找到關鍵信息,并理解經歷如何影響情緒,情緒如何塑造觀點,觀點又如何推動選擇,才能做出正確的判斷。
![]()
CloneMem評測任務示例
CloneMem設計了7種問題類型,涵蓋了事實回憶、規律識別、變化對比、長期軌跡理解、因果推理、反事實推理,以及無法回答的情況。
而考慮到在真實場景下的開放式問答難度不低,CloneMem也為每道簡答題設計了對應的選擇題版本,用來降低難度。
實驗發現
簡單方法反超,復雜系統壓縮掉關鍵細節
研究團隊從檢索能力、記憶有效性和回答一致性等多個維度,對Flat Retriever、A-MEM和Mem0三種記憶系統進行了評估,結果卻有些出人意料。
在檢索層面,簡單方法反而更有效
在多數指標上,最簡單的Flat Retriever表現最好。原因是抽象和總結雖然有助于搜索,但會損失細節保真度。而AI Clone任務高度依賴時間順序、原始表述、事件間的細微關聯,而這些信息往往在摘要的過程中被壓縮掉了。
![]()
不同記憶系統的 QA 性能與記憶效用對比(Oracle 為使用真實上下文的上界)
在表征層面,記憶系統只記事件,而不記狀態
以老沈為例,他正在經歷中年危機,連續兩周在凌晨瀏覽招聘網站,搜索各種崗位信息。記憶系統非常誠實的記下了這些行為,但無法表征他還在猶豫,一份簡歷都沒投出去的狀態。
因此當被問到老沈有沒有看重的公司時,模型面對一堆求職相關的行為記錄,自然會腦補出老沈看重了幾家公司,然而實際上,他什么都沒有決定。
在生成層面,模型容易被敘事慣性所帶偏
即使檢索到了正確的信息,模型仍然傾向于套用高概率敘事模板,而并沒有依據事實證據。比如當問老沈為什么愿意向妻子敞開心扉,正確答案是他意識到長期強撐正在傷害家庭,模型卻回答女兒的一幅畫觸動了他,這聽起來很合理,但證據完全對不上。
對記憶系統設計的啟示
CloneMem的實驗結果指向一個核心問題:當前的記憶系統把記住當成了目標,但AI Clone真正需要的是還原。
這意味著記憶系統不能只做信息壓縮,而要保留原始表述和時間脈絡;不能只記發生了什么事,還要能表征一個人正在經歷什么階段;不能總是給出答案,而要在證據不足時學會說不知道。
換句話說,AI Clone的記憶不應該是一個越壓越小的知識庫,而應該是一個保留完整證據鏈的底座,因為理解一個人,靠的不是摘要,而是細節。
QuantaAlpha
QuantaAlpha成立于2025年4月,由來自國內外知名院校的老師和學生組成,使命是探索智能的「量子」,引領智能體研究的「阿爾法」前沿,從CodeAgent到自進化智能,再到金融與跨領域專用智能體,致力于重塑人工智能的邊界。
2026年,研究團隊將在CodeAgent、DeepResearch、Agent Memory、Agentic Reasoning/Agentic RL、自進化與協同學習等方向持續產出高質量研究成果,歡迎對我們方向感興趣的同學加入我們!
![]()
團隊主頁:https://quantaalpha.github.io/
參考資料:
https://arxiv.org/pdf/2601.07023
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.