<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      你的「龍蝦」真記得你嗎?劍橋發(fā)布長期個性化記憶基準(zhǔn)ATM-Bench

      0
      分享至



      ATM-Bench 將「個人 AI 助手是否真的記得你」這件事,變成了一個研究的測試基準(zhǔn)。結(jié)果并不樂觀:專用記憶智能體系統(tǒng)普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現(xiàn)不佳,最高準(zhǔn)確率不到 40%。

      想象一個場景:媽媽問我:「你上次去日本旅行幫我買的相機(jī),現(xiàn)在還在保修期內(nèi)嗎?」

      對人類來說,這不算難。就算一時記不起來,也可以翻翻收據(jù)、照片,或者查一下當(dāng)時的郵件。大腦會將線索串起來,逐漸定位或是搜索到相關(guān)記憶。但對今天的 AI 來說,這類問題遠(yuǎn)沒有看上去那么簡單。

      最近,來自劍橋大學(xué)的團(tuán)隊開源了面向 AI 個人助理的長期記憶基準(zhǔn)測試 ATM-Bench。他們評測一個直接的問題:當(dāng) AI 真正面對一個人多年真實生活數(shù)據(jù)時,它到底能不能「記住你」?

      實驗結(jié)果并不樂觀。在該 ATM-Bench-Hard 基準(zhǔn)上,當(dāng)前非常熱門的開源智能體「小龍蝦」OpenClaw 僅達(dá)到 25.4% 的準(zhǔn)確率;而被許多人視為編程智能體標(biāo)桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數(shù)開源專用記憶系統(tǒng),準(zhǔn)確率甚至低于 20%。



      • 論文地址: https://arxiv.org/abs/2603.01990
      • 項目主頁: https://atmbench.github.io



      視頻鏈接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

      ATM-Bench:系統(tǒng)評估 AI 長期個性化記憶能力的基準(zhǔn)

      過去已經(jīng)有不少工作在評估 AI 的「記憶能力」,例如 LoCoMo、LongMemEval 等,它們大多聚焦于對話歷史,但真實世界中的個人記憶,遠(yuǎn)不止聊天記錄。一個人的生活記憶通常分散在:

      • 照片:旅行、聚會、用餐、日常片段
      • 視頻:重要時刻、活動過程、環(huán)境變化
      • 郵件:機(jī)票、酒店、餐廳預(yù)訂、票據(jù)、確認(rèn)函

      而且這些記憶往往橫跨幾年,互相之間并不對其。為此,ATM-Bench 提出了首個面向長期、多模態(tài)、多來源、個性化指代記憶問答的基準(zhǔn)。它的幾個關(guān)鍵特征是:

      • 時間跨度約 4 年;
      • 覆蓋圖像、視頻、郵件三類模態(tài),超一萬條記憶數(shù)據(jù);
      • 記憶數(shù)據(jù)來自真實個人生活,而非合成對話;
      • 圖像、視頻數(shù)據(jù)包含地點、時間等元數(shù)據(jù),地點包含 4 大洲;
      • 包含 1000 + 條完全人工標(biāo)注的問題、答案與證據(jù)。

      ATM-Bench 考驗了智能體能不能像一個真正的個人助理那樣,找到隱藏在記憶庫深處的正確記憶,并給出可靠答案。

      挑戰(zhàn) AI 的記憶盲區(qū)

      ATM-Bench 的核心難點包含:

      • 個性化指代:我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」;
      • 多來源拼接:照片時間戳要和郵件確認(rèn)函對齊;
      • 記憶沖突:預(yù)訂金額和最終發(fā)票金額不一致;
      • 元數(shù)據(jù)噪音:GPS 由于定位準(zhǔn)確度本身就可能出錯。

      這里展示了三種難題的案例。

      個性化引用解析 ——Grace 到底是誰?

      示例:「我想剪一個視頻發(fā)小紅書,幫我把 Grace 偷偷摸摸的照片視頻找出來。」

      • 判斷 Grace 是朋友、家人,還是寵物;
      • 在圖片或視頻里識別這個對象;
      • 再理解「偷偷摸摸」這種帶主觀色彩的描述。



      證據(jù)沖突怎么選?

      示例:「我最近去葡萄牙旅行住酒店花了多少錢?」

      這類問題常常對應(yīng)多份證據(jù):過時的預(yù)訂確認(rèn)郵件,最終結(jié)算發(fā)票等。

      AI 需要理解不同來源之間可能存在沖突,也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿著過時的預(yù)訂郵件而不是最終的發(fā)票當(dāng)作答案。



      看不見的線索,才最考驗 AI 的長期記憶

      示例:「我在 Fancett 餐廳點了什么?」

      陷阱在于:「Fancett」這個名字只出現(xiàn)在郵件確認(rèn)單里,而照片本身并沒有 GPS 標(biāo)簽。

      要回答這個問題,AI 必須先:

      1. 從郵件中找到與 Fancett 相關(guān)的預(yù)訂信息;
      2. 提取對應(yīng)時間并鎖定時間窗口;
      3. 再跨模態(tài)到相冊中找到同一時段的照片;
      4. 最后從視覺內(nèi)容中判斷點了什么菜。

      這類問題僅靠單一模態(tài)無法解決,需在郵件中挖掘文本線索,將時間范圍縮小,找到照片并回答問題。少了任何一環(huán),問題都無法被正確回答。



      實驗結(jié)果

      團(tuán)隊在 ATM-Bench-Hard 上測試了多種專用記憶系統(tǒng),包括 A-Mem、HippoRAG2、mem0、MemoryOS。

      結(jié)果并不理想:最好的系統(tǒng)準(zhǔn)確率不到 20%。這些系統(tǒng)本來就是為記憶而設(shè)計的,但當(dāng)任務(wù)超過了僅僅是對話歷史,記憶變得真實、長期、個性化、跨模態(tài)的生活場景時,它們依然顯得力不從心。

      除開源專用記憶系統(tǒng)之外,團(tuán)隊還測試了當(dāng)前最強(qiáng)的通用智能體系統(tǒng)。這類智能體具備完整的代碼執(zhí)行能力、文件系統(tǒng)訪問權(quán)限和工具調(diào)用能力,具有比專用記憶系統(tǒng)擁有更強(qiáng)的工程能力與搜索能力。



      核心發(fā)現(xiàn):

      1. 表現(xiàn)最好的 Codex 也只有 39.7% 的準(zhǔn)確率,連及格線都夠不著;
      2. Claude Code + Opus 4.6 作為編程智能體的標(biāo)桿,也只有 33.8%,盡管明顯優(yōu)于多數(shù)專用記憶系統(tǒng),但仍難以勝任真實長期記憶 QA;
      3. OpenCode(Kimi K2.5)達(dá)到 30.3%,而 OpenClaw(Kimi K2.5)為 25.4%;
      4. Token 開銷非常高:Codex 消耗了 15.46M tokens,OpenClaw 也達(dá)到 9.63M,即便投入大量工具調(diào)用與上下文預(yù)算,效果仍然有限。

      這說明,即便給 AI 配齊代碼執(zhí)行、文件搜索、索引構(gòu)建等整套工具鏈,長期個性化記憶問答仍然是一個根本性難題。

      ATM-Bench 的實驗結(jié)果雖然「慘淡」,但作者團(tuán)隊相信這為未來的長期記憶機(jī)制與個性化 AI 助手的研究開辟了新的方向。

      OpenClaw、Codex、Claude Code 的集體表現(xiàn)不佳告訴我們:工具鏈再完善、模型再強(qiáng)大,也彌補(bǔ)不了記憶架構(gòu)上的根本缺陷。

      當(dāng) AI 真正能夠像人類一樣,在數(shù)年的記憶長河中準(zhǔn)確檢索、關(guān)聯(lián)、推理,我們離真正的「個性化 AI」才會更近一步。

      在那之前,也許我們不該對智能體的記憶能力期待太高,畢竟,它們連「去年給媽媽買的相機(jī)」都記不住,OpenClaw、Codex、Claude Code 都不行。

      數(shù)據(jù)集已開源

      ATM-Bench 數(shù)據(jù)集現(xiàn)已在 HuggingFace 上線:

      • https://huggingface.co/datasets/Jingbiao/ATM-Bench

      包含:

      • 完全人工標(biāo)注的 1069 個 QA 對
      • 多模態(tài)證據(jù)標(biāo)注
      • NIAH 大海撈針評估支持
      • 開箱即用的基準(zhǔn)測試代碼

      作者介紹

      梅敬標(biāo),劍橋大學(xué)機(jī)器智能實驗室博士四年級在讀,師從 Bill Byrne 教授,獲劍橋信托基金獎學(xué)金資助。本科及碩士均畢業(yè)于劍橋大學(xué)工程系,主修信息與計算機(jī)工程與電子工程。

      其主要研究方向為多模態(tài)大語言模型的應(yīng)用,涵蓋多模態(tài)檢索、模型安全、強(qiáng)化學(xué)習(xí)及智能體系統(tǒng)等領(lǐng)域。相關(guān)成果已發(fā)表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國際頂級會議,累計發(fā)表論文十余篇。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      北上廣深樓市暖風(fēng)勁吹,到底了?摩根大通:中國樓市逼近拐點

      北上廣深樓市暖風(fēng)勁吹,到底了?摩根大通:中國樓市逼近拐點

      南方都市報
      2026-04-24 20:32:23
      秦始皇陵為何至今都不敢挖?專家核磁掃描后,發(fā)現(xiàn)墓中情況不一般

      秦始皇陵為何至今都不敢挖?專家核磁掃描后,發(fā)現(xiàn)墓中情況不一般

      浩渺青史
      2026-03-31 14:41:01
      250萬賠償不算啥?官方介入,崔麗麗事件“創(chuàng)先河”,釋放3大信號

      250萬賠償不算啥?官方介入,崔麗麗事件“創(chuàng)先河”,釋放3大信號

      天天熱點見聞
      2026-04-25 06:27:01
      “單車刺客”?哈啰變速車1.5小時收費45元,游客直呼:騎不起

      “單車刺客”?哈啰變速車1.5小時收費45元,游客直呼:騎不起

      上觀新聞
      2026-04-25 15:09:07
      學(xué)歷貶值到什么程度了:超5900名中小學(xué)老師擁有博士學(xué)歷!

      學(xué)歷貶值到什么程度了:超5900名中小學(xué)老師擁有博士學(xué)歷!

      燈錦年
      2026-04-25 12:03:48
      接到陌生電話先問這3個字!騙子聽到馬上掛斷,記得轉(zhuǎn)告身邊人

      接到陌生電話先問這3個字!騙子聽到馬上掛斷,記得轉(zhuǎn)告身邊人

      小談食刻美食
      2026-04-25 09:47:09
      良品鋪子墜入深淵:連虧兩年、股東出逃、債務(wù)暴雷,困局難破

      良品鋪子墜入深淵:連虧兩年、股東出逃、債務(wù)暴雷,困局難破

      深潛atom
      2026-04-24 10:08:58
      507萬人民幣梭哈英特爾!曾被全網(wǎng)群嘲敗家子 如今身家暴漲至1370萬元

      507萬人民幣梭哈英特爾!曾被全網(wǎng)群嘲敗家子 如今身家暴漲至1370萬元

      快科技
      2026-04-25 11:56:06
      教育部新規(guī)落地!9月上學(xué)全變了,家長趁早看

      教育部新規(guī)落地!9月上學(xué)全變了,家長趁早看

      笑熬漿糊111
      2026-04-23 00:05:18
      觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

      觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

      許三歲
      2026-04-24 22:36:22
      尚界汽車法務(wù)部:北京車展有人蓄意破壞展車內(nèi)飾 已取證將追責(zé)

      尚界汽車法務(wù)部:北京車展有人蓄意破壞展車內(nèi)飾 已取證將追責(zé)

      快科技
      2026-04-25 11:45:05
      《新聞聯(lián)播》大換血,李梓萌康輝退居幕后,四代接班人悄然就位

      《新聞聯(lián)播》大換血,李梓萌康輝退居幕后,四代接班人悄然就位

      阿纂看事
      2026-04-25 13:48:54
      演員張凌赫回應(yīng)赴臺喊話

      演員張凌赫回應(yīng)赴臺喊話

      上觀新聞
      2026-04-25 14:39:04
      演都不演了!電詐園松口放人前,先提了一個要求,父親察覺不對勁

      演都不演了!電詐園松口放人前,先提了一個要求,父親察覺不對勁

      八斗小先生
      2026-04-25 13:55:54
      原村支書開鏟車當(dāng)著民警面把人埋了?網(wǎng)友質(zhì)疑民警未及時制止;山西代縣公安局:已向警督部門反饋,正處置

      原村支書開鏟車當(dāng)著民警面把人埋了?網(wǎng)友質(zhì)疑民警未及時制止;山西代縣公安局:已向警督部門反饋,正處置

      大風(fēng)新聞
      2026-04-24 17:19:02
      虎狼之詞啊!一公共女廁提示走紅網(wǎng)絡(luò),“屙尿時對準(zhǔn)坑位”引熱議

      虎狼之詞啊!一公共女廁提示走紅網(wǎng)絡(luò),“屙尿時對準(zhǔn)坑位”引熱議

      火山詩話
      2026-04-25 06:12:02
      霍爾木茲海峽封鎖,美國能源出口飆升,二戰(zhàn)以來首次接近成為原油凈出口國

      霍爾木茲海峽封鎖,美國能源出口飆升,二戰(zhàn)以來首次接近成為原油凈出口國

      紅星新聞
      2026-04-25 12:32:20
      大師靠“美國崩潰論”卷走百億,跑路美國后,痛罵中國人

      大師靠“美國崩潰論”卷走百億,跑路美國后,痛罵中國人

      談史論天地
      2026-04-25 11:00:08
      形勢有多嚴(yán)峻?才4月份,廣東就有公司放長假,多少人又要失業(yè)

      形勢有多嚴(yán)峻?才4月份,廣東就有公司放長假,多少人又要失業(yè)

      慧翔百科
      2026-04-24 11:46:34
      大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

      大鬧亞航的假空姐社會性死亡!“底褲”被扒,正臉流出,十級美顏

      翰飛觀事
      2026-04-24 19:39:03
      2026-04-25 16:35:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12852文章數(shù) 142636關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

      頭條要聞

      哈啰變速車1.5小時收費高達(dá)45元 游客直呼:騎不起

      頭條要聞

      哈啰變速車1.5小時收費高達(dá)45元 游客直呼:騎不起

      體育要聞

      火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經(jīng)要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      本地
      旅游
      藝術(shù)

      數(shù)碼要聞

      首款驍龍8 Gen5小平板!OPPO Pad Mini圖賞

      教育要聞

      中考易錯題型:胡不歸問題

      本地新聞

      云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

      旅游要聞

      春假+“五一”最多連休11天,部分城市出游訂單翻3倍

      藝術(shù)要聞

      荒廢十多年!福建石獅“最美爛尾樓”,德國品牌接盤了

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 自拍偷在线精品自拍偷无码专区| 欧美日韩国产图片区一区| 国产精品久久久久影院老司| 高清免费毛片| 99re66精品视频在线观看| 国产又色又刺激高潮视频| 色图综合网| www.国产在线| 五十路AV| 亚洲一区二区三区色视频| 精品久久久久久综合日本| 精品国产一区二区三区四区色| 日日碰狠狠躁久久躁综合小说| 国产三级va| 日韩精品一区二区三区视频网| 亚洲欧美不卡高清在线| 日韩av一区二区亚洲| 亚洲韩国精品无码一区二区三区| 一本丁香综合久久久久不卡网站| 日韩精品毛片无码一区到三区| 亚洲成人精品| 亚洲精品天天影视综合网| 国产午夜在线观看视频| 成人免费亚洲av在线| 国产精品久久午夜夜伦鲁鲁| 原平市| 乱码精品一区二区三区| 精品a片| 无码人妻一区二区三区三区| 午夜精品区| 狠狠色综合7777久夜色撩人ⅰ| 91在线观看| 漂亮人妻洗澡被公强啪啪| 香蕉av福利精品导航| 卓资县| 久久精品国产2020| 91高清在线观看| 婷婷开心深爱五月天播播| 日韩AV导航| 人妻成人在线| 伊在人间香蕉最新视频|