![]()
這項由浙江大學牽頭,聯合南開大學、香港中文大學、上海交通大學及vivo AI實驗室共同完成的重要研究發表于2026年2月,為人工智能領域的手機助手評測提供了全新視角。有興趣深入了解的讀者可以通過arXiv:2602.06075查詢完整論文。
當你使用手機上的AI助手時,是否遇到過這樣的情況:剛剛查詢的商品價格轉眼就忘了,需要在不同應用間切換時總是丟失之前的信息,或者同樣的操作錯誤重復出現,AI助手似乎永遠學不會?這些看似簡單的問題背后,隱藏著當前智能助手技術的一個重大缺陷:記憶力嚴重不足。
想象一下,你讓助手幫你比較幾款手機的價格。一個有經驗的人類助手會記住第一款手機的價格,然后在查看第二款時進行對比,最后給出建議。但現在的AI助手往往剛看完第一款手機就"失憶"了,無法完成這種看似簡單的跨應用信息記憶任務。更嚴重的是,即使多次犯同樣的錯誤,這些AI助手也不會從失敗中學習,下次遇到類似情況還是會重蹈覆轍。
浙江大學的研究團隊敏銳地察覺到了這個問題。他們發現,現有的手機AI助手評測體系就像是在測試學生的計算能力,卻完全忽略了記憶力考查。在目前主流的評測基準中,真正需要記憶力的任務少得可憐,僅占5.2%到11.8%,而且完全沒有測試AI助手能否從過往經驗中學習的長期記憶能力。
為了填補這個巨大的評測空白,研究團隊開發了一套名為MemGUI-Bench的全新評測體系。這套系統就像是專門為AI助手設計的"記憶力大考",通過128道精心設計的題目,全面檢驗AI助手在復雜手機操作場景下的記憶表現。
一、智能助手的"記憶分類學":短期記憶與長期記憶的奧秘
研究團隊首先建立了一套完整的記憶分類體系,這就像是為AI助手的大腦繪制了一張詳細的記憶地圖。他們將AI助手的記憶能力分為兩大類型,這種分類方法借鑒了人類記憶的工作機制。
短期記憶可以理解為AI助手的"工作臺"。當你要求助手完成一項復雜任務時,比如在購物應用中查找商品價格然后到筆記應用中記錄,助手需要在這個過程中暫時保存商品信息,就像人類在心中默記電話號碼一樣。研究團隊發現,現有的AI助手在這方面采用了五種不同的"記憶策略"。
第一種是"記憶代理"模式,就像給AI助手配了一個專門的記錄員,負責將所有重要信息整理成文字摘要。比如當助手查看了一個商品頁面后,記錄員會寫下"剛才看的是iPhone,價格8999元,評分4.5星"。第二種是"行動思考"模式,助手會像自言自語一樣記錄每個行動的原因,形成一條完整的思考鏈條。第三種是"多輪對話"模式,將每次操作都當作一次對話,通過對話歷史來保持記憶。第四種是"規則聚合"模式,按照預設的規則來整理和保存信息。第五種則是"零歷史"模式,基本不保存任何歷史信息,每次都從零開始。
長期記憶則像是AI助手的"經驗庫"。理想情況下,當助手第一次使用某個應用時可能會犯錯,但通過積累經驗,它應該能夠學會更高效的操作方式,并且避免重復犯同樣的錯誤。研究團隊發現,目前只有兩種主要的長期記憶實現方式:一種是從成功經驗中提取可重復使用的"快捷操作",另一種是從失敗經歷中總結教訓以避免重復錯誤。
通過對11個主流AI助手的深入分析,研究團隊發現了一個令人擔憂的現象:絕大多數AI助手都缺乏有效的記憶機制,這解釋了為什么我們在日常使用中經常感到它們"不夠聰明"。
二、專為記憶力設計的"考試環境":128道記憶挑戰題
為了全面測試AI助手的記憶能力,研究團隊精心設計了128道"考試題目",這些題目覆蓋了26個真實的手機應用,從購物到導航,從筆記到社交,幾乎涵蓋了我們日常手機使用的各個場景。
這些題目的設計理念就像是故意為AI助手設置記憶陷阱。比如其中一道典型題目是這樣的:要求AI助手先在購房應用中查找奧斯汀的公寓信息并記住地址和租金,然后到搜索引擎中查找公司地址,接著用地圖應用計算通勤時間,最后在筆記應用中記錄完整的分析結果。這種"跨應用信息傳遞"正是最考驗記憶力的場景,因為助手必須在不同應用界面切換的過程中保持對關鍵信息的記憶。
統計數據顯示,這128道題目中有89.8%的題目都涉及復雜的記憶挑戰,平均每道題需要36.2個操作步驟,其中78.1%的題目需要在多個應用間傳遞信息。題目難度分為三個等級:簡單(37.5%)、中等(32.8%)和困難(29.7%),確保能夠全面檢驗不同復雜度下的記憶表現。
更巧妙的是,研究團隊將這128道題目設計成64對"鏡像題目"。每對題目在應用組合和認知需求上相似,但具體要求不同。這樣的設計是為了測試AI助手的長期學習能力:如果助手在完成第一道題目時積累了經驗,理論上在做第二道類似題目時應該表現更好。
為了確保評測的公平性和可重復性,研究團隊還開發了一套"快照式"評測框架。這個框架就像是游戲中的存檔系統,每次測試前都能將手機環境恢復到完全相同的初始狀態,確保每個AI助手都在相同條件下接受考驗。這個系統還支持多次嘗試評測,讓AI助手有機會從失敗中學習,這在以往的評測中是完全缺失的功能。
三、革命性的自動評分系統:三階段漸進式判分法
評測AI助手的記憶任務比傳統的簡單操作任務要復雜得多,因為需要判斷助手是否真正記住并正確使用了關鍵信息。傳統的評測方法要么過于簡單粗暴,要么成本高昂且效果不佳。研究團隊為此開發了一套名為MemGUI-Eval的智能評分系統,它采用了創新的"漸進式細查"方法。
這套評分系統的工作原理很像一個經驗豐富的老師改作業的過程。老師不會一開始就仔細查看每一道題的詳細解答過程,而是先快速瀏覽,將明顯正確的答案快速判定,只有遇到疑難情況才會深入分析。
第一階段是"快速篩選"。系統只查看任務的最后三張截圖和基本操作記錄,就像老師只看作業的最終答案。如果結果明顯正確且完整,立即判定為成功,大大節省了評測成本。這個階段能夠處理約60%的明確成功案例,將評測效率提升了數倍。
第二階段是"語義分析"。當第一階段無法確定結果時,系統會啟動專門的"步驟描述員",為每個操作步驟生成詳細的文字說明,然后由"語義判斷員"綜合所有信息做出判斷。對于涉及記憶失敗的情況,系統還會啟動"信息保持率分析器",精確計算助手成功記住了多少比例的關鍵信息,比如要求記住3條新聞標題,助手只記住了2條,那么記憶保持率就是66.7%。
第三階段是"針對性視覺驗證"。這是整套系統最創新的部分。與傳統方法將所有截圖一股腦地給AI判斷不同,這個系統會讓第二階段的判斷員明確指出"我需要看第5步和第12步的截圖才能確定",然后系統精準地提供這些截圖進行最終判斷。這種"按需供給"的方式避免了信息過載,同時確保判斷的準確性。
為了驗證這套評分系統的可靠性,研究團隊進行了大規模對比實驗。結果顯示,他們的系統在準確性上達到了93.1%-99.0%,顯著優于現有方法,同時評測成本降低了60%以上。特別是在處理跨應用的復雜記憶任務時,傳統方法的準確率只有40%-61.5%,而新系統能夠維持94.1%-100%的高準確率。
四、震撼的評測結果:11個頂級AI助手的記憶力"體檢報告"
研究團隊對11個當前最先進的手機AI助手進行了全面的記憶力測試,結果讓人震驚。這就像是給一群被認為很聰明的學生進行了一次記憶力專項考試,發現他們的實際表現遠遠低于預期。
在單次嘗試的測試中,表現最好的M3A助手也只達到了32.8%的成功率,而大部分助手的表現更是慘不忍睹。特別是那些被設計為端到端模型的助手,如CogAgent完全無法完成任何記憶密集型任務,成功率為0%。即使是表現較好的助手,當任務從簡單(單應用)升級到復雜(四應用交叉)時,成功率會出現16-40個百分點的大幅下降。
更令人擔憂的是,當研究團隊將這些助手的表現與在傳統評測基準上的表現進行對比時,發現了巨大的能力差距。比如Agent-S2在AndroidWorld基準上能達到54.3%的成功率,但在記憶密集型任務上只有27.3%,下降了27個百分點。GUI-Owl-7B的表現差距更加懸殊,從66.4%暴跌到6.2%,降幅達60.2個百分點。這種4-10倍的能力差距表明,傳統評測嚴重高估了AI助手的實際能力。
研究團隊還通過專門的"記憶消融實驗"證實了記憶機制的重要性。他們系統性地移除了不同助手的記憶組件,結果發現短期記憶是絕對必需的。當移除M3A的記憶代理后,其成功率從32.5%暴跌到2.5%,信息保持率從35.1%直接歸零,助手完全無法記住任何信息。而長期記憶雖然不是必需的,但能帶來顯著提升。Agent-S2移除長期記憶后,多次嘗試成功率從45.0%下降到25.0%,失敗恢復率從15.5%降到9.1%。
跨應用復雜性被證實是記憶能力的最大殺手。當任務涉及的應用數量從1個增加到4個時,頂級助手的表現會出現斷崖式下跌。M3A從單應用的46.4%成功率下降到四應用的30.0%,而Agent-S2更是從50.0%暴跌到10.0%。這說明在不同應用界面間保持信息連貫性是當前AI助手面臨的最大挑戰。
令人驚喜的發現是,長上下文能力為記憶表現帶來了重大突破。當研究團隊讓M3A助手使用更長的對話歷史時,成功率從32.8%顯著提升到51.6%,提升幅度達18.8個百分點。這就像是給助手擴大了"工作臺"面積,讓它能同時處理更多信息而不會遺忘。
長期記憶的價值也得到了驗證,盡管目前還未被充分利用。Agent-S2通過其長期記憶機制,在多次嘗試中實現了21.9個百分點的性能提升,從單次的27.3%提升到三次嘗試的49.2%。這種學習能力讓人看到了AI助手未來發展的潛力,但目前只有少數助手具備這種能力。
然而,先進的記憶架構也付出了沉重的計算代價。Agent-S2雖然記憶能力最強,但每步操作需要27.5秒,而M3A只需5.3秒。更關鍵的是,在實際部署環境下的資源約束條件下,復雜的記憶系統往往會因為token消耗過大而完全失效,這為實際應用帶來了嚴峻挑戰。
五、失敗模式深度解析:五種"失憶癥"的診斷報告
通過對1265次任務執行的詳細分析,研究團隊識別出了五種典型的記憶失敗模式,這就像是為AI助手的"失憶癥"做了一次全面的醫學診斷。
第一種是"部分記憶幻覺",占非超時失敗的主要比例。這種情況就像是一個人記住了購物清單的前幾項,但后幾項卻記錯了。比如AI助手正確記住了NVIDIA股票價格是169.92美元,但卻將蘋果股票價格從實際的226.91美元錯誤記憶為143.92美元,導致最終計算結果完全錯誤。
第二種是"過程記憶幻覺",這是最普遍的失敗模式。助手在執行任務中途完全忘記了最終目標,就像是一個人走進房間卻忘記了自己要做什么。一個典型案例是助手被要求查找智能手機市場份額數據并記錄到筆記中,它成功找到了正確的圖表,但隨后就認為任務已經完成,完全忘記了還需要提取具體數據和創建筆記的步驟。
第三種是"輸出記憶幻覺",助手完成了正確的操作流程,但在最后輸出時遺漏了關鍵信息。這就像是一個學生做題過程都對,但抄答案時漏掉了幾個數字。比如助手成功查看了兩個完整的應用權限列表,每個列表都有9個應用,但在創建最終筆記時只記錄了其中的一部分。
第四種是"知識缺陷",助手缺乏完成任務所需的基礎知識。比如任務要求使用"N日歷"應用,但助手錯誤地將Google日歷識別為目標應用,這反映的是應用識別能力的不足,而非記憶問題。
第五種是"意圖誤解",助手誤解了任務要求。典型案例是任務要求比較兩個維基百科版本的文章數量并停留在文章更多的版本頁面,助手雖然正確識別出英文維基百科文章更多,但最終卻停留在了德文維基百科頁面,違背了任務要求。
統計分析顯示,記憶相關的幻覺現象(前三種模式)占所有非超時失敗的58.9%,證實了記憶缺陷確實是當前AI助手面臨的核心問題。不同類型的助手表現出不同的失敗特征:基于框架的助手更容易出現部分記憶幻覺,而端到端模型更容易出現過程記憶幻覺。
六、面向未來的設計啟示:五大改進方向
基于詳盡的失敗模式分析,研究團隊為未來的AI助手開發提出了五個重要的設計方向,這些建議就像是給AI助手開出的"記憶力提升處方"。
首要建議是開發"多粒度記憶緩沖區"。當前的助手就像是只有一個小抽屜來存放所有信息,當信息過多時就會混亂或遺失。更好的設計應該像是一個有多個分門別類抽屜的柜子,數字信息放一個抽屜,文字描述放另一個抽屜,界面狀態信息再放一個專門的抽屜,這樣能夠避免信息相互干擾和遺失。
第二個建議是實施"層次化任務分解"。目前的助手容易在復雜任務中迷失方向,就像是一個人手里拿著一長串購物清單卻不知道該按什么順序購買。更好的方案是將復雜任務分解為多個子任務,并在整個執行過程中持續追蹤總體目標的完成進度,確保不會在執行細節時忘記大目標。
第三個建議是"戰略性長上下文利用"。研究發現,簡單地將所有歷史對話拼接起來并不是使用長上下文的最佳方式。更聰明的做法是對信息進行重要性排序,將最關鍵的信息放在最容易被注意到的位置,同時壓縮或刪除不重要的冗余信息,就像是制作一份高質量的會議紀要而不是簡單的流水賬記錄。
第四個建議是建立"專門的長期記憶機制"。Agent-S2能夠實現21.5%的失敗恢復率和21.9個百分點的跨次嘗試提升,證明了專門的學習機制的價值。這就像是讓AI助手擁有一個"經驗筆記本",記錄成功的操作模式和失敗的教訓,在遇到類似情況時能夠快速調用相關經驗。
最后一個建議是開發"混合式架構"。當前存在一個明顯的權衡:基于框架的助手記憶能力強但計算消耗大,端到端模型效率高但記憶能力弱。理想的解決方案是結合兩者優勢,在處理簡單任務時使用輕量級模型,只有在需要復雜記憶操作時才啟動高級記憶系統,就像是汽車的混動系統在不同情況下選擇最適合的驅動方式。
七、影響與展望:向人類級別的智能助手邁進
這項研究的意義遠遠超出了學術范疇,它為整個AI助手行業指明了發展方向。當前我們對AI助手的期望與其實際能力之間存在巨大鴻溝,很大程度上正是因為缺乏有效的記憶機制。
MemGUI-Bench作為首個專門針對記憶能力的評測基準,填補了這一關鍵空白。它不僅揭示了現有技術的局限性,更重要的是為改進提供了明確的路徑。研究團隊承諾將所有代碼、基準測試和評估結果完全開源,并持續維護更新,這為整個社區的發展奠定了重要基礎。
從長遠來看,這項研究推動的技術進步將讓我們的手機AI助手變得更加智能和實用。設想一下,未來的助手能夠記住你的購物偏好,學會你的操作習慣,甚至從之前的錯誤中吸取經驗,變得越來越聰明。這樣的助手將不再是簡單的工具,而是真正意義上的智能伙伴。
當然,技術進步也帶來了新的挑戰。如何在提升記憶能力的同時控制計算成本,如何確保記憶信息的隱私和安全,如何防止AI助手"記住"錯誤信息并持續犯錯,這些都是未來需要解決的問題。
研究團隊的工作為這個快速發展的領域建立了重要的評測標準和改進方向。隨著更多研究者和開發者基于這個基準進行優化,我們有理由相信,具備強大記憶能力的AI助手將在不久的將來成為現實,真正實現人機交互的無縫體驗。
Q&A
Q1:MemGUI-Bench與傳統手機AI助手評測有什么不同?
A:MemGUI-Bench專門針對記憶能力設計,而傳統評測基準中只有5.2%-11.8%的任務涉及記憶。它包含128道精心設計的記憶挑戰題,其中89.8%需要跨應用信息記憶,并首次支持多次嘗試評測以檢驗長期學習能力,填補了記憶評測的空白。
Q2:為什么現在的手機AI助手記憶力這么差?
A:研究發現主要有五個原因:部分記憶幻覺(記住一些忘記一些)、過程記憶幻覺(中途忘記目標)、輸出記憶幻覺(操作對但輸出錯)、基礎知識缺陷和任務理解錯誤。其中記憶幻覺占非超時失敗的58.9%,說明記憶機制設計不足是核心問題。
Q3:哪種記憶機制對AI助手最重要?
A:短期記憶是絕對必需的,移除后助手基本失效,成功率會暴跌30個百分點以上,信息保持率直接歸零。長期記憶雖非必需但很有價值,Agent-S2的長期記憶能帶來21.9個百分點的提升和21.5%的失敗恢復率,而普通助手的恢復率僅0.8%-4.4%。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.