讓機器人把指定顏色的立方體放進箱子并準確計數(shù),在物體被遮擋后仍能追蹤其位置,重復之前演示過的動作軌跡,這些看似簡單的操作,背后都離不開"記憶"的支撐。長期以來,機器人在復雜場景下的歷史依賴型任務表現(xiàn)不佳,核心原因之一就是缺乏標準化的記憶能力評估體系。
![]()
密歇根大學、斯坦福大學、Figure AI等機構聯(lián)合推出的RoboMME benchmark,首次將機器人記憶劃分為 temporal(時間)、spatial(空間)、object(物體)、procedural(程序)四大維度,通過16個細分任務和770k高質量訓練時序,為記憶增強型機器人策略提供了統(tǒng)一的評估標準。這一突破不僅解決了此前評估碎片化的問題,更通過14種記憶增強型VLA模型的對比實驗,揭示了不同記憶表征的適用場景。
01.
為什么機器人"記性差"?傳統(tǒng)評估的三大痛點
在RoboMME出現(xiàn)之前,機器人記憶相關的評估一直存在明顯短板。現(xiàn)有基準要么只聚焦單一記憶類型,比如MemoryBench僅關注空間記憶,要么任務 horizon 過短,無法真正考驗長期記憶能力。更關鍵的是,大多數(shù)基準允許機器人僅通過即時感知就能完成任務,難以觸發(fā)真正的歷史依賴推理。
實際應用中,機器人需要處理的場景遠比想象中復雜。比如家庭服務機器人擦拭桌子時,需要記住已經(jīng)清潔過的區(qū)域;工業(yè)機器人裝配零件時,要回憶上一步的操作位置;甚至簡單的"重復三次動作"指令,都需要時間記憶來計數(shù)。這些任務的共同特點是,相同的當前觀測可能對應不同的歷史背景,必須依賴記憶才能做出正確決策。
RoboMME的核心創(chuàng)新在于,所有任務都被設計為非馬爾可夫過程,強制機器人調用歷史信息。例如在StopCube任務中,機器人需要監(jiān)測不斷擺動的立方體,在它第N次經(jīng)過目標時精準按下停止按鈕,既需要記住次數(shù)(時間記憶),又要追蹤位置(空間記憶),任何單一感知都無法完成。
02.
四大記憶維度+16項任務,全面覆蓋機器人記憶場景
RoboMME的任務設計靈感源自人類記憶的認知理論,將機器人記憶需求拆解為四個核心維度,每個維度對應四個細分任務,形成完整的評估體系。
![]()
時間記憶(temporal memory)聚焦事件計數(shù)與序列排序,典型任務包括BinFill和StopCube。在BinFill中,機器人需要將指定數(shù)量的不同顏色立方體放入不透明箱子,由于無法直接觀察箱內情況,必須通過記憶追蹤已放置的數(shù)量;而StopCube則要求在立方體第2-5次經(jīng)過目標時按下按鈕,考驗精準的時序計數(shù)能力。
空間記憶(spatial memory)側重遮擋與場景變化下的位置追蹤,VideoUnmaskSwap任務最具代表性。機器人先觀看容器遮擋立方體并交換位置的視頻,隨后需要準確找出隱藏目標立方體的容器,整個過程中無法依賴實時視覺反饋,完全依靠對視頻中空間關系的記憶。
物體記憶(object memory)關注跨時間的物體身份識別,PickHighlight任務中,機器人按下按鈕后會看到特定立方體被短暫高亮,之后需要在無高亮提示的情況下,準確拾取之前記住的目標物體。而VideoRepick任務則要求機器人從視頻中學習特定立方體的特征,即使該立方體被移動或與其他相似物體混合,仍能重復拾取動作。
程序記憶(procedural memory)負責存儲和復現(xiàn)動作模式,PatternLock任務中,機器人需要觀看演示視頻中末端執(zhí)行器在網(wǎng)格上的移動軌跡,之后精準復現(xiàn)相同的路徑順序,誤差超過閾值即判定失敗。InsertPeg任務則要求記住拾取釘子的特定端部和插入方向,考驗精細動作的記憶能力。
![]()
這些任務的難度分為簡單、中等、困難三個等級,通過場景雜亂度、任務時長和環(huán)境動態(tài)性調節(jié)。數(shù)據(jù)集中包含1600個演示樣本,單個任務的執(zhí)行步數(shù)從幾百到一千多不等,充分模擬真實場景中的長 horizon 需求。
![]()
03.
14種模型實測:沒有"萬能記憶",只有"精準匹配"
基于RoboMME基準,研究團隊構建了14種記憶增強型VLA模型,均基于π?.?骨干網(wǎng)絡,分別采用symbolic(符號)、perceptual(感知)、recurrent(循環(huán))三種記憶表征,搭配三種不同的整合機制,形成完整的對比體系。
![]()
符號記憶通過語言子目標總結歷史信息,比如將"已放置2個綠色立方體"編碼為文本指令,再與任務描述拼接輸入模型。實驗中,采用QwenVL生成的grounded subgoals(帶坐標標注的子目標)在BinFill等計數(shù)任務中表現(xiàn)突出,成功率達到72.08%,但在StopCube等時間敏感型任務中幾乎失效,成功率接近0。這是因為語言符號難以捕捉精細的時序動態(tài)信息。
![]()
感知記憶直接保留歷史視覺特征,通過幀采樣(FrameSamp)或令牌丟棄(TokenDrop)篩選關鍵視覺信息。其中FrameSamp+Modul組合表現(xiàn)最佳,整體成功率達到44.51%,在PatternLock等動作復現(xiàn)任務中優(yōu)勢明顯,成功率高達53.56%。值得注意的是,TokenDrop由于過度裁剪空間上下文,在需要全局視野的任務中表現(xiàn)不如FrameSamp,印證了視覺完整性對空間記憶的重要性。
循環(huán)記憶通過TTT(測試時訓練)或RMT(循環(huán)記憶Transformer)壓縮歷史信息,但其表現(xiàn)出人意料地最差,整體成功率僅在18%-22%之間。研究人員分析,這可能是因為π?.?的淺層循環(huán)結構導致訓練不穩(wěn)定,有效的循環(huán)記憶需要更深層次的架構整合。
三種整合機制中,memory-as-modulator(記憶作為調制器)表現(xiàn)最為均衡,通過自適應LayerNorm調節(jié)動作專家的中間激活,既保留了原始模型的預訓練特征,又能有效融入記憶信息。而memory-as-expert雖然增加了專門的記憶處理模塊,但由于參數(shù)規(guī)模擴大和訓練難度增加,并未帶來顯著性能提升。
04.
效率與性能的平衡:感知記憶成最優(yōu)解
在機器人實際部署中,計算效率與性能同樣重要。RoboMME的實驗顯示,不同記憶表征的計算成本差異顯著:依賴外部VLM生成子目標的符號記憶模型,計算量是基礎π?.?的3倍;MemER模型由于結合了關鍵幀存儲和符號子目標,計算量更是達到5倍。
相比之下,感知記憶模型展現(xiàn)出更優(yōu)的效率-性能平衡。FrameSamp+Modul在記憶預算從64增加到512 tokens的過程中,成功率穩(wěn)步提升,而計算量僅適度增加。這是因為其計算主要集中在視覺令牌處理,記憶整合本身僅引入輕微開銷。研究人員發(fā)現(xiàn),通過緩存重復的視覺令牌或減少VLM推理頻率,還能進一步降低計算成本。
![]()
更重要的是,這些趨勢在真實世界實驗中得到了驗證。在對應BinFill的PutFruits任務中,符號記憶模型成功率達到90%,擅長計數(shù);而在模仿軌跡的DrawPattern任務中,感知記憶模型成功率80%,遠超前兩者。這表明RoboMME在仿真環(huán)境中得出的結論具有很強的遷移價值。
05.
人類vs機器:90.5% vs 44.51%,差距在哪里?
為了建立性能上限,研究團隊還進行了人類對比實驗。18名參與者通過VideoQA方式選擇高level動作,由oracle planner負責低level執(zhí)行,最終達到90.5%的整體成功率。但人類并非完美,在長horizon的PatternLock任務和時間敏感的StopCube任務中,仍會出現(xiàn)忘記軌跡細節(jié)或計數(shù)錯誤的情況。
![]()
人類與最優(yōu)模型(FrameSamp+Modul)的差距主要體現(xiàn)在三個方面:一是對模糊信息的處理能力,人類能快速識別關鍵歷史信息,而機器容易被冗余數(shù)據(jù)干擾;二是記憶的泛化性,人類能將一種場景的記憶經(jīng)驗遷移到相似任務,機器則依賴大量標注數(shù)據(jù);三是錯誤恢復能力,人類發(fā)現(xiàn)記憶偏差后能快速調整,機器往往會持續(xù)犯錯。
這些差距也指明了未來的研究方向。研究團隊表示,RoboMME目前聚焦桌面操作場景,未來將擴展到移動操作任務,并引入更多VLA骨干網(wǎng)絡。而結合符號記憶的高-level推理優(yōu)勢和感知記憶的低-level精準性,可能是實現(xiàn)更強大記憶增強型機器人的關鍵路徑。
從技術落地來看,RoboMME的價值不僅在于評估,更在于為實際開發(fā)提供指導。比如工業(yè)機器人可優(yōu)先采用感知記憶提升裝配精度,服務機器人可結合符號記憶優(yōu)化任務規(guī)劃,這些基于實驗數(shù)據(jù)的選型建議,將加速記憶增強型機器人的產業(yè)化進程。隨著基準的完善和模型的迭代,未來機器人有望真正擺脫"健忘"的標簽,在復雜場景中展現(xiàn)出類人的記憶與推理能力。
論文地址:https://arxiv.org/abs/2603.04639
項目地址:https://robomme.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.