![]()
作者介紹:劉夢源,北京大學深圳研究生院研究員,研究領域為人類行為理解與機器人技能學習;盛舉義,北京大學在讀博士研究生,研究方向為機器人操作技能學習方法研究;王梓懿、李培銘,北京大學在讀碩士研究生,研究方向為視頻理解分析;徐天銘,北京大學在讀碩士研究生,研究方向為機器人操作技能學習方法研究;徐天添,中國科學院深圳先進技術研究院集成所研究員,研究領域為磁控微型機器人導航、機器人的協同控制等;劉宏,北京大學深圳研究生院教授,研究領域為計算機視覺與智能機器人、機器學習與智能人機交互。
![]()
- 論文標題:Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
- 論文鏈接:https://arxiv.org/abs/2601.18723
- 代碼鏈接: https://github.com/LogSSim/TERM-Bench
隨著 Vision-Action (VA) 和 Vision-Language-Action (VLA) 模型的爆發,機器人模仿學習取得了長足進步。然而,當前的評估體系卻面臨著嚴重的「信任危機」。現有的評估范式主要依賴二元的「成功率(Success Rate)」,這種簡單的指標掩蓋了兩個關鍵問題:
- 執行質量的模糊性(Gap 1):同樣是「成功」完成任務,模型 A 可能動作僵硬、伴隨劇烈抖動(Jerky Success),而模型 B 則行云流水。傳統的二元評價無法區分二者,導致潛在的安全隱患被忽視。
- 來源的模糊性(Gap 2):在一些已有的展示視頻中,不僅難以判斷動作是否由真正的自主策略生成,甚至難以分辨其是否由人類遠程操作(Teleoperation)「冒充」。
為了解決上述評估信任危機,北大與中科院團隊提出了一套完整的解決方案:Eval-Actions 評估基準與 AutoEval 自動化評估架構。該方案旨在從「細粒度動作質量」和「來源真實性」兩個維度,重塑機器人操作的評估標準。
![]()
圖 1 (上) 評估危機:現有二元指標掩蓋了執行質量(如「抖動成功」與「平滑成功」的區別)和來源真實性(難以區分策略生成與人類遙操作)的模糊性。 (下) 解決方案:Eval-Actions 基準與 AutoEval 架構(綠色部分)相結合,填補了這兩大空白,實現了精準的細粒度質量評估與魯棒的來源驗證,顯著優于傳統的通用 VLM(紅色部分)。
填補空白:首個面向評估完整性的 Eval-Actions 基準
表格 1 機器人操作數據集的對比分析。與以模型訓練為核心、追求原始軌跡數據量最大化的數據集不同,Eval-Actions 以標注密度最大化為設計目標,獨有的優勢在于提供故障場景數據、混合軌跡數據源。
![]()
為了打破現有數據集僅關注「成功演示」的局限,研究團隊構建了 Eval-Actions 基準。與 Open X-Embodiment 等以訓練為目的的數據集不同,Eval-Actions 專為診斷性評估而生。
- 包含失敗場景:數據集不僅包含成功的軌跡,還創新性地引入了約 2.8k 條失敗數據。這對于模型學習錯誤恢復和魯棒的失敗檢測至關重要 。
- 混合來源驗證:數據集混合了人類遙操作數據與多種策略(VA 及 VLA 模型)生成的軌跡,為驗證「來源真實性」提供了數據基礎。
- 多維監督信號:提供了專家評分(Expert Grading)、排序引導(Rank-Guided)以及思維鏈(Chain-of-Thought, CoT)三種層次的注釋,支持從數值評分到邏輯推理的全方位評估。
![]()
圖 2 Eval-Actions 基準概覽。包含從單臂到雙臂的 150 + 任務,并提供細粒度的質量雷達圖與 CoT 注釋。
AutoEval:雙引擎驅動的自動化評估專家
為了實現對機器人行為的精準診斷,團隊設計了 AutoEval 框架。它并未采用單一模型,而是針對不同的評估維度,創新性地提出了 AutoEval-S 和 AutoEval-P 兩種架構,分別解決「看不清細節」和「胡亂推理」的難題。
1. AutoEval-S:精準捕捉動作細節
傳統的 VLA 模型往往只能處理稀疏的關鍵幀,容易遺漏動作執行過程中的抖動或停頓。AutoEval-S(Small)引入了時空聚合策略(Spatio-Temporal Aggregation)。
- 高頻細節壓縮:它并沒有簡單丟棄中間幀,而是將高頻的運動細節「壓縮」 進視覺 Token 中,最大化了時間信息的密度。
- 物理信號校準:輔以運動學校準信號(Kinematic Calibration Signal),直接利用速度和加速度方差等物理數據來校準視覺評估,確保評分精準反映動作的平滑度與安全性。
2. AutoEval-P:具備邏輯推理能力的「考官」
當需要模型輸出思維鏈(CoT)進行解釋時,傳統模型常出現「幻覺」,即推理邏輯與打分不一致(例如嘴上說「動作完美」,實際上物體已經掉了)。AutoEval-P(Plus)引入了組相對策略優化(GRPO)范式。
- 強制言行一致:通過強化學習,AutoEval-P 被訓練在生成評分的同時,必須給出邏輯自洽的物理推理。其混合獎勵函數(Hybrid Reward Function)同時約束內容的準確性和格式的規范性,有效消除了大模型的推理幻覺。
![]()
圖 3 上分支 (AutoEval-S):專為評分與排序設計。采用時空聚合策略將高頻運動細節壓縮至視覺 Token,并輔以物理校準信號,精準捕捉動作中的細微抖動。下分支 (AutoEval-P):專為思維鏈(CoT)推理設計。引入 GRPO 強化學習范式,通過混合獎勵函數(內容 + 格式)強制模型生成邏輯自洽的物理推理與評分,有效解決大模型的「幻覺」問題 。
實驗結果:樹立可信評估新標準
在 Eval-Actions Small (EAS) 子集上的廣泛實驗表明,AutoEval 框架在多項指標上展現出卓越性能,全面超越了 InternVL、QwenVL 等通用大模型 。
1. 極高的來源辨別力:讓「造假」無處遁形
AutoEval 能夠以 99.6% 的準確率區分視頻是來自真實的策略生成還是人類遙操作,有效解決了「來源模糊性」問題,為機器人社區提供了一套權威的防偽工具。
2. 細粒度評分高度對齊人類
在衡量動作平滑度、安全性和效率的綜合質量評分上,AutoEval-S 與人類專家的判斷高度一致。
- 在專家評分(EG)協議下,SRCC 達到 0.81 。
- 在排序引導(RG)協議下,SRCC 高達 0.84,顯著優于未微調的 InternVL3.5-4B (SRCC ≈ 0.02) 和 QwenVL3-4B。
表格 2 Eval-Actions 基準上的性能對比 在專家評分(EG)、排序引導(RG)及思維鏈(CoT)三種協議下,AutoEval 均取得了 SOTA 性能。特別是在 RG 協議下,AutoEval-S 的評分相關性(SRCC)達到 0.84,來源預測準確率高達 99.6%,遠超未微調的 InternVL 和 QwenVL 等基線模型。
![]()
![]()
圖 4 細粒度動作質量評估的定性對比
3. 跨構型泛化能力
即使在未見過的 Franka 機器人數據上,AutoEval 依然保持了穩健的評估能力。AutoEval-S 在新形態機器人上仍能達到 0.75 的評分相關性(SRCC)和 90% 的來源預測準確率,展現了強大的跨實體泛化潛力 。
表格 3 AutoEval 在未見構型 Franka 機械臂數據上的泛化實驗結果
![]()
4. 區分遠程操作和策略執行視頻

![]()

![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.