<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      機器人具身操作評估新范式來了,從此告別單一成功率指標

      0
      分享至



      作者介紹:劉夢源,北京大學深圳研究生院研究員,研究領域為人類行為理解與機器人技能學習;盛舉義,北京大學在讀博士研究生,研究方向為機器人操作技能學習方法研究;王梓懿、李培銘,北京大學在讀碩士研究生,研究方向為視頻理解分析;徐天銘,北京大學在讀碩士研究生,研究方向為機器人操作技能學習方法研究;徐天添,中國科學院深圳先進技術研究院集成所研究員,研究領域為磁控微型機器人導航、機器人的協同控制等;劉宏,北京大學深圳研究生院教授,研究領域為計算機視覺與智能機器人、機器學習與智能人機交互。



      • 論文標題:Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
      • 論文鏈接:https://arxiv.org/abs/2601.18723
      • 代碼鏈接: https://github.com/LogSSim/TERM-Bench

      隨著 Vision-Action (VA) 和 Vision-Language-Action (VLA) 模型的爆發,機器人模仿學習取得了長足進步。然而,當前的評估體系卻面臨著嚴重的「信任危機」。現有的評估范式主要依賴二元的「成功率(Success Rate)」,這種簡單的指標掩蓋了兩個關鍵問題:

      • 執行質量的模糊性(Gap 1):同樣是「成功」完成任務,模型 A 可能動作僵硬、伴隨劇烈抖動(Jerky Success),而模型 B 則行云流水。傳統的二元評價無法區分二者,導致潛在的安全隱患被忽視。
      • 來源的模糊性(Gap 2):在一些已有的展示視頻中,不僅難以判斷動作是否由真正的自主策略生成,甚至難以分辨其是否由人類遠程操作(Teleoperation)「冒充」。

      為了解決上述評估信任危機,北大與中科院團隊提出了一套完整的解決方案:Eval-Actions 評估基準與 AutoEval 自動化評估架構。該方案旨在從「細粒度動作質量」和「來源真實性」兩個維度,重塑機器人操作的評估標準。



      圖 1 (上) 評估危機:現有二元指標掩蓋了執行質量(如「抖動成功」與「平滑成功」的區別)和來源真實性(難以區分策略生成與人類遙操作)的模糊性。 (下) 解決方案:Eval-Actions 基準與 AutoEval 架構(綠色部分)相結合,填補了這兩大空白,實現了精準的細粒度質量評估與魯棒的來源驗證,顯著優于傳統的通用 VLM(紅色部分)。

      填補空白:首個面向評估完整性的 Eval-Actions 基準

      表格 1 機器人操作數據集的對比分析。與以模型訓練為核心、追求原始軌跡數據量最大化的數據集不同,Eval-Actions 以標注密度最大化為設計目標,獨有的優勢在于提供故障場景數據、混合軌跡數據源。



      為了打破現有數據集僅關注「成功演示」的局限,研究團隊構建了 Eval-Actions 基準。與 Open X-Embodiment 等以訓練為目的的數據集不同,Eval-Actions 專為診斷性評估而生。

      • 包含失敗場景:數據集不僅包含成功的軌跡,還創新性地引入了約 2.8k 條失敗數據。這對于模型學習錯誤恢復和魯棒的失敗檢測至關重要 。
      • 混合來源驗證:數據集混合了人類遙操作數據與多種策略(VA 及 VLA 模型)生成的軌跡,為驗證「來源真實性」提供了數據基礎。
      • 多維監督信號:提供了專家評分(Expert Grading)、排序引導(Rank-Guided)以及思維鏈(Chain-of-Thought, CoT)三種層次的注釋,支持從數值評分到邏輯推理的全方位評估。



      圖 2 Eval-Actions 基準概覽。包含從單臂到雙臂的 150 + 任務,并提供細粒度的質量雷達圖與 CoT 注釋。

      AutoEval:雙引擎驅動的自動化評估專家

      為了實現對機器人行為的精準診斷,團隊設計了 AutoEval 框架。它并未采用單一模型,而是針對不同的評估維度,創新性地提出了 AutoEval-S 和 AutoEval-P 兩種架構,分別解決「看不清細節」和「胡亂推理」的難題。

      1. AutoEval-S:精準捕捉動作細節

      傳統的 VLA 模型往往只能處理稀疏的關鍵幀,容易遺漏動作執行過程中的抖動或停頓。AutoEval-S(Small)引入了時空聚合策略(Spatio-Temporal Aggregation)。

      • 高頻細節壓縮:它并沒有簡單丟棄中間幀,而是將高頻的運動細節「壓縮」 進視覺 Token 中,最大化了時間信息的密度。
      • 物理信號校準:輔以運動學校準信號(Kinematic Calibration Signal),直接利用速度和加速度方差等物理數據來校準視覺評估,確保評分精準反映動作的平滑度與安全性。

      2. AutoEval-P:具備邏輯推理能力的「考官」

      當需要模型輸出思維鏈(CoT)進行解釋時,傳統模型常出現「幻覺」,即推理邏輯與打分不一致(例如嘴上說「動作完美」,實際上物體已經掉了)。AutoEval-P(Plus)引入了組相對策略優化(GRPO)范式。

      • 強制言行一致:通過強化學習,AutoEval-P 被訓練在生成評分的同時,必須給出邏輯自洽的物理推理。其混合獎勵函數(Hybrid Reward Function)同時約束內容的準確性和格式的規范性,有效消除了大模型的推理幻覺。



      圖 3 上分支 (AutoEval-S):專為評分與排序設計。采用時空聚合策略將高頻運動細節壓縮至視覺 Token,并輔以物理校準信號,精準捕捉動作中的細微抖動。下分支 (AutoEval-P):專為思維鏈(CoT)推理設計。引入 GRPO 強化學習范式,通過混合獎勵函數(內容 + 格式)強制模型生成邏輯自洽的物理推理與評分,有效解決大模型的「幻覺」問題 。

      實驗結果:樹立可信評估新標準

      在 Eval-Actions Small (EAS) 子集上的廣泛實驗表明,AutoEval 框架在多項指標上展現出卓越性能,全面超越了 InternVL、QwenVL 等通用大模型 。

      1. 極高的來源辨別力:讓「造假」無處遁形

      AutoEval 能夠以 99.6% 的準確率區分視頻是來自真實的策略生成還是人類遙操作,有效解決了「來源模糊性」問題,為機器人社區提供了一套權威的防偽工具。

      2. 細粒度評分高度對齊人類

      在衡量動作平滑度、安全性和效率的綜合質量評分上,AutoEval-S 與人類專家的判斷高度一致。

      • 在專家評分(EG)協議下,SRCC 達到 0.81 。
      • 在排序引導(RG)協議下,SRCC 高達 0.84,顯著優于未微調的 InternVL3.5-4B (SRCC ≈ 0.02) 和 QwenVL3-4B。

      表格 2 Eval-Actions 基準上的性能對比 在專家評分(EG)、排序引導(RG)及思維鏈(CoT)三種協議下,AutoEval 均取得了 SOTA 性能。特別是在 RG 協議下,AutoEval-S 的評分相關性(SRCC)達到 0.84,來源預測準確率高達 99.6%,遠超未微調的 InternVL 和 QwenVL 等基線模型。





      圖 4 細粒度動作質量評估的定性對比

      3. 跨構型泛化能力

      即使在未見過的 Franka 機器人數據上,AutoEval 依然保持了穩健的評估能力。AutoEval-S 在新形態機器人上仍能達到 0.75 的評分相關性(SRCC)和 90% 的來源預測準確率,展現了強大的跨實體泛化潛力 。

      表格 3 AutoEval 在未見構型 Franka 機械臂數據上的泛化實驗結果



      4. 區分遠程操作和策略執行視頻









      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老外看不下去了!吐槽國產手機抄襲iPhone:為了像蘋果 3個攝像頭里有1個是假的

      老外看不下去了!吐槽國產手機抄襲iPhone:為了像蘋果 3個攝像頭里有1個是假的

      快科技
      2026-02-01 11:55:44
      上賽季還在中超首發29場,博主:梅州客家28歲門將郭全博退役

      上賽季還在中超首發29場,博主:梅州客家28歲門將郭全博退役

      懂球帝
      2026-02-02 12:10:09
      大S一家沒說謊,主動放棄遺產,面相全變的具俊曄,證實她們的話

      大S一家沒說謊,主動放棄遺產,面相全變的具俊曄,證實她們的話

      銀河史記
      2026-01-31 16:06:46
      唐嫣彭冠英官宣后,惡心的一幕出現了,婚變傳聞終于真相大白

      唐嫣彭冠英官宣后,惡心的一幕出現了,婚變傳聞終于真相大白

      艷姐的搞笑視頻
      2026-01-16 13:24:42
      萬億央企蛀蟲終于揪出來了!離職七年難逃法網,25年腐化史現真容

      萬億央企蛀蟲終于揪出來了!離職七年難逃法網,25年腐化史現真容

      墨蘭史書
      2026-01-06 11:30:03
      喬治被禁賽25場,并沒有想象的那么嚴重,但有3點你一定要知道!

      喬治被禁賽25場,并沒有想象的那么嚴重,但有3點你一定要知道!

      田先生籃球
      2026-02-01 10:12:42
      有哪些說話給人下套的例子?網友:偏僻叫不到代駕,都給安排明白

      有哪些說話給人下套的例子?網友:偏僻叫不到代駕,都給安排明白

      夜深愛雜談
      2026-01-21 20:01:54
      中日一旦爆發戰爭,一天拿下日本現實嗎?打一年都難,想壓住都難

      中日一旦爆發戰爭,一天拿下日本現實嗎?打一年都難,想壓住都難

      我心縱橫天地間
      2026-02-01 13:30:11
      貪財好色、薄情寡義、直播哭窮,近期這4位老戲骨翻車理由太離譜

      貪財好色、薄情寡義、直播哭窮,近期這4位老戲骨翻車理由太離譜

      說歷史的老牢
      2026-01-05 15:07:58
      侯寶林用相聲逗得毛主席哈哈大笑,主席大贊:侯先生,再來一個

      侯寶林用相聲逗得毛主席哈哈大笑,主席大贊:侯先生,再來一個

      歷史龍元閣
      2026-02-01 11:50:13
      卡拉格:足球沒有離開卡塞米羅,他和之前判若兩人

      卡拉格:足球沒有離開卡塞米羅,他和之前判若兩人

      懂球帝
      2026-02-02 12:54:30
      阿倫生涯之夜!29分鐘轟40+17連刷新高 完爆克林根騎士官方曬海報

      阿倫生涯之夜!29分鐘轟40+17連刷新高 完爆克林根騎士官方曬海報

      顏小白的籃球夢
      2026-02-02 12:19:43
      3度遷徙!張本智和官宣遷居德國,日本隊措手不及,妹妹會跟風嗎

      3度遷徙!張本智和官宣遷居德國,日本隊措手不及,妹妹會跟風嗎

      卿子書
      2026-02-01 14:59:33
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      捷克掌控4大頂端技術,就連美國也甘拜下風,這幾項你都知道嗎?

      捷克掌控4大頂端技術,就連美國也甘拜下風,這幾項你都知道嗎?

      史海孤雁
      2026-01-29 16:26:13
      為什么要得饒人處且饒人?網友:做人留一線,日后好相見

      為什么要得饒人處且饒人?網友:做人留一線,日后好相見

      夜深愛雜談
      2026-01-29 17:46:11
      泰倫盧:我不是針對誰,在座的全明星替補都是垃圾!

      泰倫盧:我不是針對誰,在座的全明星替補都是垃圾!

      貴圈真亂
      2026-02-02 12:07:36
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      第7情感
      2025-09-17 12:12:15
      特朗普重兵包圍伊朗,普京通告全球:敢動就出手!中方也有所動作

      特朗普重兵包圍伊朗,普京通告全球:敢動就出手!中方也有所動作

      芳芳歷史燴
      2026-01-28 19:19:02
      2026-02-02 14:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12233文章數 142562關注度
      往期回顧 全部

      科技要聞

      元寶發10億紅包,阿里千問:我跟30億

      頭條要聞

      外媒:伊朗正處于最弱時期 是推翻現有政權的最佳時機

      頭條要聞

      外媒:伊朗正處于最弱時期 是推翻現有政權的最佳時機

      體育要聞

      澳網男單決賽,屬于阿爾卡拉斯的加冕儀式

      娛樂要聞

      周杰倫帶王俊凱陳奕迅聚餐 暢聊音樂

      財經要聞

      國六貨車被迫"換頭" 每次收費超200元

      汽車要聞

      雷克薩斯LC500將于今年底停產 "最美雷克薩斯"謝幕

      態度原創

      教育
      手機
      數碼
      旅游
      時尚

      教育要聞

      這篇小學生的作文《我的爸爸》,真實了多少中年老父親

      手機要聞

      蘋果探索小折疊屏:iPhone也能翻蓋了

      數碼要聞

      消息稱為REDMI K Pad 2小平板上半年登場,搭載正代旗艦芯

      旅游要聞

      破解“小語種”瓶頸:河南集訓150名導游,搶抓入境游機遇

      普通人衣服沒必要買太多,準備好這些單品,簡單實用又耐看

      無障礙瀏覽 進入關懷版