網易首頁 > 網易號 > 正文申請入駐

效率提升25%，靈巧操作數采困境被「臂-手共享自主框架」解決

2025-12-11 18:36:57　來源: 機器之心Pro

河北舉報

分享至

實現通用機器人的類人靈巧操作能力，是機器人學領域長期以來的核心挑戰之一。近年來，視覺 - 語言 - 動作 (Vision-Language-Action，VLA) 模型在機器人技能學習方面展現出顯著潛力，但其發展受制于一個根本性瓶頸：高質量操作數據的獲取。

ByteDance Seed 團隊最新的研究論文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1]，針對這一關鍵問題提出了解決方案。

該研究的核心貢獻在于提出了共享自主 (Shared Autonomy) 框架，通過合理劃分人類操作員與自主 AI 系統的控制職責——人通過 VR 遙操作控制機械臂 (負責高層定位和避障)，DexGrasp-VLA 自主控制靈巧手 (負責精細抓握)，消除了同時遙操作臂和靈巧手的需求，大幅降低操作員認知負荷，有效解決了機器人部署中最關鍵的數據采集成本問題。通過將數據采集效率提升至可規模化的水平，它為靈巧操作技術從實驗室走向工業應用奠定了基礎。

Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1]

觸覺增強的 DexGrasp-VLA 策略通過共享自主框架高效采集數據，結合臂手特征增強模塊訓練端到端策略，并通過糾正性人機閉環實現持續優化。

基于共享自主框架的端到端機械臂 - 靈巧手 VLA 策略學習：通過 DexGrasp AI 進行高效遙操作：

https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ

一、四大核心：實現了從數據采集到策略優化的閉環

論文的核心問題在于如何為高自由度靈巧手 + 機械臂系統高效地采集高質量的演示數據，以訓練出具備通用操作能力的 VLA 策略。高自由度五指靈巧手的控制復雜度遠超傳統的兩指夾爪，對數據質量和控制精度提出了更高的要求。

該研究構建了一個由四大核心模塊組成的完整技術體系，實現了從數據采集到策略優化的閉環。

1. 核心策略: DexGrasp-VLA，打造共享自主框架的基石

DexGrasp-VLA 是一個專為靈巧手設計的自主抓取策略，是本文共享自主框架的基石。它是一個多模態 VLA 模型，其輸入不僅包括語言指令、視覺和本體感知，更關鍵的是集成了觸覺反饋。

該策略的實現得益于其所搭載的靈巧手 - 星動紀元星動 XHAND1 的硬件能力。星動 XHAND1 是一款全直驅 12 自由度的五指靈巧手，其指尖集成了高分辨率的觸覺傳感器。這些傳感器能夠提供合力向量和空間接觸分布（環繞指端 270 度，120 點空間觸覺陣列）兩種關鍵觸覺特征。DexGrasp-VLA 正是利用這些高保真度的觸覺數據，實現了力適應性抓取 (Force-Adaptive Grasping)，能夠根據物體的形態而動態調整握力，從而在不捏碎易碎品的同時穩固抓取重物。

Tactile-based DexGrasp-VLA for hand control [1]

在雜亂桌面場景中使用 DexGrasp-VLA 進行清桌操作。

https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ

2. 人機臂手協同共享框架，高效采集高質量操作數據

共享自主框架將控制任務按照運動域進行拆分：

人類操作者通過 VR 端主要負責機械臂的大范圍移動與整體姿態控制；
DexGrasp-VLA則專注于自主控制星動 XHAND 1 靈巧手的 12 個獨立自由度，實現精細操作。

Fully manual teleoperation versus the proposed Shared Autonomy [1]

這樣的設計源于臂與手在運動學本質上的巨大差異 —— 機械臂強調穩定、連續、較長時間尺度的軌跡控制，而靈巧手則必須處理柔順接觸、快速響應與高頻細節動作。正因如此，將復雜度最高的手部控制交由 AI 自動處理，可以顯著減輕人類操作者的認知及操作負擔。操作者無需再時刻處理每一根手指的微小動作，只需專注于大方向和策略性決策。

最終，這套分工機制讓系統能夠更高效地采集高質量的臂手協同演示數據，為后續訓練具備通用操作能力的 VLA 策略打下穩定基礎。

3. 臂手特征增強模塊，實現更自然、更魯棒的宏觀 - 微觀動作協調

為了解決臂手協調這一復雜問題，論文提出了臂手特征增強 (Arm-Hand Feature Enhancement) 模塊。

Arm-hand feature enhancement for the VLA policy [1]

該模塊旨在建模和融合臂和手在運動學上的差異特征。它采用三流架構：共享任務表示、手臂專用編碼器和手部專用編碼器。這種解耦設計避免了傳統單體架構模型對臂手差異的忽視，使得最終的策略能夠實現更自然、更魯棒的宏觀 - 微觀動作協調。

4. 持續優化機制：糾正性人機閉環，讓機器人能夠從失敗中學習

該研究引入了糾正性人機閉環 (Corrective Human-in-the-Loop) 機制，讓機器人能夠從失敗中學習。當機器人抓取失敗時，人類操作員可以立即接管并演示正確的操作方法。系統會自動記錄這次失敗的過程和人類糾正后的成功過程，并將這兩段數據作為「難題案例」加入訓練集。

通過這種方式，策略能夠不斷迭代優化，逐步學會應對各種邊緣案例 (corner cases), 變得越來越聰明和可靠。

Corrective human-in-the-loop teleoperation system [1]

端到端的機械臂 - 靈巧手 VLA 策略

https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ

二、星動 XHAND1 全直驅 + 觸覺顯著提升策略的協調性和魯棒性

Hardware setup of the integrated robotic system.[1]

硬件平臺：主要使用星動 XHAND1 靈巧手和 UR3e 機械臂。為驗證泛化性，還使用了 RY-H2 靈巧手。
視覺系統: 3 臺 RGB-D 相機 (2 臺外部，1 臺腕部)，提供多視角視覺輸入。
測試對象：超過 50 種日常物品，包括未在訓練中見過的物體，以測試泛化能力。
觸覺感知的有效性
星動 XHAND1 提供的高保真觸覺反饋是實現魯棒抓取的必要條件。當視覺被剝奪時，正是星動 XHAND1 的觸覺傳感器陣列提供了維持穩定抓握所需的信息。實驗數據顯示:

無觸覺：成功率僅為 21%。
僅有觸覺合力反饋：成功率提升至 70%。
合力反饋 + 空間觸覺分布：成功率高達 90%。

這種高成功率直接來源于星動 XHAND1 的兩個特性:
高靈敏度觸覺：能夠精確感知與易碎品接觸時的微小力變化
高精度位控：能夠根據觸覺反饋，精確輸出目標位置，避免捏碎物體

Representative cases of grasping cylindrical and spherical objects， visualizing the distribution of surface contacts measured by tactile sensors at fingertips.[1]

臂手特征增強模塊的有效性
對比了使用和不使用「臂手特征增強模塊」的策略在三個場景下的表現: (1) 星動 XHAND1 (12-DoF 全主動，270° 環繞觸覺陣列 (120 點)); (2) RY-H2 (11-DoF:6 主動 + 5 欠驅動，無觸覺); (3) 遮擋右側相機。
此外對比欠驅的 RY-H2，算法能夠更充分地利用全直驅星動 XHAND1 的多關節靈活性，實現更自然的協調動作

此結果證明該模塊顯著提升了策略的協調性和魯棒性。
糾正性人機閉環的有效性
通過不斷注入人類糾正的失敗案例 (如物體方向錯誤、位置在角落等)，迭代訓練策略。該機制能有效實現策略的持續改進和對邊緣案例的泛化。

三、靈巧操作高質量數據采集效率提升 25%

該研究通過提出共享自主框架，推動了靈巧操作領域高質量數據采集效率提升 25%，使單人每小時可采集更多條數據，并將完整開發 - 部署周期壓縮至一天以內，從根本上解決了 VLA 模型訓練的數據瓶頸問題。

該研究通過在超過 50 種物體上實現約 90% 的抓取成功率這一接近工業標準的性能水平，推動了靈巧操作技術從概念驗證向實際部署的關鍵跨越，為機器人在柔性制造、智能物流和服務機器人等領域的大規模應用鋪路。

Grasping diverse objects with variations in size， color， and material properties.[1]

未來工作

論文展望了三個主要的未來研究方向。當前框架主要在抓取任務上得到了驗證，未來可以通過引入更多專用的 AI 輔助控制器 (VLA Copilot 模塊)，將其拓展至物體重定向、精密插放和長時程操作等更復雜的場景。

雖然觸覺反饋對抓取穩定性至關重要，但在端到端臂手控制中仍面臨噪聲干擾和時序錯位等挑戰，因此需要探索更智能的融合機制，例如根據任務階段動態調整觸覺、視覺和本體感受的權重。

此外，當前的糾正機制仍需人工介入，這在一定程度上限制了系統的可擴展性。未來可以借助強化學習實現系統的自主錯誤識別和恢復，并利用視覺 - 語言模型感知任務復雜度和環境風險，智能地決定何時獨立運行、何時請求人類協助，最終實現從人機協作向完全自主的平滑過渡。

參考文獻

[1] End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection. ByteDance Seed. 2025.（https://arxiv.org/pdf/2511.00139）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.