![]()
實現通用機器人的類人靈巧操作能力,是機器人學領域長期以來的核心挑戰之一。近年來,視覺 - 語言 - 動作 (Vision-Language-Action,VLA) 模型在機器人技能學習方面展現出顯著潛力,但其發展受制于一個根本性瓶頸:高質量操作數據的獲取。
ByteDance Seed 團隊最新的研究論文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1],針對這一關鍵問題提出了解決方案。
該研究的核心貢獻在于提出了共享自主 (Shared Autonomy) 框架,通過合理劃分人類操作員與自主 AI 系統的控制職責——人通過 VR 遙操作控制機械臂 (負責高層定位和避障),DexGrasp-VLA 自主控制靈巧手 (負責精細抓握),消除了同時遙操作臂和靈巧手的需求,大幅降低操作員認知負荷,有效解決了機器人部署中最關鍵的數據采集成本問題。通過將數據采集效率提升至可規模化的水平,它為靈巧操作技術從實驗室走向工業應用奠定了基礎。
![]()
Data collection and training pipeline for DexGrasp-VLA policy and arm-hand VLA policies.[1]
觸覺增強的 DexGrasp-VLA 策略通過共享自主框架高效采集數據,結合臂手特征增強模塊訓練端到端策略,并通過糾正性人機閉環實現持續優化。
基于共享自主框架的端到端機械臂 - 靈巧手 VLA 策略學習:通過 DexGrasp AI 進行高效遙操作:
![]()
https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ
一、四大核心:實現了從數據采集到策略優化的閉環
論文的核心問題在于如何為高自由度靈巧手 + 機械臂系統高效地采集高質量的演示數據,以訓練出具備通用操作能力的 VLA 策略。高自由度五指靈巧手的控制復雜度遠超傳統的兩指夾爪,對數據質量和控制精度提出了更高的要求。
![]()
該研究構建了一個由四大核心模塊組成的完整技術體系,實現了從數據采集到策略優化的閉環。
1. 核心策略: DexGrasp-VLA,打造共享自主框架的基石
DexGrasp-VLA 是一個專為靈巧手設計的自主抓取策略,是本文共享自主框架的基石。它是一個多模態 VLA 模型,其輸入不僅包括語言指令、視覺和本體感知,更關鍵的是集成了觸覺反饋。
該策略的實現得益于其所搭載的靈巧手 - 星動紀元星動 XHAND1 的硬件能力。星動 XHAND1 是一款全直驅 12 自由度的五指靈巧手,其指尖集成了高分辨率的觸覺傳感器。這些傳感器能夠提供合力向量和空間接觸分布(環繞指端 270 度,120 點空間觸覺陣列)兩種關鍵觸覺特征。DexGrasp-VLA 正是利用這些高保真度的觸覺數據,實現了力適應性抓取 (Force-Adaptive Grasping),能夠根據物體的形態而動態調整握力,從而在不捏碎易碎品的同時穩固抓取重物。
![]()
Tactile-based DexGrasp-VLA for hand control [1]
在雜亂桌面場景中使用 DexGrasp-VLA 進行清桌操作。
![]()
https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ
2. 人機臂手協同共享框架,高效采集高質量操作數據
共享自主框架將控制任務按照運動域進行拆分:
- 人類操作者通過 VR 端主要負責機械臂的大范圍移動與整體姿態控制;
- DexGrasp-VLA則專注于自主控制星動 XHAND 1 靈巧手的 12 個獨立自由度,實現精細操作。
![]()
Fully manual teleoperation versus the proposed Shared Autonomy [1]
這樣的設計源于臂與手在運動學本質上的巨大差異 —— 機械臂強調穩定、連續、較長時間尺度的軌跡控制,而靈巧手則必須處理柔順接觸、快速響應與高頻細節動作。正因如此,將復雜度最高的手部控制交由 AI 自動處理,可以顯著減輕人類操作者的認知及操作負擔。操作者無需再時刻處理每一根手指的微小動作,只需專注于大方向和策略性決策。
最終,這套分工機制讓系統能夠更高效地采集高質量的臂手協同演示數據,為后續訓練具備通用操作能力的 VLA 策略打下穩定基礎。
3. 臂手特征增強模塊,實現更自然、更魯棒的宏觀 - 微觀動作協調
為了解決臂手協調這一復雜問題,論文提出了臂手特征增強 (Arm-Hand Feature Enhancement) 模塊。
![]()
Arm-hand feature enhancement for the VLA policy [1]
該模塊旨在建模和融合臂和手在運動學上的差異特征。它采用三流架構:共享任務表示、手臂專用編碼器和手部專用編碼器。這種解耦設計避免了傳統單體架構模型對臂手差異的忽視,使得最終的策略能夠實現更自然、更魯棒的宏觀 - 微觀動作協調。
4. 持續優化機制:糾正性人機閉環,讓機器人能夠從失敗中學習
該研究引入了糾正性人機閉環 (Corrective Human-in-the-Loop) 機制,讓機器人能夠從失敗中學習。當機器人抓取失敗時,人類操作員可以立即接管并演示正確的操作方法。系統會自動記錄這次失敗的過程和人類糾正后的成功過程,并將這兩段數據作為「難題案例」加入訓練集。
通過這種方式,策略能夠不斷迭代優化,逐步學會應對各種邊緣案例 (corner cases), 變得越來越聰明和可靠。
![]()
Corrective human-in-the-loop teleoperation system [1]
端到端的機械臂 - 靈巧手 VLA 策略
![]()
https://mp.weixin.qq.com/s/g2mk5elCiAhnjZ5A8dLbeQ
二、星動 XHAND1 全直驅 + 觸覺顯著提升策略的協調性和魯棒性
![]()
Hardware setup of the integrated robotic system.[1]
- 硬件平臺:主要使用星動 XHAND1 靈巧手和 UR3e 機械臂。為驗證泛化性,還使用了 RY-H2 靈巧手。
- 視覺系統: 3 臺 RGB-D 相機 (2 臺外部,1 臺腕部),提供多視角視覺輸入。
- 測試對象:超過 50 種日常物品,包括未在訓練中見過的物體,以測試泛化能力。
- 觸覺感知的有效性
- 星動 XHAND1 提供的高保真觸覺反饋是實現魯棒抓取的必要條件。當視覺被剝奪時,正是星動 XHAND1 的觸覺傳感器陣列提供了維持穩定抓握所需的信息。實驗數據顯示:
![]()
- 無觸覺:成功率僅為 21%。
- 僅有觸覺合力反饋:成功率提升至 70%。
- 合力反饋 + 空間觸覺分布:成功率高達 90%。
- 這種高成功率直接來源于星動 XHAND1 的兩個特性:
- 高靈敏度觸覺:能夠精確感知與易碎品接觸時的微小力變化
- 高精度位控:能夠根據觸覺反饋,精確輸出目標位置,避免捏碎物體
![]()
![]()
Representative cases of grasping cylindrical and spherical objects, visualizing the distribution of surface contacts measured by tactile sensors at fingertips.[1]
- 臂手特征增強模塊的有效性
- 對比了使用和不使用「臂手特征增強模塊」的策略在三個場景下的表現: (1) 星動 XHAND1 (12-DoF 全主動,270° 環繞觸覺陣列 (120 點)); (2) RY-H2 (11-DoF:6 主動 + 5 欠驅動,無觸覺); (3) 遮擋右側相機。
- 此外對比欠驅的 RY-H2,算法能夠更充分地利用全直驅 星動 XHAND1 的多關節靈活性,實現更自然的協調動作
![]()
- 此結果證明該模塊顯著提升了策略的協調性和魯棒性。
- 糾正性人機閉環的有效性
- 通過不斷注入人類糾正的失敗案例 (如物體方向錯誤、位置在角落等),迭代訓練策略。該機制能有效實現策略的持續改進和對邊緣案例的泛化。
三、靈巧操作高質量數據采集效率提升 25%
該研究通過提出共享自主框架,推動了靈巧操作領域高質量數據采集效率提升 25%,使單人每小時可采集更多條數據,并將完整開發 - 部署周期壓縮至一天以內,從根本上解決了 VLA 模型訓練的數據瓶頸問題。
該研究通過在超過 50 種物體上實現約 90% 的抓取成功率這一接近工業標準的性能水平,推動了靈巧操作技術從概念驗證向實際部署的關鍵跨越,為機器人在柔性制造、智能物流和服務機器人等領域的大規模應用鋪路。
![]()
Grasping diverse objects with variations in size, color, and material properties.[1]
未來工作
論文展望了三個主要的未來研究方向。當前框架主要在抓取任務上得到了驗證,未來可以通過引入更多專用的 AI 輔助控制器 (VLA Copilot 模塊),將其拓展至物體重定向、精密插放和長時程操作等更復雜的場景。
雖然觸覺反饋對抓取穩定性至關重要,但在端到端臂手控制中仍面臨噪聲干擾和時序錯位等挑戰,因此需要探索更智能的融合機制,例如根據任務階段動態調整觸覺、視覺和本體感受的權重。
此外,當前的糾正機制仍需人工介入,這在一定程度上限制了系統的可擴展性。未來可以借助強化學習實現系統的自主錯誤識別和恢復,并利用視覺 - 語言模型感知任務復雜度和環境風險,智能地決定何時獨立運行、何時請求人類協助,最終實現從人機協作向完全自主的平滑過渡。
參考文獻
[1] End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection. ByteDance Seed. 2025.(https://arxiv.org/pdf/2511.00139)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.