![]()
近日,清華大學與星塵智能、港大、MIT聯合提出基于對比學習的隱空間動作預訓練(Contrastive Latent Action Pretraining, CLAP)框架。這個框架能夠將視頻中提純的運動空間與機器人的動作空間進行對齊,也就是說,機器人能夠直接從視頻中學習技能!
- 論文標題:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos
- 論文地址:https://arxiv.org/abs/2601.04061
- 項目地址:https://lin-shan.com/CLAP/
引言
長期以來,機器人學習面臨著一個令人頭疼的「數據饑荒」難題:互聯網上有著數以億計的人類行為視頻,但專門用于訓練機器人的數據卻寥寥無幾。
這種數據不對稱現象的根源在于,收集機器人操作數據需要昂貴的硬件設備、專業的操作環境,以及大量的人工標注工作,成本高昂且效率低下。相比之下,人類行為視頻數據雖然豐富,但由于視覺表征與機器人動作空間之間存在巨大的語義鴻溝,傳統方法難以有效利用這些資源。
現有的潛在動作模型(Latent Action Models)試圖利用視頻數據,但往往會遭遇「視覺糾纏」(visual entanglement)問題 —— 模型學到的更多是與實際操控無關的視覺噪聲,而非真實的操控技能。
CLAP 框架的核心創新正是解決了這一長期困擾業界的技術瓶頸。該框架能夠將視頻中提純的運動空間與機器人的動作空間進行對齊,有效避免了以往潛在動作模型中普遍存在的「視覺糾纏」問題。通過對比學習,CLAP 將視頻中的狀態轉移映射到一個量化的、物理上可執行的動作碼本上。
研究團隊基于兩種 VLA 建模范式進行訓練:其一是CLAP-NTP,一種自回歸模型,在指令跟隨與對象泛化方面表現突出;其二是CLAP-RF,一種基于Rectified Flow的策略,面向高頻率、精細化的操控。
這一技術突破的實際意義體現在多個層面。首先,從數據利用效率來看,CLAP 框架使得機器人能夠從 YouTube、抖音等平臺上的海量視頻中學習技能,極大擴展了可用訓練數據的規模。其次,從成本效益角度分析,這種「看視頻學技能」的方式顯著降低了機器人技能獲取的門檻。
此外,該框架還解決了機器人學習中的一個關鍵技術挑戰 —— 知識遷移問題。通過知識匹配(Knowledge Matching, KM)正則化策略,CLAP 有效緩解了模型微調過程中的災難性遺忘現象,確保機器人在學習新技能的同時不會丟失已掌握的能力。
從產業應用前景來看,CLAP 框架的長期價值不僅在于技術創新,更在于其對機器人產業化進程的推動作用。當機器人能夠通過觀看視頻快速掌握新技能時,企業部署機器人的成本和周期將大幅降低,這有望加速機器人在服務業、制造業等領域的規模化應用。
詳解 CLAP 框架
![]()
研究團隊構建了一個統一的視覺 - 語言 - 動作(VLA)框架,使其能夠同時利用機器數據的動作精確性與大規模無標注人類視頻演示的語義多樣性。框架分為兩個相互銜接的階段:
- 通過 CLAP 進行跨模態對齊:建立共享的潛在動作空間,彌合無標注人類視頻與有標注機器人軌跡之間的監督缺口。該過程基于對比學習進行隱空間動作預訓練(CLAP):它將人類視頻中的視覺狀態轉移「錨定」到一個量化的、物理上可執行的動作空間中。
![]()
- 分層策略訓練:研究團隊通過連續訓練兩個 VLA 模型,將語義理解與控制動力學有效解耦:
- CLAP-NTP:采用「下一詞元預測」(Next-Token-Prediction)訓練的 VLA,擅長指令跟隨與任務規劃;
- CLAP-RF:包含一個 VLM 模型與一個采用 Rectified Flow 訓練的動作專家,以實現高頻、精確控制。
為高效適配新的本體形態并防止預訓練先驗在微調中發生災難性遺忘,研究團隊進一步提出知識匹配(Knowledge Matching, KM)微調策略:一種正則化方法,在微調過程中將策略更新錨定在可信區域內。
![]()
實驗結果
大量實驗表明,CLAP 顯著優于強基線方法,使得從人類視頻中學習到的技能能夠有效遷移到機器人執行中。
下表 1 為初始設置下,CLAP 與基線方法在真實世界任務中的性能比較。
![]()
下表2 為 CLAP 與基線方法在環境擾動下的魯棒性評估。
![]()
更多實驗結果請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.