如果說過去幾年大模型革命解決的是“機器會不會說話、會不會看圖”,那么機器人行業真正的問題是另一層:機器能不能在真實世界里把理解變成行動,并且在長期、重復、帶噪聲的執行過程中始終穩定可控。
具身智能的難點從來不在于讓機器人做出一次漂亮的demo,而在于讓它在換環境、換物體、換硬件、換任務鏈之后仍然可靠工作。現實中,機器人策略的通用化被三道結構性門檻牢牢卡住。
第一道門檻是形態割裂。機械臂、夾爪、靈巧手、人形上肢的關節定義與動作空間完全不同,導致數據難以共享,一個模型往往只能綁定一種硬件,換平臺就等于重訓。
第二道門檻是數據成本與覆蓋。真實機器人數據昂貴、稀缺、分布窄,既難覆蓋長程任務,也難覆蓋復雜交互,更難支撐跨形態泛化。
第三道門檻則來自部署系統本身。大量視覺語言動作模型在仿真或離線評估中表現不錯,但一上真機就會暴露出控制頻率不同步、動作抖動、誤差累積、雙臂互相干擾等問題,本質上不是模型不聰明,而是缺少面向真實閉環系統的穩定性機制。
因此,行業在表面上看是在追逐更高的benchmark成功率,但底層競爭其實正在轉向另一種能力:誰能把通用策略訓練出來,并把它穩定地部署到真實機器人上,誰就有可能率先跨過從研究走向產品的那道門檻。
在這樣的背景下,智在無界創始人盧宗青團隊提出論文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,并給出了一條更接近工程閉環的通用操控路線。
他們并不是單純依靠更大的模型或更多的機器人數據堆疊性能,而是從根問題入手:通過以人類為中心的大規模操控數據建立跨形態動作先驗,通過統一state-action空間解決不同硬件之間動作語言不一致的障礙,并結合更強的動作生成建模能力與面向真實系統的穩定部署機制,系統性回答通用機器人策略能否在多形態平臺上穩定工作并真正實現部署這一核心問題。
![]()
通用接近專用
這項工作的實驗結果并不是簡單地說明成功率更高,而是圍繞一個核心問題展開:一個模型能否同時學會操控不同形態的機器人,甚至包括人手的動作方式,并且在真實機器人上部署時依然保持穩定可靠。
因此,研究團隊將實驗結果主要分為三類進行呈現,分別是真實機器人結果、仿真基準結果和消融實驗結果。
在真實機器人實驗中,研究人員設計了兩種模型設置。一種是Being-H0.5-specialist專用型,主要用于某一種機器人,進行了更強的對齊與適配,目標是追求最大性能。另一種是Being-H0.5-generalist通用型,同一個模型需要適應不同機器人形態,目標是提升泛化與遷移能力。
![]()
整體實驗結論表明,專用型模型的整體表現最好,而通用型模型僅略低,二者在很多任務類別中的差距并不大,尤其是在共享技能強、動作模式類似的任務上表現非常接近。
進一步來看,研究團隊按能力需求將真實機器人任務劃分為空間類任務Spatial、長程任務Long-horizon、雙臂任務Bimanual和泛化任務Generalization,并發現Being-H0.5相比π0.5的提升幅度最大出現在Long-horizon和Bimanual兩類任務中。
這一點非常關鍵,因為長程任務往往包含多個步驟,微小的動作誤差會不斷累積,極容易導致后續任務失敗,而雙臂任務需要兩只手之間保持實時協同,對動作時序與空間耦合要求更高,因此這兩類任務最能檢驗策略是否真正具備可部署的穩定性。
此外,研究過程中還發現,在某些任務例如清桌子這一類容器整理和收納交互場景中,通用型模型甚至可能接近或超過專用型模型的表現。直觀來看,這類任務需要反復使用抓取、移動、放置等通用子技能,而通用型模型由于在更多機器人和更多任務中學習過類似動作結構,往往表現得更穩定,相比之下專用型模型雖然對單一機器人更強,但也更容易對某些特定動作習慣產生過擬合。
![]()
在關鍵消融實驗中,研究團隊重點分析了UniHand-2.0預訓練是否必要。實驗結論表明,對于專用型模型來說,即使沒有UniHand-2.0預訓練,也能夠通過后續的機器人微調學習到不少能力,但對于通用型模型來說,如果缺少UniHand-2.0預訓練則會出現明顯性能崩塌,在多機器人混合學習中更容易表現出能力不足或不穩定。
這說明UniHand-2.0的作用并不僅僅是擴大數據規模,而是為訓練過程提供了一種跨形態共享的操控先驗,使模型能夠理解操控動作的合理分布,從而更有效地吸收來自不同機器人形態的動作數據。為了支撐這種跨形態操控能力學習,研究團隊構建的UniHand-2.0總規模超過35,000 hours,包含120B tokens與400M samples,并融合了人類第一視角手部操作數據16K hours、機器人操控數據14K hours覆蓋30種機器人形態,以及視覺語言理解數據約5K equivalent hours,為模型提供了更豐富的動作先驗與語義對齊基礎。
在仿真基準實驗中,Being-H0.5在LIBERO benchmark上取得了非常強的表現,平均成功率達到98.9%,在更困難的長程子集LIBERO-Long上也達到了97.4%,并且僅使用224×224的RGB圖像輸入。
考慮到LIBERO具有多任務、多場景以及明顯的長程操作鏈特點,這樣接近99%的成功率表明模型不僅能夠執行動作,還具備很強的任務穩定性、閉環糾錯能力以及對序列動作結構的學習能力。
![]()
此外,在RoboCasa廚房任務中,這一基準包含24個任務,更接近真實家庭場景,涉及多對象、多容器以及頻繁接觸交互過程,Being-H0.5在整體對比中同樣領先多個基線方法,包括部分3D方法,這說明模型不僅在桌面任務上有效,也能夠在更復雜的家庭操作場景中保持較強性能,并且在RoboCasa benchmark上給出了53.9%的成功率表現。
![]()
最后,在部署相關實驗中,研究團隊強調模型的真實可用性不僅取決于訓練策略,也依賴部署系統的穩定性,因此引入了MPG和UAC兩個關鍵機制。MPG的作用是抑制不合理動作輸出,使動作保持在合理分布的流形附近,UAC的作用是解決感知幀率與控制頻率不同步的問題。
消融結果顯示,一旦去掉MPG和UAC,長程任務的性能下降最明顯,雙臂任務也會明顯變差,更容易出現抖動、猶豫或修正過度等現象。這一結果說明,部署時的穩定性機制對長程和雙臂任務的可靠執行至關重要,而這也體現了這項工作相比許多只關注離線評估或仿真成功率的研究,更重視真實部署系統中時序和穩定性問題的解決。
![]()
對齊與生成并重
為了達到以上效果,研究團隊主要設計了五個階段,包括訓練數據體系構建、跨形態動作對齊、模型訓練架構設計、下游評估驗證以及消融實驗分析。
![]()
首先在數據構建階段,研究人員搭建了UniHand-2.0數據集,這套數據并不是傳統意義上只收集機器人數據,而是融合了三類來源,包括人類第一視角手部操作數據16K hours、機器人操控數據14K hours覆蓋30種機器人形態,以及視覺語言理解數據約5K equivalent hours。同時,UniHand-2.0的總規模超過35,000 hours,包含120B tokens與400M samples,為跨形態操控能力學習提供了更扎實的數據基礎。雷峰網
這樣設計的核心動機是緩解真實機器人數據昂貴、稀缺且覆蓋范圍有限的問題,同時利用人類手部動作數據的豐富性與自然性提供更大規模的操控先驗,并通過VLM數據補齊語言理解與場景語義的能力缺口,從而形成面向操控任務的多模態預訓練材料庫。
其次在跨形態對齊階段,這項工作引入Unified State-Action Space解決不同形態動作空間不一致帶來的訓練困難,例如人手關節空間與機器人關節空間不相同,不同機器人之間action維度也存在差異,若直接拼接action進行訓練會導致模型混亂。
為此,研究人員將不同形態的狀態與動作映射到統一state-action空間,使模型學習通用操控語義而非某一種硬件的關節角度,從而實現跨機器人知識共享與遷移。
![]()
在模型訓練架構上,研究團隊采用MoT與MoF的組合,使模型同時具備理解能力與動作生成能力,其中Understanding Expert負責圖像與語言信息的理解并形成任務意圖表示,Action Expert負責連續動作輸出與長序列控制,并通過Mixture of Flow MoF提升動作生成的表達能力,最終形成Being-H0.5模型體系。
隨后在下游評估階段,研究人員采用真實機器人與仿真基準相結合的方式進行驗證,仿真部分在LIBERO和RoboCasa上評估以保證可復現性與橫向對比性,真實機器人部分則用于檢驗閉環控制表現以及硬件噪聲、時序不同步與誤差累積條件下的部署穩定性,并通過specialist與generalist的對比進一步衡量通用模型帶來的性能代價。
最后在消融實驗中,研究團隊從三方面驗證關鍵設計的有效性,包括去掉UniHand-2.0預訓練以檢驗human-centric pretrain對generalist的必要性,去掉MPG與UAC以評估部署穩定性機制是否關鍵,以及通過凍結不同層數探索全量更新與部分更新在性能與穩定性上的差異,從而更系統地分析模型能力來源與關鍵模塊貢獻。
![]()
從研究走向落地
從實驗意義來看,這項工作的結果為通用機器人策略的發展提供了關鍵證據。首先,它證明跨形態統一動作學習是可行的。傳統機器人學習往往一個模型只適配一種硬件,換機器人就要重訓,數據也難以共享,導致訓練成本高且復用效率低。雷峰網
而工實驗結果表明,只要實現action space的統一并配合足夠強的預訓練,多機器人共享同一套策略是能夠做到的,并且generalist的性能只比specialist略低,甚至在不少任務上接近,這直接提升了機器人基礎模型路線的現實可行性。
其次,這項工作強調人類手部視頻與動作數據并不是輔助,而是通用策略的底座。消融實驗顯示,UniHand-2.0的人類中心預訓練是generalist模型保持穩定能力的關鍵因素,這意味著人類動作數據為策略提供了更合理、更自然的動作先驗,從而增強其泛化能力與跨機器人遷移能力。
同時UniHand-2.0總規模超過35,000 hours,包含120B tokens與400M samples,也說明這種人類中心預訓練具備足夠的數據支撐。
第三,工作指出了機器人智能真正難點在于可部署的長程穩定性,而不僅是離線或仿真成功率。許多視覺語言動作模型在仿真中表現不錯,但部署到真實機器人時容易出現抖動、動作發散、延遲累積失敗,甚至雙臂互相干擾。
研究通過MPG與UAC的實驗結果說明,要讓foundation policy真正可部署,必須顯式解決動作分布約束與異步控制問題,使策略在真實系統中保持穩定可靠。
最后,研究也提供了一個較清晰的通用模型訓練范式,即通過大規模人類中心數據建立操控先驗,通過統一state-action空間實現跨形態對齊,通過更強動作生成建模能力提升控制表達,并結合穩定部署機制提高真實環境下的執行可靠性。
整體來看,它不是依靠某一個單點技巧,而是從數據、對齊、生成到部署穩定性進行了端到端的全鏈路構建,因此更具備可擴展性,也更接近通用機器人操控智能的發展方向。
研究背后的科研團隊
盧宗青,北京大學計算機學院長聘副教授,國家青年人才,北京智源學者;主要研究強化學習、多模態大模型和具身智能,發表領域頂級論文100余篇,擔任ICML、ICLR、NeurIPS等機器學習會議領域主席;獲國家自然科學基金原創探索項目資助。
![]()
參考鏈接:https://z0ngqing.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.