![]()
人形機(jī)器人在春晚舞臺上大放異彩!然而,人們在看慣了機(jī)器人跳舞、后空翻,乃至武術(shù)表演之后,不禁開始思考:機(jī)器人何時才能真正走進(jìn)大眾生活,解決日常生活中的瑣碎任務(wù),從而解放人類的雙手?
剛剛,來自南加州大學(xué)的團(tuán)隊(duì)開源了一個邁向通用人形機(jī)器人的基座模型 Ψ?(中文讀作:賽零),助力人形機(jī)器人的通用移動操作。在總體任務(wù)成功率和子任務(wù)指標(biāo)上,Ψ?平均領(lǐng)先 NVIDIA 最新開源模型 GR00T N1.6 超過 40%。
01 引言從人類第一視角視頻中學(xué)習(xí)操作先驗(yàn)知識
人形機(jī)器人移動操作(loco-manipulation)是當(dāng)前具身智能領(lǐng)域最具挑戰(zhàn)性的研究方向之一。近年來,RT-1/2、OpenVLA、Gemini Robotics、GR00T、π0/0.5 等一系列工作相繼表明,大模型能夠顯著提升機(jī)器人操作的泛化能力。然而,這些方法普遍嚴(yán)重依賴大規(guī)模遙操作數(shù)據(jù),而對于人形機(jī)器人而言,此類數(shù)據(jù)的采集成本十分高昂。
幸運(yùn)的是,第一人稱視角人類視頻(egocentric human videos)由于信息豐富且易于獲取,為機(jī)器人學(xué)習(xí)提供了一種極具可擴(kuò)展性的替代方案。
對于這類數(shù)據(jù)的利用,現(xiàn)有方法通常采用一種看似直覺的策略:將大量人類視頻數(shù)據(jù)與機(jī)器人數(shù)據(jù)混合在一起進(jìn)行聯(lián)合訓(xùn)練,試圖通過單純擴(kuò)大數(shù)據(jù)規(guī)模來彌合人與機(jī)器人之間的差距。然而,這一策略真的是最優(yōu)解嗎?混合數(shù)據(jù)訓(xùn)練往往會迫使模型同時學(xué)習(xí)兩種分布差異顯著的數(shù)據(jù),這可能在一定程度上削弱模型的學(xué)習(xí)能力。
針對這一難題,南加州大學(xué)助理教授王越領(lǐng)銜的 Psi-Lab 聯(lián)合 NVIDIA 與 WorldEngine 提出了富有洞察力的新方案Ψ?。該基座模型僅需80 條真機(jī)遙操作數(shù)據(jù),即可掌握長程移動操作能力。在論文中,研究團(tuán)隊(duì)設(shè)計(jì)了八個包含移動與靈巧操作的長程任務(wù)進(jìn)行評測。實(shí)驗(yàn)結(jié)果表明,Ψ? 在總體任務(wù)成功率和子任務(wù)指標(biāo)上,平均領(lǐng)先 NVIDIA 最新開源大模型GR00T N1.6超過40%。
![]()
- 論文標(biāo)題:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
- 論文鏈接:https://arxiv.org/abs/2603.12263
- 主頁鏈接:https://psi-lab.ai/Psi0/
- 代碼鏈接:https://github.com/physical-superintelligence-lab/Psi0
02 數(shù)據(jù)篇:真機(jī)遙操采集高質(zhì)量數(shù)據(jù),
助力模型快速掌握新技能
![]()
圖 1 Ψ? 基座模型使用的訓(xùn)練數(shù)據(jù)
高質(zhì)量的領(lǐng)域內(nèi)數(shù)據(jù)是模型學(xué)習(xí)長時域移動操作任務(wù)的關(guān)鍵。然而,現(xiàn)有遙操作系統(tǒng)仍存在明顯短板:端到端全身遙操作方案魯棒性不足,且大多將靈巧手簡化為低維夾爪指令;而將操作與行走解耦的方案雖提升了系統(tǒng)穩(wěn)定性,卻往往需要多人協(xié)作,實(shí)用性受到限制。
為此,Ψ? 團(tuán)隊(duì)提出了一套定制化遙操作框架,將上半身姿態(tài)、靈巧手與行走控制三者解耦,實(shí)現(xiàn)單人完成全身控制。如圖 1 所示,操作者通過 PICO 頭顯和手腕追蹤器提供上半身姿態(tài)信息,由逆運(yùn)動學(xué)求解器實(shí)時計(jì)算手臂與軀干的位置;MANUS 數(shù)據(jù)手套用于采集手指的精細(xì)動作,并直接控制靈巧手的全部自由度;行走指令則由腰部和腳部追蹤器推斷得到,并傳遞給 RL 策略負(fù)責(zé)下半身的穩(wěn)定控制。
這套輕量化的可穿戴方案不僅實(shí)現(xiàn)了單人全身操控,同時手腕追蹤器與 MANUS 手套的組合也有效規(guī)避了視覺 VR 追蹤中常見的遮擋與丟失問題,從而顯著提升了追蹤精度與系統(tǒng)可靠性。
03 模型訓(xùn)練篇:經(jīng)典三階段訓(xùn)練范式,
最大化不同類型數(shù)據(jù)的價值
Ψ? 的研究團(tuán)隊(duì)發(fā)現(xiàn),人類與人形機(jī)器人之間存在根本性的運(yùn)動學(xué)差異以及動作分布鴻溝。簡單地將這兩類異構(gòu)數(shù)據(jù)混合進(jìn)行訓(xùn)練,模型往往難以有效區(qū)分并利用不同來源數(shù)據(jù)各自的優(yōu)勢,從而導(dǎo)致數(shù)據(jù)利用效率不理想。那么,如何才能真正高效地利用這些異構(gòu)數(shù)據(jù)呢?
核心思路在于 “解耦”:與其讓模型在統(tǒng)一混合訓(xùn)練中自行消化所有數(shù)據(jù),不如將學(xué)習(xí)過程拆分為多個階段,使每個階段都聚焦于從最合適的數(shù)據(jù)源中學(xué)習(xí)最關(guān)鍵的能力。
具體而言,Ψ? 提出了一種分階段訓(xùn)練范式:
- 預(yù)訓(xùn)練階段:在大規(guī)模第一人稱視角的人類操作視頻上進(jìn)行自回歸預(yù)訓(xùn)練,使視覺語言模型(VLM)學(xué)習(xí)可泛化的視覺 — 動作表征。這一階段的目標(biāo)并非學(xué)習(xí)精確的機(jī)器人控制,而是從人類豐富的操作經(jīng)驗(yàn)中提取高層次的視覺理解與動作語義。
- 后訓(xùn)練階段:在高質(zhì)量的人形機(jī)器人真機(jī)數(shù)據(jù)上,訓(xùn)練一個基于流匹配的多模態(tài)擴(kuò)散動作專家,以學(xué)習(xí)精確的關(guān)節(jié)控制能力。這一階段的目標(biāo)是將前一階段獲得的通用能力 “落地” 到具體的機(jī)器人本體上。
- 微調(diào)階段:在針對特定任務(wù)收集的少量真機(jī)遙操作數(shù)據(jù)上進(jìn)行微調(diào),使模型能夠快速適應(yīng)具體任務(wù)場景與操作目標(biāo)。這一階段的目標(biāo)是利用少量高質(zhì)量數(shù)據(jù)對模型進(jìn)行任務(wù)級對齊,使其在保持通用能力的同時,實(shí)現(xiàn)高成功率的任務(wù)執(zhí)行。
![]()
圖 2 Ψ? 采用經(jīng)典的三階段訓(xùn)練配方
訓(xùn)練配方(Training Recipe)
1. 預(yù)訓(xùn)練:從人類視頻中學(xué)習(xí)操作先驗(yàn)
Ψ? 的預(yù)訓(xùn)練階段主要基于兩個數(shù)據(jù)集:EgoDex(約 829 小時的人類第一人稱靈巧操作視頻)和 Humanoid Everyday(約 31 小時、覆蓋 260 種任務(wù)的人形機(jī)器人數(shù)據(jù))。
為實(shí)現(xiàn)人類手部數(shù)據(jù)與機(jī)器人末端執(zhí)行器數(shù)據(jù)的統(tǒng)一訓(xùn)練,團(tuán)隊(duì)設(shè)計(jì)了共享的任務(wù)空間動作表征:左右手各 24 維動作表示,其中包含 9 維腕部位姿(3D 位置 + 6D 旋轉(zhuǎn))以及五根手指的 3D 指尖位置,總計(jì) 48 維。
在訓(xùn)練效率方面,團(tuán)隊(duì)做出了一個關(guān)鍵取舍:預(yù)訓(xùn)練階段的核心目標(biāo)是讓 VLM 習(xí)得操作語義與視覺表征,而非精確的運(yùn)動控制,因此僅預(yù)測單步動作即可,無需預(yù)測完整的動作序列。具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)采用 FAST tokenizer 將連續(xù)動作離散化,將每條 48 維動作壓縮為約 20 個 token。
2. 后訓(xùn)練:在真機(jī)數(shù)據(jù)上學(xué)習(xí)精確控制
預(yù)訓(xùn)練賦予了 VLM 操作語義理解與視覺表征能力。接下來的問題是:如何將這些高層能力轉(zhuǎn)化為關(guān)節(jié)級的精確控制?
Ψ? 的做法是凍結(jié)已訓(xùn)練好的 VLM 參數(shù),從零訓(xùn)練動作專家模塊 —— 以 VLM 提取的隱層特征為條件,通過 Flow Matching 學(xué)習(xí)生成精確的關(guān)節(jié)空間動作序列。動作專家采用 MM-DiT 架構(gòu),在這一階段發(fā)揮了關(guān)鍵作用:模型利用 flow 時間步特征分別調(diào)制動作(A)特征和視覺 — 語言(VL)特征,并在每個 Transformer Block 中使動作 token 與 VL token 進(jìn)行聯(lián)合的全局注意力計(jì)算。
這一階段使用跨任務(wù)的真實(shí)人形機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,為后續(xù)特定任務(wù)的微調(diào)打下了堅(jiān)實(shí)基礎(chǔ)。
3. 微調(diào):少量數(shù)據(jù)快速習(xí)得復(fù)雜技能
在擁有預(yù)訓(xùn)練的 VLM 與后訓(xùn)練得到的動作專家之后,整個模型可以在少量領(lǐng)域內(nèi)遙操作數(shù)據(jù)上進(jìn)行端到端微調(diào),從而快速習(xí)得長時域、高靈巧度的全身操作能力。
04 模型架構(gòu)篇:三大系統(tǒng)各司其職,
解耦大小腦實(shí)現(xiàn)全身控制
![]()
圖3 Ψ? 的模型架構(gòu)
Ψ? 在模型架構(gòu)上同樣遵循 “解耦” 的設(shè)計(jì)理念。考慮到視覺理解、動作生成與底層運(yùn)動控制屬于不同層級的問題,系統(tǒng)將這些能力拆分為三個協(xié)同模塊:視覺語言策略、動作專家以及底層控制器。三者分工協(xié)作,從高層語義理解到低層控制逐級完成決策與執(zhí)行。
System-2:視覺語言骨干網(wǎng)絡(luò)
Ψ? 的高層策略以視覺語言模型(VLM)作為 “大腦”,負(fù)責(zé)理解視覺場景與語言指令。具體實(shí)現(xiàn)上,團(tuán)隊(duì)選用了當(dāng)前性能領(lǐng)先的 Qwen3-VL-2B-Instruct 作為該模塊的基座模型。
System-1:多模態(tài)擴(kuò)散 Transformer 動作專家
在 VLM 提取的視覺 — 語言特征條件引導(dǎo)下,一個約 5 億參數(shù)的動作專家負(fù)責(zé)預(yù)測全身動作序列(動作片段,action chunk)。該模塊采用基于 Flow Matching 的多模態(tài)擴(kuò)散 Transformer(MM-DiT)架構(gòu)。相比普通的 DiT 動作頭,MM-DiT 能夠更高效地融合動作特征與視覺 — 語言特征,從而實(shí)現(xiàn)更精準(zhǔn)的動作生成。
System-0:強(qiáng)化學(xué)習(xí)運(yùn)動控制器
動作專家輸出的全身動作中,上半身的 28 個自由度關(guān)節(jié)角直接下發(fā)執(zhí)行;下半身的 8 維高層動作指令(包含俯仰角、身體高度、線速度等)則傳遞給 System-0—— 一個基于強(qiáng)化學(xué)習(xí)的底層跟蹤策略。該模塊采用現(xiàn)成的 AMO 控制器,負(fù)責(zé)將這些高層指令映射為 15 個自由度下半身關(guān)節(jié)角(3 個腰部 + 12 個腿部自由度)。
三個系統(tǒng)協(xié)同配合,最終輸出 43 個自由度的全身控制動作,實(shí)現(xiàn)人形機(jī)器人的靈巧操作與穩(wěn)定移動。
05 模型部署篇:實(shí)時動作輸出,
一倍速絲滑執(zhí)行各類任務(wù)
在人形機(jī)器人任務(wù)中,模型不僅需要生成精確動作,還需要滿足實(shí)時控制的要求。然而,大規(guī)模視覺 — 語言 — 動作模型往往存在推理延遲,容易導(dǎo)致機(jī)器人動作不連續(xù),并可能出現(xiàn)抖動。Ψ? 通過在訓(xùn)練階段引入實(shí)時動作分塊(RTC)機(jī)制,使模型在推理時能夠平滑銜接動作序列,從而實(shí)現(xiàn)穩(wěn)定、流暢的實(shí)時控制。
![]()
![]()
圖 4 Ψ? 展示的真機(jī)技能:倒水、握住把手、推車一氣呵成
訓(xùn)練時實(shí)時動作分塊(Training-time RTC)
人形機(jī)器人需要流暢、快速響應(yīng)的控制能力,尤其是在執(zhí)行需要長時域規(guī)劃的精細(xì)操作任務(wù)時。然而,目前主流的視覺 — 語言 — 動作模型(VLA)普遍參數(shù)量達(dá)到數(shù)十億級,這不可避免地帶來了推理延遲,導(dǎo)致機(jī)器人出現(xiàn) “不自然的走走停停” 行為。
為此,Ψ? 團(tuán)隊(duì)在訓(xùn)練階段引入了實(shí)時動作分塊(Real-Time Chunking,RTC)機(jī)制。RTC 的核心思想是:每次預(yù)測下一段動作時,模型會將上一段已提交執(zhí)行的動作塊作為條件輸入。這樣,模型能夠輸出連貫一致的未來動作序列。
為了讓訓(xùn)練過程真實(shí)反映實(shí)際推理中的延遲情況,團(tuán)隊(duì)在訓(xùn)練時隨機(jī)對前 d 個動作 token 去除擴(kuò)散噪聲,并在損失計(jì)算中將其屏蔽。其中,d 在 0 到 d_max 之間均勻采樣,d_max 表示以時間步為單位的最大推理延遲上限。
06 真機(jī)評測:八項(xiàng)任務(wù)實(shí)測,
平均成功率超基線 40%
為了驗(yàn)證模型在真實(shí)環(huán)境中的泛化能力與穩(wěn)定性表現(xiàn),Ψ? 在多個真實(shí)場景中的長時域操作任務(wù)上進(jìn)行了系統(tǒng)性評測。實(shí)驗(yàn)結(jié)果表明,在僅使用約 800 小時人類視頻數(shù)據(jù)和 30 小時真機(jī)數(shù)據(jù)進(jìn)行訓(xùn)練的情況下,Ψ? 在整體成功率上仍顯著領(lǐng)先現(xiàn)有基線方法。
![]()
![]()
圖 5 Ψ? 展示的真機(jī)任務(wù),轉(zhuǎn)身倒水、擦碗、疊碗
如圖 4~8 所示,Ψ? 在八個真實(shí)場景的長時域操作任務(wù)上進(jìn)行了評估,涵蓋了日常生活中的多種場景 —— 從抓取放置、推物、擦拭等基礎(chǔ)交互,到需要精細(xì)手指協(xié)調(diào)的靈巧操作(如擰水龍頭、勾出薯片托盤),再到涉及軀干旋轉(zhuǎn)、下蹲等全身動作,以及行走和轉(zhuǎn)向的移動任務(wù),任務(wù)難度跨度極大。
在評估協(xié)議方面,每個任務(wù)收集了 80 條遙操作軌跡,所有基線模型均在相同數(shù)據(jù)集上進(jìn)行了微調(diào)。每個任務(wù)由 3 到 5 個子任務(wù)組成,在報告整體成功率的同時,也單獨(dú)統(tǒng)計(jì)了每個子任務(wù)的成功率。
![]()
圖6 與基線模型的評估實(shí)驗(yàn)結(jié)果對比
如圖 6 所示,Ψ? 模型在所有基線方法中表現(xiàn)最為突出,在八個長時域靈巧移動操作任務(wù)中均保持最穩(wěn)定的性能。尤其值得一提的是,它的平均整體成功率比排名第二的GR00T-N1.6—— 最新發(fā)布的人形機(jī)器人基礎(chǔ)模型 —— 高出至少 40%,而這些基線方法通常使用的訓(xùn)練數(shù)據(jù)規(guī)模超過 Ψ? 的 10 倍。
![]()
![]()
圖 7 Ψ? 展示的真機(jī)任務(wù):擰水龍頭,給人類遞水果籃
Ψ? 的優(yōu)異表現(xiàn)源于其分階段訓(xùn)練范式:模型首先在大規(guī)模人類第一人稱操作視頻上進(jìn)行視覺語言預(yù)訓(xùn)練,從而學(xué)習(xí)與操作任務(wù)相關(guān)的視覺語義與動作先驗(yàn)。隨后,利用高質(zhì)量的人形機(jī)器人真機(jī)數(shù)據(jù)訓(xùn)練動作專家,使模型在機(jī)器人關(guān)節(jié)空間中建立精確的控制能力。通過這種逐步對齊的學(xué)習(xí)過程,高層語義理解可以自然過渡到低層運(yùn)動控制,從而在復(fù)雜長時域操作任務(wù)中實(shí)現(xiàn)穩(wěn)定且高效的表現(xiàn)。
![]()
![]()
圖 8 Ψ? 展示的真機(jī)任務(wù):抽出薯片筒,扔垃圾,雙手抱物下蹲
07 結(jié)論
這一結(jié)果有力地說明了一個關(guān)鍵洞察:有效的 scaling 并非單純堆積數(shù)據(jù),而是用合適的數(shù)據(jù),以正確的方式進(jìn)行 scaling。具體而言,高質(zhì)量的第一人稱人類操作數(shù)據(jù)與領(lǐng)域特定的真機(jī)軌跡數(shù)據(jù)的組合,能夠帶來顯著優(yōu)異的性能表現(xiàn)。
更重要的是,這僅僅是一個開始。未來,隨著模型記憶能力的增強(qiáng)、更靈巧的機(jī)械手的引入,以及觸覺等多模態(tài)感知的加入,我們有理由相信,機(jī)器人將逐步具備更強(qiáng)的理解、學(xué)習(xí)與適應(yīng)能力。它們不僅能夠完成單一任務(wù),還將能夠在復(fù)雜的真實(shí)世界中持續(xù)學(xué)習(xí)、協(xié)作與進(jìn)化。我們期待,這一方向的探索能夠推動通用機(jī)器人邁向一個更加開放、充滿可能性的未來。
作者簡介:
PSI-0項(xiàng)目由南加州大學(xué) Physical Superintelligence Lab(PSI Lab,https://psi-lab.ai)與 WorldEngine 合作完成。該工作由南加州大學(xué)計(jì)算機(jī)科學(xué)助理教授王越指導(dǎo),主要作者包括南加州大學(xué)博士生魏松林、李博謙、景弘毅,以及本科生趙振宇。
PSI Lab 致力于構(gòu)建能夠在真實(shí)人類環(huán)境中安全、自主運(yùn)行的物理智能體,推動人形機(jī)器人從實(shí)驗(yàn)室走向日常生活。圍繞這一目標(biāo),實(shí)驗(yàn)室持續(xù)開展機(jī)器人數(shù)據(jù)引擎、學(xué)習(xí)算法與系統(tǒng)部署等方向的研究,重點(diǎn)關(guān)注多模態(tài)數(shù)據(jù)構(gòu)建、world model 與VLA、全身控制以及靈巧操作等關(guān)鍵問題,并強(qiáng)調(diào)算法研發(fā)與真實(shí)機(jī)器人系統(tǒng)落地的緊密結(jié)合。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.