PI最新VLA模型登場！機器人疊衣服、做咖啡、組裝紙箱成功率翻倍

2025-11-18 21:04:17　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

機器人前瞻11月18日報道，今天，Physical Intelligence（簡稱PI）發(fā)布了旗下最新機器人基礎(chǔ)模型π*0.6。

PI是一家2024年成立于美國舊金山的機器人初創(chuàng)公司，團隊堪稱全明星陣容，CEO兼聯(lián)合創(chuàng)始人Karol Hausman曾是Google DeepMind資深研究科學(xué)家；聯(lián)合創(chuàng)始人還包括強化學(xué)習(xí)領(lǐng)域領(lǐng)軍人物Sergey Levine、斯坦福大學(xué)教授Chelsea Finn等。

PI的融資節(jié)奏和估值增長也十分迅猛：2024年3月種子輪融資中，以約4億美元估值籌集7000萬美元；同年11月完成4億美元A輪融資，估值飆升至24億美元。今年9月，有消息稱其正討論以50億美元估值開展新一輪融資，若落地則成立18個月內(nèi)估值將翻12倍。

Sergey Levine表示，搭載了π*0.6的機器人，已經(jīng)在舊金山辦公室里為同事們制作拿鐵、美式咖啡和意式濃縮咖啡了，能夠狂干13小時，中間只有幾次中斷。

網(wǎng)友：這做咖啡的手法和效率，意大利人看了都備受震撼。

機器人還連續(xù)疊了3個小時衣服，衣服類型五花八門，疊一件衣服大概需要3分鐘。

針對組裝紙箱的任務(wù)，機器人連續(xù)組裝了1個小時，每個箱子大概需要兩分半鐘。

從PI發(fā)布的技術(shù)博客來看，π*0.6在多項任務(wù)的表現(xiàn)上，實現(xiàn)了吞吐量（每小時成功完成任務(wù)的次數(shù)）和成功率較基礎(chǔ)模型翻倍，成功率超90%。

尤其是做咖啡這項任務(wù)，π*0.6較基礎(chǔ)模型的提升幅度非常明顯。不過，也有眼尖的網(wǎng)友發(fā)現(xiàn)，機器人在制作拿鐵時，跳過了用蒸汽處理牛奶的關(guān)鍵步驟。看來機器人離成為一個合格的咖啡店員，還得再多練練。

一、糾正式指導(dǎo)+強化學(xué)習(xí)，破解模仿學(xué)習(xí)的累積錯誤難題

RECAP實現(xiàn)了三個關(guān)鍵步驟：通過演示訓(xùn)練機器人、通過糾正進行指導(dǎo)，并使機器人能夠從自主經(jīng)驗中改進。這解決了模仿學(xué)習(xí)在機器人技術(shù)中的關(guān)鍵缺陷：小錯誤在現(xiàn)實實踐中引發(fā)累積錯誤，降低可靠性。

Recap能夠使研究人員通過兩種方式從“質(zhì)量較差”的經(jīng)驗數(shù)據(jù)中獲取良好的訓(xùn)練信號：

1、糾正式指導(dǎo)（coaching with corrections）

由專家展示機器人如何修復(fù)錯誤或做得更好，從而提供修正。

想要讓糾正式指導(dǎo)真正有用，專家遠(yuǎn)程操控者需要提供的是：在真實世界里，機器人實際犯錯之后，怎樣從這些錯誤中恢復(fù)的糾正示范。在實踐中，這意味著運行當(dāng)前最好的策略，當(dāng)機器人犯錯時，用人工遠(yuǎn)程操控接管它。

但是，僅僅依靠糾正式指導(dǎo)是有限的：這類監(jiān)督的質(zhì)量受制于人類是否能及時判斷應(yīng)當(dāng)介入以及是否能提供高質(zhì)量的糾正。對于那些特別明顯或嚴(yán)重的錯誤，這種方式是有效的。

不過，就像運動員如果不自己反復(fù)練習(xí)，是不可能真正掌握一項運動一樣，研究人員需要一種辦法，讓策略可以通過通過練習(xí)和強化繼續(xù)學(xué)習(xí)和完善其行為的微小細(xì)節(jié)。

2、強化學(xué)習(xí)（reinforcement learning）

機器人依據(jù)整個任務(wù)過程的最終結(jié)果，自行判斷哪些行為更好或更差，并通過迭代學(xué)習(xí)強化好的行為、避免不好的行為。

通過任務(wù)結(jié)果來進行強化學(xué)習(xí)的核心難題是信用分配（credit assignment）：也就是弄清楚機器人在整個過程中做的哪些動作導(dǎo)致了好的結(jié)果，而哪些動作導(dǎo)致了壞的結(jié)果。

比如，如果機器人用錯誤的方式拿起意式咖啡機的手柄，那之后它在把手柄插回機器里時可能就會遇到困難。真正的錯誤并不在“插入”這個動作本身，而是在更早之前的抓取動作。

▲通過模仿學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型，在將手柄插入意式咖啡機時會遇到困難。

一個正確的信用分配方法應(yīng)當(dāng)能把這次失敗歸因到那次抓取上，即使失敗是在后面才表現(xiàn)出來的。

Recap 通過訓(xùn)練一個價值函數(shù)來應(yīng)對這樣的信用分配難題，價值函數(shù)是一個模型，它能夠預(yù)測特定情境相對于其他情境有多好。

舉個例子，在國際象棋這類游戲中，智能體只會在贏棋時獲得獎勵，那么價值函數(shù)可以根據(jù)當(dāng)前棋局來預(yù)測智能體獲勝的概率。

如果研究人員能從機器人的經(jīng)驗中學(xué)到這樣的價值函數(shù)，就可以通過價值函數(shù)的變化來判斷一個動作是好是壞：那些讓價值函數(shù)變大的動作，就像讓棋局更接近勝利的落子，是應(yīng)該被鼓勵的好動作；而那些讓價值函數(shù)變小的動作，則應(yīng)該被抑制。

二、吞吐量和成功率較基礎(chǔ)模型翻倍，任務(wù)成功率超90%

PI使用Recap來訓(xùn)練π*(0.6)模型，使其能夠執(zhí)行多項真實世界應(yīng)用。π*(0.6)是基于π(0.6)模型訓(xùn)練而來的，而π(0.6)是早期π(0.5)模型的改進版本。

研究人員測試了三個應(yīng)用場景：制作濃縮咖啡飲品、折疊各種衣物以及組裝包裝箱，這每一項任務(wù)都包含許多挑戰(zhàn)：

制作咖啡流程長，要求機器人能夠傾倒液體、把握好咖啡制作時間、制作完成后清理機器等。

疊衣物，機器人需要能夠處理高度的多樣性，對不同衣物采用不同的折疊方法。

組裝包裝箱，機器人需在保持箱體結(jié)構(gòu)的同時折疊箱蓋，還要應(yīng)對箱子粘連等特殊情況。

Recap的第一階段，是用離線強化學(xué)習(xí)（offline RL）對π*(0.6)模型進行預(yù)訓(xùn)練，這一點與基礎(chǔ)的 π(0.6)和π(0.5)用純監(jiān)督學(xué)習(xí)訓(xùn)練的方式不同。在此基礎(chǔ)上，研究人員再用示范數(shù)據(jù)對π*(0.6)進行按任務(wù)的微調(diào)，接著再用在機器人上采集到的額外數(shù)據(jù)進行強化學(xué)習(xí)訓(xùn)練：其中既包括專家提供的糾正，用來修復(fù)大的錯誤，也包括基于獎勵信號的反饋，讓模型能從自主經(jīng)驗中學(xué)習(xí)提升。

研究人員對比了幾種模型的表現(xiàn)：基礎(chǔ)π(0.6)模型（通過監(jiān)督學(xué)習(xí)訓(xùn)練）、基礎(chǔ)π*(0.6)模型（通過離線 RL訓(xùn)練，即Recap的第一階段）、經(jīng)過演示數(shù)據(jù)微調(diào)后的π*(0.6)模型，以及最終經(jīng)過機器上經(jīng)驗微調(diào)后的 π*(0.6)模型。

從最終結(jié)果來看，對于像做咖啡這樣的頗具挑戰(zhàn)性的任務(wù)，在加入機器人的真實執(zhí)行經(jīng)驗后，吞吐量和成功率都提升了超過兩倍，均實現(xiàn)了超過90%的成功率。

結(jié)語：從經(jīng)驗中學(xué)習(xí)，或?qū)⒊蔀楦咝阅苣Ｐ偷年P(guān)鍵一部分

目前，機器人基礎(chǔ)模型主要使用的是由人工采集的示范數(shù)據(jù)（例如遠(yuǎn)程操控）。這種方式讓訓(xùn)練流程變得簡單、直接，但也帶來了一個非常嚴(yán)峻的障礙：數(shù)據(jù)采集需要大量人工投入；模型的速度和魯棒性受限于人類水平；而且機器人本身不會因為積累經(jīng)驗而逐漸變得更強。

而像Recap這樣的方法，理論上可以通過直接從機器人自身的經(jīng)驗中學(xué)習(xí)，從而解決這些限制。

隨著機器人在真實世界中的部署越來越廣泛，來自經(jīng)驗的學(xué)習(xí)有可能會是一個非常重要的訓(xùn)練數(shù)據(jù)來源，并成為實現(xiàn)高性能表現(xiàn)的關(guān)鍵組成部分。

就像人類是通過“講解+指導(dǎo)+練習(xí)”的組合方式來學(xué)習(xí)一樣，機器人未來也會從許多不同的數(shù)據(jù)源中學(xué)習(xí)。不過，這些數(shù)據(jù)源會承擔(dān)不同的角色：專家示范，用來定義新的行為；糾正式指導(dǎo)，用來打磨和優(yōu)化策略；而自主經(jīng)驗——很可能是規(guī)模最大的數(shù)據(jù)來源——則用來把這些行為打磨到極致，甚至有望最終達(dá)到超越人類的表現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.