<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      PI最新VLA模型登場!機器人疊衣服、做咖啡、組裝紙箱成功率翻倍

      0
      分享至


      機器人前瞻(公眾號:robot_pro)
      作者 許麗思
      編輯 漠影

      機器人前瞻11月18日報道,今天,Physical Intelligence(簡稱PI)發(fā)布了旗下最新機器人基礎(chǔ)模型π*0.6。

      PI是一家2024年成立于美國舊金山的機器人初創(chuàng)公司,團隊堪稱全明星陣容,CEO兼聯(lián)合創(chuàng)始人Karol Hausman曾是Google DeepMind資深研究科學(xué)家;聯(lián)合創(chuàng)始人還包括強化學(xué)習(xí)領(lǐng)域領(lǐng)軍人物Sergey Levine、斯坦福大學(xué)教授Chelsea Finn等。

      PI的融資節(jié)奏和估值增長也十分迅猛:2024年3月種子輪融資中,以約4億美元估值籌集7000萬美元;同年11月完成4億美元A輪融資,估值飆升至24億美元。今年9月,有消息稱其正討論以50億美元估值開展新一輪融資,若落地則成立18個月內(nèi)估值將翻12倍。

      Sergey Levine表示,搭載了π*0.6的機器人,已經(jīng)在舊金山辦公室里為同事們制作拿鐵、美式咖啡和意式濃縮咖啡了,能夠狂干13小時,中間只有幾次中斷。

      網(wǎng)友:這做咖啡的手法和效率,意大利人看了都備受震撼。

      機器人還連續(xù)疊了3個小時衣服,衣服類型五花八門,疊一件衣服大概需要3分鐘。


      針對組裝紙箱的任務(wù),機器人連續(xù)組裝了1個小時,每個箱子大概需要兩分半鐘。

      從PI發(fā)布的技術(shù)博客來看,π*0.6在多項任務(wù)的表現(xiàn)上,實現(xiàn)了吞吐量(每小時成功完成任務(wù)的次數(shù))和成功率較基礎(chǔ)模型翻倍,成功率超90%。

      尤其是做咖啡這項任務(wù),π*0.6較基礎(chǔ)模型的提升幅度非常明顯。不過,也有眼尖的網(wǎng)友發(fā)現(xiàn),機器人在制作拿鐵時,跳過了用蒸汽處理牛奶的關(guān)鍵步驟。看來機器人離成為一個合格的咖啡店員,還得再多練練。

      一、糾正式指導(dǎo)+強化學(xué)習(xí),破解模仿學(xué)習(xí)的累積錯誤難題

      RECAP實現(xiàn)了三個關(guān)鍵步驟:通過演示訓(xùn)練機器人、通過糾正進行指導(dǎo),并使機器人能夠從自主經(jīng)驗中改進。這解決了模仿學(xué)習(xí)在機器人技術(shù)中的關(guān)鍵缺陷:小錯誤在現(xiàn)實實踐中引發(fā)累積錯誤,降低可靠性。

      Recap能夠使研究人員通過兩種方式從“質(zhì)量較差”的經(jīng)驗數(shù)據(jù)中獲取良好的訓(xùn)練信號:

      1、糾正式指導(dǎo)(coaching with corrections)

      由專家展示機器人如何修復(fù)錯誤或做得更好,從而提供修正。

      想要讓糾正式指導(dǎo)真正有用,專家遠(yuǎn)程操控者需要提供的是:在真實世界里,機器人實際犯錯之后,怎樣從這些錯誤中恢復(fù)的糾正示范。在實踐中,這意味著運行當(dāng)前最好的策略,當(dāng)機器人犯錯時,用人工遠(yuǎn)程操控接管它。

      但是,僅僅依靠糾正式指導(dǎo)是有限的:這類監(jiān)督的質(zhì)量受制于人類是否能及時判斷應(yīng)當(dāng)介入以及是否能提供高質(zhì)量的糾正。對于那些特別明顯或嚴(yán)重的錯誤,這種方式是有效的。

      不過,就像運動員如果不自己反復(fù)練習(xí),是不可能真正掌握一項運動一樣,研究人員需要一種辦法,讓策略可以通過通過練習(xí)和強化繼續(xù)學(xué)習(xí)和完善其行為的微小細(xì)節(jié)。

      2、強化學(xué)習(xí)(reinforcement learning)

      機器人依據(jù)整個任務(wù)過程的最終結(jié)果,自行判斷哪些行為更好或更差,并通過迭代學(xué)習(xí)強化好的行為、避免不好的行為。

      通過任務(wù)結(jié)果來進行強化學(xué)習(xí)的核心難題是信用分配(credit assignment):也就是弄清楚機器人在整個過程中做的哪些動作導(dǎo)致了好的結(jié)果,而哪些動作導(dǎo)致了壞的結(jié)果。

      比如,如果機器人用錯誤的方式拿起意式咖啡機的手柄,那之后它在把手柄插回機器里時可能就會遇到困難。真正的錯誤并不在“插入”這個動作本身,而是在更早之前的抓取動作。


      ▲通過模仿學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型,在將手柄插入意式咖啡機時會遇到困難。

      一個正確的信用分配方法應(yīng)當(dāng)能把這次失敗歸因到那次抓取上,即使失敗是在后面才表現(xiàn)出來的。

      Recap 通過訓(xùn)練一個價值函數(shù)來應(yīng)對這樣的信用分配難題,價值函數(shù)是一個模型,它能夠預(yù)測特定情境相對于其他情境有多好。

      舉個例子,在國際象棋這類游戲中,智能體只會在贏棋時獲得獎勵,那么價值函數(shù)可以根據(jù)當(dāng)前棋局來預(yù)測智能體獲勝的概率。

      如果研究人員能從機器人的經(jīng)驗中學(xué)到這樣的價值函數(shù),就可以通過價值函數(shù)的變化來判斷一個動作是好是壞:那些讓價值函數(shù)變大的動作,就像讓棋局更接近勝利的落子,是應(yīng)該被鼓勵的好動作;而那些讓價值函數(shù)變小的動作,則應(yīng)該被抑制。

      二、吞吐量和成功率較基礎(chǔ)模型翻倍,任務(wù)成功率超90%

      PI使用Recap來訓(xùn)練π*(0.6)模型,使其能夠執(zhí)行多項真實世界應(yīng)用。π*(0.6)是基于π(0.6)模型訓(xùn)練而來的,而π(0.6)是早期π(0.5)模型的改進版本。


      研究人員測試了三個應(yīng)用場景:制作濃縮咖啡飲品、折疊各種衣物以及組裝包裝箱,這每一項任務(wù)都包含許多挑戰(zhàn):

      制作咖啡流程長,要求機器人能夠傾倒液體、把握好咖啡制作時間、制作完成后清理機器等。

      疊衣物,機器人需要能夠處理高度的多樣性,對不同衣物采用不同的折疊方法。

      組裝包裝箱,機器人需在保持箱體結(jié)構(gòu)的同時折疊箱蓋,還要應(yīng)對箱子粘連等特殊情況。


      Recap的第一階段,是用離線強化學(xué)習(xí)(offline RL)對π*(0.6)模型進行預(yù)訓(xùn)練,這一點與基礎(chǔ)的 π(0.6)和π(0.5)用純監(jiān)督學(xué)習(xí)訓(xùn)練的方式不同。在此基礎(chǔ)上,研究人員再用示范數(shù)據(jù)對π*(0.6)進行按任務(wù)的微調(diào),接著再用在機器人上采集到的額外數(shù)據(jù)進行強化學(xué)習(xí)訓(xùn)練:其中既包括專家提供的糾正,用來修復(fù)大的錯誤,也包括基于獎勵信號的反饋,讓模型能從自主經(jīng)驗中學(xué)習(xí)提升。

      研究人員對比了幾種模型的表現(xiàn):基礎(chǔ)π(0.6)模型(通過監(jiān)督學(xué)習(xí)訓(xùn)練)、基礎(chǔ)π*(0.6)模型(通過離線 RL訓(xùn)練,即Recap的第一階段)、經(jīng)過演示數(shù)據(jù)微調(diào)后的π*(0.6)模型,以及最終經(jīng)過機器上經(jīng)驗微調(diào)后的 π*(0.6)模型。

      從最終結(jié)果來看,對于像做咖啡這樣的頗具挑戰(zhàn)性的任務(wù),在加入機器人的真實執(zhí)行經(jīng)驗后,吞吐量和成功率都提升了超過兩倍,均實現(xiàn)了超過90%的成功率。


      結(jié)語:從經(jīng)驗中學(xué)習(xí),或?qū)⒊蔀楦咝阅苣P偷年P(guān)鍵一部分

      目前,機器人基礎(chǔ)模型主要使用的是由人工采集的示范數(shù)據(jù)(例如遠(yuǎn)程操控)。這種方式讓訓(xùn)練流程變得簡單、直接,但也帶來了一個非常嚴(yán)峻的障礙:數(shù)據(jù)采集需要大量人工投入;模型的速度和魯棒性受限于人類水平;而且機器人本身不會因為積累經(jīng)驗而逐漸變得更強。

      而像Recap這樣的方法,理論上可以通過直接從機器人自身的經(jīng)驗中學(xué)習(xí),從而解決這些限制。

      隨著機器人在真實世界中的部署越來越廣泛,來自經(jīng)驗的學(xué)習(xí)有可能會是一個非常重要的訓(xùn)練數(shù)據(jù)來源,并成為實現(xiàn)高性能表現(xiàn)的關(guān)鍵組成部分。

      就像人類是通過“講解+指導(dǎo)+練習(xí)”的組合方式來學(xué)習(xí)一樣,機器人未來也會從許多不同的數(shù)據(jù)源中學(xué)習(xí)。不過,這些數(shù)據(jù)源會承擔(dān)不同的角色:專家示范,用來定義新的行為;糾正式指導(dǎo),用來打磨和優(yōu)化策略;而自主經(jīng)驗——很可能是規(guī)模最大的數(shù)據(jù)來源——則用來把這些行為打磨到極致,甚至有望最終達(dá)到超越人類的表現(xiàn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      自討苦吃?沒想到新年剛開始,中國游客的日本住宿預(yù)訂量增加六成

      自討苦吃?沒想到新年剛開始,中國游客的日本住宿預(yù)訂量增加六成

      夢錄的西方史話
      2026-01-12 16:40:41
      討好大佬,陪睡上位,遭央視“開除”,她身上的標(biāo)簽?zāi)膫€才是真的

      討好大佬,陪睡上位,遭央視“開除”,她身上的標(biāo)簽?zāi)膫€才是真的

      老黯談娛
      2026-01-13 08:24:12
      1979年打越南時,我國至少有200個師,但為何讓大批新兵上戰(zhàn)場?

      1979年打越南時,我國至少有200個師,但為何讓大批新兵上戰(zhàn)場?

      鶴羽說個事
      2025-12-23 11:46:00
      周定洋自宣離隊!媒體人熱議:已經(jīng)在深圳,非得不做英雄太可惜

      周定洋自宣離隊!媒體人熱議:已經(jīng)在深圳,非得不做英雄太可惜

      奧拜爾
      2026-01-12 22:30:45
      瓜!泰“護國神獸”公主戀上泰總理兒子?男方為當(dāng)駙馬疑甩剛訂婚7年女友!

      瓜!泰“護國神獸”公主戀上泰總理兒子?男方為當(dāng)駙馬疑甩剛訂婚7年女友!

      英國報姐
      2026-01-12 21:49:26
      考官問“什么門永遠(yuǎn)關(guān)不上”在場考生答錯,7歲小朋友出正確答案

      考官問“什么門永遠(yuǎn)關(guān)不上”在場考生答錯,7歲小朋友出正確答案

      蘭姐說故事
      2026-01-09 20:05:03
      1999年那筆血債,十年后終于有人去收了?美國特工橫死街頭,F(xiàn)BI連夜封鎖現(xiàn)場

      1999年那筆血債,十年后終于有人去收了?美國特工橫死街頭,F(xiàn)BI連夜封鎖現(xiàn)場

      史海孤雁
      2026-01-08 19:35:10
      挺誰誰死!軍事專家李莉清空作品!她戰(zhàn)略轉(zhuǎn)移后,又預(yù)判了伊朗

      挺誰誰死!軍事專家李莉清空作品!她戰(zhàn)略轉(zhuǎn)移后,又預(yù)判了伊朗

      大江看潮
      2026-01-13 07:56:39
      被內(nèi)蒙古某些部門的官僚習(xí)氣驚到了

      被內(nèi)蒙古某些部門的官僚習(xí)氣驚到了

      魚眼觀察
      2026-01-12 10:51:38
      表面“黃花大閨女”,背地卻偷偷生子的4位女星,最后一個想不到

      表面“黃花大閨女”,背地卻偷偷生子的4位女星,最后一個想不到

      青史樓蘭
      2026-01-04 09:24:27
      大漲日,加倉!

      大漲日,加倉!

      中國基金報
      2026-01-12 15:15:48
      特斯拉宣布推出華為鴻蒙版本,這感覺很奇怪啊

      特斯拉宣布推出華為鴻蒙版本,這感覺很奇怪啊

      XCiOS俱樂部
      2026-01-12 19:43:29
      正式退出,樊振東離開國乒?乒協(xié)新規(guī)出臺,王楚欽祝福

      正式退出,樊振東離開國乒?乒協(xié)新規(guī)出臺,王楚欽祝福

      懂球社
      2026-01-12 09:03:32
      多地市委領(lǐng)導(dǎo)班子有調(diào)整

      多地市委領(lǐng)導(dǎo)班子有調(diào)整

      上觀新聞
      2026-01-12 17:34:08
      陳夢發(fā)文回應(yīng)參演熱播劇《小城大事》:探班表哥黃曉明探成了客串,第一次演戲很激動也很榮幸

      陳夢發(fā)文回應(yīng)參演熱播劇《小城大事》:探班表哥黃曉明探成了客串,第一次演戲很激動也很榮幸

      魯中晨報
      2026-01-12 20:49:05
      開標(biāo)現(xiàn)場能有多離譜?網(wǎng)友:開標(biāo)當(dāng)天我們的車門被焊住了

      開標(biāo)現(xiàn)場能有多離譜?網(wǎng)友:開標(biāo)當(dāng)天我們的車門被焊住了

      水泥土的搞笑
      2026-01-13 08:30:24
      羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

      羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

      瓜汁橘長Dr
      2025-12-29 11:29:56
      深圳網(wǎng)格員太硬,一周三次上門檢查,居民拒絕沒用,強入家里拍照

      深圳網(wǎng)格員太硬,一周三次上門檢查,居民拒絕沒用,強入家里拍照

      單手搓核彈
      2026-01-12 15:30:10
      只散步不行!全球國際專家力薦:“鐵三角”運動組合更長壽

      只散步不行!全球國際專家力薦:“鐵三角”運動組合更長壽

      貓大夫醫(yī)學(xué)科普
      2026-01-11 06:53:12
      沉默24小時后,特朗普選擇主動放人,中國軍艦啟航,信號很不一般

      沉默24小時后,特朗普選擇主動放人,中國軍艦啟航,信號很不一般

      文雅筆墨
      2026-01-13 04:49:27
      2026-01-13 09:51:00
      機器人前瞻
      機器人前瞻
      專注于機器人報道的媒體
      300文章數(shù) 7關(guān)注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      牛彈琴:伊朗局勢突然反轉(zhuǎn) 特朗普又心生一計非常生猛

      頭條要聞

      牛彈琴:伊朗局勢突然反轉(zhuǎn) 特朗普又心生一計非常生猛

      體育要聞

      一場安東尼奧式勝利,給中國足球帶來驚喜

      娛樂要聞

      蔡少芬結(jié)婚18周年,與張晉過二人世界

      財經(jīng)要聞

      年化400% 高利網(wǎng)貸“變形記”

      汽車要聞

      增配不加價 北京現(xiàn)代 第五代 勝達(dá)2026款上市

      態(tài)度原創(chuàng)

      游戲
      數(shù)碼
      親子
      家居
      旅游

      晨報|《控制》新作突破極限 GOG思考如何奪取市場

      數(shù)碼要聞

      榮耀Power2定義戶外神機:7.98mm+10080mAh大電池

      親子要聞

      原來生氣可以這么可愛的?傲嬌寶寶:那可不咋滴!

      家居要聞

      包絡(luò)石木為生 野性舒適

      旅游要聞

      敦煌燈會“穿越”千年邂逅盛唐繁景

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 人妻丰满熟妇无码区免费| 嫖妓丰满肥熟妇在线精品| 豆国产97在线 | 亚洲| 久久国产乱子精品免费女| 在线aⅴ亚洲中文字幕| 成人午夜无码福利视频| 天堂av在线免费观看| 国产精品美女一区二区三| 中文无码久久精品| 中文字幕一区二区三区精华液| 武冈市| 四虎av永久在线精品免费观看| 熟女成人影片| 狠狠人妻久久久久久综合麻豆| 亚洲无码黄片| 国产91无毒不卡在线观看| 人妻精品久久久久中文字幕69 | 亚洲免费人妻| 亚洲精品久久麻豆蜜桃| 高清dvd碟片 生活片| 亚洲中文精品久久久久久不卡 | 日本丰满的人妻hd高清在线| 欧美日韩在线第一页免费观看| jizzy| 濉溪县| 国产精品久久久久鬼色| 无码帝国www无码专区色综合| 国产精品毛片在线完整版| 亚洲人午夜精品射精日韩| 中文字幕制服丝袜| 人妻无码网站| 婷婷六月天在线| 日韩黄片毛片在线观看| 国产人妻鲁鲁一区二区| 色吊丝2277sds中文字幕| 情欲少妇人妻100篇| 德江县| 一色屋精品视频在线观看| 91免费在线播放| 18禁止看的免费污网站| 亚洲中文字幕2025|