<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      手殘黨跪了,Pi 0.6機(jī)器人15分鐘學(xué)會(huì)擰螺絲,能進(jìn)廠邊干邊學(xué)了

      0
      分享至



      編輯|張倩

      都說(shuō)機(jī)器人學(xué)習(xí)速度慢,精細(xì)動(dòng)作做不好,影響了進(jìn)廠打螺絲的進(jìn)度。以后,這可能不成問(wèn)題了。

      剛剛,具身智能領(lǐng)域扛把子 Physical Intelligence 公布了一項(xiàng)新進(jìn)展:他們借助一種名為「RL token」的方法,僅需十幾分鐘或幾小時(shí)的真實(shí)世界經(jīng)驗(yàn),就能讓機(jī)器人掌握插網(wǎng)線、擰微型螺絲、插充電線等極其精細(xì)的操作。





      過(guò)去一年,我們看到,機(jī)器人已經(jīng)能干不少粗略的活兒了,比如疊衣服、端盤子。但是,它們非常不擅長(zhǎng)高精度的工作。比如「拿起螺絲刀」很容易,但「把螺絲刀嚴(yán)絲合縫地對(duì)準(zhǔn)一顆極小的螺絲」卻極難。而在真實(shí)的工廠環(huán)境中,這種對(duì)于精準(zhǔn)、靈巧和速度的追求恰恰是最不能妥協(xié)的,也是體力勞動(dòng)中最難的部分。



      以前,如果想讓機(jī)器人學(xué)會(huì)這種精細(xì)活,工程師得把機(jī)器人龐大的「主腦」(也就是處理所有信息的大模型)重新訓(xùn)練一遍,這不僅計(jì)算量巨大,而且慢得讓人抓狂。

      Physical Intelligence 想出了一個(gè)非常聰明的偷懶辦法:不重新訓(xùn)練整個(gè)主腦,而是加一個(gè)專門負(fù)責(zé)精細(xì)動(dòng)作的「外掛」——RL token。

      靠著這個(gè)方法,機(jī)器人的進(jìn)化速度極其驚人:每項(xiàng)任務(wù)中最精細(xì)的步驟速度提高到原來(lái)的 3 倍,這比人類遠(yuǎn)程操縱機(jī)器人干活兒還要快。

      「從經(jīng)驗(yàn)中不斷進(jìn)步」將是未來(lái)真實(shí)世界機(jī)器人大模型必備的核心能力。Physical Intelligence 表示,RLT 讓他們的模型離「直接在崗位上邊干邊學(xué)」又近了一步。

      怎么做到的?

      Physical Intelligence 之前已經(jīng)證明,通過(guò)一種名為 Recap 的方法,VLA 模型能夠借助強(qiáng)化學(xué)習(xí)從經(jīng)驗(yàn)中學(xué)習(xí)。不過(guò),Recap 主要是為了解決長(zhǎng)周期任務(wù)的大規(guī)模強(qiáng)化學(xué)習(xí)問(wèn)題;而在實(shí)際應(yīng)用中,我們往往更希望機(jī)器人能夠利用幾小時(shí)甚至幾分鐘的數(shù)據(jù),快速攻克某項(xiàng)技能里特別困難的個(gè)別環(huán)節(jié)。

      打個(gè)比方,如果一個(gè)機(jī)器人需要極其精準(zhǔn)地用螺絲刀進(jìn)行組裝,我們完全可以只去微調(diào)「把螺絲刀對(duì)準(zhǔn)螺絲」這一個(gè)具體動(dòng)作。這可比把整個(gè) VLA 大模型從頭到尾微調(diào)一遍要快得多。這種精準(zhǔn)針對(duì)性的自適應(yīng)訓(xùn)練,甚至可以直接在機(jī)器人正式部署上崗時(shí)邊干邊學(xué)。

      理想情況下,這種能力的進(jìn)化應(yīng)該直接在機(jī)器人的「大腦」里進(jìn)行,并且能從每一次嘗試中榨取最多的學(xué)習(xí)經(jīng)驗(yàn)。但要在短短幾小時(shí)內(nèi)把整個(gè)龐大復(fù)雜的 VLA 模型端到端地訓(xùn)練一遍,不管是從算力還是從實(shí)操角度來(lái)看,都面臨著巨大的挑戰(zhàn)。

      Physical Intelligence 的核心靈感是: 與其死磕大模型,不如讓 VLA 變通一下,使其能配合一個(gè)極其小巧、可以實(shí)時(shí)更新的模型來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。他們訓(xùn)練 VLA(Pi 0.6)輸出一個(gè)「RL token」,它就像是 VLA 內(nèi)部復(fù)雜思考過(guò)程的一份「極簡(jiǎn)摘要」。然后,他們把這個(gè) RL token 當(dāng)作輸入,喂給那個(gè)能夠進(jìn)行實(shí)時(shí)強(qiáng)化學(xué)習(xí)訓(xùn)練的小模型。

      這個(gè) RL token 會(huì)被交給 Actor(負(fù)責(zé)輸出動(dòng)作)和 Critic(負(fù)責(zé)評(píng)估打分)網(wǎng)絡(luò)使用。這兩個(gè)網(wǎng)絡(luò)采用了一種非常節(jié)省數(shù)據(jù)的 off-policy 強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。正因?yàn)?Actor 和 Critic 處理的是這種高度壓縮的摘要信息,它們可以被設(shè)計(jì)成非常輕量級(jí)的神經(jīng)網(wǎng)絡(luò),直接在機(jī)器人本體上進(jìn)行訓(xùn)練,每秒能更新幾百次。這種極高的響應(yīng)速度,讓強(qiáng)化學(xué)習(xí)能夠在機(jī)器人每一次試錯(cuò)之后,立刻去調(diào)整和改進(jìn)它的行為。



      RLT 技術(shù)首先會(huì)對(duì) VLA 進(jìn)行改造:加入一個(gè)由編碼器和解碼器組成的 Transformer 結(jié)構(gòu)。這個(gè)結(jié)構(gòu)被訓(xùn)練去通過(guò)一個(gè)「信息瓶頸」來(lái)預(yù)測(cè)大模型的內(nèi)部特征(embeddings),從而壓縮出一個(gè)極簡(jiǎn)的表達(dá)方式,這就是他們所說(shuō)的 RL token。這個(gè) token 濃縮了當(dāng)前的觀察畫(huà)面中,強(qiáng)化學(xué)習(xí)的 Actor 和 Critic 所需要的所有關(guān)鍵信息。這樣一來(lái),即便是極小的 Actor 和 Critic 網(wǎng)絡(luò),也能站在大模型豐富的內(nèi)部理解之上,學(xué)會(huì)如何改進(jìn)動(dòng)作。



      拿到了 RL token 后,研究者只需讓機(jī)器人在現(xiàn)實(shí)中積攢幾小時(shí)甚至幾分鐘的數(shù)據(jù),就能通過(guò)在線強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練小型的 Actor 和 Critic 網(wǎng)絡(luò)。為了讓這個(gè)過(guò)程效率拉滿,他們做了一些精心的設(shè)計(jì):在線強(qiáng)化學(xué)習(xí)的 Actor 網(wǎng)絡(luò)必須和 VLA 在相同的動(dòng)作空間里工作,與 VLA 的先驗(yàn)行為保持一致,并且必須能從有限的真實(shí)世界數(shù)據(jù)里高效學(xué)習(xí)。

      具體做法如下:

      1. 預(yù)測(cè)「動(dòng)作塊」: 強(qiáng)化學(xué)習(xí)策略預(yù)測(cè)的是一連串的「動(dòng)作塊(action chunks)」,這與 VLA 習(xí)慣的動(dòng)作結(jié)構(gòu)保持一致,而不是去控制那些極其底層的單個(gè)細(xì)微操作。這讓在線策略能夠直接調(diào)整那些在任務(wù)中真正具有時(shí)間跨度的重要連貫動(dòng)作。

      2. 學(xué)會(huì)「修改」而非「推翻」:強(qiáng)化學(xué)習(xí)策略不是從零開(kāi)始瞎摸索的。Actor 網(wǎng)絡(luò)會(huì)先接收 VLA 預(yù)測(cè)出的動(dòng)作作為輸入,所以它學(xué)到的是如何「編輯修改」VLA 的動(dòng)作,而不是全盤替換。研究者會(huì)把策略更新的方向限制在這個(gè)參考動(dòng)作附近,這樣當(dāng) VLA 原本的動(dòng)作已經(jīng)算靠譜時(shí),機(jī)器人的探索就不會(huì)亂來(lái);只有當(dāng) Critic 網(wǎng)絡(luò)明確發(fā)現(xiàn)了更好的替代方案時(shí),才會(huì)偏離原計(jì)劃。

      3. 防止「抄作業(yè)」:為了防止小模型在訓(xùn)練初期學(xué)會(huì)「偷懶」只知道照抄 VLA 的動(dòng)作,他們還引入了「參考動(dòng)作 dropout」機(jī)制,逼著 Actor 網(wǎng)絡(luò)保持自己獨(dú)立生成動(dòng)作的能力。

      4. 融入人類干預(yù):最后,可以選擇性地讓人類直接介入強(qiáng)化學(xué)習(xí)的更新過(guò)程。當(dāng)機(jī)器人卡殼或犯錯(cuò)時(shí),人類的糾正動(dòng)作會(huì)被直接折疊并反饋到訓(xùn)練中。

      正是這些選擇,讓在線強(qiáng)化學(xué)習(xí)變成了一個(gè)可復(fù)用的「通用配方」。它不需要針對(duì)具體任務(wù)做專門的工程設(shè)計(jì),就能直接掛載到預(yù)訓(xùn)練好的 VLA 模型上,去應(yīng)對(duì)各種不同的任務(wù)。

      攻克精細(xì)操作的「最后關(guān)鍵一毫米」

      研究者在四項(xiàng)需要在關(guān)鍵時(shí)刻具備極高精度的挑戰(zhàn)性任務(wù)上對(duì) RLT 進(jìn)行了測(cè)試:用電動(dòng)螺絲刀將微小的 M3 螺絲擰入機(jī)械臂、系緊扎帶、插入網(wǎng)線以及插入電源線。

      在這些任務(wù)中,通用的基礎(chǔ)模型通常能很好地完成大部分「粗略」動(dòng)作,但任務(wù)最終的成功與否和速度快慢,往往取決于一個(gè)需要大量物理接觸的關(guān)鍵階段。在這個(gè)階段,位置、角度哪怕差之毫厘,或者時(shí)機(jī)稍微不對(duì),都會(huì)導(dǎo)致徹底失敗。





      拿擰螺絲來(lái)說(shuō),機(jī)器人必須在位置和旋轉(zhuǎn)角度上都達(dá)到亞毫米級(jí)的精準(zhǔn)度,才能讓螺絲刀尖完美嵌入螺絲槽。要知道,螺絲刀尖距離機(jī)器人的「手」(抓取點(diǎn))足足有 10 厘米遠(yuǎn),哪怕手腕只偏了一丁點(diǎn)兒,誤差到了刀尖上也會(huì)被無(wú)限放大。而且,從機(jī)器人自帶的手腕攝像頭視角看過(guò)去,這些細(xì)微的接觸過(guò)程甚至都很難看清楚。



      在這四個(gè)任務(wù)中,基礎(chǔ)的 VLA 大模型在初期的表現(xiàn)都很棒(比如穩(wěn)穩(wěn)地拿起螺絲刀或扎帶),但在最需要精度的階段就會(huì)掉鏈子。RLT 技術(shù)就是專門為解決這個(gè)痛點(diǎn)設(shè)計(jì)的:研究者不再讓它從頭到尾重新學(xué)一遍整個(gè)任務(wù),而是利用在線強(qiáng)化學(xué)習(xí)專門去攻克這些「硬骨頭」環(huán)節(jié)。 實(shí)際測(cè)試表明,機(jī)器人僅僅利用 15 分鐘的真實(shí)世界數(shù)據(jù),就能優(yōu)化每個(gè)動(dòng)作里最難的部分

      他們將 RLT 應(yīng)用于這四項(xiàng)任務(wù)的關(guān)鍵階段,評(píng)估了它在兩種場(chǎng)景下的效果:一是短暫的關(guān)鍵插入動(dòng)作(插線和插網(wǎng)線),二是時(shí)間跨度更長(zhǎng)、變化更多的完整任務(wù)。

      結(jié)果顯示,在所有四項(xiàng)任務(wù)中,與基礎(chǔ)模型相比,RLT 在速度和成功率上都迎來(lái)了突飛猛進(jìn)。下面的圖表展示了訓(xùn)練前后的性能對(duì)比,指標(biāo)是「吞吐量」(即每 10 分鐘內(nèi)成功完成任務(wù)的次數(shù))。



      下面的進(jìn)度曲線圖展示了 RLT 在「插網(wǎng)線」任務(wù)上的吞吐量提升過(guò)程。整個(gè)訓(xùn)練總共花了 2 個(gè)小時(shí),但真正包含機(jī)器人動(dòng)作的數(shù)據(jù)只有 15 分鐘,剩下的時(shí)間主要花在了機(jī)器復(fù)位重置和其他計(jì)算開(kāi)銷上。



      令人驚嘆的是,RLT 不僅僅比基礎(chǔ)模型強(qiáng),它在「插網(wǎng)線」任務(wù)上的執(zhí)行速度,甚至超越了人類遠(yuǎn)程操作的速度!正如柱狀圖所示,由最終強(qiáng)化學(xué)習(xí)策略完成的測(cè)試中,有一半的速度比數(shù)據(jù)集中任何一次人類的示范操作都要快。



      看來(lái),機(jī)器人進(jìn)廠打工的進(jìn)度,比預(yù)想中要快。

      參考鏈接:https://www.pi.website/research/rlt

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      不留退路!中東或斷供,中亞大佬火速訪華,要將能源軍工全交中國(guó)

      不留退路!中東或斷供,中亞大佬火速訪華,要將能源軍工全交中國(guó)

      策略述
      2026-03-20 13:45:02
      國(guó)際油價(jià)直線跳水 山東墨龍逼近跌停

      國(guó)際油價(jià)直線跳水 山東墨龍逼近跌停

      財(cái)聞
      2026-03-20 09:33:10
      8年“大限”已到,第一批電車真成廢鐵了?只有這類車逃過(guò)一劫!

      8年“大限”已到,第一批電車真成廢鐵了?只有這類車逃過(guò)一劫!

      優(yōu)視汽車
      2026-03-18 18:51:10
      喜鵲以為自己是狗,結(jié)果卻被強(qiáng)行帶走,4萬(wàn)人請(qǐng)?jiān)缸屗鼈儓F(tuán)聚

      喜鵲以為自己是狗,結(jié)果卻被強(qiáng)行帶走,4萬(wàn)人請(qǐng)?jiān)缸屗鼈儓F(tuán)聚

      英國(guó)那些事兒
      2026-03-20 23:02:31
      別劃走!月底被財(cái)神點(diǎn)名驚喜不斷的3生肖,橫財(cái)一波接一波

      別劃走!月底被財(cái)神點(diǎn)名驚喜不斷的3生肖,橫財(cái)一波接一波

      毅談生肖
      2026-03-19 10:34:35
      中國(guó)真正的“最高權(quán)力機(jī)構(gòu)”竟然不是國(guó)務(wù)院?99%的人都搞錯(cuò)了!

      中國(guó)真正的“最高權(quán)力機(jī)構(gòu)”竟然不是國(guó)務(wù)院?99%的人都搞錯(cuò)了!

      興史興談
      2026-03-19 20:14:58
      呼吸科主任提醒:馬上停止食用4類食物,吃得越久,肺結(jié)節(jié)越長(zhǎng)

      呼吸科主任提醒:馬上停止食用4類食物,吃得越久,肺結(jié)節(jié)越長(zhǎng)

      岐黃傳人孫大夫
      2026-02-26 22:10:03
      您需要升級(jí)MacBook Air嗎?M5、M4、M3、M2、M1型號(hào)對(duì)比

      您需要升級(jí)MacBook Air嗎?M5、M4、M3、M2、M1型號(hào)對(duì)比

      至頂頭條
      2026-03-18 21:50:04
      激烈對(duì)峙24小時(shí),我海警駛?cè)霒|沙島“限制水域”,臺(tái)當(dāng)局毫無(wú)辦法

      激烈對(duì)峙24小時(shí),我海警駛?cè)霒|沙島“限制水域”,臺(tái)當(dāng)局毫無(wú)辦法

      影孖看世界
      2026-03-20 16:45:02
      546萬(wàn)元精裝現(xiàn)房,質(zhì)量問(wèn)題64處!上海阿姨求維修,后面的事很崩潰

      546萬(wàn)元精裝現(xiàn)房,質(zhì)量問(wèn)題64處!上海阿姨求維修,后面的事很崩潰

      上觀新聞
      2026-03-20 19:13:05
      諾貝爾獎(jiǎng)得主集體翻車,起因只是一根沒(méi)擰緊的接頭

      諾貝爾獎(jiǎng)得主集體翻車,起因只是一根沒(méi)擰緊的接頭

      物理系老郭
      2026-03-17 09:00:12
      家暴后妻子二十年不下廚,我只當(dāng)她恨我,直到兒子婚禮,我才懂

      家暴后妻子二十年不下廚,我只當(dāng)她恨我,直到兒子婚禮,我才懂

      奶茶麥子
      2026-03-20 18:06:09
      吳君如早就說(shuō)過(guò):陳妍希私下根本不是什么清純女孩,穿得著大膽得很

      吳君如早就說(shuō)過(guò):陳妍希私下根本不是什么清純女孩,穿得著大膽得很

      八卦王者
      2026-02-21 16:06:57
      現(xiàn)實(shí)版“汪汪隊(duì)大逃亡” 7只同村小狗被偷后結(jié)伴逃亡 不離不棄 跨越17公里安全回家

      現(xiàn)實(shí)版“汪汪隊(duì)大逃亡” 7只同村小狗被偷后結(jié)伴逃亡 不離不棄 跨越17公里安全回家

      閃電新聞
      2026-03-20 10:13:26
      意大利足協(xié)主席:我們必須走出低谷,哪怕是游也要游到美國(guó)去

      意大利足協(xié)主席:我們必須走出低谷,哪怕是游也要游到美國(guó)去

      懂球帝
      2026-03-20 10:11:05
      煙再次被關(guān)注?醫(yī)生研究發(fā)現(xiàn):吸得越多,壽命或越長(zhǎng)?告訴你真相

      煙再次被關(guān)注?醫(yī)生研究發(fā)現(xiàn):吸得越多,壽命或越長(zhǎng)?告訴你真相

      白宸侃片
      2026-03-20 19:37:06
      文盲千千萬(wàn),內(nèi)娛占一半。

      文盲千千萬(wàn),內(nèi)娛占一半。

      姩姩有娛
      2026-03-13 15:01:03
      985大學(xué)教授、博導(dǎo)不幸因病(或意外)逝世,享年60歲

      985大學(xué)教授、博導(dǎo)不幸因病(或意外)逝世,享年60歲

      雙一流高校
      2026-03-21 00:11:18
      大連英博1-0上海海港,賽后評(píng)分:不是武磊第一,英博30號(hào)第一

      大連英博1-0上海海港,賽后評(píng)分:不是武磊第一,英博30號(hào)第一

      側(cè)身凌空斬
      2026-03-20 20:56:17
      謝婷婷帶混血兒子回香港,飛機(jī)上曬兒子正臉照,長(zhǎng)相俊俏像極父親

      謝婷婷帶混血兒子回香港,飛機(jī)上曬兒子正臉照,長(zhǎng)相俊俏像極父親

      章眽八卦
      2026-03-20 12:51:28
      2026-03-21 03:11:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12555文章數(shù) 142588關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹(shù)招股書(shū)拆解,人形機(jī)器人出貨量第一!

      頭條要聞

      向特朗普提問(wèn)日記者遭瘋狂網(wǎng)暴 被罵幫中國(guó)讓高市難堪

      頭條要聞

      向特朗普提問(wèn)日記者遭瘋狂網(wǎng)暴 被罵幫中國(guó)讓高市難堪

      體育要聞

      6年前的一場(chǎng)悲劇,造就了“法國(guó)瓦爾迪”

      娛樂(lè)要聞

      總臺(tái)首屆電影盛典,“沈馬”CP再合體

      財(cái)經(jīng)要聞

      金融法草案向社會(huì)公開(kāi)征求意見(jiàn)

      汽車要聞

      何小鵬坦白局:每月3億的“慌”與通向L4的堅(jiān)定

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      藝術(shù)
      公開(kāi)課
      軍事航空

      本地新聞

      春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

      推廣中獎(jiǎng)名單-更新至2026年3月4日推廣

      藝術(shù)要聞

      一位畫(huà)家跟美少女保姆模特的那個(gè)事

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普會(huì)晤高市早苗 把美國(guó)襲擊伊朗比作偷襲珍珠港

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版