<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      機器人開可樂發(fā)撲克有多難?聊聊靈巧手的硬件與算法

      0
      分享至

      文 | 硅谷101

      2026年,人形機器人將迎來規(guī)模化量產(chǎn)的元年。最清晰的信號來自特斯拉,“金色擎天柱”O(jiān)ptimus Gen 3預計在2026年第一季度亮相,并計劃在年底前建成產(chǎn)能高達100萬臺的生產(chǎn)線。馬斯克曾多次表示,特斯拉未來約80%的價值來自這里,而非汽車。而“擎天柱”的攻關(guān)關(guān)鍵,正在于它的“手與前臂”。

      靈巧手,從驅(qū)動方案上可分為三大路徑,每一派都有各自的代表:

      【連桿方案】充分展現(xiàn)了機械設計的美感,但通常意味著低自由度,但也有以韓國ILDA為代表的高自由度靈巧手。

      【繩驅(qū)方案】優(yōu)勢是輕量化、自由度高、力量輸出穩(wěn)定。特斯拉的Optimus和在硅谷101 Alignment科技大會上表演開可樂罐的TetherIA靈巧手,都是繩驅(qū)方案中“單向拉繩”的代表選手;“雙向拉繩”的代表則有被譽為“靈巧手皇冠明珠”的Shadow Robot和ORCA Hand。但這類方案也面臨著走線延伸、材料蠕變、裝配難度高等問題。

      【直驅(qū)方案】優(yōu)點在于方便精細控制。在行業(yè)展會上,Sharpa機器人憑著一雙電機直驅(qū)靈巧手驚艷了眾人,它一張一張地發(fā)撲克牌,拿著相機按下快門。劣勢則是抗沖擊力差,重量較大等。

      本期《硅谷101》,泓君邀請了靈巧手模型算法方面和硬件方面的兩位專家——來自的亞馬遜&前Meta機器人研究科學家齊浩之,TetherIA聯(lián)合創(chuàng)始人陶一偉,一起聊聊靈巧手的現(xiàn)狀,不同技術(shù)路線的特點,以及它在數(shù)據(jù)和算法上面臨的挑戰(zhàn)。

      嘉賓們認為,對靈巧手頭部公司來說,短期內(nèi)針對單項任務打造成功一個的Demo并不難,真正的突破在于通用性與可擴展性。當算法能讓機器人在短時間內(nèi)學會開可樂、開門、擰螺絲等多樣化的靈巧操作,才意味著靈巧手到達了類似ChatGPT的泛化突破階段。


      以下是這次對話內(nèi)容的精選:

      01機器人靈巧手的能力與挑戰(zhàn)

      泓君:可能聽眾最迷惑,在很多Demo里,大家看到機器人可以去拿吸塵器、倒垃圾、燒水,甚至把盤子放在洗碗機里。我記得特斯拉有一年的發(fā)布會,擎天柱現(xiàn)場給大家倒酒,看起來這個手已經(jīng)是很智能了。所以可不可以概括一下,現(xiàn)在機器人的手它能做哪些場景?它到了一個什么樣的發(fā)展程度?

      齊浩之:好的,我會認為,在遙操作的情況下,如果這個手的手指不需要很精細的動作,那它是一個比較簡單的問題,比如說擎天柱倒酒,它就是把手放到出酒的那個把手上,往下壓,這個在控制上是比較簡單的。

      與此相對的是,比如說今天我們想讓一個機器人使用我們家庭里面的各種工具,比如說像螺絲刀、像剪刀這樣的東西,在這個過程中我們的手指需要更加精細靈巧的操作,在這種情況下它的操作就會變得很難。以及我們需要它適應于千家萬戶不同的工具,這個難度就會呈指數(shù)級的上升。


      “擎天柱”(Optimus)展示倒酒 圖片來源:X

      泓君:你剛剛提到了一個詞是“精細運動”,還有一個我理解就是講它的“泛化能力”,就是把它放在不同的場景中,在這兩塊是還需要加強的。

      陶一偉:我稍微補充一點,剛才齊老師可能是從系統(tǒng)端的角度來講這個問題,我可能更多地是從硬件這方面去切入。一是把現(xiàn)有的硬件方案做得更可靠,就是說讓機器人能夠在真實的環(huán)境中不停地長時間穩(wěn)定的運行,并且和自然物體的交互,在長時間使用中不會損壞,這個事情實際上也沒有完全地去做到。

      并且這個硬件還是需要繼續(xù)地去迭代,比如增加它的自由度,增加它的觸覺傳感。在這個過程中,由于系統(tǒng)復雜性的增加,它的可靠性又變成了更大的挑戰(zhàn)。這也是從硬件端還需要我們?nèi)プ龅暮芏喙ぷ鳌?/p>

      泓君:我給聽眾一個更加形象的例子,今年我們的年會上,Evan是在現(xiàn)場用機器人表演了開可樂的。其實在彩排的時候,它是一個不穩(wěn)定的狀態(tài)。比如說當時我也想去試讓這個機器人打開可樂,但是我隨意放了一個角度,這個時候可能需要機器人旋轉(zhuǎn)一下才能把這個可樂打開。旋轉(zhuǎn)一下這個動作,對機器人很難嗎?

      陶一偉:沒錯,這個是一個非常好的問題。首先開可樂本身,看似只要一雙手,再加上一個指甲就可以實現(xiàn),但是真正把它放到一個雙臂機器人系統(tǒng)上,還是非常有挑戰(zhàn)的工作,而我們也只是淺淺Demo了一下,未來還有非常多的工作,怎樣能讓整個事情變得完全自動地實現(xiàn)起來,并且成功率非常高地去實現(xiàn),還是一個很長的路要走。

      可樂怎么去對準這個事,精度是一個方面的問題,還要感知到現(xiàn)在可樂的狀態(tài),以及,人可以實現(xiàn)用任意姿態(tài)去抓起這一罐可樂,然后在單手調(diào)整可樂的角度,去達到最完美的狀態(tài),再讓另一只手過來,又以一個最完美的狀態(tài)把它拉開。這個機器人還是需要一個過程,包括手的硬件設計、控制這些方面的能力。

      泓君:現(xiàn)在世界上有其他的公司,比如說它在自由度上做得更多的,他們能做到很好地去旋轉(zhuǎn)可樂,然后再把它打開嗎?

      陶一偉:我覺得一些比較頭部的公司去調(diào)整優(yōu)化一下他們的硬件,包括去更多地在這方面下一些工夫,也是可以實現(xiàn)這么一個Demo的。但是目前說讓它完全自主去做,我覺得可能還是沒有看到哪一家可以去做到。這個可能更多的我要看看齊老師的觀點。

      泓君:對對,齊老師還有論文是講用視覺跟觸覺做手內(nèi)旋轉(zhuǎn)的,應該是這方面的專家了。

      齊浩之:我的看法是,現(xiàn)在大家有不同的宣傳策略,或者說他們的一些發(fā)展或者研究的側(cè)重點。比如說,對于像陶總這樣的硬件廠商,他們可能目標是為了證明他們的硬件非常地好用,無論是從機械結(jié)構(gòu)上,或者說用它做的一些控制系統(tǒng)上,所以去展示一些很炫酷的Demo是非常好的。

      與此相對的,還有一些做靈巧手的算法,但是不做靈巧手硬件的公司,他們可能就會比較少的展示這樣方面的能力,而更多的是一種展示它的泛化性的能力。

      就正如陶總所說,如果我們只優(yōu)化這一個視頻,那有一些頭部的硬件廠商或者算法的研究院,他們可以做出來。但是從長遠的角度來看,我們更應該專注的是什么樣靈巧手的構(gòu)型是能夠適用于最多種類的任務,以及對于算法的接口最好。


      圖片來源:Figure

      泓君:所以現(xiàn)在,浩之,根據(jù)你的研究,你覺得已經(jīng)有公司它能做到我隨意擺上去——我們不說任何環(huán)境、任何場景——我們就說這個可樂罐,它的瓶跟它的開口,不一定是正對著這個機器人的手的,它能把它打開的這樣的一些公司嗎?

      齊浩之:我覺得現(xiàn)在是沒有這樣的公司的。如果一個公司他們今天想要完成這個任務,他們可能會從技術(shù)上花幾個月去做到這件事情,但是他們可能需要花費非常多的資源和非常多的時間,可能就是出于對他們本身公司路線的考量,他們不會去做這件事情本身,而更傾向做一些算法上的改進,讓他能夠縮短以后想要做這件事情的時間。

      泓君:就是他們不會針對單個的任務去做這種優(yōu)化,而是他是希望現(xiàn)在在優(yōu)化的方向是讓他適應盡可能多的任務,就是還是更加看重它的泛化性。

      齊浩之:是的。

      泓君:了解。如果照這個來說的話,我印象中之前Figure AI他們放了一些視頻出來,大概就是有機器人它能把盤子放進洗碗機里。所以這個視頻它可能是拍很多次失敗挑出來的一些成功的案例?還是像你說的,它其實是通過遙操,它只是一個展示類的視頻,它并不代表機器人擁有這樣的一些能力?

      齊浩之:我覺得這里面沒有一個確定的信息源吧。但是我覺得就是現(xiàn)有的算法是可以做到在一個固定的場景下能比較容易地拍出這種視頻,比如說它整個任務的成功率可能有80%-90%,在這種情況下拍一個視頻,也是自主完成的,它的難度也沒有特別高。但是距離讓這種人形機器人走入千家萬戶,它可能差的是如何在每一個場景下都可以以100%的成功率去完成這些任務。比如說把盤子放到洗碗機里,很可能90%也是不夠的,因為有10個盤子,如果碎了一個,大家就不想用這個機器人了。所以可能需要改進的就是成功率,以及老生常談的泛化性的問題。

      泓君:所以現(xiàn)在在靈巧手的問題上,大家關(guān)注的也還是泛化性。

      陶一偉:對,我這里也補充一下,實際上我們在每一個任務中還是要去細分地看它整體的難度。因為剛才泓君您提到裝洗碗碟和從洗碗機里往外拿,這個任務拆解下來,它主要是機器人拿起碗碟,打開洗碗機的門,然后放進洗碗機的架,這幾個就像齊老師說的,做簡單的抓取物體,并且拉動一些拉桿,屬于相對比較簡單的任務。這個難度實際上跟剛才我們談到的開可樂還不是一個數(shù)量級。

      因為開可樂仔細去分析這個事情,它實際上是一個用左手或者右手把可樂從桌面上拿起來,調(diào)整好罐口方向,再用另外一只手從空氣中對準之后,以一個合適的角度卡入拉環(huán),并且以一個合適的角度和力去打開這個可樂。并且在這個過程中,因為它是雙手對一個物體進行同時操作,你的另外一只手要對抗這個拉可樂的力,對抗的過程中你又要怎么保證你的手指不會產(chǎn)生過大的力把這個易拉罐給捏爆?從整體機器人控制系統(tǒng)上來說,這是比收納碗碟難得非常多的一件事情。


      圖片來源:TetherIA

      泓君:所以大家覺得,現(xiàn)在如果我們綜合來說整個靈巧手它的瓶頸是在哪?它是整個機器人行業(yè)的問題,就比如說我們還是說這個模型的問題、泛化性的問題,還是說靈巧手它除了這個之外,它還是有很多它自己這個行業(yè)獨有的難題?

      陶一偉:靈巧手我們不能光看它是硬件的一個模塊,它能產(chǎn)生它的價值肯定是要配上至少一個雙臂的這么一個系統(tǒng)。這個雙臂的系統(tǒng)會形成一個最小可以用來工作的機器人。但是當我們想要真正讓它泛化地去在一個環(huán)境里執(zhí)行任務,你就會需要一個移動的底盤、移動的平臺。有了這樣移動的平臺,大家就會說輪式的是不是可以針對一些可能更復雜的路面情況,包括機器人的上下的運動?大家又會說,那可能還真的是一個全人形的更合適。所以說真正能讓靈巧手有價值,肯定不是簡簡單單一個硬件模塊可以去解決的事情。

      齊浩之:它的難點肯定是整個機器人到處都是難點。經(jīng)常也會有人問我做靈巧手最難的地方是什么?我認為現(xiàn)在來看,硬件和軟件還會有一個很大的提升空間。

      從軟件層面來說,我的理解是一些比較成熟的在機械臂或者一些輪式機器人上面的算法,就是一些機器學習的算法,當把它們直接應用在靈巧手或者人形機器人這種更復雜系統(tǒng)的時候,它會出現(xiàn)一些之前沒有預料到的問題。比如說現(xiàn)在的靈巧手可能有四五個手指,然后每一個手指有各種各樣的關(guān)節(jié),每一個關(guān)節(jié)都可能與這個環(huán)境發(fā)生交互、與這個物體發(fā)生交互。那么怎么能在保證這些交互所產(chǎn)生的一些影響是對我們有利的?比如說我們今天想要抓一個物體,如果我們用一個夾爪去抓,我們只需要考慮兩個接觸點該怎么去觸碰這個物體?但是如果我們現(xiàn)在給了10個接觸點,那么這10個接觸點該怎么去分別地接觸這個物體?有的接觸點之間可能是互相對抗的作用,這種情況下在計算復雜度上就會顯著地變難。

      從硬件層面來說,我開始研究靈巧手可能是2021年、2022年,在那個時候是只有非常少的選擇,我們可以買到并且還可以用的靈巧手。在最近的一兩年,我們的靈巧手硬件,尤其是國內(nèi)廠商,還有美國這邊一些造硬件的公司都有了長足的進步,所以我覺得這方面的瓶頸在逐漸地減少。但是我的預測是還需要幾輪的迭代,才能做到一個比如說大家現(xiàn)在能看到的宇樹機器人那樣,一個逐漸收斂的構(gòu)型。

      泓君:現(xiàn)在的靈巧手,市面上能買到的,大家的形狀、硬件都各不一樣,那你就要去根據(jù)這個硬件調(diào)配自己的軟件。

      齊浩之:嗯,就是以像人的靈巧手居多。但是每一家公司他們的技術(shù)路線都會有所不同,像陶總的公司應該是繩驅(qū)的技術(shù)方案,也有一些公司是把電機放在靈巧手的手指上這種驅(qū)動方案。

      02盤點靈巧手硬件三大技術(shù)路徑

      泓君:其實說到技術(shù)路徑,就我知道現(xiàn)在業(yè)界比較流行的有幾種,一種是連桿驅(qū)動的,一種是繩驅(qū)的,繩驅(qū)還分單向繩驅(qū)跟雙向繩驅(qū),還有電機驅(qū)動的。要不要跟大家簡單地介紹一下,這些技術(shù)路線各自的優(yōu)劣勢是什么?現(xiàn)在業(yè)界的主流方向在向哪個方向發(fā)展?它有沒有收斂的趨勢?

      陶一偉:我先從硬件本身這個角度來談一下,之后可能麻煩齊老師再補充,從使用者的角度來看,到底哪一種是它更傾向的。

      首先我們先看三個主要的方式,一個就是連桿,另外一個繩驅(qū),最后一個就是直驅(qū)。

      連桿最早應該是大家比較傳統(tǒng)意義上的那種假肢手,是采取這樣的一個結(jié)構(gòu)驅(qū)動方式,它通過底下驅(qū)動器,無論是直線的推桿、電缸,或者是用蝸輪蝸桿的方式產(chǎn)生一個旋轉(zhuǎn)運動,最后實現(xiàn)手指彎曲。

      這是屬于傳統(tǒng)意義上六自由度的低自由度靈巧手,它更多的是像手的一個形狀,但是它的手指的運動軌跡其實是相對還是比較低自由度的,它的指尖是跟隨一個固定的路線,是個一維的這么一個軌跡。大拇指它的設計也是它側(cè)擺之后直接正對應食指或者中指之間,它也是通過這么一個固定軌跡的方式去合攏,所以說從使用的角度來說,它和夾爪相比,特點并沒有那么的明顯。這是低自由度連桿手的一個特點。

      泓君:低自由度靈巧手,六個自由度,差不多就是五個手指這樣合攏,然后還有一個自由度在哪?

      陶一偉:是大拇指的側(cè)面擺動。

      泓君:就是大拇指有兩個自由度,然后其他的手指各一個自由度。


      由韓國阿猶大學的智能機器人研究實驗室(IRLAB)設計并開源的ILDA靈巧手圖片來源:Iir LAB AJOU

      陶一偉:沒錯。連桿手實際上還有另外一條路線,也是高自由度的路線,就是之前韓國一篇論文叫ILDA,這篇論文的手基本上思路也是通過一個相對更復雜的連桿方式,把每個手指根部設計出三個主動的直線驅(qū)動器,然后通過也是比較復雜的連桿系統(tǒng),實現(xiàn)每個手指三個自由度的方式。這樣的手的確還是比較先進,但是它可能存在的問題是它的體積還是比較大,并且它的所有的零部件進行剛性的連接,使用中缺少一些柔性。這個柔性不僅在抓握物體的過程中感覺并不是非常的柔順,并且它也會在碰撞的過程中相對來說更容易損壞一些。

      泓君:這是第一個,連桿驅(qū)動優(yōu)劣勢。

      陶一偉:然后我談一下第二個,直接驅(qū)動的這些方式。直驅(qū)的靈巧手其實是這一兩年才逐漸出現(xiàn)的這么一個方案。實際上現(xiàn)在電機驅(qū)動器也有很多的發(fā)展,把電機驅(qū)動器做得足夠小,使得這樣的直驅(qū)方案變得可行了。

      優(yōu)點是它的自由度可以做得非常高,它可以在每個關(guān)節(jié)排布一個驅(qū)動器,并且它從控制角度來說,因為關(guān)節(jié)和電機直接對應的,是相對來說比較容易去做的。它的缺點可能更多的是一個貴。我覺得最終可能應該成本也能往下走,但是它更多的一個點在于它把電機做得微小之后,它的減速比還是相對來說比較高,它大的減速比會使得整個的傳動透明性比較差一些。也就是說它里面的齒輪、零部件都比較精密,也是在實際的應用中可能壽命或者是抗沖擊能力會是它的一個問題。并且因為把他的電機所有的這些零件做得非常小型化,使得它的所有結(jié)構(gòu)都非常需要有高強度的金屬結(jié)構(gòu),這就使得整個手的系統(tǒng)的重量沒有辦法做得非常的小而輕。所以普遍直驅(qū)的靈巧手都是在將近一公斤或者一公斤以上,這個在機器人末端來說還是挺大的一個負載。

      泓君:一公斤的手那好重啊,這設計平衡都是一個問題。

      陶一偉:的確,對,這些是它的一些問題,還有一些就是包括剛才提到的可靠性、易維護性,這可能我們還是看一看這個方面的發(fā)展。


      圖片來源:Sharpa

      泓君:所以它現(xiàn)在算是業(yè)界里面從靈活度來說是做得比較高的這樣的一種靈巧手,就是也可以理解成它是能完成更多的精細運動跟復雜動作的類型。因為之前是有人跟我推薦過,說我們應該去聊一聊Sharpa這家公司,就覺得它做得還挺好的,他們好像就用的這種電機直驅(qū)的方式。

      陶一偉:沒錯沒錯,他們做得真的是非常的驚艷。它的產(chǎn)品的完成度非常高,感覺它集成的很好,整個工業(yè)設計還非常不錯,它每個關(guān)節(jié)有獨立的電機,使得它的整個真的是非常靈活。

      泓君:它能做到哪些其他靈巧手做不到的工作?

      齊浩之:我覺得從展示這個視頻的角度來說,他們可能做了一些,比如說用相機拍照,比如說有一個雙臂靈巧手的系統(tǒng)給大家發(fā)撲克牌,這個會比較難,因為比如說我們想象一疊撲克牌的時候,兩張牌之間它的間隔很小,當我們自己人手發(fā)牌的時候,我們需要控制一個比較精確的力,才能把這個牌從這個牌堆上面拿出來,然后再給大家。如果說碰牌的點不是很準,或者是力太大,很容易一下發(fā)很多張牌,或者把牌堆給打散,所以他們做的這個視頻還是相當驚艷。

      泓君:嗯,就是如果要一張牌一張牌地發(fā),對手部精細度的要求還是比較高的。對,這個是直驅(qū)的方案。然后還有一種應該是Evan你這邊比較熟悉的,就是拉繩跟繩驅(qū)的這種方案。

      陶一偉:對的,繩驅(qū)的方案其實現(xiàn)在市面上幾家主流的公司方案的話也主要分兩種,一個是雙向拉繩的方案,一個是單向拉繩的方案。雙向拉繩的主要以最早的我們可能都聽說過,靈巧手的皇冠的明珠吧,Shadow Hand他們的一個產(chǎn)品,是一個15萬美金的天價產(chǎn)品,超高26個自由度的靈巧手。他們的方案就是在每個關(guān)節(jié)用兩根繩同時連到旋轉(zhuǎn)電機的兩個方向上,使得旋轉(zhuǎn)電機向順時針轉(zhuǎn)就是彎曲,逆時針轉(zhuǎn)就是伸直,是這樣的一個思路。


      圖片來源:Shadow Robot

      還有比較類似的另外一款目前開源的手叫ORCA Hand,是蘇黎世理工做出來的,他們這個也是非常不錯的一款雙向拉繩開源的靈巧手方案。這樣的靈巧手比較大的難度在于一個雙向拉繩、一個張緊問題。因為當你一個旋轉(zhuǎn)軸去控制末端的另外一個旋轉(zhuǎn)軸的時候,它需要兩側(cè)繩的長度長時間保持不變,因為繩在使用的過程中材料會產(chǎn)生蠕變,這個蠕變一旦發(fā)生就會有一個松動的現(xiàn)象發(fā)生,這個松動的現(xiàn)象使得系統(tǒng)的精度降低,并且比較難以控制。

      從解決的角度來說,ORCA Hand有一個比較聰明的方式,一個精妙的設計,就是在它驅(qū)動器上用了一系列的棘輪機構(gòu),使得你可以輕松地去張緊這個繩。但是這個問題也是在于你還是要在使用過程中時不時要去調(diào)整一下這個東西,這是這個方案比較大的一個難度。


      ORCA Hand中的棘輪機構(gòu) 圖片來源:ORCA

      還有一點就是,這種高自由度靈巧手,其實繩子本身雖然不占太多的體積,但是繩驅(qū)設計的走線,在機械設計中它對空間的利用率實際上非常低。它不像是你設計齒輪或者設計其他類似的方案,你可以說很緊密地把電機排布在一起。你要去考慮到整個繩的走線,然后整個關(guān)節(jié)運動中繩的一個范圍變化,一個非常動態(tài)的事情。所以使得高自由度靈巧手,尤其是繩驅(qū)方案,很少有能夠全部做在手掌內(nèi)的,這就使得它的驅(qū)動器都要往手腕以下去延伸。像Shadow Hand和ORCA Hand,以及特斯拉。實際上我們國內(nèi)有一家公司源升智能,他們做的繩驅(qū)方案是把驅(qū)動器全部整合在手掌內(nèi),但是這樣也的確使得他們手掌的體積稍微還是比較大的。

      泓君:特斯拉是哪種方案?

      陶一偉:特斯拉是單向拉繩的方案。然后就說到單向拉繩,這也是一個主流的方案。單向拉繩好處就是說,對于腱繩材料的蠕變它不是那么的敏感,它可以通過算法的方式相對容易地去克服這個事情。但它的缺點就是說它的伸直運動是沒有主動的力,相當于是靠彈簧去實現(xiàn)伸直。這個彈簧伸直的過程中,一是這個力相對來說還是比較小的,如果你想要盡量去優(yōu)化你的抓握力的話,因為你在抓握過程中實際上是跟你的彈簧力一個對抗,你有更強的伸展力,你就浪費掉你的抓握力。但是有的時候人在一些精細的操作,人用手的過程中,反向地推這樣的力,的確也會有它的作用,但是現(xiàn)在這個階段我們還是在解決抓握的事情。

      泓君:就沒有想到張開的事情,是吧?

      陶一偉:對,張開的的確還用得并不是那么多。反向推,你可以想象你如果去閉著眼睛在你的書包里掏一些東西,你可能需要把其他東西撥開。這個的確是需要一個推的動作,但是更多的還是要整手的觸覺,這個確實是非常難的一個問題了,現(xiàn)在大家都沒有去考慮這個事情。

      泓君:對,那業(yè)界現(xiàn)在大家在向哪幾個方向收斂呢?

      陶一偉:從我看來,硬件上業(yè)界現(xiàn)在主要是朝著直驅(qū)和單向拉繩這個方向去收斂,包括特斯拉還有我們都是這樣的一個方式。直驅(qū)的話也是非常驚艷的,連桿的手可能相對高自由度的做的公司會少一些。

      泓君:Figure AI他們用的是什么方案?還有Physical Intelligence。

      陶一偉:Figure AI,我簡單看了一下他們的專利,它可能是一個六自由度的,或許是連桿,或者是其他的一些方案的一個手。


      圖片來源:Figure

      泓君:浩之有什么補充的?講講你作為使用者的體驗。

      齊浩之:我自己是用過連桿和直驅(qū)電機的這兩種,我確實沒有用過繩驅(qū)動的手。

      我們現(xiàn)在去做“機器人+AI”,大概有兩種比較主流的方式。第一種方式就是先用遙操作采數(shù)據(jù),然后去訓練一個神經(jīng)網(wǎng)絡去完成某些任務。在這種情況下,比較經(jīng)典的代表可能是Aloha,還有像Physical Intelligence的這條路徑。

      另外一條比較主流的路徑是在一個物理的模擬器中,去用強化學習去訓練這么一個網(wǎng)絡,就直接把這個網(wǎng)絡從仿真器里面遷移到真實世界。比較成功的案例就是基本上所有大家看到的四足機器人、雙足機器人跳舞、走路都是走的這條技術(shù)方案。

      靈巧手的話,任何一種方案在現(xiàn)在這個時間點都有它的缺陷。但是其中的這套從仿真器中訓練一個網(wǎng)絡,再遷移到真實世界也是非常流行的。所以這個就有一個問題,就是我們在選擇靈巧手的時候會去衡量它有多容易被仿真。之前我們比如說比較連桿的手以及直驅(qū)的手,我們會覺得直驅(qū)的手相比于連桿的手,會容易仿真很多,所以在我們做一些需要高自由度,需要一些用強化學習才能學到的這種靈巧操作的時候,就會選擇用直驅(qū)的這個手。在之前這種直驅(qū)的手,就像剛才Evan說的,它最大的缺陷是當時的電機非常大,也是在最近幾年這個電機才做得越來越小,比如說Sharpa。

      當時我們覺得Sharpa驚艷的另外一個原因就是說,在Sharpa之前,跟人手差不多大小的這種機器人的手,它一般都是要么是連桿驅(qū)動,要么是繩驅(qū),對于我們想做的這個技術(shù)路線不太適用。所以當時我們覺得它既有人類的大小,然后又是電機驅(qū)動的,就是很適用于我們做這方面的研究。


      圖片來源:Sharpa

      泓君:所以我覺得挺有意思的,就是如果用仿真的方式去研究靈巧手的話,其實你首先需要這個手長得跟人類的手一樣,甚至你的自由度、你的關(guān)節(jié)數(shù)有多少要跟人類的手越接近越好。剛剛大家提到Sharpa的手,我看它的價格好像是10萬美元一只。還有Evan你剛剛提到Shadow Hand的那個手,它是15萬美元。誰在買這些這么貴的靈巧手?都是科研機構(gòu)跟大公司的研發(fā)部門嗎?

      齊浩之:Sharpa應該是5萬一只。

      泓君:5萬一只,10萬兩只,它會按對賣嗎?

      齊浩之:應該是可以按對賣的。我的理解是,首先這些廠商他們不會靠賣這個硬件去盈利,至少在此時此刻,因為他們還遠遠沒有到量產(chǎn)的那個階段。他們現(xiàn)在對于這個公司最重要的可能是先確定他們現(xiàn)在這個構(gòu)型哪里還值得被優(yōu)化,接下來再去往一個正確的方向繼續(xù)迭代。這樣的迭代可能還有很多很多輪。他們的這個價錢很多時候我個人的理解可能是有一些篩選作用在的,就是他們只想給那些真正對他們的硬件有一個很強烈的需求的人,可能是大廠,或者是一些來自于政府資助的高校。舉一個例子,當時Shadow Hand的一個主要客戶就是17、18年的OpenAI,他們當時做靈巧手轉(zhuǎn)魔方,他沒有足夠的財力去支持他們做這樣的工作。

      泓君:挺有意思的。我理解,其實他們現(xiàn)在也不是靠賣硬件賺錢,還是希望能把這條路跑通。他們其實也是希望能夠吸引在上面的開發(fā)者,然后把整個生態(tài)搭起來,讓更多的人去用到他們?nèi)ジ倪M這個方案。

      齊浩之:嗯,我是這么理解的。Evan可以從硬件從業(yè)者的角度來討論一下。

      陶一偉:或者從我的創(chuàng)業(yè)者的角度來討論一下這個事吧。我們公司的商業(yè)模式可能還跟他略有不同。因為就像剛才齊老師說的,這些機構(gòu)是一個走高端學術(shù)路線,包括篩選精品客戶的角度來做這個事情。

      的確,像現(xiàn)在泓君您看到很多Demo在應用場景中似乎已經(jīng)是可以落地。而我們思路是做一款穩(wěn)定可靠、價格更低,能讓真正地做應用端的客戶能夠很快地去部署的這么一個產(chǎn)品。可能我的自由度,包括整個的性能,包括觸覺沒有那么的高級,但是我們會去做一款這樣的產(chǎn)品。這樣使得大家可以在落地的過程中逐漸建立起這個生態(tài),然后幫我們更多地獲得和客戶的反饋。這是我們從創(chuàng)業(yè)公司的角度來說,我們的一個策略。價格比較便宜的靈巧手并不代表沒有技術(shù)含量,也并不代表它沒有商業(yè)價值。

      03特斯拉靈巧手研發(fā)故事

      泓君:Evan,其實你進特斯拉的時候應該是在兩年多以前,2023年7月份,對吧?正好是特斯拉Optimus手的研發(fā),你要不要跟大家簡單介紹一下它整個的手是怎么演進的?

      陶一偉:沒問題。其實是最早我加入的時候,當時做手的團隊,我們整個Optimus做機械硬件的團隊應該大概是十幾個人這么一個團隊。我和另外一個人主要是負責這個手的項目。實際上外界現(xiàn)在也不是很清楚當時那一代手是個什么樣的方案。它是個蝸輪蝸桿繩驅(qū)方案,六個主動自由度,十一個全關(guān)節(jié),這么一個欠驅(qū)動靈巧手。

      當時在內(nèi)部,我們已經(jīng)是迭代到了第三代。我當時加入的時候最主要的一個升級就是增加靈巧手的關(guān)節(jié)編碼器,就是怎么能夠捕捉到靈巧手在空間中的位姿,另外一個是增加它的觸覺。

      雖然這兩個工作似乎只是電路上的升級,但是從整個系統(tǒng)設計的角度,因為有了這些新的功能的加入,整個靈巧手當時沿用第一代的構(gòu)型,就使得裝配過程中非常困難。

      我剛進去的第一個星期的任務,就是帶領(lǐng)生產(chǎn)團隊親手去組裝這個剛設計好的第三代靈巧手。的確是個非常痛苦的過程。可能一個手我們從早裝到晚也裝不出來。從沒有搞機械的角度來說可能很難理解,就是你每一個工序可能都要花一兩個小時在那里慢慢地做,這個實際上就是一個硬件構(gòu)型設計上還不完善的地方。

      泓君:就是Tesla自己做的,他也沒有用其他的硬件的方案,就相當于他全部是自己設計、自己研發(fā),然后你來正好就是趕上要自己組裝這個事情。

      陶一偉:沒錯。馬斯克實際上當時看到的那個第三代的手他沒有特別滿意,因為是從外形的設計包括各方面還是更多的有點像實驗室的樣機這么一個狀態(tài)。

      泓君:他想要什么樣的?他是對外形不滿意?還是對里面的技術(shù)方案不滿意?

      陶一偉:馬斯克看到的是一個外形、一個是產(chǎn)能。外形他覺得不是很滿意,另外一個產(chǎn)能當時可能一天只能組裝一兩臺,就這樣的產(chǎn)能太差。

      泓君:所以他其實當時可能在質(zhì)疑整個的這個設計環(huán)節(jié),就是從外形到這個方案是不是好落地?

      陶一偉:是的,所以這就是我當時進去的時候第一個任務就是帶領(lǐng)整個項目把它的手重新設計一遍,和工業(yè)設計很緊密地去合作,整個把它的結(jié)構(gòu)從里外重新的架構(gòu)調(diào)整了一下,包括很多的設計細節(jié)也是我們獨創(chuàng)的。這是我們做出來的一個我們內(nèi)部叫3.1代的手,但對外就是我們所有目前看到的裝機,還是大規(guī)模裝機,一直到現(xiàn)在用的這款手。


      圖片來源:Tesla

      泓君:改進以后,現(xiàn)在裝一只手要多久?

      陶一偉:離開的時候,我記得是一個星期要一百多臺,是我們的技術(shù)工人在現(xiàn)場裝,自己有條產(chǎn)線。從我們工程師的角度來說,我們肯定先要自己先做一遍,先要走一遍這個流程之后才能交給工人去做。

      泓君:那馬斯克對靈巧手的這個問題上,提出過哪些他的想法?

      陶一偉:馬斯克他是非常堅信第一性原理,所以說他的很多的指導也是從這個角度來的,包括去做仿生這樣的事情。

      泓君:仿生的問題上,就我知道特斯拉內(nèi)部你們其實是做過人體的分析,去看人體是怎么感知力的,就是人的手他是怎么工作的。

      陶一偉:沒錯,首先我們是看了很多生物解剖上面的學術(shù)論文,學習了人的肌腱的運動的發(fā)力的方式。還有甚至一個小小的故事,就是說我們其中有一個伙伴的媽媽是一個手部的外科醫(yī)生,我們也正好有這么一個機會去到現(xiàn)場觀察真的人手的結(jié)構(gòu),當時這個經(jīng)歷還是很有趣的。

      泓君:然后你剛剛提到其實你們有看過很多生物學的論文,你從中獲得的最大的一個啟發(fā)是什么?或者說整個特斯拉他從人體的工作里面得到的啟發(fā)是什么?

      陶一偉:其實特斯拉從上一代,到未來馬上要發(fā)的這一代手,最大的一個變化就是把驅(qū)動器從手掌內(nèi)移到小臂,這個也是借鑒了一部分人的設計,因為人的手指的彎曲的驅(qū)動的肌肉是在小臂上的存在。

      泓君:不是在手掌內(nèi),是在小臂上。

      陶一偉:其實是都有,所以說這也是我們自己方案和特斯拉有一些差異的點。它的小臂控制更多的是一個大的抓握力的肌肉,你可以這樣理解,因為它的肌肉還是比較大的。手掌內(nèi)分布的肌肉更多的是控制手的一個靈巧的精細化的操作運動。

      齊浩之:我有一個比較好奇的問題,剛才二位也提到了裝配一個繩驅(qū)的靈巧手可能要花的時間非常多,而且要非常專業(yè)的人去做。我比較好奇的是,這會不會使它的產(chǎn)能相比直驅(qū)的靈巧手有一個比較大的區(qū)別?

      陶一偉:是的,我認為是這樣的,直驅(qū)靈巧手因為作為可能更像傳統(tǒng)意義上的機械結(jié)構(gòu),包括機器人系統(tǒng),它通過傳統(tǒng)的一些比較成熟的機械的工藝的方式,可以實現(xiàn)比較容易的裝配,你可以通過擰螺絲或者是焊接的這種方式去組裝,這樣的方式都是已經(jīng)比較成熟的方式,它既能保證精度,也可以保證整個效率。

      但是繩驅(qū),因為腱繩的方案,傳統(tǒng)意義上這方面的整合的事情就做得不是那么多,所以說這方面是需要整個行業(yè)去推進的一個事情,包括腱繩怎么兩端固定的驅(qū)動器和末端的執(zhí)行元件的連接,既能保證它生產(chǎn)速度,同時保證它的精度,這個事情大家還是在探索的過程中。但是這個事情最終還是一個工程的問題,它并不是一個基礎的科學問題。所以說隨著整個行業(yè)的推進,我們認為這個事情最終是能被克服的。

      04揭秘靈巧手“數(shù)據(jù)金字塔”

      泓君:我們剛剛聊了很多跟靈巧手的硬件相關(guān)的問題,那接下來我們可以聊一聊算法層面的,就是浩之你這邊主要在研究的。

      齊浩之:在過去的幾個月里面,我主要研究的是如何從一些人類的視頻中學習這些靈巧操作的技能。

      現(xiàn)在大家可能比較了解的是應用一些遙操作的方式。遙操作就是現(xiàn)在我們有一個操作員,他可以戴一些動作捕捉的手套或者一些動作捕捉的衣服,然后把這些人的動作映射到機器人的手上。但是這樣其實可能有一些缺陷,第一個缺陷就是說每一個操作員都要適配一臺機器人,那么如果我們想要把機器手操作的數(shù)據(jù)一直把它推廣到像有語言數(shù)據(jù)那么多,是非常困難的,因為沒有那么多機器人以及產(chǎn)能不夠。

      所以另外一條路就是說我們能不能根據(jù)一些現(xiàn)有的數(shù)據(jù),比如說有很多視頻是包括人去錄制自己如何做飯、如何去清理家務,有一些手的動作,我們就想要研究能不能通過讓機器人觀看這些手的動作,然后讓它自己就學會了這些技能。

      泓君:現(xiàn)在表現(xiàn)怎么樣?

      齊浩之:現(xiàn)在我會把它歸類為還在研究的階段。如果我們的目標是想要達到一個最好的效果,那么肯定是直接用遙操作的方式去采集機器人本身的數(shù)據(jù)會是最好的。但是因為現(xiàn)在我們還沒有把從人類視頻中學習數(shù)據(jù)的這個樣本數(shù)目推廣到足夠多。我相信從長遠來看,這條路徑很有可能會取代遙操作。

      泓君:我覺得挺有意思的,而且我注意到之前1X它還發(fā)了一個機器人Neo,這個Neo它是可以進家庭,可以幫你做一些基礎的家務的,但是很可怕的是大家是以出賣隱私的方式去讓這個機器人工作的,因為每個機器人后面有一個遙操的人在控制這個機器人。那我理解,其實這也是他們自己收集數(shù)據(jù)的一種方式。


      Neo演示廣告片 圖片來源:1X

      齊浩之:對,沒錯,就是我的理解是現(xiàn)在還沒有一家公司能夠把機器人賣到用戶的家里,完成他們想要做的任務。所以1X相當于是一種有點像特斯拉在自動駕駛上面的策略,先把車賣給用戶,用戶去開這個車,開這個車的同時就采集到了數(shù)據(jù)。只不過是人形機器人的話,用戶自己并不能操作這個人形機器人,所以就有一個他們自己的操作員去操作這個機器人。當然他涉及到的一些隱私問題、一些道德層面上的問題,其實都是需要更多地被討論。

      泓君:你剛剛提到,你2021年~2022年開始去做機器人的這些部分的,那個時候其實GPT3已經(jīng)出來了,但是能不能用端到端的方式去訓練機器人跟靈巧手,我覺得在那個時候它還不是市場的一個主流方向,那時候大家研究機器人的一些主要的方向在哪里呢?

      齊浩之:我會認為那個時候大家研究的機器人主要是想讓機器人在某一個任務上,在有限的泛化性的要求下去完成這個任務。因為那個時候硬件也不是很多,能做靈巧手科研的課題組也不是很多,靈巧手這個問題本身大家也沒有很想做。特斯拉宣布做人形機器人之后,整個人形機器人行業(yè)和這個靈巧手行業(yè)迎來了一波爆發(fā),大家才逐漸開始做這個方面。

      然后在后來最近的幾年,就有越來越多的人試圖用GPT的研究方式去做一些端到端的模型,包括在一些比較簡單的機器人本體上也做得還行,就是也有了一些初步的驗證結(jié)果,比如說Physical Intelligence,他們就用很大規(guī)模的數(shù)據(jù)加上遙操作去展示了這個機器人有很強的能力。但是對于靈巧手的話,有一個更難的地方,就是靈巧手采集數(shù)據(jù)會比其他機器人采集數(shù)據(jù)要難很多。


      圖片來源:TetherIA

      泓君:你是說手部的數(shù)據(jù)?

      齊浩之:對。所以即使我們有操作員不停地一直在采集數(shù)據(jù),距離到GPT那個等級的數(shù)據(jù),或者說Physical Intelligence那個等級的數(shù)據(jù)還不是一個非常簡單的任務。

      泓君:我上次其實有跟他們的研究員聊,他們π0.5好像是說1萬多個小時的數(shù)據(jù),對吧?就1萬多個小時已經(jīng)算整個機器人行業(yè)最大的真實數(shù)據(jù)集,當然這個是高質(zhì)量的數(shù)據(jù)。

      齊浩之:對,肯定有很多公司在收集數(shù)據(jù)的過程中,他們所產(chǎn)生的數(shù)據(jù)遠超1萬個小時。但是還有一個問題就是在于什么樣的數(shù)據(jù),對于訓練機器人來說是有用的。

      泓君:我們聊一下你的研究,我知道你在研究用視覺跟觸覺去做比如說手內(nèi)旋轉(zhuǎn),或者是用兩只多手指去學習一些復雜操作的。整體上你的工作其實是證明觸覺帶來的提升,就你能不能簡單跟大家解釋一下,為什么機器人它要有觸覺?加進去了以后機器人多了哪些能力?

      齊浩之:我覺得機器人有觸覺其實是有幾個方面的好處。我之前做過一個比較有趣的實驗。在美國這邊可以買到那些有一些麻醉凝膠,像牙醫(yī)做一些小手術(shù),會把那些麻醉凝膠放到牙齦上,我當時就把一些麻醉凝膠放到我的手上,這個是完全無害的,只是有一些時間讓你感覺不到一些東西,然后我就去試圖在這種情況下去做一些操作,很多時候這個操作也可以被完成,但是就會感覺它做得很慢,因為實際上我是要用我的眼睛仔細地去看我的手到底有沒有接觸到,我想比如說拿一根鉛筆,或者說拿一個板擦這種東西。

      所以我覺得首先有觸覺,當你的手指和物體交互的時候,它能給到更精確的信息。比如說我們現(xiàn)在想象一個人形機器人,它去進行一些操作,它的手可能拿到了一個東西,這個時候這個視覺一定是很難看到它到底有沒有拿到東西了,因為手把這個接觸點擋住了,所以天然地來說在這種情況下觸覺會更有用。

      泓君:所以觸覺就是加傳感器,對不對?

      齊浩之:對。另外一個非常有用的點是說,它可以控制力的大小。比如說回到最初我們提到的開可樂瓶的例子,剛才Evan提到我們需要一個手用足夠多控制住這個可樂瓶的力,但是又不能把它捏爆,另一只手可能就需要去拉可樂瓶的拉環(huán),然后這個拉環(huán)當然也是要有一定的角度,就是使力的角度要非常的精確,不然很可能把這個拉環(huán)拉斷了,但是可樂瓶還沒有開。在這種情況下去感知你操作時候它所用的力也是非常重要的,這樣感知力最好的方式就是通過一些觸覺的傳感器。

      泓君:所以觸覺的傳感器,它是不僅僅能感知到我摸到了這個物體,它還是能感知力的。感知力這個是怎么做到的?

      齊浩之:現(xiàn)在的有各種技術(shù)方案,我可能就簡單說兩三種。比如說我們可以把一些壓感傳感器放到手指尖上,然后這個壓感傳感器大概就是說當外界給一定的壓力的時候,這個電路會產(chǎn)生不一樣的電流,然后根據(jù)這個電流的大小來判斷這個壓力有多大。

      另外的一些方案,就比如說,有一種叫視觸覺傳感器。比如說我們現(xiàn)在有一個手指,我們就在手指內(nèi)部加了一個另外的相機,這個相機會往外看,它會有一些材料能夠當手指進行接觸的時候產(chǎn)生一些形變,相機就會捕捉到這些形變。當它捕捉到這些形變之后,就可以反向地推斷出外界的力是從哪個方向來的,是有多大的力,把這些信息放到一些視覺處理器或者一些神經(jīng)網(wǎng)絡中就可以得到我們想要的觸覺信號。

      陶一偉:對,我可以稍微再補充一點,關(guān)于觸覺,剛才齊老師說的主要是在手指或者手表面覆蓋的這樣的一些觸覺傳感器,實際上從我們跟客戶的交流過程中,另一部分客戶比較在意的靈巧手的力反饋信息,其實也是來自于驅(qū)動器的一個電流的大小。就是說驅(qū)動器到底用多大的力來拉動這個手指,這個也是另外一部分比較重要的力反饋信息。這個其實和人類的感知系統(tǒng)也比較類似,因為當人類去抓握物體或者操作物體的時候,人的皮膚表面是有一層的觸覺信號,還有另外一層是來自于你的肌肉收縮的感知能力。

      泓君:我覺得挺有意思的,就是我聊了這么多,其實有一個感受是我們之所以把機器設計得這么復雜,是因為我們對人體跟我們自身一無所知。

      陶一偉:沒錯。

      齊浩之:我覺得剛才Evan補充得非常好,就是繩驅(qū)這條技術(shù)路線一個很大的優(yōu)勢就是在于它可以比較容易地實現(xiàn)力控,因為它可以通過收縮這個力的大小來達到這一點。

      泓君:你覺得像你這樣的一個研究科學家大概一天能收集多少這種遙操的力的數(shù)據(jù)呢?

      齊浩之:這個其實很取決于我想要什么樣的任務。假如說我現(xiàn)在最簡單的用這個手去抓取一個東西放到另外一個地方,這個其實可以收集很多,只要我不累,我就可以一直以很高的成功率收集這樣的數(shù)據(jù)。

      但是比如說一些更難的任務,比如說我現(xiàn)在要去遙操作一個機器人去用剪子剪窗花或者折紙這種,即使是收集一條都非常難。這個也是我們在做算法的時候,想要去解決的一些任務,就是這種很難去采集數(shù)據(jù)的任務,能不能用一些其他的算法上的突破去解決?

      泓君:所以現(xiàn)在大家主流的方案是跟著視頻學。

      齊浩之:對,大家現(xiàn)在有不同的探索路徑,視頻是其中一條很多人在研究的路徑。還有就是用模擬器作為路徑。還有一種就有點像最近出的Sunday和Generalist,就是用一些特定的設備去采這樣的數(shù)據(jù),然后把它轉(zhuǎn)化成機器人可以用的數(shù)據(jù)。


      圖片來源:Sunday Robotics

      泓君:這個其實是從數(shù)據(jù)不同的收集方式來訓練模型的角度去考慮的。我們說遙操它的數(shù)據(jù)量小,但是它的數(shù)據(jù)質(zhì)量非常高,視頻的數(shù)據(jù)可能缺乏了很多比如說力的這些信息,但是它的優(yōu)點是多,哪一種效果是好的?就是現(xiàn)在這個事情業(yè)內(nèi)有共識嗎?

      齊浩之:如果對于一個公司來說,他們還是用遙操作的比較多,因為他們需要追求絕對的效果。用視頻數(shù)據(jù)很多人在研究,但是我覺得它是一種研究的階段,包括特斯拉最近也發(fā)布了他們用人類視頻學到的一些操作的視頻,但是我覺得從絕對的能力來說還是不如遙操作的。之所以在這種情況下還要研究視頻,是因為大家相信可能在未來的幾個月或者一年或者更久,當視頻的量積累到了一定程度之后,它的能力可以超過遙操作。但是應該不是此時此刻。

      泓君:可能它追求的東西是不太一樣的,精確性就是還是需要遙操的數(shù)據(jù),泛化性可能視頻也很重要,我不知道我的總結(jié)對不對。

      齊浩之:對,我覺得可以這么理解,不同的數(shù)據(jù)它有不同的特征,有的數(shù)據(jù)就是能讓你得到一個比較快的能力上的提升,但是它比較難采集,然后有一些數(shù)據(jù)是很容易采集,但是大家如何最好地利用它也沒有一個定論。

      我們業(yè)界研究的時候會有一個金字塔這樣的模型,比如說遙操作,它就在金字塔尖,它的量比較少,但是很有用,視頻的數(shù)據(jù)可能就在金字塔的底座,就是它非常的多,但是它并不是最能夠提升機器人效果的這一個數(shù)據(jù)。

      中間部分有各種各樣,比如說有機器,比如說有仿真。

      泓君:對,我記得之前我有在一個活動上跟很多像DeepMind、OpenAI的這些科學家也討論過,問大家什么樣是他們喜歡的方式。那天正好其實是Genie3這個世界模型剛出來,我發(fā)現(xiàn)大家分成兩派截然相反的看法,一派是覺得Genie3對整個的機器人行業(yè)幫助不大,不是一個很重要的事情。但另一派就會覺得這個事情很重要,它可以幫助訓練機器人。

      齊浩之:我覺得從做研究的角度來看,我肯定是覺得這種新的基礎模型肯定是有幫助的,只是我們需要找到方式最好地利用它。說它完全沒用,肯定有失偏頗,但是我覺得說它我們只需要去訓練一個很大的視頻生成模型,它就能解決機器人,其實也是不現(xiàn)實的,因為很簡單的道理就是現(xiàn)在的視頻生成還沒有完全解決它的物理的真實性。

      雖然我們每年都看到它在物理層面上有越來越多的進步。但是我想我之前比較愛舉的一個例子是說,假設我們能夠靠學習視頻模型把這個預測物理世界會發(fā)生什么解決,那這也就意味著我們可以訓練這個語言模型,讓它能夠沒有Hallucination(幻覺)。因為它相當于學到了一些真實數(shù)據(jù)的物理規(guī)則,而并不是說去簡單地過擬合這個數(shù)據(jù)。

      所以我覺得語言模型我們現(xiàn)在仍然沒有解決Hallucination,那我覺得距離視頻模型學到真正的物理世界的規(guī)律還是任重而道遠。所以我們不能完全依賴于視頻模型去訓練我們的機器人,但是它可以提供一些很好的初始化也好,或者是一些其他方面的信號,就都是可以有幫助的。

      泓君:還挺有意思的。你們覺得實現(xiàn)手部的靈巧動作,我們就說開可樂,回到開始的問題,有多難?它到了一個GPT3時刻嗎?

      陶一偉:說不定我覺得還的確是,如果機器人能夠真正做到開可樂,是很好的一個benchmark(基準測試),達到了GPT時刻,我認為因為它的確是靈巧性的綜合能力的考量。

      齊浩之:對,我可能想稍微說遠一點,舉一個例子,比如說我們看20年前其實就有一些能跑步的機器人,就是本田,就是Honda的ASIMO,它已經(jīng)能在舞臺上很好地跑步、上下樓梯。就有很多質(zhì)疑的聲音說,為什么我們過了20多年,這個人形機器人也就能達到20多年前的水平?這其實涉及到一個問題,就是有多簡單能夠達到這樣的水平。現(xiàn)有的算法是可以很容易,當它達到了跑步,然后你就稍微改一些東西,它可以很容易地達到跳舞,這個跟20年前讓一個機器人跑步可能需要很多高精尖的團隊一起負責迭代幾個月或者幾年是完全不一樣的。

      所以我覺得如果我們未來有一個算法,這個算法框架本身確定了以后,它可以用很短的時間讓機器人開可樂,它還可以讓這個機器人做開門、擰螺絲這樣各種各樣的任務,那我覺得確實就是GPT時刻了。

      泓君:我們離這樣的一個時刻有多遠?

      齊浩之:這個預測總感覺會被打臉,我覺得可能還有3-5年。

      泓君:那這個比我想象中快太多了。

      陶一偉:我覺得從硬件的角度、產(chǎn)品的角度,應該是今年內(nèi)就會有產(chǎn)品能夠滿足這樣的能力。

      泓君:你是說在任何場景下開一罐可樂,機器人也可以旋轉(zhuǎn)它、隨便放,就是自主操作,不是遙控。

      陶一偉:可以這么說。我認為硬件是非常快能夠達到這個。的確,硬件是相當于給整個機器人行業(yè)提供一個基石,更多它的上限的天花板,要靠軟件和背后的模型能力的提升來釋放出整個系統(tǒng)的能力的。

      齊浩之:據(jù)我觀察,最近這兩年靈巧手實現(xiàn)了一個井噴式的飛躍,感覺有一個非常光明的未來。

      第一方面就是市場上來說,人形機器人火起來之后,大家首先更容易有一些硬件,更容易有一些能夠做復雜硬件的廠商,然后他們?nèi)プ鲮`巧手以及人形機器人。

      其二就是有很多比較簡單的本體,像是輪式或者說平行夾爪,它們在科研問題本身做得也比較開始大同小異了,就是沒有一個新的爆點。所以大家正在探索在更復雜系統(tǒng)上如何迭代算法,也就是靈巧手和人形機器人。

      我覺得這兩點共同促進了整個研究行業(yè)的發(fā)展。

      泓君:好的,非常期待。今天聊得非常精彩,謝謝兩位。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      看完《大生意人》再看《老舅》,我想說:沒有對比就沒有傷害!

      看完《大生意人》再看《老舅》,我想說:沒有對比就沒有傷害!

      孤城落日
      2025-12-16 22:17:45
      疑點重重:俄媒發(fā)布視頻,極力想證明潛艇沒被烏克蘭無人艇擊中

      疑點重重:俄媒發(fā)布視頻,極力想證明潛艇沒被烏克蘭無人艇擊中

      鷹眼Defence
      2025-12-17 17:43:11
      陪玩陪睡已過時!拳頭塞嘴、集體開嫖、戚薇遭殃,陰暗面徹底曝光

      陪玩陪睡已過時!拳頭塞嘴、集體開嫖、戚薇遭殃,陰暗面徹底曝光

      涵豆說娛
      2025-11-20 16:35:46
      泰軍再次炮擊柬埔寨園區(qū),電詐分子出逃,長長隊伍一眼望不到頭

      泰軍再次炮擊柬埔寨園區(qū),電詐分子出逃,長長隊伍一眼望不到頭

      環(huán)球熱點快評
      2025-12-18 07:59:22
      克洛普直言:這四位才是足壇歷史傳奇主帥,安切洛蒂被無視!

      克洛普直言:這四位才是足壇歷史傳奇主帥,安切洛蒂被無視!

      瀾歸序
      2025-12-18 01:38:00
      網(wǎng)友爆料被撞銷售已經(jīng)死亡,雷軍之前的宣傳又惹爭議

      網(wǎng)友爆料被撞銷售已經(jīng)死亡,雷軍之前的宣傳又惹爭議

      映射生活的身影
      2025-12-17 23:57:46
      廣東3消息!杜鋒難得聽勸,朱芳雨確定買斷王少杰,徐杰真男人

      廣東3消息!杜鋒難得聽勸,朱芳雨確定買斷王少杰,徐杰真男人

      多特體育說
      2025-12-17 23:02:23
      68歲趙本山近況曝光:賣房賣飛機救女,百億身家換不來女兒好睡眠

      68歲趙本山近況曝光:賣房賣飛機救女,百億身家換不來女兒好睡眠

      明月光
      2025-11-22 13:57:08
      國運來了擋不住!30億噸鐵礦重見天日,美媒:中國將改寫全球格局

      國運來了擋不住!30億噸鐵礦重見天日,美媒:中國將改寫全球格局

      混沌錄
      2025-11-06 23:45:04
      廣東隊迎來好消息!小外援拆掉了護具,有望趕上與山西隊的比賽

      廣東隊迎來好消息!小外援拆掉了護具,有望趕上與山西隊的比賽

      體育哲人
      2025-12-18 18:09:39
      海南封關(guān)首日三亞大東海擠滿俄羅斯游客,海灘廣播以中俄雙語循環(huán)播放

      海南封關(guān)首日三亞大東海擠滿俄羅斯游客,海灘廣播以中俄雙語循環(huán)播放

      極目新聞
      2025-12-18 10:13:32
      日本巨頭中國工廠將停產(chǎn)

      日本巨頭中國工廠將停產(chǎn)

      深圳晚報
      2025-12-18 14:24:56
      雷佳音:大學時陳赫瞧不起我,見面都躲著走,我農(nóng)村人,就這樣

      雷佳音:大學時陳赫瞧不起我,見面都躲著走,我農(nóng)村人,就這樣

      白面書誏
      2025-11-20 17:29:35
      再有錢又怎樣?印度首富小兒子300斤生娃難,兩代人全靠高科技生

      再有錢又怎樣?印度首富小兒子300斤生娃難,兩代人全靠高科技生

      毒舌小紅帽
      2025-12-16 19:06:34
      珠海一小區(qū)有業(yè)主疑酒后點火燒樓,還在業(yè)主群讓管家提醒大家離開,當?shù)兀阂殉鼍饟錅缌?>
    </a>
        <h3>
      <a href=大風新聞
      2025-12-18 16:42:04
      “柬埔寨生命科學院”再被指發(fā)布虛假信息,南華大學附二院否認與其合作

      “柬埔寨生命科學院”再被指發(fā)布虛假信息,南華大學附二院否認與其合作

      澎湃新聞
      2025-12-17 13:14:26
      鳩山由紀夫戳破真相,當年免掉千億賠款,實則給日本立了個死規(guī)定

      鳩山由紀夫戳破真相,當年免掉千億賠款,實則給日本立了個死規(guī)定

      曹焋解說
      2025-12-07 15:55:03
      丈夫43歲被總監(jiān)裁員,領(lǐng)了補償后把前同事刪了,老板知道后傻眼了

      丈夫43歲被總監(jiān)裁員,領(lǐng)了補償后把前同事刪了,老板知道后傻眼了

      小秋情感說
      2025-12-18 14:28:52
      除了巴鐵、朝鮮等寥寥幾個國家外,很多國家都盼著中國和誰打一架

      除了巴鐵、朝鮮等寥寥幾個國家外,很多國家都盼著中國和誰打一架

      扶蘇聊歷史
      2025-12-18 17:38:02
      分段已超150米,中國在建全球最大航母,亞洲第一航母軍港建成?

      分段已超150米,中國在建全球最大航母,亞洲第一航母軍港建成?

      小七七七七
      2025-12-18 15:23:58
      2025-12-18 18:47:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經(jīng)科技媒體
      127747文章數(shù) 861493關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

      財經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      手機
      房產(chǎn)
      親子
      藝術(shù)
      軍事航空

      手機要聞

      消息稱某廠驍龍8 Gen5新機配備8K級電池,預計為真我Neo8

      房產(chǎn)要聞

      太強了!封關(guān)時刻,兩天砸下50億!央企綠發(fā),重倉三亞!

      親子要聞

      聚焦教聯(lián)體+協(xié)同共育!這場培訓為學前教育高質(zhì)量發(fā)展蓄能

      藝術(shù)要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 曰本无码人妻丰满熟妇啪啪| 丁香激情网| 国产18禁黄网站禁片免费视频| 人妻内射一区二区在线视频| 重庆市| 丰满熟女人妻一区二区三| 天天爽天天爽夜夜爽毛片| 亚洲色诱惑| 一本一道久久综合狠狠躁牛牛影视| 女女互磨互喷水高潮les呻吟| 日韩av无码中文无码电影| 伊人成色| 婷婷99视频精品全部在线观看 | 91网站免费| 欧美3p两根一起进高清免费视频 | 老司机在线精品| 国产日韩av免费无码一区二区三区| 日本特黄特黄刺激大片| 美姑县| 中文字幕第4页| 国产91特黄特色A级毛片| 好紧好湿太硬了我太爽了视频| 色噜噜人妻丝袜AⅤ资源| 亚洲国产第六| 婷婷丁香五月深爱憿情网| 欧美黑吊大战白妞| 国产在线不卡精品网站| 九台市| 亚洲欧美综合| 久久99精品久久久大学生| 国产三级精品三级| 少妇精品导航| 内射极品人妻| 欧美人精品人妻在线| 国产VA| 亚洲香蕉av一区二区蜜桃| 激情国产一区二区三区四区小说| 福利所第一导航福利| 2021国产精品一卡2卡三卡4卡| 377p欧洲日本亚洲大胆| 一本色道久久综今亚洲AV蜜桃|