![]()
作者 | 山竹
出品 | 鋅產(chǎn)業(yè)
2022年12月13日,是一個(gè)值得被機(jī)器人行業(yè)記住的日子。
這一天,Google Research對(duì)外開(kāi)源了RT-1模型。
與兩個(gè)月前發(fā)布的ChatGPT相似的是,RT-1同樣是一個(gè)基于transformer架構(gòu)的通用大模型;
與ChatGPT不同的是,RT-1是面向機(jī)器人這一垂直領(lǐng)域的通用大模型。
作為一個(gè)通用機(jī)器人大模型,RT-1可以以97%的準(zhǔn)確率讓機(jī)械臂在廚房中執(zhí)行700多項(xiàng)常見(jiàn)任務(wù),并擁有了一定的泛化性。
![]()
RT-1出現(xiàn)之時(shí)足夠驚艷,它甚至實(shí)現(xiàn)了OpenAI想做卻沒(méi)做成的具身智能。
而在RT-1背后,最關(guān)鍵的是Google Research一個(gè)16人團(tuán)隊(duì),耗時(shí)17個(gè)月,花費(fèi)上千萬(wàn)美金,用13臺(tái)機(jī)器人收集的13萬(wàn)條真實(shí)機(jī)器人運(yùn)行數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù)集。
它是RT-1在廚房場(chǎng)景實(shí)現(xiàn)97%任務(wù)執(zhí)行準(zhǔn)確率的關(guān)鍵“教材”。
這之后,谷歌又相繼在2023年7月和2023年10月發(fā)布了RT-2和RT-X。
谷歌RT系列相繼面世,引起了全球機(jī)器人團(tuán)隊(duì)的高度關(guān)注,大家都開(kāi)始拆解研究谷歌RT系列成果,思考大模型究竟能為機(jī)器人帶來(lái)怎樣的泛化能力。
也是在這時(shí),深度參與了RT系列模型研發(fā)的谷歌機(jī)器人科學(xué)家Karol Hausman從谷歌拉出一支團(tuán)隊(duì),聲稱(chēng)要為全球機(jī)器人造一個(gè)通用大腦。
Hausman通用大腦的構(gòu)想,既是RT系列的延續(xù),也是一次逃離谷歌的冒險(xiǎn)。
01一代“產(chǎn)品”,兩輪融資
Hausman為從谷歌“拉出”的這支團(tuán)隊(duì),起了一個(gè)很接地氣的名字——Physical Intelligence,直譯過(guò)來(lái)是「物理智能」。
當(dāng)然,你也可以稱(chēng)它為具身智能,不過(guò),他們更愿意將自己簡(jiǎn)稱(chēng)為PI,而他們的公司LOGO,也是直接用的數(shù)學(xué)中那個(gè)用來(lái)表示圓周率的π。
如今,PI對(duì)外公布了第一階段研究成果——π0。
π0不是一款機(jī)器人,而是PI團(tuán)隊(duì)花費(fèi)八個(gè)月時(shí)間造出的一個(gè)通用機(jī)器人基礎(chǔ)模型,PI團(tuán)隊(duì)希望,這個(gè)模型可以讓人們像使用ChatGPT這樣的chatbot一樣,便捷地使用機(jī)器人。

PI團(tuán)隊(duì)這里所說(shuō)的機(jī)器人是任意品牌、任意形態(tài)的機(jī)器人,可以讓這些機(jī)器人執(zhí)行通用任務(wù),也可以通過(guò)微調(diào)讓這些機(jī)器人在專(zhuān)業(yè)場(chǎng)景執(zhí)行專(zhuān)業(yè)任務(wù)。
就像ChatGPT不挑電腦品牌,甚至也可以在手機(jī)等更多終端設(shè)備上應(yīng)用一樣。
不過(guò),PI團(tuán)隊(duì)在對(duì)外發(fā)布的論文和視頻中,使用的機(jī)器人依然是基于移動(dòng)平臺(tái)的雙機(jī)械臂。
由于這一形態(tài)最適合機(jī)器人“練手”,適合訓(xùn)練機(jī)器人手眼腦協(xié)調(diào)執(zhí)行任務(wù)的能力,也一直是機(jī)器人,尤其是人形機(jī)器人的最簡(jiǎn)配置。
![]()
PI團(tuán)隊(duì)套用莫拉維克悖論解釋稱(chēng):
“讓人工智能贏得一場(chǎng)國(guó)際象棋比賽或發(fā)現(xiàn)一種新藥來(lái)說(shuō)很簡(jiǎn)單,但讓它執(zhí)行疊衣服或清理桌面這樣對(duì)人類(lèi)來(lái)說(shuō)再簡(jiǎn)單不過(guò)的任務(wù),卻很困難。”
為了構(gòu)建能夠執(zhí)行類(lèi)人任務(wù)的人工智能系統(tǒng),在π0研發(fā)的這八個(gè)月里,PI團(tuán)隊(duì)最主要的工作就是采集數(shù)據(jù),并通過(guò)大量數(shù)據(jù)來(lái)對(duì)這一模型進(jìn)行高強(qiáng)度的訓(xùn)練。
據(jù)官方透露,π0的訓(xùn)練數(shù)據(jù)主要來(lái)源于目前行業(yè)中的開(kāi)源數(shù)據(jù)集,以及他們自己通過(guò)8臺(tái)機(jī)器人執(zhí)行多樣化任務(wù)積累下來(lái)的數(shù)據(jù)。
具體而言,這一模型訓(xùn)練過(guò)程可以分為以下四步:
第一,從OpenAI的GPT-4V、谷歌的Gemini這樣的預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型(VLM)中繼承語(yǔ)義知識(shí)和視覺(jué)理解能力,PI團(tuán)隊(duì)基于此獲得的30億參數(shù)的VLM進(jìn)行再調(diào)整,以適應(yīng)機(jī)器人的實(shí)時(shí)靈活控制;
第二,基于PI團(tuán)隊(duì)自研的流匹配(flow matching)算法,為VLM模型提供連續(xù)動(dòng)作輸出,以使其可以實(shí)現(xiàn)50次/s的頻率輸出運(yùn)動(dòng)控制指令;
第三,基于開(kāi)源的機(jī)器人數(shù)據(jù)集和基于基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的VLM,PI團(tuán)隊(duì)形成了自己的視覺(jué)-語(yǔ)言-動(dòng)作流匹配模型,并通過(guò)自采集的高質(zhì)量機(jī)器人數(shù)據(jù)對(duì)這一模型進(jìn)行后續(xù)訓(xùn)練;
第四,針對(duì)復(fù)雜、靈巧任務(wù),對(duì)模型進(jìn)行微調(diào)。
基于這四步,經(jīng)過(guò)八個(gè)月的研發(fā),PI團(tuán)隊(duì)搞出了第一版機(jī)器人通用大腦,π0。
![]()
相較于年初在學(xué)術(shù)界鬧得沸沸揚(yáng)揚(yáng)的斯坦福團(tuán)隊(duì)遙操作的Mobile ALOHA而言,π0真正實(shí)現(xiàn)了完全自主執(zhí)行任務(wù)。
PI團(tuán)隊(duì)就單一指令簡(jiǎn)單任務(wù)、復(fù)合指令復(fù)雜任務(wù),以及疊襯衫、雜物裝袋、從烤面包機(jī)中拿出吐司幾個(gè)任務(wù),對(duì)π0、π0-small(未使用VLM預(yù)訓(xùn)練的470M參數(shù)模型)與OpenVLA、Octo進(jìn)行了對(duì)比,得出的結(jié)論是,π0實(shí)現(xiàn)了全面碾壓。
![]()
能夠在八個(gè)月內(nèi)迅速造出這樣的模型,得益于Hausman從谷歌拉出了一支強(qiáng)悍的團(tuán)隊(duì)。
這支擁有27人的創(chuàng)業(yè)團(tuán)隊(duì),既有像Brian Ichter、Chelsea Finn這樣來(lái)自Google Brain團(tuán)隊(duì)的科學(xué)家,也有像UC Berkley助理教授Sergey Levine這樣同樣參與了RT系列項(xiàng)目的外部科研團(tuán)隊(duì)的科學(xué)家。
可以說(shuō),Hausman是再次集結(jié)了RT項(xiàng)目中的科學(xué)家,做了一個(gè)延續(xù)RT系列使命的創(chuàng)業(yè)項(xiàng)目。
正因如此,PI團(tuán)隊(duì)在美國(guó)大受追捧,截止目前已經(jīng)先后拿到了7000萬(wàn)美元、4億美元兩輪融資,包括紅杉資本、Khosla Ventures、Thrive Capital、Lux Capital等知名投資機(jī)構(gòu)都擠進(jìn)了這一項(xiàng)目。
就連OpenAI、亞馬遜創(chuàng)始人貝索斯,也為PI開(kāi)出了支票。
據(jù)《紐約時(shí)報(bào)》報(bào)道稱(chēng),這個(gè)成立不到一年的團(tuán)隊(duì),如今估值已經(jīng)飆升到了24億美元。
02硬件天團(tuán)后,軟件熱潮來(lái)
大模型讓全球看到了一條通向通用人工智能的路,這不僅讓全球科技巨頭為之騷動(dòng),也讓一大批創(chuàng)業(yè)團(tuán)隊(duì)涌入了這條賽道。
優(yōu)質(zhì)資源堆積的大模型賽道,很快就在全球范圍內(nèi)經(jīng)歷了一次百團(tuán)大戰(zhàn)。
然而,眾所周知,大模型的進(jìn)化,就是一支又一支科學(xué)家團(tuán)隊(duì)不斷燒錢(qián)的過(guò)程,燒錢(qián)程度超乎想象。
馬斯克曾為還未面世的GPT-5的訓(xùn)練做過(guò)一個(gè)估算,他認(rèn)為,OpenAI訓(xùn)練GPT-5大概需要3-5萬(wàn)張H100,僅僅是買(mǎi)卡,就需要6-10億美元。
![]()
這還不包括服務(wù)器成本、電力成本,以及頂級(jí)科學(xué)家團(tuán)隊(duì)的薪資成本。
另一個(gè)來(lái)自于市場(chǎng)研究機(jī)構(gòu)CB Insights的統(tǒng)計(jì)數(shù)據(jù)顯示,2023年,全球生成式AI新創(chuàng)企業(yè)一共融到了204億美元,即便是國(guó)內(nèi),人工智能領(lǐng)域融資就有232筆,融資總額達(dá)到了20億美元。
面對(duì)這樣一個(gè)燒錢(qián)的大家伙,只進(jìn)不出是肯定不行的,畢竟投資人的錢(qián)也不是白拿的,他們更在乎實(shí)際的經(jīng)濟(jì)價(jià)值和應(yīng)用效果。
于是,2024年,我們看到全球都在呼喚大模型落地。
其中,AI硬件被寄予厚望,具身智能概念風(fēng)起。
AI PC、AI手機(jī),尤其是AI機(jī)器人不斷涌向,就連不關(guān)注商業(yè)化的波士頓動(dòng)力創(chuàng)始人Marc Raibert也主導(dǎo)成立了波士頓動(dòng)力人工智能研究院。
而波士頓動(dòng)力轉(zhuǎn)向電驅(qū)后的Atlas,也在近日放出了在工業(yè)場(chǎng)景全自動(dòng)執(zhí)行搬運(yùn)任務(wù)的Demo視頻——告訴Atlas搬運(yùn)位置,它就可以將零件自動(dòng)搬運(yùn)到相應(yīng)位置。

這自然有賴(lài)于波士頓動(dòng)力團(tuán)隊(duì)在人工智能領(lǐng)域的研究成果。
大模型帶來(lái)的人工智能技術(shù)突破,的確讓一大批機(jī)器人團(tuán)隊(duì)看到了推動(dòng)人形機(jī)器人產(chǎn)業(yè)化的可能。
據(jù)IT桔子統(tǒng)計(jì)數(shù)據(jù)顯示,2023年1月至今,國(guó)內(nèi)共有29家人形機(jī)器人公司成立。
這其中就不乏銀河通用、星動(dòng)紀(jì)元、UniX AI這樣以人工智能算法見(jiàn)長(zhǎng)的團(tuán)隊(duì)。
人形機(jī)器人要進(jìn)入產(chǎn)業(yè),目前一個(gè)關(guān)鍵技術(shù)瓶頸是任務(wù)執(zhí)行的泛化性,這就對(duì)人工智能算法提出了很高的要求。
如果說(shuō)哪個(gè)團(tuán)隊(duì)對(duì)這類(lèi)模型有著最高的聲望,那一定是谷歌RT系列背后的研究團(tuán)隊(duì)。
Hausman正是想要破除壁障,造一個(gè)通用的機(jī)器人大腦。
他現(xiàn)在的方法是,通過(guò)預(yù)訓(xùn)練模型用來(lái)教會(huì)這個(gè)大腦有關(guān)物理世界的規(guī)律和知識(shí),通過(guò)微調(diào)讓這個(gè)大腦能夠很好地執(zhí)行特定任務(wù)。
借助這一模式,π0已經(jīng)學(xué)會(huì)了自動(dòng)完成疊衣服、收拾桌子、疊紙箱子在內(nèi)的11項(xiàng)日常任務(wù)。
![]()
不過(guò),經(jīng)由這一模式研發(fā)的π0,實(shí)則仍然算不上機(jī)器人通用大腦,要想造出機(jī)器人通用大腦,整個(gè)模型的微調(diào)過(guò)程就需要由機(jī)器人自動(dòng)完成。

在PI官方博客中,Hausman的團(tuán)隊(duì)也坦然承認(rèn),“通用機(jī)器人策略依然處于起步階段,我們還有很長(zhǎng)的路要走。”
至于此次發(fā)布的π0,PI團(tuán)隊(duì)自己給出的評(píng)價(jià)是:
強(qiáng)大的通用策略,繼承了預(yù)訓(xùn)練大模型的語(yǔ)義理解能力,整合了來(lái)自不同任務(wù)和機(jī)器人平臺(tái)的數(shù)據(jù),實(shí)現(xiàn)了前所未有的靈活性。
![]()
而為了打造機(jī)器人通用大腦,PI團(tuán)隊(duì)認(rèn)為,他們?cè)谀P脱芯可闲枰劢谷齻€(gè)方向:
長(zhǎng)任務(wù)鏈路推理和規(guī)劃、自主優(yōu)化和自進(jìn)化、穩(wěn)定性和安全性。
作為脫胎于谷歌RT系列項(xiàng)目的明星團(tuán)隊(duì),又是只做通用軟件的中立團(tuán)隊(duì),據(jù)悉,PI團(tuán)隊(duì)已經(jīng)和多家機(jī)器人公司和實(shí)驗(yàn)室展開(kāi)合作:
一方面,幫助合作伙伴的機(jī)器人團(tuán)隊(duì)改進(jìn)他們的遙操作和自主執(zhí)行任務(wù)的能力;
另一方面,引入合作伙伴的數(shù)據(jù),將這些數(shù)據(jù)整合到PI團(tuán)隊(duì)的預(yù)訓(xùn)練模型中,提升模型的泛化性和兼容性。
作為被黃仁勛、馬斯克、奧特曼等科技巨頭掌舵者看重的未來(lái)產(chǎn)業(yè),也是具身智能最重要的形態(tài),人形機(jī)器人由大腦、小腦、肢體三大核心部分組成。
而如果說(shuō)誰(shuí)最有可能造出機(jī)器人通用大腦,脫胎于谷歌RT系列項(xiàng)目的PI團(tuán)隊(duì)或是其中一個(gè)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.