![]()
![]()
出品|搜狐科技
作者|常博碩
編輯|楊 錦
近日,AI機(jī)器人公司Generalist發(fā)布了GEN-0,一個(gè)參數(shù)量超過(guò)10B的具身基礎(chǔ)模型。作為首個(gè)驗(yàn)證了具身智能規(guī)模定律(Embodied Scaling Law)的機(jī)器人通用基礎(chǔ)模型,GEN-0的發(fā)布也被譽(yù)為機(jī)器人領(lǐng)域的“ChatGPT時(shí)刻”。
模型一經(jīng)發(fā)布便引起了大量討論,更有業(yè)內(nèi)人士認(rèn)為,這標(biāo)志著機(jī)器人行業(yè)的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn),行業(yè)正從主要依賴(lài)于模擬訓(xùn)練或?qū)iT(mén)工程控制的“仿真時(shí)代”,邁向一個(gè)由大規(guī)模真實(shí)世界數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。![]()
![]()
海量真實(shí)數(shù)據(jù)
一步踏入Scaling Law
GEN-0是由美國(guó)機(jī)器人公司Generalist AI推出的一類(lèi)具身基礎(chǔ)模型。它與大語(yǔ)言模型類(lèi)似,是一個(gè)多模態(tài)模型,但專(zhuān)門(mén)針對(duì)機(jī)器人執(zhí)行物理任務(wù)而設(shè)計(jì)。
GEN-0繼承了視覺(jué)-語(yǔ)言模型的優(yōu)勢(shì),同時(shí)原生支持感知與動(dòng)作輸出,可以捕捉人類(lèi)級(jí)別的反射行為和物理常識(shí)。在官方演示中,機(jī)器人能自主完成從拿取托盤(pán)、清潔、取放零件、封裝的長(zhǎng)時(shí)序操作,整個(gè)過(guò)程無(wú)需人工分步指令,一氣呵成。
![]()
在訓(xùn)練上,GEN-0的預(yù)訓(xùn)練直接使用的是真實(shí)世界的高保真物理交互數(shù)據(jù),而不依賴(lài)仿真環(huán)境或人類(lèi)示范視頻去做訓(xùn)練。
目前,Generalist已經(jīng)構(gòu)建了一個(gè)前所未有的真實(shí)世界操作數(shù)據(jù)集,總時(shí)長(zhǎng)超過(guò)27萬(wàn)小時(shí),每周新增數(shù)據(jù)超過(guò)1萬(wàn)小時(shí)。對(duì)27萬(wàn)小時(shí)數(shù)據(jù)量沒(méi)有概念的話(huà),可以參考這張官方發(fā)布的對(duì)比圖,對(duì)比了和目前國(guó)外一些公司訓(xùn)練數(shù)據(jù)規(guī)模的差異。
![]()
不僅如此,這個(gè)數(shù)據(jù)集涵蓋了數(shù)千種任務(wù)與場(chǎng)景,從家庭廚房的削土豆,到工廠(chǎng)車(chē)間的擰螺絲、包裝組裝,從商店架上的拿取物品,到快餐店的操作,每種任務(wù)都有海量真實(shí)軌跡記錄。
這樣的訓(xùn)練數(shù)據(jù),使得模型學(xué)到的不是理想狀態(tài)下的動(dòng)作,而是如何在滑動(dòng)、遮擋、光照變化等擾動(dòng)下完成任務(wù)。官方表示,他們發(fā)現(xiàn)數(shù)據(jù)質(zhì)量和多樣性比絕對(duì)數(shù)量更關(guān)鍵,混合不同任務(wù)和環(huán)境的數(shù)據(jù)能讓模型學(xué)到更有用的技能。
同時(shí)據(jù)官方稱(chēng),這種高數(shù)據(jù)量已經(jīng)揭示了兩個(gè)迄今為止業(yè)界一直未能發(fā)現(xiàn)的關(guān)鍵結(jié)論。
目前,機(jī)器人領(lǐng)域的基礎(chǔ)模型其實(shí)主要基于視覺(jué)-語(yǔ)言預(yù)訓(xùn)練,這樣也就意味著可以將現(xiàn)有的多模態(tài)模型的語(yǔ)義泛化優(yōu)勢(shì)遷移過(guò)來(lái)。但是,機(jī)器人模型Scaling Law問(wèn)題一直是業(yè)界難題,也就是說(shuō)目前還沒(méi)有一種很好的方式或者研究可以證明機(jī)器人的智能確實(shí)能隨著算力和數(shù)據(jù)的增加而持續(xù)提升。
但是Generalist在這方面取得了突破,這也是行業(yè)對(duì)其贊不絕口的重要原因之一。
第一是GEN-0首次在機(jī)器人領(lǐng)域?qū)嶒?yàn)證明了規(guī)模定律(Scaling Law)的適用性,即隨著模型和數(shù)據(jù)規(guī)模的增加,性能遵循可預(yù)測(cè)的冪律關(guān)系持續(xù)提升。
研究團(tuán)隊(duì)從不同規(guī)模的預(yù)訓(xùn)練模型出發(fā),對(duì)語(yǔ)言條件下的16個(gè)任務(wù)集進(jìn)行微調(diào),結(jié)果顯示更多預(yù)訓(xùn)練數(shù)據(jù)始終帶來(lái)更低的后訓(xùn)練誤差。這種可量化的關(guān)系也讓人們能夠估算要達(dá)到特定性能水平需要多少數(shù)據(jù)和算力,為機(jī)器人研發(fā)提供了明確路線(xiàn)。
北京大學(xué)人工智能研究院陳寶權(quán)教授在朋友圈感嘆:“這個(gè)Generalist‘通才’具身基礎(chǔ)大模型相當(dāng)重磅! 如此,scaling law繼續(xù)高歌猛進(jìn)!”
除此之外,GEN-0的研究團(tuán)隊(duì)發(fā)現(xiàn),機(jī)器人智能存在清晰的“相變閾值”。當(dāng)模型規(guī)模不足時(shí),即使增加數(shù)據(jù),性能也會(huì)停滯不前,但一旦超過(guò)閾值,性能則開(kāi)始呈指數(shù)級(jí)提升。下圖直觀地展示了這一現(xiàn)象:1B參數(shù)(藍(lán)線(xiàn))模型在訓(xùn)練初期便出現(xiàn)固化(誤差不再下降),而6B(綠)和7B(黃)模型隨著算力和數(shù)據(jù)的增加持續(xù)改進(jìn)。
![]()
官方表明,7B參數(shù)是這一閾值的關(guān)鍵點(diǎn),低于7B的模型難以消化海量物理交互數(shù)據(jù),表現(xiàn)出學(xué)習(xí)停滯,超過(guò)7B后,模型能有效內(nèi)化更多經(jīng)驗(yàn),并只需極少的后訓(xùn)練就能適應(yīng)新任務(wù)。
Generalist 的實(shí)驗(yàn)表明,物理世界中的智能在算力方面可能有一個(gè)更高的激活閾值。這一發(fā)現(xiàn)也印證了莫拉維克悖論,很多人類(lèi)看來(lái)輕而易舉的感知和操作,反而需要更高的計(jì)算復(fù)雜度。
GEN-0還有一個(gè)核心架構(gòu)創(chuàng)新,叫作和諧推理(Harmonic Reasoning)。傳統(tǒng)機(jī)器人通常會(huì)將規(guī)劃與執(zhí)行拆分為兩個(gè)階段,但放在實(shí)時(shí)物理環(huán)境中,這種操作存在一個(gè)根本性問(wèn)題:物理世界不會(huì)暫停等待決策。
對(duì)于語(yǔ)言模型來(lái)說(shuō),在回應(yīng)前花更多時(shí)間思考是可以接受的,但對(duì)于在現(xiàn)實(shí)世界中行動(dòng)的機(jī)器人而言,一個(gè)思考時(shí)間過(guò)長(zhǎng)的機(jī)器人就顯得尤為奇怪了。
為此,GEN-0采用了一種很新穎的訓(xùn)練方法,使模型能夠在連續(xù)的時(shí)間流中同時(shí)處理感知輸入和動(dòng)作輸出。可以理解為,模型還在觀察的同時(shí)就開(kāi)始規(guī)劃動(dòng)作,這種設(shè)計(jì)為機(jī)器人創(chuàng)造了感知和執(zhí)行之間一種比較和諧的互動(dòng)。
通過(guò)這種方式,GEN-0無(wú)需依賴(lài)常見(jiàn)的“系統(tǒng)1-系統(tǒng)2”架構(gòu)或預(yù)先規(guī)劃模塊,就可以擴(kuò)展到非常大的規(guī)模,支持復(fù)雜物理場(chǎng)景中的實(shí)時(shí)決策,也讓機(jī)器人能夠更接近人類(lèi)的反應(yīng)方式,顯著提高了在動(dòng)態(tài)環(huán)境中的魯棒性。
![]()
神秘的具身獨(dú)角獸
這家神秘的公司Generalist AI,是美國(guó)硅谷一家機(jī)器人初創(chuàng)公司,官網(wǎng)表示公司愿景是做通用機(jī)器人和具身基礎(chǔ)模型。
Generalist AI首次闖入人們的視野其實(shí)是在今年3月召開(kāi)的英偉達(dá)GTC的一個(gè)小組討論會(huì)上。當(dāng)時(shí),谷歌 DeepMind 高級(jí)研究科學(xué)家、RT-2的作者皮特·弗洛倫斯(Pete Florence)以 Generalist AI聯(lián)合創(chuàng)始人兼首席執(zhí)行官的身份出席了該會(huì)議。
今年六月,皮特在社交媒體上公開(kāi)表示,自己去年春天離開(kāi)了谷歌DeepMind,之后一直與一支新的出色團(tuán)隊(duì)埋頭苦干。
![]()
Pete本科就讀于普林斯頓大學(xué)攻讀化學(xué)專(zhuān)業(yè),畢業(yè)后并未延續(xù)化學(xué)方向,而是轉(zhuǎn)向劍橋大學(xué),攻讀物理碩士,并于2013年獲得學(xué)位,但化學(xué)與物理并未成為他的研究終點(diǎn)。
2014年,Pete加入MIT的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL),在Russ Tedrake教授領(lǐng)導(dǎo)的Robot Locomotion實(shí)驗(yàn)室攻讀博士。
在創(chuàng)業(yè)之前前,Pete曾在Google DeepMind擔(dān)任高級(jí)研究科學(xué)家,參與了大部分具身與大模型相關(guān)的大型項(xiàng)目,其中包括谷歌于2023年發(fā)布的多模態(tài)具身視覺(jué)語(yǔ)言模型PaLM-E以及全球首個(gè)視覺(jué)-語(yǔ)言-動(dòng)作模型RT-2。
Andy Barry是Generalist AI的聯(lián)合創(chuàng)始人兼CTO。他本科畢業(yè)于富蘭克林·W·奧林工程學(xué)院,此后便在MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)直博,獲得機(jī)器人學(xué)博士學(xué)位。
Andy和Pete其實(shí)是同門(mén)師兄弟,兩人都是Russ教授的得意門(mén)生,也因此結(jié)緣。在Generalist AI之前,兩人還曾一起創(chuàng)立過(guò)一家教育工坊(workshop)“STAGE ONE EDUCATION”,專(zhuān)門(mén)用以通俗易懂的方式教小孩子最基礎(chǔ)的計(jì)算機(jī)知識(shí)。
在加入Generalist AI之前,Andy曾在波士頓動(dòng)力公司擔(dān)任高級(jí)機(jī)器人科學(xué)家,期間還參與了Spot機(jī)器狗的機(jī)械臂項(xiàng)目研發(fā)。
另一位聯(lián)合創(chuàng)始人兼首席科學(xué)家是Andy Zeng,曾任Google DeepMind的研究科學(xué)家及技術(shù)負(fù)責(zé)人,具身智能領(lǐng)域頗有建樹(shù)的華人代表。
Andy本科以數(shù)學(xué)與計(jì)算機(jī)雙學(xué)位畢業(yè)于加州大學(xué)伯克利分校。隨后,他前往普林斯頓大學(xué)攻讀計(jì)算機(jī)科學(xué)博士,研究方向集中于機(jī)器人操作、機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)的交叉融合。
他與創(chuàng)始人Pete Florence相識(shí)于谷歌。Andy早在2018年就進(jìn)入Google實(shí)習(xí),兩人至今已聯(lián)合發(fā)表超過(guò)17篇論文。
就領(lǐng)英和推特信息來(lái)看,Generalist AI核心團(tuán)隊(duì)的其他成員絕大多數(shù)都畢業(yè)于頂尖高校并極具行業(yè)經(jīng)驗(yàn),不少人曾在OpenAI、Google DeepMind、波士頓動(dòng)力、特斯拉等機(jī)構(gòu)擔(dān)任關(guān)鍵角色,研究背景涵蓋從大模型訓(xùn)練、強(qiáng)化學(xué)習(xí)研究到機(jī)器人控制系統(tǒng)開(kāi)發(fā)等。
創(chuàng)始人Pete Florence曾說(shuō):“我們的目標(biāo)非常堅(jiān)定,就是要造出能夠做任何事情的機(jī)器人。”有業(yè)內(nèi)從業(yè)者對(duì)搜狐科技表示,在他看來(lái)Generalist AI極具野心,未來(lái)很有可能涉足機(jī)器人硬件和本體。
至此,具身賽道又迎來(lái)了一位野心勃勃的新玩家。
![]()
![]()
運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.