![]()
![]()
11月5日,第八屆虹橋國際經(jīng)濟(jì)論壇兩場分論壇——“人形機(jī)器人創(chuàng)新發(fā)展合作”“人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展”分論壇,在國家會展中心(上海)的不同會場進(jìn)行。今年春晚靠扭秧歌出圈的宇樹科技、今年營收有望十倍增長的上海智元機(jī)器人,兩家當(dāng)下國內(nèi)最熱的機(jī)器人創(chuàng)業(yè)公司,在進(jìn)博會主題下,完成了“隔空對話”。
在“人形機(jī)器人創(chuàng)新發(fā)展合作”分論壇上,宇樹科技創(chuàng)始人、董事長王興興分享了其最新的行業(yè)思考。
![]()
宇樹科技創(chuàng)始人、董事長王興興。
王興興笑言,他個人曾樂觀估計,今年全中國智能機(jī)器人產(chǎn)業(yè)平均每家公司增長超過50%—100%,然而行業(yè)依舊面臨不少需要解決的問題。
“目前人形機(jī)器人最關(guān)鍵的還是機(jī)器人大模型(具身智能模型)的進(jìn)展速度。我覺得速度比大家原本想象的要稍微慢一點(diǎn)。”他解釋,像機(jī)器人研發(fā)中一些深度強(qiáng)化學(xué)習(xí)的全身運(yùn)控,今年相對去年的進(jìn)步非常明顯,并且在當(dāng)下的每個月還在飛快進(jìn)步。 但在機(jī)器人大模型領(lǐng)域,技術(shù)進(jìn)步還需要加把勁 。
“我個人比較樂觀,我感覺目前的狀態(tài)就像ChatGPT發(fā)布前的幾年,大家已經(jīng)發(fā)現(xiàn)了方向,但還沒有達(dá)到真正做出來的臨界點(diǎn)。”王興興認(rèn)為,真正的具身智能“ChatGPT時刻”還沒到。如果未來在80%的陌生生活場景中,給機(jī)器人發(fā)送語音或文字,機(jī)器人能完成80%左右的任務(wù),那才算基本達(dá)到“ChatGPT時刻”。
他進(jìn)一步打比方:如果到明年這個時候,隨便弄一臺人形機(jī)器人到一個場景,這個場景它完全沒有看過,且完全沒有預(yù)訓(xùn)練過,給它的東西也沒有看到過。此時你跟它說話交代任務(wù),比如說“給這位記者朋友拿一份東西過去”,它自己可以直接過去把任務(wù)完成,并且這個場景能達(dá)到80%左右的成功率,這就基本達(dá)到“ChatGPT時刻”,已經(jīng)屬于非常突破性的技術(shù)。
“這是非常重要的目標(biāo),如果明年、后年誰能把這個目標(biāo)實(shí)現(xiàn)了,毋庸置疑應(yīng)該是全球最領(lǐng)先的具身智能AI模型。”王興興說。
![]()
宇樹機(jī)器人在今年春晚。
王興興還表示,目前行業(yè)中的模型和數(shù)據(jù)方案都還需要改進(jìn)。簡單的模型結(jié)構(gòu)大家已經(jīng)做了很多嘗試,發(fā)現(xiàn)泛化能力還不太夠,所以模型能力還需要做創(chuàng)新;大家希望數(shù)據(jù)質(zhì)量更好一點(diǎn),規(guī)模更大一點(diǎn),但目前對數(shù)據(jù)的采集、數(shù)據(jù)質(zhì)量的評判還是非常困難的。他坦言,這兩部分相輔相成需要花更多時間,而不單單只是一股腦兒去采集大量數(shù)據(jù),或者一股腦兒把模型規(guī)模做大,這稍微有點(diǎn)盲目了。“我們在模型結(jié)構(gòu)、數(shù)據(jù)采集方式和質(zhì)量上需要更多思考,這也是目前全球大家面臨比較大的問題。”
而王興興的困惑,上海智元機(jī)器人也正在全力攻克。
在“人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展”分論壇上,智元機(jī)器人合伙人、高級副總裁姚卯青介紹了智元在機(jī)器人本體、數(shù)據(jù)、模型、場景上的全棧布局。這四者形成了相互驅(qū)動的飛輪迭代邏輯——優(yōu)質(zhì)本體產(chǎn)生高質(zhì)量數(shù)據(jù),海量高質(zhì)量數(shù)據(jù)支撐算法持續(xù)突破,算法結(jié)合場景試錯后,又為本體優(yōu)化、數(shù)據(jù)采集方向、算法迭代等提供新的指引。
年輕的智元有令人驚訝的速度——2023年2月才成立,由“天才少年”彭志輝(B站上是擁有百萬粉絲的UP主“稚暉君”)擔(dān)任聯(lián)合創(chuàng)始人,迄今已發(fā)布全系列多款機(jī)器人產(chǎn)品,建成規(guī)模化生產(chǎn)產(chǎn)線和機(jī)器人訓(xùn)練場數(shù)據(jù)采集中心,在具身智能相關(guān)算法領(lǐng)域也已實(shí)現(xiàn)多項創(chuàng)新。
![]()
彭志輝與情商在線的靈犀X2。
姚卯青坦言,智元機(jī)器人進(jìn)入“飛輪循環(huán)”的首個挑戰(zhàn)就是數(shù)據(jù)。“機(jī)器人從業(yè)者”需直面與物理世界的強(qiáng)交互特性,其數(shù)據(jù)需求與互聯(lián)網(wǎng)數(shù)據(jù)存在本質(zhì)差異,尤其是大量動作類、長程規(guī)劃類數(shù)據(jù)極為稀缺。“面對具身智能數(shù)據(jù)的荒漠,智元選擇種下一棵樹,愿其能成為一片森林。”姚卯青說,智元于2024年底開源了AgiBot World百萬真機(jī)數(shù)據(jù)集,每條數(shù)據(jù)都經(jīng)過多輪審核,確保場景貼近現(xiàn)實(shí)、任務(wù)復(fù)雜多樣,旨在提供工業(yè)級高質(zhì)量數(shù)據(jù)支撐。
![]()
智元的具身數(shù)據(jù)采集廠。(李曄 攝)
但AgiBot World數(shù)據(jù)集只是起點(diǎn),智元在數(shù)據(jù)采集方式上有兩項關(guān)鍵創(chuàng)新,包括“對抗式采集數(shù)據(jù)”,即在常規(guī)數(shù)據(jù)采集過程中主動引入干擾,以此提升數(shù)據(jù)信息密度;針對機(jī)器人在真實(shí)環(huán)境中自主執(zhí)行任務(wù)時難以提前枚舉的“長尾失效”問題,智元又引入“自主進(jìn)化式采集方案”,將“難場景”下的高價值數(shù)據(jù)補(bǔ)充到訓(xùn)練集。
今年3月,智元發(fā)布其具身智能基座模型GO-1模型,并在生活、零售、工業(yè)三大場景的評測中表現(xiàn)亮眼。
除GO-1外,智元還在深耕世界模型方向。所謂世界模型,類似于真正的人類大腦,通過學(xué)習(xí)現(xiàn)實(shí)世界中的物理和因果規(guī)律,具備“物理直覺”,可在內(nèi)部模擬環(huán)境變化,基于當(dāng)前環(huán)境狀態(tài)推演未來狀態(tài),并評估自身行為的后果。智元秉持“生成理解一體化”理念,其世界模型GenieEnvisioner今年8月正式開源,并打出“行業(yè)首個面向雙臂真機(jī)的世界模型”概念。官方演示里,基于世界模型,機(jī)器人連續(xù)完成做三明治、倒茶、擦桌、用微波爐、裝箱等長鏈條任務(wù),看上去已頗具“人味兒”。
就在上月,智元機(jī)器人舉行線上直播發(fā)布會上,發(fā)布新一代工業(yè)級交互式具身作業(yè)機(jī)器人智元精靈G2。在AI技術(shù)支撐上,精靈G2正是基于智元全棧自研的通用基座大模型GO-1與世界模型GE-1,其復(fù)雜任務(wù)處理能力顯著提升。如柔性制造中,用具身智能解決專業(yè)設(shè)備無法應(yīng)對的高精度、力控、泛化性操作問題;在物流分揀上,具身智能通用機(jī)器人與專用設(shè)備配合,處理傳統(tǒng)視覺定位+規(guī)劃難以完成的雜亂物品分揀等。據(jù)悉,智元精靈G2已獲數(shù)億元訂單,即將開啟首批商用交付。
原標(biāo)題:《宇樹智元機(jī)器人在進(jìn)博會“隔空對話”:王興興有困惑,稚暉君有解法》
本文作者:解放日報 李曄 張楊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.