作為人類前沿技術(shù)的無人區(qū),具身智能模型技術(shù)晦澀難懂,又不像機(jī)器人本體能被C端接觸到,正頻頻被媒體和大眾所“誤讀”。
就在近期,具身智能模型領(lǐng)域的頭部創(chuàng)企自變量機(jī)器人就遭遇了一次烏龍事件。
近期,具身智能模型評(píng)測平臺(tái)RoboChallenge對(duì)于多款主流開源具身模型進(jìn)行真機(jī)測試,并發(fā)布了一份初步的模型測試結(jié)果。
結(jié)果顯示,基于 Physical Intelligence(PI)系列構(gòu)建的π0 和π0.5 表現(xiàn)出色,位列測試榜單的頭部,而國產(chǎn)的開源具身智能模型則表現(xiàn)一般。
![]()
這其中,自變量WALL-OSS-Flow模型的成績表現(xiàn)就被自媒體單拎出來批評(píng)了一番,批評(píng)其表現(xiàn)名不副實(shí)。
“自變量開源模型零成功率”的媒體消息報(bào)道發(fā)出后,作為評(píng)測平臺(tái),RoboChallenge官方第一時(shí)間全渠道跟進(jìn)辟謠。
![]()
RoboChallenge官網(wǎng)主頁明確地表示:“請注意,以前顯示的一些結(jié)果可能是臨時(shí)的、部分的或僅用于調(diào)試目的。”
![]()
遺憾的是,仍有不少媒體在傳播這一消息。
這背后傳達(dá)出,當(dāng)前媒體對(duì)于具身智能模型這個(gè)前沿科技領(lǐng)域,仍然存在著諸多誤解。
對(duì)于自變量誤解的核心點(diǎn)在于,具身智能模型雖然形式是軟件,但本質(zhì)上卻是一個(gè)軟硬件一體的產(chǎn)品。這與開源的AI語言大模型可以“拿來即用、即測”是截然不同的。
當(dāng)模型要被部署到新的本體上,就必須解決跨本體適配的問題,這涉及到不同本體的相關(guān)數(shù)據(jù)的遷移、轉(zhuǎn)換,以及測試接口的打通等等一系列復(fù)雜問題。
據(jù)了解,Robochallenge的本體暫時(shí)不支持自變量模型主要的控制方式——末端控制,數(shù)據(jù)回放和對(duì)齊存在問題,因此雙方正在做軟硬件適配;而接口調(diào)試過程留痕被截屏并迅速傳播,自媒體對(duì)于自變量模型的誤解就來源于此。
在這一傳播事件里,我們還看到了高度疑似互聯(lián)網(wǎng)水軍和同行故意抹黑的跡象。
比如在原文被辟謠刪除后,網(wǎng)絡(luò)多平臺(tái)密集出現(xiàn)“自變量開源模型零成功率”的媒體消息,消息投放方身份不明。
在該文章被轉(zhuǎn)載的微信評(píng)論區(qū),有大量疑似水軍的微信用戶聚集并評(píng)論。
![]()
我們實(shí)測發(fā)現(xiàn),目前自變量機(jī)器人的官網(wǎng)已經(jīng)無法打開,疑似遭遇了黑客攻擊,知情人士也證實(shí)了這一消息。
![]()
不光是上述事件,我們發(fā)現(xiàn),媒體和大眾對(duì)于具身智能模型的誤讀事件還有很多,近期就有兩起:
比如小鵬機(jī)器人最近發(fā)布的 IRON 人形機(jī)器人,就因形態(tài)和動(dòng)作過于逼真引發(fā)網(wǎng)友 “真人套殼” 的質(zhì)疑。
這個(gè)事件同樣源于大眾對(duì)于具身模型的認(rèn)知偏差。
再比如近期具身智能初創(chuàng)公司靈啟萬物MindOn發(fā)布的demo視頻。
有具身模型背景的KOL將其解讀為使用了VLA和強(qiáng)化學(xué)習(xí)的路線,也有資深投資人表示其只運(yùn)用了小腦的能力、技術(shù)陳舊;甚至有自媒體用騰訊元寶檢測認(rèn)為demo是完全由AI模型生成。
以上種種,都昭示了具身智能模型的技術(shù)復(fù)雜性,以及其易被誤讀的現(xiàn)實(shí)。
這個(gè)扼住機(jī)器人行業(yè)發(fā)展咽喉的關(guān)鍵環(huán)節(jié),為什么自帶“招黑體質(zhì)”?
|被誤讀的具身智能模型的一生
不得不承認(rèn),具身智能對(duì)于普通人是有“壁”的。
大眾可能很難理解,為什么機(jī)器人可以炫酷地跳舞、跑步、格斗,卻不能在工廠里打好螺絲,幫我做做家務(wù)?
甚至與行業(yè)有一定接觸的媒體人、投資人對(duì)于個(gè)中技術(shù)原理也是一頭霧水,容易被誤導(dǎo)。
在不少公開報(bào)道中,都可以看到媒體記者對(duì)于專家的真誠發(fā)問:怎么看一個(gè)機(jī)器人的demo視頻是不是自主完成的?怎么判斷機(jī)器人是否有處理泛化性任務(wù)的能力?怎么在展會(huì)上識(shí)別一個(gè)機(jī)器人的真正實(shí)力?
信息的不對(duì)稱自然也就容易滋生騙局。
媒體《藍(lán)鯨財(cái)經(jīng)》就曾采訪某大學(xué)機(jī)器人系統(tǒng)架構(gòu)師報(bào)道稱,國內(nèi)有些初創(chuàng)公司,甚至是部分知名公司采用遙操作的方式拍攝demo,并將其包裝成為“全自主智能”,誤導(dǎo)投資人判斷。
應(yīng)對(duì)上述騙局,某知名投資機(jī)構(gòu)就直言,專門組建了理工科博士團(tuán)隊(duì)從而提高對(duì)這類技術(shù)問題的鑒別能力。
專業(yè)人士尚且如此,當(dāng)我們看到市面上形形色色的對(duì)于具身智能模型的誤讀現(xiàn)象,也就不足為怪了。
作為一項(xiàng)前沿技術(shù),具身智能模型自身涉及多學(xué)科交叉的復(fù)雜技術(shù)體系,又源于其應(yīng)用場景的多變性和大眾接觸層面的諸多限制,對(duì)普通人存在較高認(rèn)知門檻。
那么該如何真實(shí)評(píng)估具身智能模型的技術(shù)能力?
無論是投資機(jī)構(gòu)用“真金白銀”做出的判斷,還是模型評(píng)測平臺(tái)的測試,現(xiàn)場的真機(jī)演示都是必須的。
清華交叉信息研究院助理教授高陽曾給出一個(gè)小tips:在真機(jī)演示場景下,對(duì)于號(hào)稱能疊衣服的機(jī)器人,你可以嘗試把衣服團(tuán)成一團(tuán),隨意丟在桌上,觀察它是否能繼續(xù)完成動(dòng)作;或者是再給它褲子、外套,看它能否具備跨品類的泛化能力。
自變量創(chuàng)始人王潛也曾給出相似的建議。他表示,視頻demo有太多可以造假的方式了。現(xiàn)場才能夠看到模型真實(shí)的表現(xiàn)。
“甚至于需要去現(xiàn)場和機(jī)器人互動(dòng),進(jìn)行一些人為干擾,看看模型在各種各樣的極限情況下會(huì)有什么樣的表現(xiàn),這才真正能體現(xiàn)模型的水平。”王潛表示。
包含千尋和自變量在內(nèi),多家具身模型公司都曾在今年的WAIC(世界人工智能大會(huì))、WRC(世界機(jī)器人大會(huì))等展會(huì)現(xiàn)場展示了真實(shí)的VLA具身智能模型操作。
無論是面向投資人、公眾還是同行,這些公司敢于進(jìn)行現(xiàn)場真機(jī)操作,不怕真實(shí)環(huán)境的檢驗(yàn),它們的技術(shù)能力無疑是經(jīng)得起驗(yàn)證的。
但需要指出的是,同樣是真機(jī)操作,但模型評(píng)測平臺(tái)的測試與展會(huì)現(xiàn)場的真機(jī)演示有很大的不同。
前者需要將具身模型部署到一個(gè)全新的本體上,這就涉及到具身模型的一個(gè)關(guān)鍵問題——跨本體適配:當(dāng)模型在新本體上微調(diào)后,原模型的能力就會(huì)有比較大的損失。
這與開源的AI語言大模型可以“拿來即用即測”是截然不同的。軟件如模型本身即是產(chǎn)品,而軟硬件一體的具身智能模型的運(yùn)行機(jī)制則要復(fù)雜得多。
以PI開源的π0 和π0.5為例,自開源至今已有相當(dāng)長時(shí)間,國內(nèi)有一些企業(yè)也嘗試在其基礎(chǔ)上進(jìn)行微調(diào),但從實(shí)際效果來看,并不會(huì)明顯優(yōu)于其他開源方案,更無法完整復(fù)現(xiàn)PI團(tuán)隊(duì)在其自有機(jī)器人本體上的表現(xiàn)。
同樣地,包括自變量的WALL-OSS-Flow之內(nèi),模型要被評(píng)測平臺(tái)公正地評(píng)價(jià),則必須解決好模型跨本體的適配問題,數(shù)據(jù)對(duì)齊問題,接口聯(lián)通問題,才能最大程度復(fù)現(xiàn)出模型的真實(shí)水平。
| 國家戰(zhàn)略下的具身智能模型:希望和耐心
具身智能模型賽道之所以容易滋生騙局、也容易被質(zhì)疑,其實(shí)還有一個(gè)重要原因:“行業(yè)太早期,商業(yè)化不清晰。”
這也是包括朱嘯虎在內(nèi)的一些專業(yè)人士看空具身智能的核心觀點(diǎn)。
的確,當(dāng)下具身智能模型確實(shí)處于發(fā)展的早期階段,技術(shù)路線還未完全收斂。模型短期之內(nèi)很難規(guī)模化落地,大眾看不到產(chǎn)品,相關(guān)的質(zhì)疑聲在所難免。
但正如眾擎創(chuàng)始人趙同陽對(duì)上述質(zhì)疑的回答,問人形機(jī)器人在這個(gè)階段有什么用?就像質(zhì)問一個(gè)剛出生的嬰兒,用眼前看到的來否定未來。
可以看到,今年以來,具身智能成為了最炙手可熱的一級(jí)市場賽道,被投資機(jī)構(gòu)高度青睞。從投資結(jié)構(gòu)看,國資背景資金的參與度顯著上升,產(chǎn)業(yè)基金與地方政府平臺(tái)頻繁現(xiàn)身。
更關(guān)鍵的是,具身智能產(chǎn)業(yè)已經(jīng)逐漸上升為國家戰(zhàn)略,也成為了未來全球科技產(chǎn)業(yè)競爭的高地。
今年3月,國務(wù)院政府工作報(bào)告首提“具身智能”“智能機(jī)器人”,標(biāo)志著具身智能技術(shù)正式上升為國家戰(zhàn)略;10月審議通過的“十五五” 規(guī)劃建議,更是明確將具身智能納入未來產(chǎn)業(yè)重點(diǎn)布局。
開源證券機(jī)械首席分析師孟鵬飛稱,未來人形機(jī)器人產(chǎn)業(yè)將是中美引領(lǐng)、全球共振,是人類科技史上濃墨重彩的一筆。
具體到具身智能模型環(huán)節(jié),中國則有著獨(dú)到的競爭優(yōu)勢。
目前具身智能模型最大的卡點(diǎn)在于數(shù)據(jù),它是模型迭代的核心燃料。而我國作為全球唯一擁有全部工業(yè)門類的國家,疊加豐富的民生場景,為具身智能模型提供了海量真實(shí)數(shù)據(jù)。
同時(shí)中國的硬件、供應(yīng)鏈、數(shù)采工人的工資都更便宜,更具有成本優(yōu)勢。
當(dāng)然更關(guān)鍵的,還有具身智能模型人才和創(chuàng)新的競爭。
由于不同市場的資本市場環(huán)境,盡管中國具身智能模型創(chuàng)企的估值和融資金額不及美國對(duì)手PI、Figure和特斯拉。
但以自變量為代表的自研基礎(chǔ)模型創(chuàng)企對(duì)外展示的模型能力,在某些環(huán)節(jié)已經(jīng)表現(xiàn)出了不輸美國同行的泛化性表現(xiàn)——這是中國模型企業(yè)在具身智能模型領(lǐng)域的競爭力和實(shí)力的體現(xiàn)。
凡是承載著戰(zhàn)略價(jià)值與未來潛力的新興領(lǐng)域,其技術(shù)突破與產(chǎn)業(yè)成熟必然要經(jīng)歷一個(gè)長期迭代過程。
作為影響全人類未來的高科技產(chǎn)業(yè)和我國未來產(chǎn)業(yè)重點(diǎn)布局的關(guān)鍵方向,對(duì)于具身智能,我們不妨秉持長遠(yuǎn)視角,少一些誤讀和輕率,多給一些求真精神和耐心。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.