![]()
文|魏琳華
編|王一粟
“具身智能,究竟發展到了哪個節點?”對于這個火爆但早期的產業,不少人都有這個疑問。
一方面,是資本用真金白銀投出的繁盛。據不完全統計,中國具身智能相關企業數量已接近百萬家。今年下半年,包括宇樹科技、智元機器人在內的多家公司拿到過億融資、頭部企業籌劃上市。熱錢涌動,創業者云集,仿佛下一個萬億級產業的黎明已然到來。
而另一方面,卻是大量籠罩在行業上空懸而未決的陰霾,具身智能行業充滿了基礎性的路線之爭。
“具身智能目前來看有三座大山:第一,數據稀缺性。第二,數據泛化性。第三,產品落地。”華為云中國區云原生企業業務部部長李鵬程說。
![]()
華為云中國區云原生企業業務部部長李鵬程
深入到產業腹地,不難發現,下階段無論是模型路線、數據策略還是落地效果,整個行業都遠未形成共識。參與者們仿佛站在一個巨大的十字路口,行業正在“兩條腿走路”,在未確定范式之前,朝著不同的方向先展開探索。
從模型上來說,行業的討論主要聚焦在VLA、世界模型等不同架構上,目前使用VLA存在的問題是,它的泛化性有限,難以解決跨本體、跨任務的情況;從數據上來說,是使用真機數據還是合成數據為主,兩條路線各有優劣勢,而沒有人確認哪條路徑更優。
在不確定的路徑中,具身智能行業的玩家們正在通過不同路線的探索,合力向著“智能”的方向前進。
11月14日,由華為云主辦的《具身智能產業實踐高峰論壇》上,來自學術、產業、企業界的嘉賓共同探討具身智能行業的發展和實踐經驗。
模型路線之爭:從VLA到世界模型
“具身智能目前還處在非常初級的階段。”在會議現場,多位嘉賓給出了相同的判斷。
“現在到處都是問題,不管是機器人本體、可靠性、核心零部件成本、性能,到軟件、大腦、小腦,或者大小腦本身是一個不明確的定義,這些都是要攻克的問題。”提到具身智能當前發展的情況,華為云物理智能創新實驗室負責人周順波說。
其中,模型架構和數據來源,成為頻頻提起的兩個問題。
極佳科技合伙人、副總裁毛繼明指出,目前最大的瓶頸在于“通用模型”本身不夠通用。
![]()
極佳科技合伙人、副總裁毛繼明
行業所面臨的,是具身智能的第一重,也是最根本的挑戰:如何讓模型跨越從“認知”到“物理”的鴻溝,真正獲得人類與生俱來的通識能力。
當數據來源塵埃未定,通往智能巔峰的模型路徑是一片迷霧。目前,VLA(視覺-語言-動作)模型和世界模型(World Model)是兩條最受關注,也最具爭議的技術路線。
VLA模型是當下的主流選擇,它更像一個“翻譯官”,將人類的語言指令直接翻譯成機器人的動作序列。它的優勢在于路徑更短,更容易在特定任務上看到效果。
![]()
然而在真實使用中, VLA模型遇到了很多問題。華為技術專家表示,目前VLA模型在通用化、自主化操作以及長程精細化操作幾個維度上難以做到兼容和平衡。模型本身對物理世界缺乏深層次的理解和預判能力,這讓它難以解決更多固定場景之外的復雜問題。
首先是數據依賴的嚴重性。VLA模型本質上仍然是通過大量特定任務的數據進行訓練,但這種泛化仍然是建立在海量數據訓練基礎上的。當面對一個全新任務時,如果訓練數據中缺乏足夠相似的場景,模型很可能無法直接處理。
“現在通用模型這塊確實還很不通用,這種局限性在面對新環境、新任務時尤為明顯。”一位嘉賓直言不諱:“現在很多demo是挑了最好的給大家看,真正上線用的時候很多工廠良率控制要求很高,但凡只有90%成功率都不行。”
更關鍵的是架構本身的固有問題。VLA模型需要同時處理視覺輸入、語言理解和動作輸出三個不同模態的信息,這種復雜性導致計算開銷巨大,推理速度緩慢。
在工廠的實際應用中,機器人需要滿足嚴格的時間節拍要求,而VLA模型的思考和規劃周期比較長,往往無法滿足實時性的需求。
面對VLA模型的困境,世界模型路線正在成為一個重要的技術方向。
與VLA不同,世界模型試圖讓機器人建立對物理世界的底層理解,就如同人類基于對世界的通識認知來理解和執行任務。它的核心是通過構建機器人對物理規律、物體屬性、動作結果的深層理解,解決機器人在跨本體、跨任務場景的泛化能力。
世界模型的另一個重要優勢是其在數據生成方面的潛力。通過對物理世界的理解,模型可以生成大量高質量的合成數據,這恰好解決了當前機器人訓練數據稀缺的問題。
“VLA跟世界模型現在都處在GPT2的時刻,它們還有很大的潛力可以挖,但距離真正的通用型還有比較長的路要走。但是我們覺得這個時間并不會很長,兩年內可能就會迎來這樣的時刻。”毛繼明說。
真機采集、仿真生成,具身企業怎么選?
除了模型路線的變化,數據問題也成為制約行業發展的另一大瓶頸。是使用真機數據還是合成數據?對于兩條路徑的可能性,多位嘉賓表示,目前還沒有探索出一條確切的路徑。
但不可否認的是,在算法還有待優化的現階段,研發企業需要真機數據驗證算法的準確性。
周順波一針見血地指出了問題所在:“根據我們的研發實踐,現在沒有任何一個場景可以用100%合成數據完成物理世界的落地。所以真機數據確實是很重要的一個數據來源。”
怎么采集真機數據,也是一門學問。
“我們也踩了很多坑,前期做數據標注、數據采集的時候很多數據是廢掉的。因為讓數據標注人員做數據采集的時候發現并沒有一個很好的標準,這個標準是通過不斷優化模型,反向做數據采集的設計,這樣能夠采集到更高質量的數據,喂給模型,讓模型更泛化。”聆動通用聯合創始人兼市場副總裁、訊飛創投投資顧問周甲甲說。
![]()
聆動通用聯合創始人兼市場副總裁、訊飛創投投資顧問 周甲甲
為了解決數據標準化和共享問題,一些企業開始構建數據服務平臺,先去確立標準。
周順波介紹了華為云的相關實踐:“構建具身生態我們在積極推進,但是我覺得更重要的點是現在行業里面并沒有對于數據的認知,不知道應該采集什么樣的數據,所以需要先建立標準。”
他表示,華為云正在構建一套端到端的工具鏈,放在了自家平臺CloudRobo中。該工具鏈不僅可以對接數采廠、穿戴式數采,也可以對真機數據做數據增廣,或者是基于仿真平臺做數據合成。
真機數據的最大優勢是其可信度和真實性。但真機數據采集的成本極其高昂,超高質量數據有限,這成為制約行業發展的一大瓶頸。
面對真機數據的高成本、質量低問題,仿真數據也成為當下具身智能企業嘗試的重點路徑之一。
它不僅具備成本優勢,在后期提升泛化性上,起到至關重要的作用:當現有階段的真機數據種類、場景范圍覆蓋有限的情況下,使用針對性生成的合成數據,能夠幫助模型有效提升泛化能力。
毛繼明拋出了一個問題:“真正的通用怎么可能通過采集能夠達到那么大的通用?這是不可能的。”
也就是說,要讓機器人學會處理一萬種不同的場景,不可能要求企業真的去采集到對應的所有數據,唯一的出路,是在世界模型中合成數據,提供給模型訓練。
不過,相比于真機數據,仿真數據目前的效果有限,實際訓練效果距離真機數據還有一定差距。
“合成數據可能有上限,尤其現在基于仿真引擎合成數據。”周順波說,“現在剛體的物理仿真可能還行,但是如果上升到流體柔體,其實合成數據的性能會被仿真性能給鎖死,這也是大家關注世界模型價值的原因。”
因此,行業正處在一個“真機”與“合成”混用的階段,真機數據是“種子”,用來錨定真實情況,合成數據則被用來實現規模化和泛化。
且根據不同的場景,真機和仿真數據的混合比例也會動態調整。毛繼明透露,在“疊衣服”任務上,合成數據的最佳比例高達90%;而在“收拾桌子”這種剛體操作上,則是70%左右。
產業落地:工廠、娛樂場景探索可能性
在模型和數據這兩座大山之下,具身智能的產業化落地,目前還有一段漫長的路要走。
“哪怕只是打螺絲,現在交給機器人還是不太能做得好。”一汽模具研發負責人王瀚霄說。從實際應用的效果來看,當前大多數機器人系統在工廠環境中的表現遠未達到商用要求。面對基礎的裝配操作,實際上涉及到復雜的感知、規劃和控制流程,需要各個層面的技術協調配合。
更關鍵的是成功率的嚴格要求。上述嘉賓表示,在現實中,工業場景要求至少90%的成功率,而目前大多數系統只能達到10%左右的水平。此外,在操作靈活性和工作效率上,當前機器人表現出的水平也遠未滿足要求。
談及人形機器人產業化落地條件,也同樣存著大量亟待解決的問題。
北京人形機器人創新中心具身大模型負責人鞠笑竹表示,需要能夠做到四種能力:多本體、多任務協同工作能力、自主學習能力、跨本體泛化操作能力和全自主導航能力。
“我們要解決真正的問題是,未來1-2年時間之內,現在采集的數據訓練模型能不能高效復用到下一步技術上?跨本體問題不解決,那可能采的數據作用都會大打折扣。”鞠笑竹說,“此外,未來機器人進入到場景之后,除了采集數據、訓練部署給到廠家之外,還能做到干中學的效果,包括解決當下被人詬病的自主導航能力——機器人后面老有一個遙控器推著。”
![]()
躍入產業端,企業需要解決的不單單是技術問題,還存在大量圍繞機器人運行本身需要考慮的供應問題。在這個過程中,產業端需要一套更加清晰的標準和工具支撐能力。
扎根產業端,不做機器人本體,只做“賣鏟人”,華為云通過實踐和探索,給出了一套自己的答案:
“基于華為工具鏈平臺,它圍繞著數據生產、具身智能模型訓推、評測,是數據閉環的平臺。”周順波說,“這個閉環就會涉及到運行態,運行態會涉及到一些華為傳統的優勢,比如多模態數據2D、3D的甚至包括觸覺的,這些數據怎么做無損壓縮?以及到底計算是發生在端側還是云上,還是邊側,算力怎么自適應的卸載等等。”
而在更多資金涌入具身智能行業的情況下,未來行業可能會率先在哪些領域取得落地成果?
對此,勢乘資本合伙人劉英航表示,目前頭部具身智能企業正在聯合企業場景完成一些復雜挑戰,比如進工廠擰螺絲。此外,一些人形機器人的銷售大單去往了商業表演、導覽、教育科研等行業。
“我們最近看了一些新項目,大家做的是偏應用類的,跟具身、AI硬件結合的項目,他們做的往往都是基于物理世界模型、運控能力做了陪伴、戶外、攝影這些能力,其實這些也回避了交互能力現在不足的點。”劉英航說,“這塊可能有下一個大疆的可能性。”
毛繼明則表示,極佳看到了世界模型更適合對通用性要求更高的泛服務和家庭場景,所以這兩方面是極佳當前的主攻方向。不過客觀來講,具身智能確實更有可能會在工業場景和娛樂場景兩個領域率先商業化落地。
“商業化落地的原則是優先選擇其中約束條件明確、技術難度相對較低的場景進行突破。” 毛繼明表示。工業場景因為有很多約束條件在,可以使得企業有些辦法走捷徑,繞開一些通用性、泛化性問題,所以被認為是最有可能率先實現突破的領域。
同時,娛樂場景也被視為一個快速的突破口。“娛樂方向我的判斷它需要像商業化場景那么嚴肅,所以有可能通過其他的點打動消費者,進而形成商業化的閉環。” 毛繼明說。
回顧過去三年的投資演進,從“看人投團隊”到“看demo投項目”再到“看落地”,資本的理性回歸正在推動行業回歸技術本質。
雖然當前的融資繁榮與實際能力之間存在巨大差距,但正如大語言模型經歷了從GPT-1到GPT-3的跨越式發展,具身智能也必將在解決技術路線過程中,逐步接近“通用”時刻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.