![]()
“VLA模型是相對傻瓜式的架構。”
2025年8月9日,在北京舉辦的2025世界機器人大會上,宇樹科技的創始人、CEO兼CTO王興興在演講中這樣說道。
盡管他是針對具身智能大模型發表這一看法的,但對于當前智能駕駛最熱門模型方向,不得不讓人有些錯愕。
包括極佳視界的CEO黃冠也在吐槽他的觀點“太業余”。
![]()
王興興認為,世界模型可能是更好的技術方向。不過,短期的未來2~5年,“最大的肯定還是一個端到端的具身智能AI模型”。
大會上,他從核心瓶頸、新興技術引擎及未來技術重心三個方面,對具身智能機器人的發展態勢進行梳理與分析。我們不妨看看,這位大紅人的觀點,有什么啟發。
01
核心瓶頸:模型不夠好
談及機器人未大規模應用的原因,很多人誤認為是硬件性能不足或成本過高。但王興興指出,當前機器人硬件(包括人形機器人的靈巧手、整機等)已基本夠用。
從技術層面而言,人形機器人的硬件,諸如靈巧手和整機等,已足夠滿足基本需求,盡管在工程實施上仍存在諸多挑戰,但已能夠支撐基礎功能的實現。
他認為,限制其大規模應用的核心瓶頸,在于具身智能的AI 大模型尚未成熟。
![]()
王興興認為,目前的機器人大模型(具身智能)發展階段,類似ChatGPT 發布前的1~3年,即業界已明確方向和技術路線,但尚未突破關鍵臨界點。
在王興興看來,之所以沒達到關鍵臨界點,主要是由于行業對“數據” 的關注度過高,卻忽視了模型本身的問題。
![]()
王興興認為,具身智能發展的關鍵問題在于模型架構不夠完善、缺乏統一性、泛用性,導致能力受限,而且數據還不能完全利用起來。
![]()
以當前較受關注的VLA模型為例,王興興認為其是 “相對傻瓜式的架構”,其 在真實世界交互中,對數據質量的依賴過高,但適應性不足。因此,他對VLA 模型的應用前景持懷疑態度。
此外,“VLA模型+RL 訓練”也是行業常見的優化思路,但他認為,實踐表明折讓仍然不夠。“模型架構必須進一步升級,不能停留在簡單組合層面。”王興興這樣說道。
![]()
在王興興看來,另一個限制發展因素是“RL Scaling law(縮放定律)”的缺失,這導致機器人尚未解決“從零開始”的魔咒。王興興認為,目前機器人在學習新任務時,例如學習一支新的舞蹈或完成一項新的工作,往往需要從零開始訓練,這導致了訓練效率的顯著低下。這是由于機器人控制中“RL Scaling law(縮放定律)” 的缺失造成的。
在王興興看來,具身智能的理想狀態是“新任務訓練基于舊有基礎,速度越來越快、效果越來越好”。這一規律在語言模型中已得到充分驗證,而在機器人運動控制領域,尚處于起步階段,不過展現出巨大的潛力,是值得行業深入探索的關鍵領域。
02
新技術方向:視頻生成模型
既然VLA模型模型還不足夠優秀,那么什么模型才是方向呢?
王興興認為,現階段看視頻生成模型的路線可能比VLA模型更快,收斂概率更大。
其核心邏輯在于:利用視頻生成模型預先“模擬生成機器人動作序列的視頻”,進而直接指導實體機器人執行相應動作。例如,若指令為“整理房間”,模型可先生成機器人整理房間的虛擬視頻,再將視頻中的動作轉化為實體機器人的控制信號。
![]()
不過,王興興指出,這一路線也存在一個現實問題:當前視頻生成模型過度關注“視頻質量”,導致 GPU 消耗較高;但對機器人而言,無需高精度視頻,只要能驅動動作即可,目前看這一矛盾仍需解決。
03
未來技術重心:模型、硬件與算力網絡
王興興預判,未來2-5 年,具身智能機器人的發展將聚焦三大方向:
一是,統一的端到端智能機器人大模型。端到端模型是提升機器人能力的關鍵。未來需重點推動端到端模型的研發,實現“基于既有訓練基礎快速學習新技能”,提升模型的通用性和效率。
二是,更低成本、更高壽命的硬件及批量制造。硬件的優化亦是不可或缺的一環。即便是歷經百年發展的汽車行業,也仍需不斷攻克工程領域的重重難關;對于未來可能達到“數百萬、數千萬臺” 量級的人形機器人,必須解決 “低成本、高壽命” 及 “超大批量制造” 的工程挑戰,才能支撐大規模應用。
三是,低成本、大規模的分布式算力網絡。機器人本體受限于尺寸和電池容量,無法部署大規模算力,因為“其峰值功耗通常僅 100 瓦左右,相當于幾部手機的算力。”
因此,未來需要構建分布式算力網絡,例如,工業場景中,可在工廠內部署局部服務器集群,供100 臺級機器人就近連接,降低通信延遲;再如,民用場景(如小區)中,可建立區域級算力集群,減少用戶的算力建設成本,同時保障延遲和安全性。
![]()
在會后采訪中,有媒體提到了機器人的價格預期。對此,王興興表示,當機器人具備大規模作業能力時,機器人甚至將會是免費的狀態,因為“每臺機器人出廠后都可以繳稅。”
對此,他舉了個例子:一臺機器人是干什么活的?就可以從它生產的價值中直接扣稅。譬如,若有一片荒蕪之地,企業派遣機器人前去開墾耕作,那么機器人所創造的部分價值將直接轉化為稅收。
“這個過程快的話可能要2~3年,慢的話可能3~5年,但是我覺得這波浪潮(的到來)大概率不會超過10年。”王興興說道。
王興興的發言引起了不小的爭議。對于智能汽車行業而言,當前VLA+RL是最熱門的方向,理想汽車、小鵬、華為、文遠知行等多家企業都采用了這一路線或者近似路線。同時,華為、蔚來,以及理想、小鵬也采用了世界模型,不過表述和功能有所區別,有的僅用于模擬訓練,有的則直接表述為自動駕駛模型的基座模型。
當然,具身智能的開發邏輯和智能駕駛開發邏輯未必一致,王興興的意見也僅僅是一家之眼,后續的技術路線之爭,也還需要在實戰中見高下。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.