網易首頁 > 網易號 > 正文申請入駐

宇樹科技王興興發“暴論”，對智駕有什么參考？

2025-08-12 20:01:00　來源: 賽博汽車

北京舉報

分享至

“VLA模型是相對傻瓜式的架構。”

2025年8月9日，在北京舉辦的2025世界機器人大會上，宇樹科技的創始人、CEO兼CTO王興興在演講中這樣說道。

盡管他是針對具身智能大模型發表這一看法的，但對于當前智能駕駛最熱門模型方向，不得不讓人有些錯愕。

包括極佳視界的CEO黃冠也在吐槽他的觀點“太業余”。

王興興認為，世界模型可能是更好的技術方向。不過，短期的未來2~5年，“最大的肯定還是一個端到端的具身智能AI模型”。

大會上，他從核心瓶頸、新興技術引擎及未來技術重心三個方面，對具身智能機器人的發展態勢進行梳理與分析。我們不妨看看，這位大紅人的觀點，有什么啟發。

核心瓶頸：模型不夠好

談及機器人未大規模應用的原因，很多人誤認為是硬件性能不足或成本過高。但王興興指出，當前機器人硬件（包括人形機器人的靈巧手、整機等）已基本夠用。

從技術層面而言，人形機器人的硬件，諸如靈巧手和整機等，已足夠滿足基本需求，盡管在工程實施上仍存在諸多挑戰，但已能夠支撐基礎功能的實現。

他認為，限制其大規模應用的核心瓶頸，在于具身智能的AI 大模型尚未成熟。

王興興認為，目前的機器人大模型（具身智能）發展階段，類似ChatGPT 發布前的1～3年，即業界已明確方向和技術路線，但尚未突破關鍵臨界點。

在王興興看來，之所以沒達到關鍵臨界點，主要是由于行業對“數據” 的關注度過高，卻忽視了模型本身的問題。

王興興認為，具身智能發展的關鍵問題在于模型架構不夠完善、缺乏統一性、泛用性，導致能力受限，而且數據還不能完全利用起來。

以當前較受關注的VLA模型為例，王興興認為其是 “相對傻瓜式的架構”，其在真實世界交互中，對數據質量的依賴過高，但適應性不足。因此，他對VLA 模型的應用前景持懷疑態度。

此外，“VLA模型+RL 訓練”也是行業常見的優化思路，但他認為，實踐表明折讓仍然不夠。“模型架構必須進一步升級，不能停留在簡單組合層面。”王興興這樣說道。

在王興興看來，另一個限制發展因素是“RL Scaling law（縮放定律）”的缺失，這導致機器人尚未解決“從零開始”的魔咒。王興興認為，目前機器人在學習新任務時，例如學習一支新的舞蹈或完成一項新的工作，往往需要從零開始訓練，這導致了訓練效率的顯著低下。這是由于機器人控制中“RL Scaling law（縮放定律）” 的缺失造成的。

在王興興看來，具身智能的理想狀態是“新任務訓練基于舊有基礎，速度越來越快、效果越來越好”。這一規律在語言模型中已得到充分驗證，而在機器人運動控制領域，尚處于起步階段，不過展現出巨大的潛力，是值得行業深入探索的關鍵領域。

新技術方向：視頻生成模型

既然VLA模型模型還不足夠優秀，那么什么模型才是方向呢？

王興興認為，現階段看視頻生成模型的路線可能比VLA模型更快，收斂概率更大。

其核心邏輯在于：利用視頻生成模型預先“模擬生成機器人動作序列的視頻”，進而直接指導實體機器人執行相應動作。例如，若指令為“整理房間”，模型可先生成機器人整理房間的虛擬視頻，再將視頻中的動作轉化為實體機器人的控制信號。

不過，王興興指出，這一路線也存在一個現實問題：當前視頻生成模型過度關注“視頻質量”，導致 GPU 消耗較高；但對機器人而言，無需高精度視頻，只要能驅動動作即可，目前看這一矛盾仍需解決。

未來技術重心：模型、硬件與算力網絡

王興興預判，未來2-5 年，具身智能機器人的發展將聚焦三大方向：

一是，統一的端到端智能機器人大模型。端到端模型是提升機器人能力的關鍵。未來需重點推動端到端模型的研發，實現“基于既有訓練基礎快速學習新技能”，提升模型的通用性和效率。

二是，更低成本、更高壽命的硬件及批量制造。硬件的優化亦是不可或缺的一環。即便是歷經百年發展的汽車行業，也仍需不斷攻克工程領域的重重難關；對于未來可能達到“數百萬、數千萬臺” 量級的人形機器人，必須解決 “低成本、高壽命” 及 “超大批量制造” 的工程挑戰，才能支撐大規模應用。

三是，低成本、大規模的分布式算力網絡。機器人本體受限于尺寸和電池容量，無法部署大規模算力，因為“其峰值功耗通常僅 100 瓦左右，相當于幾部手機的算力。”

因此，未來需要構建分布式算力網絡，例如，工業場景中，可在工廠內部署局部服務器集群，供100 臺級機器人就近連接，降低通信延遲；再如，民用場景（如小區）中，可建立區域級算力集群，減少用戶的算力建設成本，同時保障延遲和安全性。

在會后采訪中，有媒體提到了機器人的價格預期。對此，王興興表示，當機器人具備大規模作業能力時，機器人甚至將會是免費的狀態，因為“每臺機器人出廠后都可以繳稅。”

對此，他舉了個例子：一臺機器人是干什么活的？就可以從它生產的價值中直接扣稅。譬如，若有一片荒蕪之地，企業派遣機器人前去開墾耕作，那么機器人所創造的部分價值將直接轉化為稅收。

“這個過程快的話可能要2～3年，慢的話可能3～5年，但是我覺得這波浪潮(的到來)大概率不會超過10年。”王興興說道。

王興興的發言引起了不小的爭議。對于智能汽車行業而言，當前VLA+RL是最熱門的方向，理想汽車、小鵬、華為、文遠知行等多家企業都采用了這一路線或者近似路線。同時，華為、蔚來，以及理想、小鵬也采用了世界模型，不過表述和功能有所區別，有的僅用于模擬訓練，有的則直接表述為自動駕駛模型的基座模型。

當然，具身智能的開發邏輯和智能駕駛開發邏輯未必一致，王興興的意見也僅僅是一家之眼，后續的技術路線之爭，也還需要在實戰中見高下。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.