![]()
這一次,它不是靠外形博眼球,而是真正朝著自主行動的家用機器人方向邁了一步,背后的技術邏輯值得好好說道。
![]()
![]()
在1XWM出現之前,多數機器人采用的VLA范式存在明顯局限,核心問題就是對物理世界的理解不足,這類模型依賴預訓練視覺語言模型做基礎,再疊加動作預測模塊,看似能處理復雜指令,實則需要數萬小時的機器人專屬數據訓練,不僅成本高昂,泛化能力還極差,換個沒見過的物體就可能宕機。
![]()
這種常識性認知正是家用機器人走進復雜家庭環境的關鍵,在小圓看來,這不僅是技術升級,更是機器人智能范式的轉變,從被動執行指令升級為主動預判場景,這一范式轉變的落地,還離不開適配的硬件支撐,畢竟模型的能力最終要靠機器人軀體來實現。
![]()
![]()
世界模型主干采用多階段訓練模式,先靠互聯網視頻打基礎,再用900小時人類第一視角視頻對齊操作邏輯,最后用70小時NEO專屬數據微調適配軀體特性,為了提升指令遵循度,團隊還借助VLM生成詳細字幕輔助訓練,這種精細化操作讓模型對任務的理解更精準。
而逆動力學模型則扮演著過濾器的角色,它把生成視頻轉化為精確動作序列,同時剔除物理上不可能、運動學上不可行的動作,避免NEO做出瞬移物體、關節過度彎曲等離譜行為,小圓認為,這種軟硬協同的設計思路很務實,既發揮了視頻預訓練的規模化優勢,又通過精準對齊解決了落地難題。
![]()
![]()
泛化能力亮眼但仍有挑戰,衡量機器人技術的核心的是泛化能力,1XWM在這方面交出了不錯的答卷,在未經過專門訓練的情況下,NEO能抓取從未見過的物體、完成清潔等全新動作,甚至實現雙手協同和人機交互,這些能力都來自視頻預訓練積累的通用知識,再加上類人軀體結構的遷移優勢。
實驗數據顯示,其在多種基礎動作上成功率穩定,生成視頻與實際執行過程視覺一致性極高,說明模型在空間理解、物理規律建模上已具備較強能力,當然,技術落地總有不完美之處,團隊也承認存在腦到手未到的情況,倒液體、繪圖等精細操作仍是難點。
![]()
且生成5秒視頻需耗時11秒,速度短板會影響家用體驗,不過1X團隊找到了解決方向,通過并行生成多個視頻并篩選最優方案,能有效提升任務成功率,抽紙任務成功率就從30%提升至45%,在小圓看來,這種直面問題、精準優化的思路,比單純炫技的Demo更有價值。
![]()
這些實測中的亮點與不足,也勾勒出人形機器人商業化落地的清晰路徑,500萬次圍觀的熱度,本質上是大眾對家用機器人真正自主化的期待,1X把世界模型落地到NEO身上,不僅驗證了視頻預訓練賦能機器人的可行性,更提供了一套從知識獲取到動作執行的完整方案。
![]()
為行業突破數據依賴、降低落地成本提供了新思路,盡管目前在精細操作、響應速度上仍有提升空間,但這種從被動執行到主動思考的跨越,已經讓人看到家用機器人走進千家萬戶的希望,隨著技術持續迭代,以及硬件成本的逐步降低,相信人形機器人跨越最后一公里的那天不會太遠,而1X的這次嘗試,無疑為這條賽道點亮了重要的一盞燈。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.