大數據文摘受權轉載自頭部科技
文丨譚梓馨
美國明星機器人公司 Figure AI又整新活兒了。
今天, Figure AI官方發布了一個全新演示視頻,號稱人形機器人界的首次嘗試: 首個擁有多手指的人形機器人,能夠利用端到端神經網絡完全自主地折疊衣物。
疊衣服對人類來說可能平淡無奇,但對于人形機器人來說,卻是最具挑戰性的靈巧操作任務之一,具體而言,本次演示中的Figure機器人也僅僅是在疊毛巾。
毛巾易變形,形狀不斷變化,彎曲難以預測,而且容易起皺或纏結。它沒有固定的幾何形狀需要記住,也沒有單一的“正確”抓握點,即使是手指輕微的滑動,也可能導致毛巾起皺或掉落,想要成功,不僅需要Figure機器人準確地觀察世界,還需要精細協調的手指控制,以追蹤邊緣、捏住角落、撫平表面,并實時調整。

值得關注的是,Figure AI方面表示,其 解決邏輯任務 的Helix架構(其開發的視覺語言動作VLA模型)可直接應用于衣物折疊,無需修改模型或訓練超參數,唯一的變化是增加新數據集;除了折疊之外,Helix還學會了與人互動時保持眼神交流、引導視線以及運用手勢。
快速進化的通用具身模型
這次演示的新技能距離上次機器人往洗衣機里塞衣服僅僅過去兩周時間,機器人學習一項新任務的速度正在越來越快,而且操作依舊非常絲滑,而不是慢吞吞的各種卡頓。
網友們表示,雖然它現在還不能真正完成洗衣服、收衣服、疊衣服的操作,而且形狀統一的毛巾和整理各類混合衣物的難度完全不一樣,比如毛巾、床單混雜著外套、褲子之類的雜七雜八的東西,但這種進化速度讓人感覺很快就會實現。

在沒有任何架構變化的情況下,Helix學會了從一堆混雜的毛巾中挑選毛巾;根據起始配置調整折疊策略;通過退回多余的物品來恢復多重挑選錯誤,在完成折疊之前,Figure機器人采用了仿人的操作技巧,例如用拇指描邊、捏角或解開纏結的毛巾。
Helix實現所有這些功能時,并沒有明確的對象級表征,對于像毛巾這樣高度可變形的物體,構建這樣的表征既脆弱又不可靠,相反,Helix完全采用端到端的方式運行:從視覺和語言輸入到流暢、精確的運動控制。
為什么這很重要?這證實了通用架構和相同的物理平臺,可以無縫銜接從工業物流到家務的場景,隨著擴大現實世界數據收集的規模,Helix的靈活性、速度和泛化能力有望在更廣泛的任務范圍內持續提升。
比跳舞更難的“疊衣服”
人形機器人行業目前給人一種“錯覺”,機器人們能跑、能跳、能翻跟頭表演,但是干起活兒來卻略顯笨拙且效率不高。
本質原因在于,讓機器人學會疊衣服干活兒比跳舞難多了,兩者對機器人的感知、決策和操作能力要求存在本質差異。
跳舞本質是預設動作的精準復現:通過編程設定關節運動軌跡、節奏和協調性,機器人只需按設定好的邏輯執行,即使是復雜舞蹈,核心仍是“按劇本動”,而且環境通常是固定的(如平坦地面、開闊空間、無障礙物等),無需應對突發變化。

而疊衣服是動態場景下理解并處理復雜物體的過程:衣服是柔軟、易變形的非剛性物體,形態(皺巴巴、纏繞)、種類(襯衫、襪子、褲子)、擺放位置均不固定。 機器人需要先“看懂”衣服再“規劃動作”(從哪里抓起、如何鋪平、折疊順序),還要“適應變化”(比如抓起時衣服滑落、折疊時邊角偏移),幾乎每一步都依賴實時感知和動態調整。
此外,跳舞的操作對象是機器人本體關節,更多屬于運動控制層面問題:通過電機精確控制角度、速度即可實現動作,對誤差容忍度較高一些,只要不倒,舞步稍偏一點不影響觀感,此外,對外部感知的負擔也比較低。
而讓機器人對非剛性物體進行精細操作,至今仍是機器人學的經典難題,因為不僅需要多模態感知融合,而且機械手的靈活性和觸覺感知仍遠不及人類手指,機器人需要從視覺、觸覺乃至力覺多維度出發進行實時感知決策,對圖像識別、三維重建、力控算法的要求都非常高。
目前業內公開展示的人形機器人+靈巧手完全自主疊衣服的操作也并不多,能讓機器人兼顧流暢度高、操作速度快的廠商更是鳳毛麟角。

例如國內的千尋智能和美國的知名具身創企Physical Intelligence就多次展示機器人疊衣服的長程任務過程,但是屬于雙機械臂和抓手的操作。

與Physical Intelligence有合作的國內廠商星辰智能也在其官網上也展示了疊衣服的片段。

優必選此前也曾發布過人形機器人Walker S通過語音交互使用靈巧手疊衣服的演示,不過優化了不少復雜識別操作環節,讓機器人從一個相對平整的目標衣物開始操作。

如今,網友們希望看到的是更有“難度”的長程操作:將多種形狀和擺放方向不同的衣物放入托盤,讓機器人從1號位置的雜亂箱中抓取衣物,移動到2號位置(桌面上)鋪平折疊,再將毛巾整齊到指定的C位置(收納籃、置物架)的一個或多個堆疊上的過程。

馬斯克也曾展示過特斯拉“擎天柱”機器人(Optimus)的疊衣服操作,雖然引起了廣泛關注,但馬斯克自己直言:Optimus尚不能自主地做到這一點。
![]()
各家PK下來,像 Figure人形機器人這樣全流程操作絲滑疊毛巾的,目前來看確實算是個行業標桿,除了PK跳舞、奔跑,讓機器人進行精細任務的長程操作其實才該是業內真正該競逐的重要目標,畢竟,機器人未來是要替代人類干各種活兒的。
競逐機器人的“ChatGPT”時刻
不過,“ 人形機器人疊衣服”的操作也 遭到了不少網友調侃,因為這個概念其實并不新穎,早在多年前就有很成熟的“疊衣機”技術方案,而且速度要比如今的人形機器人可高多了,“人機協同”下一分鐘能疊好多件,人形機器人何時能實現這種效率可謂任重道遠。

在近期的世界機器人大會期間,宇樹科技王興興也直言, 行業存在“對數據關注太高、對模型關注太少”的問題,現有機器人系統功能碎片化,“每個場景都需要單獨訓練模型,導致通用性不足”。
他認為,目前機器人硬件是完全夠用的,但具身智能的AI仍完全不夠用,構建統一端到端的具身智能大模型被視為是未來2-5年的技術重心之一。
王興興的預判正在發生著,國外知名廠商對具身模型的改進正在進入新階段,除了Figure機器人搭載的Helix架構模型,Physical Intelligence、Skild AI等也在打造具身智能的“通用大腦”,致力于通過一個基礎模型適配多種機器人硬件和任務,避免為每個任務單獨訓練模型。
機器人領域的“ChatGPT時刻”正在到來,國內廠商是時候把注意力從各種炫技轉移到更關鍵的技術突破上了。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.