幾小時前,Figure AI 發布了 Helix 02 ——官方稱之為「一個視覺-語言-動作(VLA)通用模型」。
最直觀的展示?一臺 Figure 03 機器人走到碗柜前,打開柜門,從堆疊的碗碟中挑出一個,轉身走向洗碗機,調整角度,穩穩放進去。
全程自主,沒人遙控,更沒有一個碗碟受到傷害:

洗碗:具身智能的「地獄難度」測試 為什么演示下廚房?因為這是家務勞動里的「地獄難度」。
人類挪動廚具感覺很簡單,但對于機器人來說,每一個關節的運動都是挑戰。
我們拆解一下洗碗的動作鏈就知道了——
首先,它非常考驗機器人的環境識別與空間移動能力:

機器人(與機器人使用的模型)要判斷自己的位置,識別碗柜、水槽、洗碗機的位置關系,然后規劃路線走過去。
走到碗柜旁邊,還得停在合適距離——太近打不開柜門,太遠夠不著碗。
看到餐具之后,還得識別類型:瓷盤、玻璃杯、塑料碗,每種都需要不同的姿勢和力度。
捧起來,還得檢測要放進洗碗機的哪個位置,盤子放下層、杯子放上層,餐具放側邊。
其次,下廚房對立體視覺與觸覺反饋也有要求:

陶瓷很脆、玻璃很滑、塑料會變形,機器人需要精準的觸覺反饋控制力度——太輕會滑落,太重會捏碎。
Helix 02 模型的突破就在這里。
結合視覺、觸覺、壓力、電感等等多種 sensor,它有了一套多維度的立體視覺能力,能準確判斷碗在堆疊中的位置和深度。
Figure 03 機器人的手上也集成了力反饋機制,能「認知」到自己施加的力量,知道何時接觸到了瓷器表面。
抓碗時,系統實時感知接觸力度。碗放歪了?調角度。碰到柜門了?后退一點。
最后,還有視覺記憶,這也是 Helix 02 模型本次的主要升級點:

這意味著機器人能記住剛才看過的東西。
打開碗柜時,即使現在的角度看不到某個碗,它也記得剛才瞥見過,并根據記憶調整動作。
重復把放碗進洗碗機時,它也能記得哪些位置滿了,哪里還有空間——
不需要每次重新掃描,大大提高了動作的執行效率。
Brett Adcock,Figure AI 的創始人兼 CEO 在 X 上強調:
沒有遠程遙控,運行(這個機器人)的是 Helix,從走路到抓握,以及規劃。
![]()
Brett Adcock 還重申,同樣的通用架構之前讓機器人學會了疊毛巾、整理包裹,現在又學會了洗碗。
不需要任何新算法或任務專用工程,只需要新數據。
眼下唯一的限制就是預訓練數據,只要我們給 Helix 喂入更多數據,機器人就能處理更多任務。硬件不需要任何改變,它已經能做大部分人類能做的任務了。
這條推文下面,有 X 用戶評論:「第一次看到人形機器人真的在家里做任務,讓我意識到我們離這個未來有多近。」
把機器人送進寶馬打工的明星公司
另一邊,Figure AI 絕不是那種在實驗室里紙上談兵的「創想公司」。
三年的時間里,Figure AI 的估值從 0 來到 390 億美元,得到了包括貝佐斯基金、OpenAI、微軟、英偉達的投資助力。
2024 年 2 月,Figure AI 結束 6.75 億美元 B 輪募資,25 年 9 月又完成了 10 億美元 C 輪,渴求進步的速度快得驚人。
![]()
創始人 Brett Adcock 還是個成功的連續創業者。
2018 年,Adcock 把招聘平臺 Vettery 賣了 1 億美元,轉頭創辦電動飛機公司 Archer Aviation,2021 年借助 SPAC 上市時合并估值近 38 億美元。
進入機器人領域后,Adcock 陸續從波士頓動力、特斯拉、谷歌 DeepMind 挖來了一堆頂尖人才,Figure AI 的技術實力迅速增長。
![]()
▲ Brett Adcock(右)
這種人才模式也賦予了 Figure AI 最大的特點:
「腦子」和「身體」一起造,既掌控硬件、也生產系統。
這里的「腦子」指的自然是 Helix AI。
從最初與 OpenAI 合作研發,到現在完全自研,Figure AI 成功把模型話語權牢牢握在手里。
例如 Figure 03 機器人采用了一套「System 0、System 1、System 2」的多層控制架構——
![]()
▲ Figure 03
System 0 負責機身運動控制,解決機身平衡、手指接觸、環境擾動等底層控制問題,作用很像人類的小腦。
在此基礎上,System 1 負責處理 Figure 02 的視覺-運動策略(visuomotor policy),System 2 負責運行視覺語言模型:
![]()
▲ 去年演示的 Figure 02 就使用了 System 1+2 的上半身模型
三層協同,最終實現了 Figure 03 可以自主理解指令,認知周圍環境,并決定機身如何運動的循環。
而「身體」指的當然是 Figure 機器人硬件——
之前小規模試產的 Figure 02 配備 6 個 RGB 攝像頭、雙 GPU 模組,手部擁有 16 個自由度,最大搬運重量 25 公斤。
Figure 02 的電池續航在 5 小時左右,正好夠一個工作班次。
![]()
▲ Figure 02
到了最新的 Figure 03,它的每只手掌都內嵌攝像頭和觸覺傳感器,可以實現最低 3g 的壓力檢測。
換個說法就是,Figure 03 的手掌更加細致靈活了:
![]()
▲ Figure 03
更關鍵的是,Figure AI 的機器人「肯進廠」,擁有快速組裝送往實戰的能力。
2024 年 1 月,Figure AI 跟寶馬合作,把一批 Figure 02 送到了南卡羅來納州的寶馬總裝線。
在那兒,Figure 02 負責把鈑金零件精準放置到固定裝置里——大型固定式機器臂難以照顧的精細活兒。
![]()
這些 Figure 02 在寶馬累計工作了 11 個月,總行走里程近 200 英里,搬運了超過 9 萬個零件,協助生產了超過三萬輛寶馬 X3。
Adcock 還在曬出了布滿劃痕和磨損的機器人照片,表明這是一次「真刀真槍」的商業驗證:
![]()
看到機器人擰螺絲,寶馬生產部門董事 Milan Nedeljkovi? 總結:
通過早期測試,我們正在確定人形機器人在生產中的可能應用。我們未來希望可以從(機器人的)技術開發階段就參與進來。
Figure AI 跟 OpenAI 的關系也是關鍵。
比如在 2024 年,OpenAI 不僅給 Figure AI 提供了投資,甚至幫助開發了語音模型,讓機器人能接受自然語言指令。
盡管 Figure 后來轉向自研 Helix,但這段合作實質上為 VLA 模型打下了一個基礎。
無獨有偶,今年 CES 上,我們看到了一個明顯趨勢:
家電巨頭都開始挑戰「家居機器人」。
類似 LG 和海信都展示了能在家里自主移動、協助做家務的機器人原型,說明傳統家電企業紛紛開始意識到:
下一代智能家電不是算力更強的冰箱或洗衣機,而是能直接操作這些設備的機器人。
![]()
▲ LG CIOiD 家居機器人
甚至在這場「變人」競賽中,國內廠商的布局更加激進——
就在剛剛,螞蟻集團旗下靈波科技開源了具身大模型 LingBot-VLA。
LingBot- VLA 作為一個面向真實操作場景的「智能基座」,實現了機器人跨本體、跨任務泛化能力。
根據靈波科技的數據,LingBot-VLA 在包含 100 項真實操作任務的 GM-100 評測中,刷新了真機評測的成功率紀錄。
![]()
▲ 靈波科技首款機器人 Robbyant-R1
不只是螞蟻,京東、阿里、騰訊、華為、比亞迪、小米——幾乎所有科技巨頭都在布局具身智能。
2024 世界人工智能大會上發布的《人形機器人產業研究報告》指出:
2024 年中國人形機器人市場規模達 27.6 億人民幣,2029 年有望擴大至 750 億元,到 2035 年更是可能激增至 3000 億元。
遠的不說,今年春晚可能成為「機器人含量最高」的一屆。
目前已經有多家具身智能公司有望登臺展示——不是擺設,是真能上臺唱跳 rap 的那種。
![]()
機器人配齊了「腦子」和「身體」,準備好進千家萬戶了。
而 Figure AI 的 Helix 02 證明了「通用具身智能模型」的可行性:
廠商其實不需要為每個任務單獨編程,不需要收集巨量推演數據,只要一個足夠強的 VLA 模型,機器人就能自己理解指令、自己熟悉環境、自己生成策略。

▲ 它甚至知道省力
就像 GPT 之于語言,Helix 之于具身智能一樣,今天機器人能刷碗、打螺絲,明天它就能照顧你的飲食起居。
家里散養個機器人,這事兒可能真沒想象中那么遙遠了。
文|馬扶搖
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.