4月21日自變量機器人舉行發(fā)布會,推出新一代機器人進家庭計劃。一個月后的機器人,將搭載新一代自研具身智能基礎(chǔ)模型WALL-B。這是全球首 個基于世界統(tǒng)一模型架構(gòu)(World Unified Model,WUM)的具身智能基礎(chǔ)模型,標志著具身基礎(chǔ)模型從VLA架構(gòu)向原生多模態(tài)融合架構(gòu)的重大跨越。
![]()
自變量創(chuàng)始人兼CEO王潛、聯(lián)合創(chuàng)始人兼CTO王昊全面解讀了WALL-B的技術(shù)架構(gòu)、數(shù)據(jù)策略和訓(xùn)練機制等,并宣布35天后搭載WALL-B的新一代機器人將首批入駐真實家庭,開啟機器人服務(wù)家庭生活的成長之旅。
家庭場景是具身智能真正的“考場”
“早上七點,鬧鐘響了。你從床上爬起來,走到客廳。拖鞋不知踢到哪里,廚房的碗還沒洗,孩子的書包扔在地上,貓打翻了一杯水。” 王潛以這一日常描述開場,直觀揭示了家庭環(huán)境的本質(zhì)隨機、碎片、不斷變化。目前全球沒有任何一臺機器人可以在無遙控操作的情況下獨立完成上述場景中的綜合整理任務(wù)。
這一現(xiàn)狀與公眾的普遍認知形成反差。舞臺上的后空翻、跳街舞、寫毛筆字等機器人演示雖然視覺沖擊力強,但這些動作本質(zhì)是預(yù)設(shè)軌跡的“命令行機器人”,每一個動作都經(jīng)過預(yù)先編程或遙控操作。工廠中已經(jīng)部署的工業(yè)機器人同樣不構(gòu)成可比案例:工廠環(huán)境下,一個動作可以重復(fù)一萬次且每次條件相同;而在家庭中,一萬個動作每個可能只做一次,每次的環(huán)境條件都不一樣。
“硬件已經(jīng)到位了雙足、靈巧手、力控關(guān)節(jié)都很好。但大腦沒有跟上。當前機器人的核心瓶頸不在本體,而在智能。家庭環(huán)境中的每一秒都可能出現(xiàn)全新事件:貓何時跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力與實驗室地板完全不同。現(xiàn)有技術(shù)無法處理這種隨機性和碎片化,機器人進入家庭也被視為“這個時代最難的技術(shù)問題之一”。
從 WALL-A 到 WALL-B:VLA 架構(gòu)的局限與突破
自變量機器人從成立之初便聚焦于為機器人構(gòu)建“大腦”,即端到端的具身智能基礎(chǔ)模型。2024 年底,公司發(fā)布基于 VLA(視覺-語言-動作)架構(gòu)的第 一代具身基礎(chǔ)模型 WALL-A,25年9月,將同樣思路架構(gòu)下的輕量化模型版本W(wǎng)ALL-OSS開源。
應(yīng)用方面,自變量與 58 同城合作,將搭載 WALL-AS 模型的機器人送入真實家庭,與保潔阿姨協(xié)同作業(yè),實現(xiàn)全球首次機器人進入家庭,并服務(wù)人類復(fù)雜的家居生活,這個也是首次機器人在C端復(fù)雜環(huán)境的大規(guī)模落地。
![]()
正是這些真實家庭的部署,讓團隊看到了 VLA 架構(gòu)的“天花板”。王昊解釋道,VLA 架構(gòu)本質(zhì)上是三個獨立模塊的拼接:視覺模塊負責識別物體,語言模塊理解指令,動作模塊生成軌跡。
數(shù)據(jù)在這三個模塊之間逐級傳遞,每經(jīng)過一次模塊邊界就會發(fā)生信息損耗和延遲。更根本的問題在于,VLA 模型只能模仿訓(xùn)練數(shù)據(jù)中的軌跡,無法真正理解物理世界的規(guī)律。“它不理解杯子為什么會掉,不理解為什么盤子懸在桌邊需要推回去。它只是在重復(fù)見過的東西。”
WALL-B 正是對這一困局的回應(yīng)。它不是 WALL-A 的下一個版本,而是一次從底層架構(gòu)到訓(xùn)練范式的全面重寫。
世界統(tǒng)一模型(WUM):從“VLA”到“統(tǒng)一整體”
WALL-B真正區(qū)別于行業(yè)其他方案的核心,是其從VLA到WUM的架構(gòu)革命。
該架構(gòu)的設(shè)計思路類似于 Apple Silicon 的統(tǒng)一內(nèi)存架構(gòu):在蘋果 M1 芯片之前的 Mac 上,CPU、GPU、內(nèi)存各自獨立,數(shù)據(jù)搬運產(chǎn)生的延遲和損耗成為性能瓶頸;蘋果通過統(tǒng)一內(nèi)存架構(gòu)讓所有處理單元共享同一塊內(nèi)存,性能由此大幅提升。
在機器人領(lǐng)域,VLA就類似于M1之前的筆記本電腦架構(gòu)視覺模塊、語言模塊、動作模塊各自為政,數(shù)據(jù)在模塊之間搬來搬去,每搬一次就丟一次信息。視覺學(xué)到的豐富信息,傳到動作模塊時只剩一個模糊的摘要。
WALL-B采用的WUM 的核心理念與之相同將視覺、語言、動作、物理預(yù)測等所有能力,放在同一個網(wǎng)絡(luò)中從零開始聯(lián)合訓(xùn)練、融為一體,消除模塊間的邊界和數(shù)據(jù)搬運損耗。
基于這一架構(gòu),WALL-B 實現(xiàn)了三項區(qū)別于行業(yè)現(xiàn)有模型的核心技術(shù)特征:
第 一,原生多模態(tài)。WALL-B 從訓(xùn)練第 一天起,即對視覺、聽覺、語言、觸覺、動作等多模態(tài)數(shù)據(jù)進行同步標注與聯(lián)合訓(xùn)練,實現(xiàn)“多模態(tài)進、多模態(tài)出”。這意味著模型不需要通過“傳話”的方式在不同模塊間轉(zhuǎn)譯信息它看到杯子的同時就已經(jīng)在準備伸手,感覺到重量的同時就已經(jīng)在調(diào)整力度。
這種架構(gòu)還首次賦予了模型一種被稱為“原生本體感”的能力:WALL-B 無需持續(xù)觀察自身全身或依賴大量外部傳感器,即可內(nèi)在地感知自身的空間尺寸,如高度、寬度、手臂伸展范圍,并判斷能否通過某個空間或觸及某個物體。這是一種內(nèi)生的空間感知能力,而非通過外部測量或建模獲得。王昊指出,這一點甚至許多動物都不具備。
第二,物理世界的“世界觀”。WALL-B 能夠感知并預(yù)測重力、慣性、摩擦力、速度等基本物理規(guī)律。在從未見過的場景中例如一個盤子一半懸空在桌沿外模型可以推斷出盤子掉落摔碎,從而采取預(yù)防動作。
這種對物理規(guī)律的理解為零樣本泛化提供了基礎(chǔ)。日常生活中,物理規(guī)律在不同環(huán)境中均保持一致,WALL-B 在任何一個它從未去過的家庭中,都能利用對基本物理常識的理解來應(yīng)對新場景,不需要針對每個家庭重新訓(xùn)練。
第三,與世界交互并自我進化。這是 WUM 架構(gòu)區(qū)別于所有現(xiàn)有 VLA 模型的最根本特征。目前主流機器人在任務(wù)失敗后通常直接停止,返回錯誤信息,無法從失敗中學(xué)習(xí)。WALL-B 的行為模式則完全不同:它在失敗后會調(diào)整策略再次嘗試,如果成功,則將這次成功的經(jīng)驗直接更新到模型參數(shù)中。
這種機制使模型在真實環(huán)境中完成自我迭代,無需工程師重新訓(xùn)練、無需人工注入新數(shù)據(jù)、無需返回實驗室。王昊將其類比為人類學(xué)習(xí)使用筷子的過程筷子掉了無數(shù)次,但每一次失敗都在調(diào)整手上的控制,最終形成穩(wěn)定的技能。WALL-B 克服了 Transformer 架構(gòu)難以進行長期內(nèi)化記憶的問題,所有經(jīng)驗以原生多模態(tài)記憶的方式,通過類似人腦記憶的機制實現(xiàn)自我更新。
數(shù)據(jù)策略:從“糖水”到“牛奶”
目前,行業(yè)內(nèi)大多數(shù)訓(xùn)練模型的數(shù)據(jù)來自實驗室:實驗室中的固定光照、固定物體位置、無干擾環(huán)境。王昊將這類實驗室數(shù)據(jù)比喻為“糖水數(shù)據(jù)”干凈、可控、量大,但與真實世界差距顯著,尤其與家庭中隨時變化的自然光、隨意擺放的物品、孩子和寵物的隨機動作完全不同。用這類數(shù)據(jù)訓(xùn)練出的模型,在真實環(huán)境中會迅速失效。
與之相對的,王昊比喻為“牛奶數(shù)據(jù)”,即真實家庭環(huán)境中采集的嘈雜、多變、充滿隨機性的數(shù)據(jù),也是自變量選擇的數(shù)據(jù)道路。
為了獲取這類數(shù)據(jù),自變量團隊進入了數(shù)百個志愿者的真實家庭進行模型訓(xùn)練。每一戶家庭的布局、燈光、物品擺放和混亂程度各不相同。有的家庭地面散落著拖鞋、快遞箱、玩具和襪子;有的家庭中貓會突然跳上桌子;有的家庭廚房燈光偏暖色而客廳偏冷色。這些變量在實驗室中無法模擬,但卻是家庭環(huán)境中的日常,這些恰恰是模型必須學(xué)會應(yīng)對的真實條件。
綜合來看,自變量的數(shù)據(jù)策略可總結(jié)為:實驗數(shù)據(jù)打底,真實場景提質(zhì)。實驗室數(shù)據(jù)用于建立基本能力識別常見物體、執(zhí)行基礎(chǔ)動作;真實家庭數(shù)據(jù)用于讓模型學(xué)會在不確定環(huán)境中生存。真實隨機、不可預(yù)測的現(xiàn)實數(shù)據(jù)所驅(qū)動的數(shù)據(jù)飛輪,才是真正的壁壘。
35天后新一代機器人入駐真實家庭
機器人進入家庭的同時,隱私問題不容回避。王潛對此給出了自變量團隊明確的解決方案:
視覺脫敏機器人在設(shè)備端對原始圖像進行實時打碼處理,原始圖像不離開設(shè)備,機器人看到的已經(jīng)是去除個人特征的場景數(shù)據(jù);
透明授權(quán)用戶主動按下同意鍵后方可開機,不存在“默認同意”,用戶不同意則不開機;
用途限定絕不共享第三方,機器人只認一個主人,發(fā)現(xiàn)可疑指令立即鎖定。
“承諾是便宜的,用戶信任才是最貴的。”王潛明確表示。
在商業(yè)化落地方面,自變量的時間表也已經(jīng)明確:35 天后,新一代搭載WALL-B,并根據(jù)家居環(huán)境進行硬件升級的新一代機器人將入駐首批用戶的家庭。
王潛指出,當前模型仍處于“實習(xí)生”階段,會犯錯,需要遠程協(xié)助,有時可能把拖鞋放到廚房、擦桌子擦到一半停下來“思考”。但其能夠?qū)崿F(xiàn) 24 小時不間斷工作,且每工作一天都會因新數(shù)據(jù)的產(chǎn)生而變得更“聰明”。
從即日起,自變量開始招募首進家庭機器人的家長,用戶可通過官方渠道提交申請。
結(jié)尾
具身基礎(chǔ)模型的持續(xù)進步,是自變量成立以來一直追求的目標。為機器人打造一個能夠真正理解世界、并在真實世界中持續(xù)學(xué)習(xí)的機器人大腦,進入家庭服務(wù)人類每一天是自變量機器人的長久愿景。
“盡管進入家庭的機器人現(xiàn)在還很笨,走得很慢,經(jīng)常犯錯。人類從嬰兒時期邁出的第 一步也是如此。每一個偉大的旅程,都是從踉踉蹌蹌的第 一步開始的。如今,機器人已經(jīng)在最復(fù)雜的地方開始了它學(xué)習(xí)和進化的征程。”
模型一直在迭代,WALL-B的具體細節(jié)及生態(tài)基座,將于4月27日在深圳舉辦的首屆廣東省人工智能應(yīng)用對接大會上全面亮相。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.