![]()
演講嘉賓|隋偉 博士
編輯|Kitty
策劃|QCon 全球軟件開發(fā)大會(huì)
傳統(tǒng)的具身智能操作方法將視覺感知、語(yǔ)言理解和動(dòng)作規(guī)劃分割為獨(dú)立模塊,導(dǎo)致系統(tǒng)復(fù)雜、誤差易累積且泛化能力不足。視覺語(yǔ)言動(dòng)作模型(VLA)則實(shí)現(xiàn)了從多模態(tài)感知到動(dòng)作生成的端到端學(xué)習(xí),構(gòu)建了 “所見即所動(dòng)” 的智能決策閉環(huán),極大地推動(dòng)了具身智能發(fā)展。
然而視覺語(yǔ)言動(dòng)作模型本身也存在諸多挑戰(zhàn),例如訓(xùn)練數(shù)據(jù)難以獲取、模型結(jié)構(gòu)缺少長(zhǎng)時(shí)序和物理邏輯推理的能力。這意味著 VLA 雖然能實(shí)現(xiàn)一些操作功能但是對(duì)不同場(chǎng)景、不同任務(wù)的泛化性仍然存在挑戰(zhàn),無(wú)法滿足實(shí)際的需求。
本文整理自地瓜機(jī)器人算法副總裁隋偉 博士在 2025 年 QCon 全球軟件開發(fā)大會(huì)(上海站) 的分享“具身智能中的 VLA 技術(shù)及其應(yīng)用”,內(nèi)含涵蓋 VLA 技術(shù)的基本原理和機(jī)制,以及在落地過(guò)程中涉及到的數(shù)據(jù)、評(píng)測(cè)等問(wèn)題, 從而提升 VLA 的性能和易用性等等。
預(yù)告:將于 4 月 16 - 18 召開的 QCon 北京站設(shè)計(jì)了「具身智能與物理世界交互」專題,聚焦 VLA/VA 模型與數(shù)據(jù)體系兩大核心,深度拆解具身智能技術(shù)鏈路。擬探討模型現(xiàn)狀、核心挑戰(zhàn)與機(jī)會(huì),分享高質(zhì)量數(shù)據(jù)解決方案,解析仿真與 World Model 的賦能價(jià)值,破解核心技術(shù)瓶頸。敬請(qǐng)關(guān)注。
以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/strong>
我先簡(jiǎn)單介紹一下地瓜機(jī)器人,是一家專門聚焦機(jī)器人領(lǐng)域的公司。我們提供一整套機(jī)器人解決方案,包括底層芯片、操作系統(tǒng)、開發(fā)環(huán)境、數(shù)據(jù)算法以及云平臺(tái)等。我們的目標(biāo)是讓機(jī)器人的開發(fā)變得更加簡(jiǎn)單,讓每個(gè)人都能上手開發(fā)機(jī)器人算法。
![]()
我今天分享的主題是 VLA(視覺 - 語(yǔ)言 - 動(dòng)作模型)。我會(huì)圍繞 VLA 開發(fā)過(guò)程中遇到的各種問(wèn)題,介紹目前的現(xiàn)狀與挑戰(zhàn),涵蓋從數(shù)據(jù)到模型、再到最終部署及應(yīng)用中遇到的困難。
具身智能中 VLA 的現(xiàn)狀和挑戰(zhàn)
首先看 VLA 的現(xiàn)狀與挑戰(zhàn)。具身智能在這兩年非常火熱,被認(rèn)為是繼智能駕駛之后的另一個(gè)爆發(fā)點(diǎn)。其背景是底層 AI 模型的快速發(fā)展,尤其是像 VLM(視覺語(yǔ)言模型)這種離身智能大模型,已經(jīng)具備了很好的通用性和泛化性。目前在聊天類應(yīng)用、文生圖以及 VLM 問(wèn)答方面,技術(shù)已經(jīng)做得非常成熟。下一步,技術(shù)必然會(huì)向具身智能演進(jìn),即讓機(jī)器人的動(dòng)作也具備這種通用能力。而且,具身智能的前景和市場(chǎng)容量遠(yuǎn)比智能駕駛要大。智能駕駛目前的普及率大約在 60% 到 70%,而具身智能未來(lái)會(huì)存在于各種場(chǎng)景中。
![]()
從功能、底層模型、數(shù)據(jù)和硬件本體四個(gè)維度來(lái)看,目前具身智能的現(xiàn)狀如下:在功能成熟度方面,我們將本體任務(wù)分為上肢操作(Manipulation)、下肢移動(dòng)(Locomotion)和對(duì)話。目前對(duì)話功能已經(jīng)非常成熟,許多陪玩類機(jī)器人已經(jīng)落地。在移動(dòng)能力方面,我們能看到很多機(jī)器人跳舞或進(jìn)行搏擊比賽,但目前大多屬于“盲眼運(yùn)動(dòng)”,雖然有一定的情緒價(jià)值,但缺乏與現(xiàn)實(shí)的感知交互。比如機(jī)器人在跳舞時(shí),如果前面有障礙物,由于沒有通過(guò)傳感器感知世界,它依然會(huì)撞上去。
至于上肢操作,這是我們今天要講的重點(diǎn),也是與 VLA 關(guān)系最密切的方向,目前它是最具挑戰(zhàn)性、最不成熟的。其底層模型正經(jīng)歷從 G1 到 G5 的發(fā)展階段,現(xiàn)在大約處于 G2 到 G3 之間,即從傳統(tǒng)的工業(yè)自動(dòng)化向端到端學(xué)習(xí)過(guò)渡的過(guò)程。雖然 VLA 正在從分層式架構(gòu)向端到端架構(gòu)發(fā)展,但挑戰(zhàn)巨大,核心在于數(shù)據(jù)。現(xiàn)有數(shù)據(jù)無(wú)法支撐 VLA 發(fā)揮出應(yīng)有的性能,而數(shù)據(jù)采集目前也沒有完美的解決方案。遙操作采集的數(shù)據(jù)真實(shí),但效率極慢;仿真雖然能快速獲取數(shù)據(jù),但有效率較低。此外,硬件本體目前也不夠穩(wěn)定成熟,盡管成本在快速降低,但端側(cè)算力依然面臨挑戰(zhàn)。雖然現(xiàn)在到處都是問(wèn)題,但 VLA 在發(fā)展過(guò)程中肯定會(huì)遇到各種坎坷。它應(yīng)該是一個(gè)螺旋式或波段式前進(jìn)的過(guò)程,而我們現(xiàn)在正處于第一個(gè)波峰。
我們來(lái)看看 VLA 到底是為了解決什么問(wèn)題。因?yàn)槲抑皬氖伦詣?dòng)駕駛領(lǐng)域,而自動(dòng)駕駛是 AI 第一個(gè)大規(guī)模落地的場(chǎng)景,所以我比較傾向于通過(guò)自動(dòng)駕駛這十年的發(fā)展路徑和 AI 落地過(guò)程,來(lái)推演具身智能當(dāng)前所處的階段。
自動(dòng)駕駛領(lǐng)域的一個(gè)重要節(jié)點(diǎn)是“端到端”技術(shù)的出現(xiàn)。特斯拉率先發(fā)布了端到端算法,通過(guò)模仿學(xué)習(xí)來(lái)解決擬人化的問(wèn)題。在此之前,自動(dòng)駕駛主要依靠規(guī)則化方案來(lái)生成軌跡,涵蓋行駛方向、速度和加速度等。駕駛最關(guān)鍵的三個(gè)要素是安全性、舒適性和高效性。在端到端技術(shù)普及前,傳統(tǒng)規(guī)則化方法很難同時(shí)兼顧這三點(diǎn)。比如,為了保證安全而讓系統(tǒng)過(guò)于保守,效率就會(huì)降低;如果駕駛風(fēng)格激進(jìn)以提高效率,安全性和舒適性又會(huì)受到影響。端到端技術(shù)較好地解決了這個(gè)問(wèn)題,因?yàn)樗苯訌膶<覕?shù)據(jù)中學(xué)習(xí)駕駛過(guò)程,讓體驗(yàn)提升了一大截。
![]()
不過(guò),端到端技術(shù)也遇到了泛化性和適應(yīng)性的難題,核心還是數(shù)據(jù)問(wèn)題。比如不同城市、不同風(fēng)格的紅綠燈和標(biāo)志牌,一旦系統(tǒng)沒見過(guò)相關(guān)數(shù)據(jù),性能就會(huì)立即下降。既然現(xiàn)在的 VLM 已經(jīng)具備了極強(qiáng)的通用性、泛化性和常識(shí)能力——例如你問(wèn)它某個(gè)交通標(biāo)志是什么意思、該怎么開,它能給出很好的語(yǔ)言描述——那我們就在想,能不能把這種能力引入到具身智能系統(tǒng)中,形成 VLA,讓系統(tǒng)具備思考能力。目前在自動(dòng)駕駛領(lǐng)域,已經(jīng)有一兩家頭部玩家最近跑通了 VLA。相比端到端模型,VLA 的模型規(guī)模要大出 10 倍左右,端到端模型通常在 0.1B(億級(jí)參數(shù))量級(jí),而 VLA 則在幾個(gè) B(十億級(jí)參數(shù))的量級(jí),且訓(xùn)練數(shù)據(jù)量龐大,通常需要幾十億個(gè)短視頻片段才能訓(xùn)練出一個(gè)性能較好的版本。
回到具身智能,即便是一個(gè)簡(jiǎn)單的動(dòng)作,也存在技術(shù)方案的演進(jìn)。第一種是模塊化方案,類似于早期自動(dòng)駕駛的思路,即“先檢測(cè)再規(guī)劃”。在 2019 年到 2020 年期間,很多 Demo 都是這么做的:先簡(jiǎn)單處理物體的姿態(tài),再規(guī)劃?rùn)C(jī)械臂的操作。但問(wèn)題在于,很多任務(wù)是無(wú)法直接規(guī)劃的,尤其是自由度較高時(shí)。機(jī)械臂一般有 6 到 7 個(gè)自由度,人形機(jī)器人則有幾十個(gè),這不像自動(dòng)駕駛只需在二維平面規(guī)劃軌跡。
隨后出現(xiàn)了模仿學(xué)習(xí),即直接通過(guò)端到端的方式學(xué)習(xí)一條軌跡。它的好處是能完成一些規(guī)劃不出來(lái)的復(fù)雜動(dòng)作,并處理抓取柔性物體等任務(wù)。但它的局限性在于對(duì)數(shù)據(jù)的強(qiáng)依賴,于是便誕生了 VLA。VLA 的初衷是解決場(chǎng)景泛化、任務(wù)泛化和本體泛化這三個(gè)問(wèn)題。我們希望利用 VLM“見多識(shí)廣”的能力,讓機(jī)器人也具備同樣的通用性。從落地角度看,場(chǎng)景和任務(wù)的泛化優(yōu)先級(jí)最高,本體泛化可以排在最后,因?yàn)閱慰顧C(jī)器人如果能具備通用性,其價(jià)值就已經(jīng)非常巨大了。
關(guān)于 VLA 的模型架構(gòu),其實(shí)邏輯非常直接。現(xiàn)在的模型輸入通常是多模態(tài)信息,一般包含圖像、文本和本體狀態(tài)。其中本體狀態(tài)主要指姿態(tài)信息和關(guān)節(jié)角度等。這些信息經(jīng)過(guò)編碼器處理后,輸入到基于 Transformer 架構(gòu)的 VLM(視覺語(yǔ)言模型)中進(jìn)行多模態(tài)融合。VLM 輸出的 Token 包含了圖像、文本和本體的綜合信息,隨后進(jìn)入動(dòng)作策略(Action Policy)模塊。
在動(dòng)作策略模塊中,目前主流的方法有兩種。一種是擴(kuò)散策略(Diffusion Policy),這在文生圖等生成式模型中很常見。它通過(guò)生成式的方式來(lái)產(chǎn)生復(fù)雜的軌跡,相比之下,傳統(tǒng)的判別式方法在描述軌跡的能力上不如擴(kuò)散策略,因此擴(kuò)散策略在動(dòng)作生成中占據(jù)了非常重要的位置。另一種方法是流匹配(Flow Matching),同樣屬于生成式,它與擴(kuò)散策略的主要區(qū)別在于底層的數(shù)學(xué)建模不同。擴(kuò)散策略的分布建模更復(fù)雜,而流匹配則是在生成過(guò)程中進(jìn)行線性迭代。經(jīng)過(guò)動(dòng)作策略模塊的處理,最終會(huì)輸出機(jī)器人的關(guān)節(jié)動(dòng)作,也就是 VLA 中的“A”。
同時(shí),也有很多研究工作會(huì)讓模型輸出一些輔助信息。比如有些模型會(huì)輸出文本,這是借鑒了像 DeepSeek 等大語(yǔ)言模型的思路,旨在讓機(jī)器人具備“思考”能力。也就是說(shuō),在訓(xùn)練模型時(shí),不僅要讓它給出答案,還要讓它理解為什么是這個(gè)答案。這屬于思維鏈(CoT)或動(dòng)作鏈(CoA)的范疇。另外,也有研究會(huì)讓模型輸出圖像信息,即利用當(dāng)前的姿態(tài)、圖像和文本去預(yù)測(cè)下一時(shí)刻的圖像,這就是世界模型(World Model)。其基本原理是,如果模型能基于當(dāng)前數(shù)據(jù)準(zhǔn)確預(yù)測(cè)下一刻的狀態(tài),就認(rèn)為它學(xué)習(xí)到了物理規(guī)律。目前已經(jīng)有一些工作將世界模型與 VLA 結(jié)合在一起進(jìn)行訓(xùn)練。
![]()
在具體的架構(gòu)實(shí)現(xiàn)上,目前主要有兩種主流方案。一種是 VLM 直接輸出特征(Feature)并傳遞給后續(xù)模塊,這被稱為“一段式”的端到端架構(gòu)。另一種是分層式架構(gòu),VLM 輸出的不是特征,而是語(yǔ)言形式的任務(wù)規(guī)劃。例如,當(dāng)輸入指令是“收納桌子”時(shí),VLM 會(huì)先將任務(wù)拆解為具體的指令,比如“把杯子移到中央”、“把水倒掉”、“把垃圾丟掉”等,再將這些步驟逐一輸出給下游模塊執(zhí)行。
![]()
我們來(lái)看一下目前的 VLM(視覺語(yǔ)言模型)究竟能做哪些事情。VLM 的設(shè)計(jì)初衷,一是解決任務(wù)的泛化性,二是處理復(fù)雜的長(zhǎng)程任務(wù)。最近我去杭州參加了機(jī)器人國(guó)際會(huì)議的一個(gè)比賽,現(xiàn)場(chǎng)有六種任務(wù),我重點(diǎn)觀察了其中三種。第一種是疊衣服,這是典型的長(zhǎng)程任務(wù),要求機(jī)器人無(wú)論衣服如何擺放,都能將其折疊好;第二種是倒水;第三種是操作微波爐;第四種是收納。此外,在近期的世界機(jī)器人大會(huì)(WRC)和世界人工智能大會(huì)上,我也看到了一些現(xiàn)場(chǎng)演示。比如打麻將,它采用的是分層架構(gòu),使用了一個(gè)經(jīng)過(guò)麻將數(shù)據(jù)訓(xùn)練的 12B 規(guī)模的 VLM。機(jī)器人會(huì)通過(guò)語(yǔ)音告訴你該怎么出牌,再利用傳統(tǒng)方法檢測(cè)麻將位置并完成推牌或抓牌動(dòng)作,體驗(yàn)效果還不錯(cuò)。還有做香囊,這是一個(gè)更長(zhǎng)程的任務(wù),需要把東西裝進(jìn)去并勒緊繩子,這是由智元機(jī)器人完成的。目前市面上看到的這些炫酷動(dòng)作,背后基本都是 VLA 在支撐,且大多基于 OpenVLA 等模型,這代表了目前能力的上限。
可以說(shuō),對(duì)于單一任務(wù),如果我們提供大量數(shù)據(jù),模型是具備長(zhǎng)程執(zhí)行、理解和復(fù)雜任務(wù)處理能力的。但它最大的問(wèn)題在于泛化性極弱。我們?cè)O(shè)計(jì) VLA,是希望利用 VLM 在互聯(lián)網(wǎng)上見過(guò)的海量數(shù)據(jù),讓機(jī)器人具備通用性和遷移能力。理想情況下,即使面對(duì)沒見過(guò)的場(chǎng)景,模型也能憑借“常識(shí)”實(shí)現(xiàn)零樣本(Zero-shot)能力。但實(shí)際測(cè)試下來(lái),這種能力還不具備,原因主要有幾點(diǎn)。
首先,VLM 中的“視覺 - 語(yǔ)言”數(shù)據(jù)與“動(dòng)作”數(shù)據(jù)分布不一致。VLM 基座是通過(guò)互聯(lián)網(wǎng)上大量的圖文對(duì)訓(xùn)練的,而動(dòng)作數(shù)據(jù)(A)必須靠真機(jī)實(shí)采。目前實(shí)采的數(shù)據(jù)量非常小,通常只有幾百到幾千條,與圖文數(shù)據(jù)相比極其不均衡,導(dǎo)致 VLM 的知識(shí)無(wú)法有效遷移到動(dòng)作上,模型處于嚴(yán)重的過(guò)擬合狀態(tài)。其次是硬件限制。我們看到的很多流暢動(dòng)作其實(shí)是經(jīng)過(guò) 5 倍或 10 倍速處理的,實(shí)際操作時(shí)會(huì)有明顯的抖動(dòng)。受限于機(jī)械臂硬件本體,目前 VLA 還無(wú)法完成穿針引線這類精細(xì)化任務(wù)。
我們也做了一些泛化性驗(yàn)證,比如最簡(jiǎn)單的抓取和投放。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)背景發(fā)生變化(如移走測(cè)試環(huán)境中的黑色窗簾)、物體位置放遠(yuǎn)了一點(diǎn),或者加入未訓(xùn)練過(guò)的干擾物(如一瓶咖啡),機(jī)器人就會(huì)失敗。這說(shuō)明目前的系統(tǒng)非常脆弱,原因就是數(shù)據(jù)量太少,多樣性嚴(yán)重不足。
我們可以對(duì)比一下自動(dòng)駕駛所需的數(shù)據(jù)量。自動(dòng)駕駛可以看作是單一任務(wù)的具身智能,只負(fù)責(zé)“駕駛”。即便如此,要訓(xùn)練一個(gè)基本可用的模型,大約需要千萬(wàn)量級(jí)的視頻片段,換算下來(lái)約為 10 萬(wàn)小時(shí)的數(shù)據(jù),且這些數(shù)據(jù)必須分布在不同的空間和天氣場(chǎng)景中。而目前具身智能領(lǐng)域,即便是一些領(lǐng)先的采集工廠,數(shù)據(jù)量也僅在百小時(shí)到千小時(shí)級(jí)別,還要應(yīng)對(duì)無(wú)數(shù)種任務(wù),這顯然遠(yuǎn)遠(yuǎn)不夠。
此外,自動(dòng)駕駛的車輛是標(biāo)準(zhǔn)化的,動(dòng)力學(xué)特性基本一致,數(shù)據(jù)容易復(fù)用且采集便利。但具身智能的硬件目前還沒收斂,手部既有夾爪也有靈巧手,自由度從 7 個(gè)、11 個(gè)到 21 個(gè)不等,導(dǎo)致數(shù)據(jù)無(wú)法復(fù)用,智能化進(jìn)程緩慢。
![]()
經(jīng)常有人問(wèn):現(xiàn)在的具身智能相當(dāng)于自動(dòng)駕駛的什么階段?是 2015 年還是 2012 年?我認(rèn)為,從算法模型來(lái)看,具身智能完全可以對(duì)標(biāo) 2025 年的自動(dòng)駕駛,兩者都在往端到端或 VLA 方向走,沒有代差。但從硬件角度看,具身智能可能還不如 100 年前的汽車工業(yè),因?yàn)槟菚r(shí)候汽車已經(jīng)實(shí)現(xiàn)流水線大規(guī)模生產(chǎn),而現(xiàn)在的機(jī)器人還遠(yuǎn)未達(dá)到那個(gè)水準(zhǔn)。
VLA 的主流架構(gòu)
剛才我們講到主流架構(gòu)主要有兩種:一種是分層式的,另一種是完全端到端的。這兩者的核心區(qū)別在于 VLM(視覺語(yǔ)言模型)向下一層傳遞的是語(yǔ)言規(guī)劃指令,還是直接傳遞特征(feature)。
分層式架構(gòu)在輸入傳感器數(shù)據(jù)后,會(huì)由兩個(gè)系統(tǒng)協(xié)同工作。所謂“慢系統(tǒng)”,就是我們常說(shuō)的 VLM,它負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行推理。之所以稱之為“慢”,是因?yàn)槟P腕w量巨大,為了讓它具備常識(shí)能力,必須經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練,在現(xiàn)有的硬件條件下,其推理速度相對(duì)較慢。而“快系統(tǒng)”則是前面提到的端側(cè)系統(tǒng),它的模型較小,直接輸出動(dòng)作或軌跡,因此運(yùn)行速度很快。我認(rèn)為這種“快慢系統(tǒng)”的劃分,本質(zhì)上是受限于目前的硬件計(jì)算資源。如果未來(lái)端側(cè)算力足夠強(qiáng)大,其實(shí)就不需要這種區(qū)分了,所有環(huán)節(jié)都能實(shí)現(xiàn)實(shí)時(shí)響應(yīng)。
在分層系統(tǒng)中,系統(tǒng) 2 負(fù)責(zé)思考并給出語(yǔ)言規(guī)劃,再傳達(dá)給快系統(tǒng)。比較典型的例子是 Figure 01 機(jī)器人展示的 Demo,它采用的就是分層式架構(gòu)。由于需要部署在 Orin 等芯片上,為了克服無(wú)法實(shí)時(shí)處理的問(wèn)題,必須構(gòu)建快慢系統(tǒng)。去年在自動(dòng)駕駛領(lǐng)域比較火的理想汽車,也率先推出了類似的快慢系統(tǒng),其初衷同樣是解決端側(cè)部署時(shí)的算力限制。不過(guò)從工程角度來(lái)看,快慢系統(tǒng)會(huì)更復(fù)雜一些,因?yàn)槟K越多,工程量就越大。相比之下,完全端到端的架構(gòu)就簡(jiǎn)單得多,傳感器數(shù)據(jù)輸入后,中間全部交給 VLA 處理并直接輸出結(jié)果,沒有了快慢之分。
這兩種架構(gòu)各有優(yōu)劣。完全端到端的上限更高,但它對(duì)數(shù)據(jù)的需求量極其龐大。分層式架構(gòu)目前的優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的依賴程度沒那么高。因?yàn)?VLM 可以通過(guò)少量的針對(duì)性訓(xùn)練達(dá)到較好的語(yǔ)言規(guī)劃效果,開發(fā)者只需要專注于訓(xùn)練后面的動(dòng)作執(zhí)行模塊,甚至可以沿用傳統(tǒng)的控制模塊。就像我之前提到的打麻將機(jī)器人,它的快系統(tǒng)其實(shí)就是用傳統(tǒng)方法實(shí)現(xiàn)的。在目前數(shù)據(jù)保有量有限的情況下,分層式是一個(gè)比較合理的選擇。此外,分層式也更契合現(xiàn)在的智能體(Agent)或 MCP(多模型控制平臺(tái))架構(gòu),即由 VLM 充當(dāng)“大腦”進(jìn)行語(yǔ)言規(guī)劃,再由快系統(tǒng)中的各種動(dòng)作原子負(fù)責(zé)具體執(zhí)行。
![]()
這是我們最近在做的一些探索,主要集中在分層式架構(gòu)上。之所以選擇這個(gè)方向,是因?yàn)槲矣X得目前純粹搞端到端方案其實(shí)已經(jīng)遇到了瓶頸。在數(shù)據(jù)量不夠的情況下,大家做出來(lái)的東西很難體現(xiàn)出差異化,落地也非常困難。因此,我們的思路是先把 VLM(視覺語(yǔ)言模型)的能力利用起來(lái),讓它作為一個(gè)調(diào)度大腦,也就是 Agent,去調(diào)用各種各樣的“動(dòng)作原子”。
![]()
比如,駕駛可以被視為其中一個(gè)動(dòng)作原子,當(dāng)機(jī)器人需要執(zhí)行駕駛?cè)蝿?wù)時(shí),Agent 就調(diào)用駕駛模塊;收納也是一個(gè)原子,它由許多“抓取與放置”(Pick and Place)動(dòng)作組成。我們正在積累這些動(dòng)作原子,當(dāng)機(jī)器人面對(duì)復(fù)雜任務(wù)時(shí),就由 VLM Agent 來(lái)進(jìn)行任務(wù)分解和調(diào)度。這里面比較有挑戰(zhàn)性的地方在于任務(wù)之間的銜接,即如何準(zhǔn)確判斷當(dāng)前任務(wù)已經(jīng)完成并開始下一個(gè),以及當(dāng)任務(wù)出錯(cuò)時(shí),Agent 該如何調(diào)整調(diào)度流程。
在開發(fā)動(dòng)作原子時(shí),我們走的是 VA(視覺 - 動(dòng)作)路線。我們發(fā)現(xiàn)現(xiàn)階段語(yǔ)言在具體動(dòng)作執(zhí)行中起到的作用其實(shí)非常有限,直接通過(guò) VA 實(shí)現(xiàn)反而更容易出效果。在方案設(shè)計(jì)上,我們選擇了純視覺方案,沒有使用 RGBD。這主要是從本質(zhì)原理考慮的,我們認(rèn)為視覺能力已經(jīng)足夠強(qiáng),人類也是靠雙眼來(lái)完成各種觀測(cè)任務(wù)的。后期的驗(yàn)證也證明,純視覺方案在魯棒性和遷移性上確實(shí)比點(diǎn)云方案更好。
![]()
此外,我們?cè)谀P椭性黾恿?3D 感知信息。目前的 VLM 其實(shí)并不具備很強(qiáng)的空間理解能力,如果你去測(cè)試它,它很難給出物體準(zhǔn)確的方位、距離或復(fù)雜的幾何尺寸,因?yàn)樗挠?xùn)練數(shù)據(jù)里缺乏這些信息。而這些 3D 信息對(duì)于動(dòng)作的泛化性至關(guān)重要。如果能在一個(gè)統(tǒng)一的 3D 空間里進(jìn)行動(dòng)作規(guī)劃,泛化性會(huì)強(qiáng)很多。因此,我們?cè)诩軜?gòu)中增加了一個(gè) 3D 編碼器(Encoder)模塊。
這里用到了今年 CVPR 的最佳論文 VGGT,這是一個(gè)用于三維重建的視覺基礎(chǔ)模型。我們知道,大模型正在改寫各個(gè)研究領(lǐng)域,原先的導(dǎo)航規(guī)劃現(xiàn)在變成了 VLN(視覺語(yǔ)言導(dǎo)航),原先的操作規(guī)劃和控制現(xiàn)在變成了 VLA。VGGT 則是三維重建領(lǐng)域的代表,它基于 Transformer 架構(gòu),效果已經(jīng)接近傳統(tǒng)的 COLMAP 等三維重建方法,潛力巨大。我們做的工作就是將 VGGT 預(yù)訓(xùn)練的 3D 相關(guān)特征提取出來(lái),接入到 VA 模型中。經(jīng)過(guò)驗(yàn)證,這種做法在魯棒性和效果上都超出了我們的預(yù)期。
這是我們目前使用的模型架構(gòu),其中 VGGT 的編碼器部分負(fù)責(zé)生成特征。這些特征同時(shí)包含了語(yǔ)義信息和幾何信息,我們將其直接輸入模型以獲取結(jié)果。
![]()
其實(shí)模型本身并不復(fù)雜,在 VLA 的落地開發(fā)中,大部分工作量并不在模型架構(gòu)上。通常情況下,模型部分的搭建兩三周就能搞定,而真正耗費(fèi)精力的是數(shù)據(jù)工作。對(duì)于具身智能而言,還涉及到機(jī)器人硬件適配、數(shù)據(jù)采集和實(shí)機(jī)測(cè)試,這部分工作量往往會(huì)占到總周期的三分之二甚至四分之三。
目前具身智能開發(fā)的第一步通常是在仿真環(huán)境中進(jìn)行的。由于真實(shí)世界的有效數(shù)據(jù)非常稀缺,我們需要先在具有物理引擎的仿真器中采集數(shù)據(jù),驗(yàn)證模型的有效性。以“夾木塊”和“堆木塊”為例,這類任務(wù)在人類看來(lái)很簡(jiǎn)單,但對(duì)機(jī)器人來(lái)說(shuō)挑戰(zhàn)巨大,稍微有一點(diǎn)偏差就會(huì)導(dǎo)致失敗。我們將自己的方案與傳統(tǒng)算法進(jìn)行了對(duì)比:DP 是基于 2D 圖像輸入的擴(kuò)散策略算法,而 DP3 則是基于點(diǎn)云輸入的版本。在真機(jī)測(cè)試中,我們的方案成功率明顯更高,尤其在將木塊放入盤子的任務(wù)中,表現(xiàn)幾乎比 DP 翻了一倍。
![]()
在測(cè)試 VLA 的過(guò)程中,我們發(fā)現(xiàn)“泛化性”是一個(gè)核心痛點(diǎn)。目前的 VLA 方案,比如 OpenVLA,在光照發(fā)生變化時(shí)表現(xiàn)得很脆弱。例如環(huán)境光線由暗變亮,任務(wù)可能就會(huì)失敗。但如果我們?cè)?VA 模型中引入 3D 幾何信息,系統(tǒng)就會(huì)表現(xiàn)出更好的魯棒性,而現(xiàn)有的主流方案在處理這類場(chǎng)景時(shí)依然容易失誤。
當(dāng)我們通過(guò) VA 實(shí)現(xiàn)了這些動(dòng)作原子并建立起原子庫(kù)后,就可以利用 Agent 這種大腦角色進(jìn)行任務(wù)編排,從而完成長(zhǎng)程的復(fù)雜任務(wù)。這種做法的優(yōu)勢(shì)在于能充分利用現(xiàn)有 VLM 的推理能力。目前 VLM 在任務(wù)規(guī)劃上已經(jīng)非常成熟,比如你讓它規(guī)劃收納任務(wù),或者給它一張路口的照片問(wèn)它車輛該怎么開,它都能給出非常清晰的規(guī)劃指令,甚至?xí)嵝涯阕⒁獗茏屒懊娴拇罂ㄜ嚒,F(xiàn)在的核心挑戰(zhàn)在于,如何將這些高質(zhì)量的語(yǔ)言規(guī)劃準(zhǔn)確地傳遞給 VA 模塊去執(zhí)行動(dòng)作。
只要能把這一步打通,整個(gè)任務(wù)鏈就能串聯(lián)起來(lái)。如右側(cè)表格所示,這是一個(gè)完整的閉環(huán)流程:我們需要識(shí)別任務(wù)是否已完成。例如通過(guò)增加標(biāo)志位來(lái)檢測(cè)當(dāng)前步驟的狀態(tài),如果任務(wù)完成,就調(diào)用下一個(gè)原子動(dòng)作;如果沒有完成,則返回重新執(zhí)行。這種典型的類似 MCP 的架構(gòu),是目前完成復(fù)雜長(zhǎng)程任務(wù)的有效路徑。
這是另外一些實(shí)驗(yàn)效果的展示,包括積木在左手與右手之間的交接、一個(gè)盒子疊放到另一個(gè)盒子上,以及桌面的整理管理。在這些任務(wù)中,有些屬于復(fù)雜的長(zhǎng)程任務(wù),有些則是通過(guò) VA(視覺 - 動(dòng)作)模型直接實(shí)現(xiàn)的。目前來(lái)看,只要數(shù)據(jù)質(zhì)量足夠高且訓(xùn)練到位,機(jī)器人都能完成得比較好。此外,我們使用的機(jī)械臂采用了諧波減速器,精度較高,對(duì)于完成插拔這類精細(xì)任務(wù)來(lái)說(shuō)是完全夠用的。
![]()
VLA 的數(shù)據(jù)方案
接下來(lái)談?wù)剶?shù)據(jù)方案,這是目前具身智能行業(yè)最大的痛點(diǎn)。很多從自動(dòng)駕駛領(lǐng)域轉(zhuǎn)過(guò)來(lái)的同事會(huì)覺得,具身智能的數(shù)據(jù)基礎(chǔ)設(shè)施還處于非常原始的階段。目前行業(yè)內(nèi)數(shù)據(jù)采集主要有兩種方案:第一種是遙操作,這其中又包含很多細(xì)分技術(shù);第二種是仿真。關(guān)于到底是以仿真為主還是以真實(shí)數(shù)據(jù)為主,業(yè)內(nèi)一直存在路線之爭(zhēng)。但在我們看來(lái),真實(shí)數(shù)據(jù)是必不可少的,仿真數(shù)據(jù)如果做得好能起到很大作用,如果做得不好,可能只是錦上添花。
在遙操作方面,主要有幾種技術(shù)路徑。第一種是慣性動(dòng)捕設(shè)備,通過(guò)讓采集人員穿上帶有 IMU 慣性傳感器的服裝,在運(yùn)動(dòng)時(shí)捕捉身體各關(guān)節(jié)的數(shù)據(jù)。這種方式的優(yōu)點(diǎn)是沒有視覺遮擋問(wèn)題,即使兩人擁抱也能采集到數(shù)據(jù);缺點(diǎn)是慣性傳感器存在漂移,時(shí)間久了精度會(huì)下降。目前特斯拉采集 Optimus 工廠數(shù)據(jù)時(shí),使用的就是這種慣性動(dòng)捕設(shè)備。第二種是光學(xué)動(dòng)捕設(shè)備,需要在空間內(nèi)安裝多個(gè)攝像頭,采集者穿戴貼滿 Marker 點(diǎn)的服裝。它的精度非常高,能達(dá)到亞毫米級(jí),但缺點(diǎn)是容易受遮擋影響,如果攝像頭沒捕捉到某些點(diǎn),后期就需要大量人工修補(bǔ)。
![]()
還有一種常見的方式是外骨骼采集,即人帶著同構(gòu)或異構(gòu)的機(jī)械臂進(jìn)行操作。這種方式采集的數(shù)據(jù)幾乎是 1:1 復(fù)刻,數(shù)據(jù)有效率很高,但采集效率相對(duì)較低。上述這些方式現(xiàn)在統(tǒng)稱為“以人為中心”的數(shù)據(jù)采集,其最大的挑戰(zhàn)在于人的關(guān)節(jié)結(jié)構(gòu)與機(jī)器人并不一致,涉及到非常復(fù)雜的數(shù)據(jù)重定向(Retargeting)問(wèn)題,有些人的動(dòng)作不一定能直接遷移給機(jī)器人。最后是仿真數(shù)據(jù),目前它主要用于大規(guī)模數(shù)據(jù)生產(chǎn)和自動(dòng)化評(píng)測(cè)。當(dāng)模型訓(xùn)練完成后,如果想要進(jìn)行快速迭代測(cè)試,在仿真環(huán)境中進(jìn)行是最高效的選擇。
在仿真環(huán)境的建設(shè)中,首先需要考慮的是資產(chǎn)庫(kù)的規(guī)模。仿真器本身只負(fù)責(zé)物理仿真和渲染,而具體的場(chǎng)景——無(wú)論是工廠環(huán)境還是桌面環(huán)境,以及執(zhí)行任務(wù)所需的各類物體,都需要豐富的資產(chǎn)支撐。這些資產(chǎn)的儲(chǔ)備是目前具身智能開發(fā)中的關(guān)鍵卡點(diǎn)。其次,物理仿真的質(zhì)量也至關(guān)重要。機(jī)器人與自動(dòng)駕駛不同,自動(dòng)駕駛的目標(biāo)是避免碰撞和接觸,而機(jī)器人執(zhí)行任務(wù)時(shí),時(shí)時(shí)刻刻都需要與物體發(fā)生物理交互。
![]()
目前,像 MuJoCo 或 Isaac Gym 等成熟的仿真器在物理仿真方面表現(xiàn)較好。具身智能對(duì)傳感器的仿真模型支持要求極高,目前主流的仿真平臺(tái)包括我們與高校合作開發(fā)的成果,比如與上海交通大學(xué)合作的 RobotStudio,以及與清華大學(xué)合作的 DICOVERSE。此外,業(yè)界還有像 RoboVerse 等面向具身智能的仿真框架。以 DICOVERSE 為例,它的主要特點(diǎn)是具備“實(shí)對(duì)虛(Real-to-Sim)”再到“虛對(duì)實(shí)(Sim-to-Real)”的功能,通過(guò) 3D 高斯?jié)姙R(3DGS)技術(shù)完成環(huán)境重建后再進(jìn)行渲染,從而獲得極高的真實(shí)感,便于數(shù)據(jù)生成和模型測(cè)試。
![]()
除了傳統(tǒng)的數(shù)字孿生技術(shù),我們最近還在嘗試一種新的方案。業(yè)界常說(shuō)的數(shù)字孿生追求的是對(duì)真實(shí)環(huán)境 1:1 的復(fù)刻,而我們提出了一個(gè)概念叫“數(shù)據(jù)表親”。其核心邏輯是,在很多訓(xùn)練場(chǎng)景下,我們并不一定需要完全一致的 1:1 復(fù)刻,只要仿真環(huán)境中能出現(xiàn)類似的物體,就能達(dá)到訓(xùn)練效果。
目前,我們正針對(duì)桌面這類固定場(chǎng)景進(jìn)行開發(fā),通過(guò)輸入一張圖像或一段文字描述,利用生成式 AI 技術(shù)產(chǎn)生 3D 資產(chǎn)并構(gòu)建出三維場(chǎng)景。更重要的是,這些生成的場(chǎng)景都具備物理仿真屬性。正如我前面提到的,仿真器中數(shù)據(jù)資產(chǎn)的豐富程度決定了上限,而這種生成式的方法正是為了解決資產(chǎn)稀缺的問(wèn)題。
![]()
這里舉了一些具體的例子。左邊是輸入的原始圖像,右邊是生成的 3D 場(chǎng)景。可以看到,雖然兩者并非完全一致,但物體基本上都實(shí)現(xiàn)了一一對(duì)應(yīng),這完全是通過(guò)大模型的方式生成的。在過(guò)去,如果我們要做這類物體重建,必須使用高精度激光掃描來(lái)生成 Mesh,那種方式效率很低,且復(fù)雜物體的 Mesh 重建難度極大。現(xiàn)在得益于底層 3D 生成式大模型的發(fā)展,我們可以比較容易地生成這些高精度、高逼真度的 3D 模型。
![]()
VLA 模型的量化部署
關(guān)于模型量化與部署,這是工程實(shí)踐中非常關(guān)鍵的一環(huán)。在 GPU 上訓(xùn)練模型時(shí),為了保證精度,通常使用 Float 32 或 FP16 等數(shù)據(jù)類型。但在推理階段,這些類型的存儲(chǔ)代價(jià)太高。舉個(gè)簡(jiǎn)單例子,一個(gè) 1B(十億參數(shù))的模型,如果量化為 4 比特或 8 比特,模型大小約為 1GB 左右;若使用 Float 32,則需要 4GB。這會(huì)極大影響端側(cè)的運(yùn)行效率。因此,目前在端上運(yùn)行時(shí),都需要將模型量化并遷移到 ASIC(專用集成電路)上。目前主流的 VLM 量化方式通常是量化到 4 比特,且性能損失較小。通常芯片供應(yīng)商會(huì)提供成熟的工具鏈來(lái)完成這種轉(zhuǎn)換。在 VLA 中,量化的主要挑戰(zhàn)在于擴(kuò)散策略(Diffusion Policy)部分,因?yàn)樗枰獦O高精度的姿態(tài)信息。在實(shí)際部署時(shí),往往需要采用異構(gòu)部署方案,根據(jù)任務(wù)特性將不同模塊分配到 AI 加速器、CPU 或 DSP 上運(yùn)行。
![]()
部署流程本質(zhì)上是一個(gè)數(shù)據(jù)映射的過(guò)程,即將浮點(diǎn)數(shù)類型映射到 INT8 或 INT4 上。這個(gè)過(guò)程需要使用部分?jǐn)?shù)據(jù)進(jìn)行模型校準(zhǔn),觀察映射后是否存在精度大幅下降(掉點(diǎn))的情況。這些都是工具鏈提供的標(biāo)準(zhǔn)化處理流程。如果量化后性能無(wú)法滿足要求,就必須回頭重新修改模型結(jié)構(gòu)。
總結(jié)與展望
總結(jié)來(lái)看,我們介紹了從數(shù)據(jù)采集、模型設(shè)計(jì)、訓(xùn)練到最終部署的完整開發(fā)過(guò)程。目前的現(xiàn)狀是,整個(gè) VLA 領(lǐng)域仍處于非常早期的階段。首先是缺少高質(zhì)量的數(shù)據(jù),且機(jī)器人本體目前極不標(biāo)準(zhǔn);其次模型結(jié)構(gòu)尚不成熟,直接將 VLM 映射到 Action 這種“頭重腳輕”的形式,難以建立起穩(wěn)固的連接;最后是硬件本體的局限,目前市面上的機(jī)器人硬件還不足以支持完成各種復(fù)雜任務(wù)。一個(gè)驗(yàn)證標(biāo)準(zhǔn)是:即使在有人類遙操作的情況下,很多任務(wù)都不一定能順利完成。
展望未來(lái),有兩個(gè)重要的探索方向。模型層面,大家正在嘗試引入觸覺信息、強(qiáng)化學(xué)習(xí)等技術(shù)。因?yàn)閯?dòng)作軌跡的訓(xùn)練不能僅靠簡(jiǎn)單的回歸損失函數(shù)來(lái)完成,強(qiáng)化學(xué)習(xí)可以通過(guò)稀疏獎(jiǎng)勵(lì)(比如只告訴模型結(jié)果的好壞)來(lái)訓(xùn)練模型。此外,世界模型(World Model)也處于預(yù)研階段,重點(diǎn)在于 3D 空間表達(dá)、記憶信息和思維鏈,我們認(rèn)為這是改造 VLA 最關(guān)鍵的點(diǎn)。
我認(rèn)為 VLA 要實(shí)現(xiàn)量產(chǎn),除了端側(cè)模型本身,更多的精力應(yīng)該放在構(gòu)建數(shù)據(jù)閉環(huán)上。現(xiàn)在的具身智能其實(shí)很像 Robotaxi。Robotaxi 在行駛中不能有人干預(yù),但遇到困難時(shí)需要云端接管,隨著技術(shù)進(jìn)步,接管次數(shù)會(huì)逐漸降低,智能化隨之提高。機(jī)器人也是如此,如果工作時(shí)旁邊必須有人,其商業(yè)模式就無(wú)法成立。因此,我們可以借鑒 Robotaxi 的路線:先通過(guò)人工遙操作讓機(jī)器人進(jìn)入實(shí)際場(chǎng)景工作,在這一過(guò)程中收集大量數(shù)據(jù),隨著自動(dòng)化程度的提升逐漸減少遙操作頻率,最終實(shí)現(xiàn)真正的自主化。
演講嘉賓介紹
隋偉博士,現(xiàn)任地瓜機(jī)器人算法副總裁。
2011 年,他于北京航空航天大學(xué)探測(cè)制導(dǎo)與控制技術(shù)專業(yè)畢業(yè),之后進(jìn)入中科院自動(dòng)化研究所深造,并取得博士學(xué)位,其研究方向?yàn)槟J阶R(shí)別與智能系統(tǒng)。
2016 年 7 月博士畢業(yè)后,擔(dān)任模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室助理研究員,負(fù)責(zé) 3D 視覺感知方向的研發(fā)工作。
2019 年 1 月隋偉博士加入地平線,任高級(jí)算法工程師,主要負(fù)責(zé)機(jī)器人和自動(dòng)駕駛場(chǎng)景下,基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發(fā)。2020 年 12 月 - 2023 年 12 月,任研發(fā)總監(jiān),帶領(lǐng)團(tuán)隊(duì)(30 人)成功開發(fā)了地平線高階自動(dòng)駕駛 BEV 感知方案,并且搭建了國(guó)內(nèi)首套最為完備且先進(jìn)的 4D Label 標(biāo)注系統(tǒng)。目前旭日系列芯片出貨量已達(dá)數(shù)百萬(wàn)片,BEV 感知方案也已在多個(gè)車型上定點(diǎn)量產(chǎn),為自動(dòng)駕駛領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國(guó)內(nèi)外知名期刊和會(huì)議上先后發(fā)表學(xué)術(shù)論文 20 余篇,擁有專利 40 多項(xiàng)。此外,他長(zhǎng)期擔(dān)任 ICRA、IROS 等機(jī)器人會(huì)議的審稿人,同時(shí)擔(dān)任《智能駕駛和機(jī)器視覺》《智能駕駛與多維重建》等自動(dòng)駕駛相關(guān)著作的主編。
2023 年 11 月至今任地瓜機(jī)器人算法 VP ,負(fù)責(zé)面向消費(fèi)機(jī)器人和具身智能的軟件算法方案研發(fā)。
會(huì)議推薦
OpenClaw 出圈,“養(yǎng)蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態(tài)迅速普及:多入口對(duì)話、持久記憶、Skills 工具鏈帶來(lái)強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測(cè)與可追溯、記憶分層與跨場(chǎng)景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。
針對(duì)這一系列挑戰(zhàn),在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題,將聚焦一線實(shí)踐與踩坑復(fù)盤,分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系,最終把自托管 Agent 從可用的 Demo 升級(jí)為可靠的生產(chǎn)系統(tǒng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.