![]()
當(dāng)物體在滾動(dòng)、滑動(dòng)、被撞飛,機(jī)器人還在執(zhí)行幾百毫秒前的動(dòng)作預(yù)測。
對動(dòng)態(tài)世界而言,這種延遲,往往意味著失敗。
在過去幾年中,Vision-Language-Action(VLA)模型迅速成為機(jī)器人領(lǐng)域的焦點(diǎn):機(jī)器人可以 “看懂” 畫面、“理解” 語言指令,并直接輸出連續(xù)動(dòng)作,在靜態(tài)抓取、擺放、桌面操作等任務(wù)中取得了顯著進(jìn)展。
但一個(gè)長期被忽視的問題是 ——真實(shí)世界幾乎從來不是靜態(tài)的。當(dāng)物體開始移動(dòng)、加速、碰撞、改變軌跡,當(dāng)前主流 VLA 模型往往會(huì)出現(xiàn)反應(yīng)遲緩、動(dòng)作失配、甚至完全失敗的情況。
問題不在于模型不聰明,而在于:它們跟不上時(shí)間。
近日,來自 NTU S-Lab 的研究團(tuán)隊(duì)提出 DynamicVLA,首次系統(tǒng)性地從模型架構(gòu)、推理機(jī)制和數(shù)據(jù)體系三個(gè)層面,重新審視并解決動(dòng)態(tài)物體操控(Dynamic Object Manipulation)這一長期空缺的問題。
想深入了解 DynamicVLA 的技術(shù)細(xì)節(jié)?我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁和代碼倉庫!
![]()
- 論文鏈接:https://arxiv.org/abs/2601.22153
- 項(xiàng)目鏈接:https://haozhexie.com/project/dynamic-vla/
- GitHub 鏈接:https://github.com/hzxie/DynamicVLA
為什么 “動(dòng)態(tài)操控” 對 VLA 來說如此困難?
![]()
在靜態(tài)場景中,VLA 模型通常遵循如下流程:
感知 → 推理 → 生成一段動(dòng)作 → 執(zhí)行完 → 再次推理
當(dāng)環(huán)境基本不發(fā)生變化時(shí),這種方式可以正常工作;但一旦物體開始運(yùn)動(dòng),這一流程便迅速失效。
問題并不在于模型能力不足,而在于時(shí)間結(jié)構(gòu)本身不適用于動(dòng)態(tài)世界,主要體現(xiàn)在兩個(gè)方面:
- 感知 — 執(zhí)行時(shí)間錯(cuò)位(Perception–Execution Gap):由于推理存在不可避免的延遲,當(dāng)模型完成決策時(shí),物體狀態(tài)早已發(fā)生變化,動(dòng)作天然 “滯后于現(xiàn)實(shí)”。
- 動(dòng)作分塊等待(Inter-chunk Waiting):多數(shù) VLA 必須等上一段動(dòng)作完全執(zhí)行后才能啟動(dòng)下一次推理,使機(jī)器人在動(dòng)態(tài)環(huán)境中始終處于被動(dòng)追趕狀態(tài)。
這兩個(gè)問題疊加,使得即便在靜態(tài)任務(wù)中表現(xiàn)良好的 VLA,也難以應(yīng)對真實(shí)世界中的動(dòng)態(tài)操控。
DynamicVLA 的核心思路:讓機(jī)器人 “邊想邊做”
![]()
DynamicVLA 并沒有選擇通過增大模型來 “預(yù)測更遠(yuǎn)的未來”,而是圍繞一個(gè)更根本的問題重新設(shè)計(jì)系統(tǒng):
在推理延遲無法消除的情況下,如何保證機(jī)器人執(zhí)行的動(dòng)作仍然與當(dāng)前世界狀態(tài)時(shí)間對齊?
為此,DynamicVLA 從推理機(jī)制、執(zhí)行策略和模型結(jié)構(gòu)三個(gè)層面提出了對應(yīng)設(shè)計(jì)。
1. Continuous Inference:讓推理與執(zhí)行不再相互等待
在傳統(tǒng) VLA 中,推理與執(zhí)行嚴(yán)格串行;
而 Continuous Inference(連續(xù)推理)允許模型在上一段動(dòng)作尚未執(zhí)行完時(shí),就啟動(dòng)下一輪推理,從而解決的是 Inter-chunk Waiting 帶來的反應(yīng)遲滯問題:
- 推理與執(zhí)行形成流水線
- 不再存在 “動(dòng)作執(zhí)行完才能繼續(xù)思考” 的空窗期
- 機(jī)器人始終保持一個(gè)持續(xù)更新的動(dòng)作預(yù)測流
2. Latent-aware Action Streaming:修復(fù)推理延遲造成的時(shí)間錯(cuò)位
即使采用連續(xù)推理,推理延遲本身仍然存在。這意味著:模型生成動(dòng)作時(shí)所依據(jù)的觀察,往往已經(jīng)落后于真實(shí)世界。Latent-aware Action Streaming(LAAS)正是針對這一Perception–Execution Gap設(shè)計(jì)的執(zhí)行機(jī)制:
- 顯式丟棄因推理延遲而 “過時(shí)” 的動(dòng)作
- 只執(zhí)行在時(shí)間上仍與當(dāng)前環(huán)境狀態(tài)對齊的預(yù)測
- 當(dāng)新預(yù)測到來時(shí),優(yōu)先采用更新、更接近當(dāng)前狀態(tài)的動(dòng)作
3. 為動(dòng)態(tài)而生的輕量化 VLA 架構(gòu)
上述機(jī)制能否成立,還依賴于足夠低的推理延遲。因此 DynamicVLA 采用了專為動(dòng)態(tài)操控設(shè)計(jì)的輕量化架構(gòu):
- 卷積式視覺編碼器,避免多幀輸入下 token 爆炸
- 截?cái)嗾Z言模型層數(shù),在速度與理解能力之間取得平衡
- 整體模型規(guī)模控制在 0.4B 參數(shù)量級
動(dòng)態(tài)操控?cái)?shù)據(jù)的核心缺口:從仿真到真實(shí)世界
![]()
當(dāng)前,無論是仿真還是真實(shí)機(jī)器人,主流 VLA 數(shù)據(jù)集幾乎都聚焦于靜態(tài)操作,而對動(dòng)態(tài)物體交互的系統(tǒng)性覆蓋仍然缺失。這一數(shù)據(jù)結(jié)構(gòu)性偏差,直接限制了 VLA 在真實(shí)動(dòng)態(tài)環(huán)境中的泛化能力。
在仿真?zhèn)龋珼ynamicVLA 基于 Isaac Sim 構(gòu)建了大規(guī)模動(dòng)態(tài)操控?cái)?shù)據(jù):覆蓋 2800+ 場景、206 種物體,通過多樣化的物體運(yùn)動(dòng)與交互模式,生成豐富且可控的動(dòng)態(tài)仿真數(shù)據(jù),為模型提供了系統(tǒng)性的動(dòng)態(tài)訓(xùn)練基礎(chǔ)。
相比之下,真實(shí)世界的動(dòng)態(tài)數(shù)據(jù)采集處于 “幾乎不可行” 的狀態(tài):動(dòng)態(tài)物體運(yùn)動(dòng)速度快,人類遙操作反應(yīng)時(shí)間不足,且難以實(shí)時(shí)獲取高質(zhì)量的 6D 位姿與速度標(biāo)注,使得規(guī)模化、可復(fù)現(xiàn)的真實(shí)動(dòng)態(tài)操控?cái)?shù)據(jù)一直缺位。
DynamicVLA 的做法并不是強(qiáng)行遙操作,而是把真實(shí)世界 “做成仿真接口”(Real-world Simulator):
- 多視角 RGB 感知,實(shí)時(shí)追蹤物體運(yùn)動(dòng)
- 在線估計(jì)物體 6D 位姿 + 速度
- 將真實(shí)環(huán)境抽象為與仿真一致的狀態(tài)輸入
- 直接復(fù)用同一套狀態(tài)機(jī)與控制邏輯
首個(gè)動(dòng)態(tài)操控基準(zhǔn):DOM Benchmark
![]()
在上述自動(dòng)化數(shù)據(jù)體系之上,團(tuán)隊(duì)進(jìn)一步構(gòu)建了 Dynamic Object Manipulation(DOM)Benchmark,這是首個(gè)專為動(dòng)態(tài)物體操控設(shè)計(jì)的系統(tǒng)性評測基準(zhǔn)。
與以往側(cè)重 “是否完成任務(wù)” 的靜態(tài)評測不同,DOM 從動(dòng)態(tài)操控的本質(zhì)出發(fā),將能力拆解為 3 個(gè)核心維度、9 個(gè)子維度:
1. 交互能力(Interaction)評估機(jī)器人在物體持續(xù)運(yùn)動(dòng)下的實(shí)時(shí)控制與決策能力,包括:
- Closed-loop Reactivity:對不同運(yùn)動(dòng)速度的即時(shí)響應(yīng)能力
- Dynamic Adaptation:在碰撞、變向等突發(fā)事件后的快速調(diào)整能力
- Long-horizon Sequencing:在長時(shí)間動(dòng)態(tài)交互中保持策略一致性的能力
2. 感知與理解(Perception)評估模型在動(dòng)態(tài)場景中的多模態(tài)理解能力,包括:
- Visual Understanding:區(qū)分外觀相似物體的能力
- Spatial Reasoning:理解空間關(guān)系與相對位置的能力
- Motion Perception:感知與判斷物體運(yùn)動(dòng)狀態(tài)(速度、方向)的能力
3. 泛化與魯棒性(Generalization)評估模型在分布外動(dòng)態(tài)條件下的穩(wěn)定性,包括:
- Visual Generalization:面對未見物體與新場景的適應(yīng)能力
- Motion Generalization:應(yīng)對新速度范圍與運(yùn)動(dòng)模式的能力
- Disturbance Robustness:在外部擾動(dòng)下維持穩(wěn)定控制的能力
DOM Benchmark 顯示,DynamicVLA 在動(dòng)態(tài)交互相關(guān)能力上顯著領(lǐng)先,但在感知理解與擾動(dòng)魯棒性上仍存在明顯不足。這一限制并非偶然,而是源于為保證實(shí)時(shí)性而選擇的小模型架構(gòu)。如何在響應(yīng)速度與推理能力之間取得更優(yōu)平衡,將是動(dòng)態(tài)操控 VLA 的重要方向。
實(shí)驗(yàn)結(jié)果:動(dòng)態(tài)世界中的斷層領(lǐng)先
在仿真與真實(shí)機(jī)器人實(shí)驗(yàn)中,DynamicVLA 在多個(gè)維度上顯著領(lǐng)先現(xiàn)有方法。
DynamicVLA 的意義:機(jī)器人開始真正 “活在時(shí)間里”
DynamicVLA 傳遞了一個(gè)清晰信號:
下一代機(jī)器人智能的核心,不只是 “看懂世界”,而是在世界變化的過程中持續(xù)做出正確反應(yīng)。
從 Continuous Inference,到 Latent-aware Action Streaming,再到 Real-world simulator,DynamicVLA 為動(dòng)態(tài)操控提供了一套可復(fù)現(xiàn)、可擴(kuò)展、可落地的系統(tǒng)范式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.