機(jī)器人慢半拍難題：南洋理工解決VLA致命短板，動(dòng)態(tài)世界斷層領(lǐng)先

2026-02-10 14:13:28　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

當(dāng)物體在滾動(dòng)、滑動(dòng)、被撞飛，機(jī)器人還在執(zhí)行幾百毫秒前的動(dòng)作預(yù)測。
對動(dòng)態(tài)世界而言，這種延遲，往往意味著失敗。

在過去幾年中，Vision-Language-Action（VLA）模型迅速成為機(jī)器人領(lǐng)域的焦點(diǎn)：機(jī)器人可以 “看懂” 畫面、“理解” 語言指令，并直接輸出連續(xù)動(dòng)作，在靜態(tài)抓取、擺放、桌面操作等任務(wù)中取得了顯著進(jìn)展。

但一個(gè)長期被忽視的問題是 ——真實(shí)世界幾乎從來不是靜態(tài)的。當(dāng)物體開始移動(dòng)、加速、碰撞、改變軌跡，當(dāng)前主流 VLA 模型往往會(huì)出現(xiàn)反應(yīng)遲緩、動(dòng)作失配、甚至完全失敗的情況。

問題不在于模型不聰明，而在于：它們跟不上時(shí)間。

近日，來自 NTU S-Lab 的研究團(tuán)隊(duì)提出 DynamicVLA，首次系統(tǒng)性地從模型架構(gòu)、推理機(jī)制和數(shù)據(jù)體系三個(gè)層面，重新審視并解決動(dòng)態(tài)物體操控（Dynamic Object Manipulation）這一長期空缺的問題。

想深入了解 DynamicVLA 的技術(shù)細(xì)節(jié)？我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁和代碼倉庫！

論文鏈接：https://arxiv.org/abs/2601.22153
項(xiàng)目鏈接：https://haozhexie.com/project/dynamic-vla/
GitHub 鏈接：https://github.com/hzxie/DynamicVLA

為什么 “動(dòng)態(tài)操控” 對 VLA 來說如此困難？

在靜態(tài)場景中，VLA 模型通常遵循如下流程：

感知 → 推理 → 生成一段動(dòng)作 → 執(zhí)行完 → 再次推理

當(dāng)環(huán)境基本不發(fā)生變化時(shí)，這種方式可以正常工作；但一旦物體開始運(yùn)動(dòng)，這一流程便迅速失效。

問題并不在于模型能力不足，而在于時(shí)間結(jié)構(gòu)本身不適用于動(dòng)態(tài)世界，主要體現(xiàn)在兩個(gè)方面：

感知 — 執(zhí)行時(shí)間錯(cuò)位（Perception–Execution Gap）：由于推理存在不可避免的延遲，當(dāng)模型完成決策時(shí)，物體狀態(tài)早已發(fā)生變化，動(dòng)作天然 “滯后于現(xiàn)實(shí)”。
動(dòng)作分塊等待（Inter-chunk Waiting）：多數(shù) VLA 必須等上一段動(dòng)作完全執(zhí)行后才能啟動(dòng)下一次推理，使機(jī)器人在動(dòng)態(tài)環(huán)境中始終處于被動(dòng)追趕狀態(tài)。

這兩個(gè)問題疊加，使得即便在靜態(tài)任務(wù)中表現(xiàn)良好的 VLA，也難以應(yīng)對真實(shí)世界中的動(dòng)態(tài)操控。

DynamicVLA 的核心思路：讓機(jī)器人 “邊想邊做”

DynamicVLA 并沒有選擇通過增大模型來 “預(yù)測更遠(yuǎn)的未來”，而是圍繞一個(gè)更根本的問題重新設(shè)計(jì)系統(tǒng)：

在推理延遲無法消除的情況下，如何保證機(jī)器人執(zhí)行的動(dòng)作仍然與當(dāng)前世界狀態(tài)時(shí)間對齊？

為此，DynamicVLA 從推理機(jī)制、執(zhí)行策略和模型結(jié)構(gòu)三個(gè)層面提出了對應(yīng)設(shè)計(jì)。

1. Continuous Inference：讓推理與執(zhí)行不再相互等待

在傳統(tǒng) VLA 中，推理與執(zhí)行嚴(yán)格串行；

而 Continuous Inference（連續(xù)推理）允許模型在上一段動(dòng)作尚未執(zhí)行完時(shí)，就啟動(dòng)下一輪推理，從而解決的是 Inter-chunk Waiting 帶來的反應(yīng)遲滯問題：

推理與執(zhí)行形成流水線
不再存在 “動(dòng)作執(zhí)行完才能繼續(xù)思考” 的空窗期
機(jī)器人始終保持一個(gè)持續(xù)更新的動(dòng)作預(yù)測流

2. Latent-aware Action Streaming：修復(fù)推理延遲造成的時(shí)間錯(cuò)位

即使采用連續(xù)推理，推理延遲本身仍然存在。這意味著：模型生成動(dòng)作時(shí)所依據(jù)的觀察，往往已經(jīng)落后于真實(shí)世界。Latent-aware Action Streaming（LAAS）正是針對這一Perception–Execution Gap設(shè)計(jì)的執(zhí)行機(jī)制：

顯式丟棄因推理延遲而 “過時(shí)” 的動(dòng)作
只執(zhí)行在時(shí)間上仍與當(dāng)前環(huán)境狀態(tài)對齊的預(yù)測
當(dāng)新預(yù)測到來時(shí)，優(yōu)先采用更新、更接近當(dāng)前狀態(tài)的動(dòng)作

3. 為動(dòng)態(tài)而生的輕量化 VLA 架構(gòu)

上述機(jī)制能否成立，還依賴于足夠低的推理延遲。因此 DynamicVLA 采用了專為動(dòng)態(tài)操控設(shè)計(jì)的輕量化架構(gòu)：

卷積式視覺編碼器，避免多幀輸入下 token 爆炸
截?cái)嗾Z言模型層數(shù)，在速度與理解能力之間取得平衡
整體模型規(guī)模控制在 0.4B 參數(shù)量級

動(dòng)態(tài)操控?cái)?shù)據(jù)的核心缺口：從仿真到真實(shí)世界

當(dāng)前，無論是仿真還是真實(shí)機(jī)器人，主流 VLA 數(shù)據(jù)集幾乎都聚焦于靜態(tài)操作，而對動(dòng)態(tài)物體交互的系統(tǒng)性覆蓋仍然缺失。這一數(shù)據(jù)結(jié)構(gòu)性偏差，直接限制了 VLA 在真實(shí)動(dòng)態(tài)環(huán)境中的泛化能力。

在仿真?zhèn)龋珼ynamicVLA 基于 Isaac Sim 構(gòu)建了大規(guī)模動(dòng)態(tài)操控?cái)?shù)據(jù)：覆蓋 2800+ 場景、206 種物體，通過多樣化的物體運(yùn)動(dòng)與交互模式，生成豐富且可控的動(dòng)態(tài)仿真數(shù)據(jù)，為模型提供了系統(tǒng)性的動(dòng)態(tài)訓(xùn)練基礎(chǔ)。

相比之下，真實(shí)世界的動(dòng)態(tài)數(shù)據(jù)采集處于 “幾乎不可行” 的狀態(tài)：動(dòng)態(tài)物體運(yùn)動(dòng)速度快，人類遙操作反應(yīng)時(shí)間不足，且難以實(shí)時(shí)獲取高質(zhì)量的 6D 位姿與速度標(biāo)注，使得規(guī)模化、可復(fù)現(xiàn)的真實(shí)動(dòng)態(tài)操控?cái)?shù)據(jù)一直缺位。

DynamicVLA 的做法并不是強(qiáng)行遙操作，而是把真實(shí)世界 “做成仿真接口”（Real-world Simulator）：

多視角 RGB 感知，實(shí)時(shí)追蹤物體運(yùn)動(dòng)
在線估計(jì)物體 6D 位姿 + 速度
將真實(shí)環(huán)境抽象為與仿真一致的狀態(tài)輸入
直接復(fù)用同一套狀態(tài)機(jī)與控制邏輯

首個(gè)動(dòng)態(tài)操控基準(zhǔn)：DOM Benchmark

在上述自動(dòng)化數(shù)據(jù)體系之上，團(tuán)隊(duì)進(jìn)一步構(gòu)建了 Dynamic Object Manipulation（DOM）Benchmark，這是首個(gè)專為動(dòng)態(tài)物體操控設(shè)計(jì)的系統(tǒng)性評測基準(zhǔn)。

與以往側(cè)重 “是否完成任務(wù)” 的靜態(tài)評測不同，DOM 從動(dòng)態(tài)操控的本質(zhì)出發(fā)，將能力拆解為 3 個(gè)核心維度、9 個(gè)子維度：

1. 交互能力（Interaction）評估機(jī)器人在物體持續(xù)運(yùn)動(dòng)下的實(shí)時(shí)控制與決策能力，包括：

Closed-loop Reactivity：對不同運(yùn)動(dòng)速度的即時(shí)響應(yīng)能力
Dynamic Adaptation：在碰撞、變向等突發(fā)事件后的快速調(diào)整能力
Long-horizon Sequencing：在長時(shí)間動(dòng)態(tài)交互中保持策略一致性的能力

2. 感知與理解（Perception）評估模型在動(dòng)態(tài)場景中的多模態(tài)理解能力，包括：

Visual Understanding：區(qū)分外觀相似物體的能力
Spatial Reasoning：理解空間關(guān)系與相對位置的能力
Motion Perception：感知與判斷物體運(yùn)動(dòng)狀態(tài)（速度、方向）的能力

3. 泛化與魯棒性（Generalization）評估模型在分布外動(dòng)態(tài)條件下的穩(wěn)定性，包括：

Visual Generalization：面對未見物體與新場景的適應(yīng)能力
Motion Generalization：應(yīng)對新速度范圍與運(yùn)動(dòng)模式的能力
Disturbance Robustness：在外部擾動(dòng)下維持穩(wěn)定控制的能力

DOM Benchmark 顯示，DynamicVLA 在動(dòng)態(tài)交互相關(guān)能力上顯著領(lǐng)先，但在感知理解與擾動(dòng)魯棒性上仍存在明顯不足。這一限制并非偶然，而是源于為保證實(shí)時(shí)性而選擇的小模型架構(gòu)。如何在響應(yīng)速度與推理能力之間取得更優(yōu)平衡，將是動(dòng)態(tài)操控 VLA 的重要方向。

實(shí)驗(yàn)結(jié)果：動(dòng)態(tài)世界中的斷層領(lǐng)先

在仿真與真實(shí)機(jī)器人實(shí)驗(yàn)中，DynamicVLA 在多個(gè)維度上顯著領(lǐng)先現(xiàn)有方法。

DynamicVLA 的意義：機(jī)器人開始真正 “活在時(shí)間里”

DynamicVLA 傳遞了一個(gè)清晰信號：

下一代機(jī)器人智能的核心，不只是 “看懂世界”，而是在世界變化的過程中持續(xù)做出正確反應(yīng)。

從 Continuous Inference，到 Latent-aware Action Streaming，再到 Real-world simulator，DynamicVLA 為動(dòng)態(tài)操控提供了一套可復(fù)現(xiàn)、可擴(kuò)展、可落地的系統(tǒng)范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.