<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      機(jī)器人慢半拍難題:南洋理工解決VLA致命短板,動(dòng)態(tài)世界斷層領(lǐng)先

      0
      分享至



      當(dāng)物體在滾動(dòng)、滑動(dòng)、被撞飛,機(jī)器人還在執(zhí)行幾百毫秒前的動(dòng)作預(yù)測。
      對動(dòng)態(tài)世界而言,這種延遲,往往意味著失敗。

      在過去幾年中,Vision-Language-Action(VLA)模型迅速成為機(jī)器人領(lǐng)域的焦點(diǎn):機(jī)器人可以 “看懂” 畫面、“理解” 語言指令,并直接輸出連續(xù)動(dòng)作,在靜態(tài)抓取、擺放、桌面操作等任務(wù)中取得了顯著進(jìn)展。

      但一個(gè)長期被忽視的問題是 ——真實(shí)世界幾乎從來不是靜態(tài)的。當(dāng)物體開始移動(dòng)、加速、碰撞、改變軌跡,當(dāng)前主流 VLA 模型往往會(huì)出現(xiàn)反應(yīng)遲緩、動(dòng)作失配、甚至完全失敗的情況。

      問題不在于模型不聰明,而在于:它們跟不上時(shí)間。

      近日,來自 NTU S-Lab 的研究團(tuán)隊(duì)提出 DynamicVLA,首次系統(tǒng)性地從模型架構(gòu)、推理機(jī)制和數(shù)據(jù)體系三個(gè)層面,重新審視并解決動(dòng)態(tài)物體操控(Dynamic Object Manipulation)這一長期空缺的問題。

      想深入了解 DynamicVLA 的技術(shù)細(xì)節(jié)?我們已經(jīng)為你準(zhǔn)備好了完整的論文、項(xiàng)目主頁和代碼倉庫!



      • 論文鏈接:https://arxiv.org/abs/2601.22153
      • 項(xiàng)目鏈接:https://haozhexie.com/project/dynamic-vla/
      • GitHub 鏈接:https://github.com/hzxie/DynamicVLA

      為什么 “動(dòng)態(tài)操控” 對 VLA 來說如此困難?



      在靜態(tài)場景中,VLA 模型通常遵循如下流程:

      感知 → 推理 → 生成一段動(dòng)作 → 執(zhí)行完 → 再次推理

      當(dāng)環(huán)境基本不發(fā)生變化時(shí),這種方式可以正常工作;但一旦物體開始運(yùn)動(dòng),這一流程便迅速失效。

      問題并不在于模型能力不足,而在于時(shí)間結(jié)構(gòu)本身不適用于動(dòng)態(tài)世界,主要體現(xiàn)在兩個(gè)方面:

      1. 感知 — 執(zhí)行時(shí)間錯(cuò)位(Perception–Execution Gap):由于推理存在不可避免的延遲,當(dāng)模型完成決策時(shí),物體狀態(tài)早已發(fā)生變化,動(dòng)作天然 “滯后于現(xiàn)實(shí)”。
      2. 動(dòng)作分塊等待(Inter-chunk Waiting):多數(shù) VLA 必須等上一段動(dòng)作完全執(zhí)行后才能啟動(dòng)下一次推理,使機(jī)器人在動(dòng)態(tài)環(huán)境中始終處于被動(dòng)追趕狀態(tài)。

      這兩個(gè)問題疊加,使得即便在靜態(tài)任務(wù)中表現(xiàn)良好的 VLA,也難以應(yīng)對真實(shí)世界中的動(dòng)態(tài)操控。

      DynamicVLA 的核心思路:讓機(jī)器人 “邊想邊做”



      DynamicVLA 并沒有選擇通過增大模型來 “預(yù)測更遠(yuǎn)的未來”,而是圍繞一個(gè)更根本的問題重新設(shè)計(jì)系統(tǒng):

      在推理延遲無法消除的情況下,如何保證機(jī)器人執(zhí)行的動(dòng)作仍然與當(dāng)前世界狀態(tài)時(shí)間對齊?

      為此,DynamicVLA 從推理機(jī)制、執(zhí)行策略和模型結(jié)構(gòu)三個(gè)層面提出了對應(yīng)設(shè)計(jì)。

      1. Continuous Inference:讓推理與執(zhí)行不再相互等待

      在傳統(tǒng) VLA 中,推理與執(zhí)行嚴(yán)格串行;

      而 Continuous Inference(連續(xù)推理)允許模型在上一段動(dòng)作尚未執(zhí)行完時(shí),就啟動(dòng)下一輪推理,從而解決的是 Inter-chunk Waiting 帶來的反應(yīng)遲滯問題:

      • 推理與執(zhí)行形成流水線
      • 不再存在 “動(dòng)作執(zhí)行完才能繼續(xù)思考” 的空窗期
      • 機(jī)器人始終保持一個(gè)持續(xù)更新的動(dòng)作預(yù)測流

      2. Latent-aware Action Streaming:修復(fù)推理延遲造成的時(shí)間錯(cuò)位

      即使采用連續(xù)推理,推理延遲本身仍然存在。這意味著:模型生成動(dòng)作時(shí)所依據(jù)的觀察,往往已經(jīng)落后于真實(shí)世界。Latent-aware Action Streaming(LAAS)正是針對這一Perception–Execution Gap設(shè)計(jì)的執(zhí)行機(jī)制:

      • 顯式丟棄因推理延遲而 “過時(shí)” 的動(dòng)作
      • 只執(zhí)行在時(shí)間上仍與當(dāng)前環(huán)境狀態(tài)對齊的預(yù)測
      • 當(dāng)新預(yù)測到來時(shí),優(yōu)先采用更新、更接近當(dāng)前狀態(tài)的動(dòng)作

      3. 為動(dòng)態(tài)而生的輕量化 VLA 架構(gòu)

      上述機(jī)制能否成立,還依賴于足夠低的推理延遲。因此 DynamicVLA 采用了專為動(dòng)態(tài)操控設(shè)計(jì)的輕量化架構(gòu):

      • 卷積式視覺編碼器,避免多幀輸入下 token 爆炸
      • 截?cái)嗾Z言模型層數(shù),在速度與理解能力之間取得平衡
      • 整體模型規(guī)模控制在 0.4B 參數(shù)量級

      動(dòng)態(tài)操控?cái)?shù)據(jù)的核心缺口:從仿真到真實(shí)世界



      當(dāng)前,無論是仿真還是真實(shí)機(jī)器人,主流 VLA 數(shù)據(jù)集幾乎都聚焦于靜態(tài)操作,而對動(dòng)態(tài)物體交互的系統(tǒng)性覆蓋仍然缺失。這一數(shù)據(jù)結(jié)構(gòu)性偏差,直接限制了 VLA 在真實(shí)動(dòng)態(tài)環(huán)境中的泛化能力。

      在仿真?zhèn)龋珼ynamicVLA 基于 Isaac Sim 構(gòu)建了大規(guī)模動(dòng)態(tài)操控?cái)?shù)據(jù):覆蓋 2800+ 場景、206 種物體,通過多樣化的物體運(yùn)動(dòng)與交互模式,生成豐富且可控的動(dòng)態(tài)仿真數(shù)據(jù),為模型提供了系統(tǒng)性的動(dòng)態(tài)訓(xùn)練基礎(chǔ)。

      相比之下,真實(shí)世界的動(dòng)態(tài)數(shù)據(jù)采集處于 “幾乎不可行” 的狀態(tài):動(dòng)態(tài)物體運(yùn)動(dòng)速度快,人類遙操作反應(yīng)時(shí)間不足,且難以實(shí)時(shí)獲取高質(zhì)量的 6D 位姿與速度標(biāo)注,使得規(guī)模化、可復(fù)現(xiàn)的真實(shí)動(dòng)態(tài)操控?cái)?shù)據(jù)一直缺位。

      DynamicVLA 的做法并不是強(qiáng)行遙操作,而是把真實(shí)世界 “做成仿真接口”(Real-world Simulator):

      • 多視角 RGB 感知,實(shí)時(shí)追蹤物體運(yùn)動(dòng)
      • 在線估計(jì)物體 6D 位姿 + 速度
      • 將真實(shí)環(huán)境抽象為與仿真一致的狀態(tài)輸入
      • 直接復(fù)用同一套狀態(tài)機(jī)與控制邏輯

      首個(gè)動(dòng)態(tài)操控基準(zhǔn):DOM Benchmark



      在上述自動(dòng)化數(shù)據(jù)體系之上,團(tuán)隊(duì)進(jìn)一步構(gòu)建了 Dynamic Object Manipulation(DOM)Benchmark,這是首個(gè)專為動(dòng)態(tài)物體操控設(shè)計(jì)的系統(tǒng)性評測基準(zhǔn)。

      與以往側(cè)重 “是否完成任務(wù)” 的靜態(tài)評測不同,DOM 從動(dòng)態(tài)操控的本質(zhì)出發(fā),將能力拆解為 3 個(gè)核心維度、9 個(gè)子維度:

      1. 交互能力(Interaction)評估機(jī)器人在物體持續(xù)運(yùn)動(dòng)下的實(shí)時(shí)控制與決策能力,包括:

      • Closed-loop Reactivity:對不同運(yùn)動(dòng)速度的即時(shí)響應(yīng)能力
      • Dynamic Adaptation:在碰撞、變向等突發(fā)事件后的快速調(diào)整能力
      • Long-horizon Sequencing:在長時(shí)間動(dòng)態(tài)交互中保持策略一致性的能力

      2. 感知與理解(Perception)評估模型在動(dòng)態(tài)場景中的多模態(tài)理解能力,包括:

      • Visual Understanding:區(qū)分外觀相似物體的能力
      • Spatial Reasoning:理解空間關(guān)系與相對位置的能力
      • Motion Perception:感知與判斷物體運(yùn)動(dòng)狀態(tài)(速度、方向)的能力

      3. 泛化與魯棒性(Generalization)評估模型在分布外動(dòng)態(tài)條件下的穩(wěn)定性,包括:

      • Visual Generalization:面對未見物體與新場景的適應(yīng)能力
      • Motion Generalization:應(yīng)對新速度范圍與運(yùn)動(dòng)模式的能力
      • Disturbance Robustness:在外部擾動(dòng)下維持穩(wěn)定控制的能力

      DOM Benchmark 顯示,DynamicVLA 在動(dòng)態(tài)交互相關(guān)能力上顯著領(lǐng)先,但在感知理解與擾動(dòng)魯棒性上仍存在明顯不足。這一限制并非偶然,而是源于為保證實(shí)時(shí)性而選擇的小模型架構(gòu)。如何在響應(yīng)速度與推理能力之間取得更優(yōu)平衡,將是動(dòng)態(tài)操控 VLA 的重要方向。

      實(shí)驗(yàn)結(jié)果:動(dòng)態(tài)世界中的斷層領(lǐng)先

      在仿真與真實(shí)機(jī)器人實(shí)驗(yàn)中,DynamicVLA 在多個(gè)維度上顯著領(lǐng)先現(xiàn)有方法。

      DynamicVLA 的意義:機(jī)器人開始真正 “活在時(shí)間里”

      DynamicVLA 傳遞了一個(gè)清晰信號:

      下一代機(jī)器人智能的核心,不只是 “看懂世界”,而是在世界變化的過程中持續(xù)做出正確反應(yīng)。

      從 Continuous Inference,到 Latent-aware Action Streaming,再到 Real-world simulator,DynamicVLA 為動(dòng)態(tài)操控提供了一套可復(fù)現(xiàn)、可擴(kuò)展、可落地的系統(tǒng)范式。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      年輕有為:全國第一個(gè)90后準(zhǔn)副廳!

      年輕有為:全國第一個(gè)90后準(zhǔn)副廳!

      微微熱評
      2026-02-10 11:31:16
      別再用現(xiàn)金行賄受賄了!大數(shù)據(jù)一查就現(xiàn)形,全程 “裸奔” 藏不住

      別再用現(xiàn)金行賄受賄了!大數(shù)據(jù)一查就現(xiàn)形,全程 “裸奔” 藏不住

      復(fù)轉(zhuǎn)這些年
      2026-02-09 23:45:54
      特朗普大罵冬奧運(yùn)動(dòng)員“Loser”!谷愛凌發(fā)聲

      特朗普大罵冬奧運(yùn)動(dòng)員“Loser”!谷愛凌發(fā)聲

      大風(fēng)新聞
      2026-02-10 15:51:07
      大數(shù)據(jù)“殺熟”再引爭議,“看人下菜碟”式價(jià)格歧視該休矣!

      大數(shù)據(jù)“殺熟”再引爭議,“看人下菜碟”式價(jià)格歧視該休矣!

      時(shí)代周報(bào)
      2026-01-16 20:42:04
      65歲港星黃子華稱到死都不會(huì)用老年公交卡,稱害怕遇到吳鎮(zhèn)宇事件

      65歲港星黃子華稱到死都不會(huì)用老年公交卡,稱害怕遇到吳鎮(zhèn)宇事件

      半島晨報(bào)
      2026-02-10 12:43:23
      經(jīng)上海市政府同意,節(jié)日生活補(bǔ)助發(fā)放!這類對象每人一次性給予1200元

      經(jīng)上海市政府同意,節(jié)日生活補(bǔ)助發(fā)放!這類對象每人一次性給予1200元

      縱相新聞
      2026-02-10 09:45:06
      馬云撤了,阿里成功套現(xiàn)300億

      馬云撤了,阿里成功套現(xiàn)300億

      新行情
      2026-02-10 14:22:21
      谷愛凌:外媒都叫我中國運(yùn)動(dòng)員,我在代表中國,代表中國滑雪運(yùn)動(dòng)

      谷愛凌:外媒都叫我中國運(yùn)動(dòng)員,我在代表中國,代表中國滑雪運(yùn)動(dòng)

      臺州交通廣播
      2026-02-09 17:35:54
      炸穿美國政壇!愛潑斯坦文件解密,紐約新市長生父竟是他?

      炸穿美國政壇!愛潑斯坦文件解密,紐約新市長生父竟是他?

      老馬拉車莫少裝
      2026-02-01 21:57:22
      微博之夜過后,終于意識到內(nèi)娛真的完了

      微博之夜過后,終于意識到內(nèi)娛真的完了

      娛樂圈筆娛君
      2026-02-09 14:29:12
      最新!馬斯克:是時(shí)候大規(guī)模重返月球了

      最新!馬斯克:是時(shí)候大規(guī)模重返月球了

      每日經(jīng)濟(jì)新聞
      2026-02-08 20:41:04
      南博徐院長的處理結(jié)果來了!從通報(bào)來看事情并不小,尤其最后一條

      南博徐院長的處理結(jié)果來了!從通報(bào)來看事情并不小,尤其最后一條

      火山詩話
      2026-02-10 05:47:29
      勇士決勝11-0準(zhǔn)絕殺17分逆轉(zhuǎn)灰熊 桑托斯16+8引7人上雙制勝

      勇士決勝11-0準(zhǔn)絕殺17分逆轉(zhuǎn)灰熊 桑托斯16+8引7人上雙制勝

      醉臥浮生
      2026-02-10 13:31:11
      兒媳被疑出軌要打胎,公公轉(zhuǎn)650萬購房款安撫,又將小夫妻告上法庭

      兒媳被疑出軌要打胎,公公轉(zhuǎn)650萬購房款安撫,又將小夫妻告上法庭

      上觀新聞
      2026-02-10 15:19:03
      上海交大解剖260名腦梗死者,驚訝發(fā)現(xiàn):患腦梗的人,有5大共性

      上海交大解剖260名腦梗死者,驚訝發(fā)現(xiàn):患腦梗的人,有5大共性

      劉哥談體育
      2026-02-08 10:27:55
      黎智英案結(jié)果難回天:58歲妻子到場神情嚴(yán)肅,往后余生誰來等?

      黎智英案結(jié)果難回天:58歲妻子到場神情嚴(yán)肅,往后余生誰來等?

      眼界看視野
      2026-02-10 13:07:11
      多個(gè)省會(huì)城市迎來新市長

      多個(gè)省會(huì)城市迎來新市長

      上觀新聞
      2026-02-10 13:13:33
      哈登這么快創(chuàng)隊(duì)史?讓中鋒場均暴漲11分,三分絕平+米切爾絕殺

      哈登這么快創(chuàng)隊(duì)史?讓中鋒場均暴漲11分,三分絕平+米切爾絕殺

      只扣籃的教練
      2026-02-10 13:51:41
      室內(nèi)種樹致多只小鳥撞玻璃死亡,西安萬象城回應(yīng):將挪樹并貼防撞貼

      室內(nèi)種樹致多只小鳥撞玻璃死亡,西安萬象城回應(yīng):將挪樹并貼防撞貼

      現(xiàn)代快報(bào)
      2026-02-09 16:31:04
      “眼神給出去”之后:黑白顛與周媛的“性商”生意

      “眼神給出去”之后:黑白顛與周媛的“性商”生意

      界面新聞
      2026-02-10 08:01:08
      2026-02-10 17:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12279文章數(shù) 142565關(guān)注度
      往期回顧 全部

      科技要聞

      Seedance刷屏:網(wǎng)友們玩瘋 影視圈瑟瑟發(fā)抖

      頭條要聞

      特朗普大罵冬奧運(yùn)動(dòng)員"Loser" 中國運(yùn)動(dòng)員谷愛凌發(fā)聲

      頭條要聞

      特朗普大罵冬奧運(yùn)動(dòng)員"Loser" 中國運(yùn)動(dòng)員谷愛凌發(fā)聲

      體育要聞

      NBA上演全武行,超大沖突4人驅(qū)逐!

      娛樂要聞

      全紅嬋官宣喜訊,雜志首秀太驚艷

      財(cái)經(jīng)要聞

      雀巢中國近千經(jīng)銷商的“追債記”

      汽車要聞

      應(yīng)用于190KW四驅(qū)Ultra版 方程豹鈦7搭載天神之眼5.0

      態(tài)度原創(chuàng)

      本地
      手機(jī)
      家居
      游戲
      公開課

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      手機(jī)要聞

      小米17 Pro系列手機(jī)背屏玩法上新,支持新春隔空手勢點(diǎn)亮煙花等

      家居要聞

      寧靜港灣 靈動(dòng)與詩意

      DQ7重制版Steam爆火!在線峰值2.7萬但僅是第二

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版