<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別想完再做卡頓!清華StreamingVLA讓VLA邊想邊行動,提速2.4倍

      0
      分享至



      作者介紹:本文由清華大學電子工程系 NICS-EFC 實驗室與聯想合作完成

      史奕然 清華大學深圳國際研究生院 數據與信息研究院 電子與通信工程專業在讀碩士研究生 導師是廖慶敏教授,研究方向是:視覺 - 文本大模型的高效訓練與推理

      郭東琦 清華大學電子工程系本科生

      趙天辰 清華大學電子工程系高能效計算實驗室博士生,導師是汪玉教授,研究方向主要是:基座模型構建的 EfficientML 算法與 Infra 協同優化

      視覺 - 語言 - 動作(VLA)模型為具身智能帶來了強大的泛化能力,但其 “觀測 - 生成 - 執行” 三階段串行執行的模式,導致機器人在動作間頻繁停頓,嚴重影響了交互的流暢性與實時性。針對這一問題,本文提出 StreamingVLA 框架,通過引入動作流匹配與自適應提前觀測兩項技術,分別實現 “生成與執行” 及 “觀測與執行” 兩個維度的并行處理,使模型能夠以 “流式” 方式,異步進行動作的生成和執行。

      在 LIBERO 基準測試中,StreamingVLA 在保持 94.9% 高成功率(與基線模型 95.1% 基本持平)的同時,將單動作延遲縮短至 31.6 毫秒,實現 2.4 倍端到端加速,并將執行過程中的卡頓時間從 232.3 毫秒大幅壓縮至 36.0 毫秒,降幅達 6.5 倍。在真機實驗中,StreamingVLA 使得平均動作延遲由 271.49 毫秒降低到 170.88 毫秒,實現 1.58 倍加速,為 VLA 模型在真實場景中的高效部署提供了新的解決方案。



      圖:StreamingVLA 的整體框架與效果



      視頻鏈接:https://mp.weixin.qq.com/s/iOaGIpFHn9I8TI3Pxg5xfQ

      首先需要明確當前 VLA 模型部署的核心矛盾,隨著 VLA 模型規模的不斷擴大,其在實際部署中面臨的效率問題日益突出,尤其是在資源受限的邊緣設備上,高延遲與執行卡頓成為制約其應用的關鍵瓶頸。

      現有 VLA 模型通常采用同步執行流水線,即 “場景觀測 - 動作生成 - 動作執行” 三個階段依次進行,每一階段必須等待前一階段完成后才能開始。動作的生成需要等待場景觀測 VLM 處理完成之后才能開始,動作執行需要等待完整的動作生成,而下一輪的場景觀測又需要等待全部的動作執行完成。這種串行機制導致機器人在執行過程中頻繁停頓,動作缺乏連貫性。以當前主流的 Pi0.5 模型為例,其執行過程中存在的空閑等待時間(即卡頓時間)嚴重影響了任務的執行流暢度與用戶體驗。

      針對這一問題,本文提出 StreamingVLA,一種支持異步并行執行的 VLA 框架。通過對 VLA 執行流程的系統性分析,識別出造成延遲與卡頓的關鍵因素,并在此基礎上引入兩項核心技術:基于狀態建模的動作流匹配與動作顯著性感知的自適應提前觀測。這兩項技術分別實現了 “動作生成與動作執行” 以及 “場景觀測與動作執行” 兩個維度的并行化,從而在不犧牲模型性能的前提下,顯著提升執行效率與流暢度。



      • Arxiv Link: https://arxiv.org/abs/2603.28565
      • Project Page:https://ghahahahag.github.io/StreamingVLA_Website/
      • Github Link:https://github.com/gen-robot/StramingVLA

      一、系統性分析:識別 VLA 動作卡頓的本質原因,提出延時分析框架

      為深入理解 VLA 執行過程中的效率瓶頸,本文首先對以 Pi0.5 為代表的典型 VLA 模型進行了詳細的運行時序分析(如下圖所示)。該類模型由視覺語言模型(VLM)與基于擴散的動作專家組成,其執行流程可劃分為三個主要階段:

      首先,觀測階段中,VLM 根據當前圖像、語言指令與機器人狀態生成隱層特征(KV Cache);其次,動作生成階段中,動作專家基于這些特征通過擴散過程生成一個包含多個未來動作的動作塊;最后,執行階段中,機器人依次執行這些動作,完成后進入下一輪循環(如圖左下側所示)。

      在傳統同步執行模式下,三個階段嚴格串行,彼此等待。這意味著在每次動作執行完畢后,系統必須等待下一次觀測與動作生成全部完成才能繼續執行,由此產生的卡頓時間等于觀測時間與動作生成時間之和。實際測試表明,這一等待時間相當可觀,是導致機器人動作不連貫的主要根源。

      基于上述分析,明確了優化目標:在盡可能保持模型性能的前提下,同時降低每個動作的平均延遲與卡頓時間。為此,本文提出通過重疊不同階段的時間來替代單純壓縮各階段延遲的傳統思路,希望實現 “動作生成與動作執行” 以及 “場景觀測與動作執行” 兩個維度的并行化,從而實現 “流式” 執行(如圖右下側)。



      圖:StreamingVLA 對執行時序的系統性分析與優化

      二、方案設計

      (一)動作流匹配:實現生成與執行的并行



      圖:基于狀態建模的動作流匹配方法

      在傳統 VLA 模型的執行流水線中,動作生成與執行階段嚴格串行,這是造成系統效率低下的主要原因之一。具體而言,在動作塊生成機制下,動作專家通過多步擴散去噪過程一次性生成包含多個未來動作的動作塊,只有當整個動作塊完全生成后,機器人才能開始執行其中的第一個動作。這種 “先全部生成,再依次執行” 的模式,使得動作生成與執行之間無法產生任何時間重疊。

      為此,本文引入了基于狀態建模的動作流匹配方法。該方法的核心理念是將動作生成過程從 “一次性生成一個動作塊” 轉變為 “連續演化一個狀態”。模型不再直接預測動作的絕對值,而是維護一個累積了歷史動作的 “動作空間狀態”,并預測該狀態隨時間演化的 “速度場”。每一步,模型根據當前狀態與觀測信息預測速度場,通過簡單的時間積分得到當前時刻的動作輸出,同時更新狀態。這一過程使得每個動作可以在生成后立即被執行,而模型則繼續基于更新后的狀態生成下一個動作,從而實現了動作生成與執行在時間軸上的無縫重疊。

      然而將這一方法適配到大型 VLA 模型與 Libero 復雜基準任務的過程中,面臨兩個關鍵挑戰。第一,復雜控制場景中模型輸出的動作需經過控制器才能轉換為物理運動,使得動作與物理狀態之間不再保持線性關系。為此,本文對狀態建模進行擴展,引入 “動作空間狀態” 作為模型內部維護的狀態變量,并通過預計算完整軌跡的動作空間狀態,確保其在訓練過程中與物理空間狀態對齊。第二,大型模型中的歸一化層會破壞 “狀態加動作等于新狀態” 這一流匹配框架所依賴的關鍵可加性。本文對此進行針對性修改,移除偏移項并統一縮放因子,使得歸一化后的變量仍然滿足可加性,在保持訓練穩定的同時完好保留了流匹配的核心數學結構。

      通過上述擴展與調整,動作流匹配得以在大型 VLA 模型中成功部署,顯著縮短了動作生成與執行之間的等待時間,為實現 “生成 - 執行” 維度的并行奠定了堅實基礎。

      (二)自適應提前觀測:實現觀測與執行的并行



      圖:動作顯著性感知的自適應提前觀測

      在動作流匹配解決了 “生成 - 執行” 并行問題之后,系統延遲的另一主要來源 ——“觀測” 與 “執行” 之間的串行等待 —— 便成為進一步優化的關鍵。若能使 VLM 在機器人尚未完成全部動作時就提前開始下一輪觀測的處理,則觀測與執行的時間便能夠產生重疊,從而進一步縮短卡頓時間。提前觀測技術正是針對這一目標提出的,其核心思想是在機器人執行當前動作塊的部分動作后即開始下一輪觀測的 VLM 推理。

      然而直接進行樸素的提前觀測會導致獲得錯誤的場景信息,最終導致模型性能的顯著下降。因此本文提出一種自適應的提前觀測方法,根據動作顯著性來動態決定是否提前觀測。

      動作顯著性,即某一動作對后續觀測結果的影響程度。高顯著性動作(如大幅度移動)會引發環境的劇烈變化,若在尚未執行此類動作時就提前觀測,VLM 得到的環境信息與實際物理環境之間將出現嚴重不匹配,生成的后續動作自然難以準確。相反,低顯著性動作對環境變化影響甚微,提前觀測造成的誤差也相應較小。

      為了量化動作顯著性這一指標,本文設計了一個基于 Transformer 的輕量級預測器,用于動態評估尚未執行的動作的顯著性。該預測器以當前時刻的圖像 embedding 和剩余未執行的動作序列作為輸入,輸出執行這些動作后圖像 embedding 的預測變化量。預測器以實際執行后觀測到的圖像 embedding 變化作為監督信號進行訓練,其參數量遠小于完整 VLM,訓練成本也相對較低。在推理階段,系統調用該預測器估算剩余動作的顯著性:若預測變化量低于預設閾值,則提前啟動下一輪觀測,實現觀測與執行的并行;若高于閾值,則等待動作執行完畢后再進行觀測,以確保 VLM 獲取準確的環境信息。該預測器運行時的額外開銷僅占模型總推理時間的約 5%,訓練成本也遠低于全模型微調,卻能帶來可觀的加速收益。

      三、實驗結果:雙重優異的性能與效率

      (一)模擬環境測試

      本文在 LIBERO 仿真環境的四個任務集上對 StreamingVLA 進行了全面評估。實驗結果表明,StreamingVLA 在保持與基線模型(Pi0.5)相當的成功率(94.9%)的前提下,實現了顯著的效率提升。相較于一次觀測生成 10 個動作的 Pi0.5(h=10),單動作延遲從 49.9 毫秒降低至 31.6 毫秒,實現了 1.57 倍的加速;卡頓時間從 230.8 毫秒銳減至 36.0 毫秒,降幅達 6.45 倍。



      (二)消融實驗

      消融實驗進一步驗證了各模塊的有效性。狀態對齊是動作流匹配成功的關鍵,缺乏對齊會直接導致訓練失敗,而引入對齊后模型成功率躍升至 97.1%,同時延遲與卡頓均大幅降低。自適應提前觀測相比隨機提前觀測,在相同觸發頻率下將成功率從 90.9% 提升至 94.9%,充分證明了其智能調度的有效性。



      (三)真機實驗

      為進一步驗證 StreamingVLA 在真實物理環境中的有效性,本文將其部署于 Franka Panda 機械臂平臺,在桌面工作空間下執行抓取 - 放置任務。該任務要求機械臂從指定位置抓取物體并放置于目標位置,是檢驗動作執行精度與感知更新及時性的典型場景。實驗采用基于 Pi0.5 架構的模型,動作視界設為 8。基線配置下,原始 Pi0.5 策略使用 8 個動作視界與 4 步重規劃;StreamingVLA 則采用相同視界但以流式方式生成動作。實驗結果表明,StreamingVLA 的平均動作延遲為 170.88 毫秒,而原始 Pi0.5 基線模型的平均動作延遲為 271.49 毫秒。這一結果驗證了 StreamingVLA 在真實物理系統中同樣能夠顯著提升控制效率,為實時機器人操作提供了關鍵的速度保障。

      四、總結與展望

      本文針對 VLA 模型在實際部署中面臨的高延遲與執行卡頓問題,提出了 StreamingVLA 框架。通過對執行流程的系統性分析,本文識別出關鍵瓶頸,并引入動作流匹配與自適應提前觀測兩項核心技術,分別實現了 “動作生成 - 動作執行” 與 “場景觀測 - 動作執行” 兩個維度的并行處理。實驗結果表明,StreamingVLA 在不犧牲模型性能的前提下,實現了顯著的速度提升與流暢度改善。

      這一工作為研究者提供了更深入的啟發:在構建高效的具身智能系統時,優化不應僅停留在模型壓縮層面,更應關注執行流程的協同與并行。StreamingVLA 所展現的 “流式” 執行思想,不僅適用于 VLA 模型,也為其他多階段、多模態的實時交互系統提供了新的設計思路,有望推動智能系統在真實場景中的高效部署與廣泛應用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒稱,革命衛隊總司令瓦希迪成為美軍最新打擊目標

      美媒稱,革命衛隊總司令瓦希迪成為美軍最新打擊目標

      山河路口
      2026-04-24 13:23:02
      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      AI科技評論
      2026-04-24 14:16:25
      粗糙的萬金油,24歲離開國米,29歲踢意乙,33歲混意丙

      粗糙的萬金油,24歲離開國米,29歲踢意乙,33歲混意丙

      95帕爾馬
      2026-04-25 11:47:59
      黑絲+小高跟鞋+緊身連衣裙,微胖得女生穿起來有一種特別的韻味

      黑絲+小高跟鞋+緊身連衣裙,微胖得女生穿起來有一種特別的韻味

      牛彈琴123456
      2026-04-12 15:19:11
      為何要建?誰將受益?一文讀懂廣深第二高鐵戰略意義

      為何要建?誰將受益?一文讀懂廣深第二高鐵戰略意義

      南方都市報
      2026-04-24 22:37:07
      小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

      小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

      人間煙火記事本
      2026-04-25 06:25:08
      噩耗傳來,影響中美的大佬突然逝世,川普派人來華,中方送上大禮

      噩耗傳來,影響中美的大佬突然逝世,川普派人來華,中方送上大禮

      起喜電影
      2026-04-24 18:35:17
      為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

      為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

      鶴羽說個事
      2026-04-17 22:54:53
      菲律賓局勢有變,副總統逃往海外,小馬科斯冒險,解放軍開始堵門

      菲律賓局勢有變,副總統逃往海外,小馬科斯冒險,解放軍開始堵門

      夢史
      2026-04-25 11:14:45
      男子30年前被扣押2859克黃金申請退賠,遼寧營口警方:正研究,將盡快答復

      男子30年前被扣押2859克黃金申請退賠,遼寧營口警方:正研究,將盡快答復

      澎湃新聞
      2026-04-24 21:04:32
      惡犬蔣孝先西安事變被捕殺,張學良說是天意,老蔣給仇人4萬大洋

      惡犬蔣孝先西安事變被捕殺,張學良說是天意,老蔣給仇人4萬大洋

      黑句本
      2026-04-19 15:32:03
      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      大西體育
      2026-04-24 21:59:33
      急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

      急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

      達文西看世界
      2026-04-25 11:40:56
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      小娛樂悠悠
      2026-04-16 13:32:37
      賣了80多座萬達廣場,還欠6000億!萬達的債為啥永遠還不完?

      賣了80多座萬達廣場,還欠6000億!萬達的債為啥永遠還不完?

      科學發掘
      2026-04-17 00:52:53
      CBA官宣常規賽8大獎候選:胡金秋領銜MVP 徐昕領銜最具進步獎

      CBA官宣常規賽8大獎候選:胡金秋領銜MVP 徐昕領銜最具進步獎

      醉臥浮生
      2026-04-25 11:39:05
      網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

      網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

      阿郎娛樂
      2026-04-23 15:28:38
      國乒返程北京:蒯曼艷壓群芳,陳熠短發太驚艷,孫穎莎走VIP通道

      國乒返程北京:蒯曼艷壓群芳,陳熠短發太驚艷,孫穎莎走VIP通道

      觀察鑒娛
      2026-04-25 10:45:26
      印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

      印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

      涵豆說娛
      2026-04-24 12:10:09
      2026-04-25 12:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      本地
      親子
      旅游
      教育
      數碼

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      親子要聞

      中國首例試管嬰兒鄭萌珠未滿40已育子

      旅游要聞

      滬六合作:一片茶葉 撐起上海人的“后花園”

      教育要聞

      農村學生迎來“好消息”!教育部新規:取消戶籍限制,9月起執行

      數碼要聞

      華為WATCH Buds 2開售 手表耳機二合一 3488元起

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日日夜夜人人| 安陆市| 男女猛烈无遮挡免费视频| 老司机午夜福利视频| 久久www免费人成一看片| 精品无码人妻夜人多侵犯18| 国产视频九九| а天堂中文最新一区二区三区| 日韩精品无码一区二区三区av| 日韩av爽爽爽久久久久久| 铜梁县| 国产福利萌白酱在线观看视频| 国产精品久久久久久久久久蜜臀| 九九精品在线看| 成人福利一区二区视频在线 | 成人午夜精品网站在线观看| 人人妻人人妻人人片av| 5d肉蒲团之性战奶水| 久久综合国产精品一区二区| 色婷婷色| 精品成人毛片一区二区| 高清毛片aaaaaaaaa片| 国产精品成人网| 影音先锋大型av资源| 成人国产综合| 精品99在线| 嫩草院一区二区三区无码| 免费**毛片在线播放| 久久er热在这里只有精品66| 97色伦97色伦国产| 色婷AV| 日本一卡二卡不卡视频查询| 亚洲精品人成网线在线| 欧美最猛性xxxxx大叫| 国产在线网址| 久久久久成人精品免费播放动漫| 人妻?无码?中出| 裸体美女无遮挡免费网站| 国产精品成人免费视频网站京东| 国产精品久久久久影院老司| 亚洲色小说|