![]()
作者介紹:本文由清華大學電子工程系 NICS-EFC 實驗室與聯想合作完成
史奕然 清華大學深圳國際研究生院 數據與信息研究院 電子與通信工程專業在讀碩士研究生 導師是廖慶敏教授,研究方向是:視覺 - 文本大模型的高效訓練與推理
郭東琦 清華大學電子工程系本科生
趙天辰 清華大學電子工程系高能效計算實驗室博士生,導師是汪玉教授,研究方向主要是:基座模型構建的 EfficientML 算法與 Infra 協同優化
視覺 - 語言 - 動作(VLA)模型為具身智能帶來了強大的泛化能力,但其 “觀測 - 生成 - 執行” 三階段串行執行的模式,導致機器人在動作間頻繁停頓,嚴重影響了交互的流暢性與實時性。針對這一問題,本文提出 StreamingVLA 框架,通過引入動作流匹配與自適應提前觀測兩項技術,分別實現 “生成與執行” 及 “觀測與執行” 兩個維度的并行處理,使模型能夠以 “流式” 方式,異步進行動作的生成和執行。
在 LIBERO 基準測試中,StreamingVLA 在保持 94.9% 高成功率(與基線模型 95.1% 基本持平)的同時,將單動作延遲縮短至 31.6 毫秒,實現 2.4 倍端到端加速,并將執行過程中的卡頓時間從 232.3 毫秒大幅壓縮至 36.0 毫秒,降幅達 6.5 倍。在真機實驗中,StreamingVLA 使得平均動作延遲由 271.49 毫秒降低到 170.88 毫秒,實現 1.58 倍加速,為 VLA 模型在真實場景中的高效部署提供了新的解決方案。
![]()
圖:StreamingVLA 的整體框架與效果
![]()
視頻鏈接:https://mp.weixin.qq.com/s/iOaGIpFHn9I8TI3Pxg5xfQ
首先需要明確當前 VLA 模型部署的核心矛盾,隨著 VLA 模型規模的不斷擴大,其在實際部署中面臨的效率問題日益突出,尤其是在資源受限的邊緣設備上,高延遲與執行卡頓成為制約其應用的關鍵瓶頸。
現有 VLA 模型通常采用同步執行流水線,即 “場景觀測 - 動作生成 - 動作執行” 三個階段依次進行,每一階段必須等待前一階段完成后才能開始。動作的生成需要等待場景觀測 VLM 處理完成之后才能開始,動作執行需要等待完整的動作生成,而下一輪的場景觀測又需要等待全部的動作執行完成。這種串行機制導致機器人在執行過程中頻繁停頓,動作缺乏連貫性。以當前主流的 Pi0.5 模型為例,其執行過程中存在的空閑等待時間(即卡頓時間)嚴重影響了任務的執行流暢度與用戶體驗。
針對這一問題,本文提出 StreamingVLA,一種支持異步并行執行的 VLA 框架。通過對 VLA 執行流程的系統性分析,識別出造成延遲與卡頓的關鍵因素,并在此基礎上引入兩項核心技術:基于狀態建模的動作流匹配與動作顯著性感知的自適應提前觀測。這兩項技術分別實現了 “動作生成與動作執行” 以及 “場景觀測與動作執行” 兩個維度的并行化,從而在不犧牲模型性能的前提下,顯著提升執行效率與流暢度。
![]()
- Arxiv Link: https://arxiv.org/abs/2603.28565
- Project Page:https://ghahahahag.github.io/StreamingVLA_Website/
- Github Link:https://github.com/gen-robot/StramingVLA
一、系統性分析:識別 VLA 動作卡頓的本質原因,提出延時分析框架
為深入理解 VLA 執行過程中的效率瓶頸,本文首先對以 Pi0.5 為代表的典型 VLA 模型進行了詳細的運行時序分析(如下圖所示)。該類模型由視覺語言模型(VLM)與基于擴散的動作專家組成,其執行流程可劃分為三個主要階段:
首先,觀測階段中,VLM 根據當前圖像、語言指令與機器人狀態生成隱層特征(KV Cache);其次,動作生成階段中,動作專家基于這些特征通過擴散過程生成一個包含多個未來動作的動作塊;最后,執行階段中,機器人依次執行這些動作,完成后進入下一輪循環(如圖左下側所示)。
在傳統同步執行模式下,三個階段嚴格串行,彼此等待。這意味著在每次動作執行完畢后,系統必須等待下一次觀測與動作生成全部完成才能繼續執行,由此產生的卡頓時間等于觀測時間與動作生成時間之和。實際測試表明,這一等待時間相當可觀,是導致機器人動作不連貫的主要根源。
基于上述分析,明確了優化目標:在盡可能保持模型性能的前提下,同時降低每個動作的平均延遲與卡頓時間。為此,本文提出通過重疊不同階段的時間來替代單純壓縮各階段延遲的傳統思路,希望實現 “動作生成與動作執行” 以及 “場景觀測與動作執行” 兩個維度的并行化,從而實現 “流式” 執行(如圖右下側)。
![]()
圖:StreamingVLA 對執行時序的系統性分析與優化
二、方案設計
(一)動作流匹配:實現生成與執行的并行
![]()
圖:基于狀態建模的動作流匹配方法
在傳統 VLA 模型的執行流水線中,動作生成與執行階段嚴格串行,這是造成系統效率低下的主要原因之一。具體而言,在動作塊生成機制下,動作專家通過多步擴散去噪過程一次性生成包含多個未來動作的動作塊,只有當整個動作塊完全生成后,機器人才能開始執行其中的第一個動作。這種 “先全部生成,再依次執行” 的模式,使得動作生成與執行之間無法產生任何時間重疊。
為此,本文引入了基于狀態建模的動作流匹配方法。該方法的核心理念是將動作生成過程從 “一次性生成一個動作塊” 轉變為 “連續演化一個狀態”。模型不再直接預測動作的絕對值,而是維護一個累積了歷史動作的 “動作空間狀態”,并預測該狀態隨時間演化的 “速度場”。每一步,模型根據當前狀態與觀測信息預測速度場,通過簡單的時間積分得到當前時刻的動作輸出,同時更新狀態。這一過程使得每個動作可以在生成后立即被執行,而模型則繼續基于更新后的狀態生成下一個動作,從而實現了動作生成與執行在時間軸上的無縫重疊。
然而將這一方法適配到大型 VLA 模型與 Libero 復雜基準任務的過程中,面臨兩個關鍵挑戰。第一,復雜控制場景中模型輸出的動作需經過控制器才能轉換為物理運動,使得動作與物理狀態之間不再保持線性關系。為此,本文對狀態建模進行擴展,引入 “動作空間狀態” 作為模型內部維護的狀態變量,并通過預計算完整軌跡的動作空間狀態,確保其在訓練過程中與物理空間狀態對齊。第二,大型模型中的歸一化層會破壞 “狀態加動作等于新狀態” 這一流匹配框架所依賴的關鍵可加性。本文對此進行針對性修改,移除偏移項并統一縮放因子,使得歸一化后的變量仍然滿足可加性,在保持訓練穩定的同時完好保留了流匹配的核心數學結構。
通過上述擴展與調整,動作流匹配得以在大型 VLA 模型中成功部署,顯著縮短了動作生成與執行之間的等待時間,為實現 “生成 - 執行” 維度的并行奠定了堅實基礎。
(二)自適應提前觀測:實現觀測與執行的并行
![]()
圖:動作顯著性感知的自適應提前觀測
在動作流匹配解決了 “生成 - 執行” 并行問題之后,系統延遲的另一主要來源 ——“觀測” 與 “執行” 之間的串行等待 —— 便成為進一步優化的關鍵。若能使 VLM 在機器人尚未完成全部動作時就提前開始下一輪觀測的處理,則觀測與執行的時間便能夠產生重疊,從而進一步縮短卡頓時間。提前觀測技術正是針對這一目標提出的,其核心思想是在機器人執行當前動作塊的部分動作后即開始下一輪觀測的 VLM 推理。
然而直接進行樸素的提前觀測會導致獲得錯誤的場景信息,最終導致模型性能的顯著下降。因此本文提出一種自適應的提前觀測方法,根據動作顯著性來動態決定是否提前觀測。
動作顯著性,即某一動作對后續觀測結果的影響程度。高顯著性動作(如大幅度移動)會引發環境的劇烈變化,若在尚未執行此類動作時就提前觀測,VLM 得到的環境信息與實際物理環境之間將出現嚴重不匹配,生成的后續動作自然難以準確。相反,低顯著性動作對環境變化影響甚微,提前觀測造成的誤差也相應較小。
為了量化動作顯著性這一指標,本文設計了一個基于 Transformer 的輕量級預測器,用于動態評估尚未執行的動作的顯著性。該預測器以當前時刻的圖像 embedding 和剩余未執行的動作序列作為輸入,輸出執行這些動作后圖像 embedding 的預測變化量。預測器以實際執行后觀測到的圖像 embedding 變化作為監督信號進行訓練,其參數量遠小于完整 VLM,訓練成本也相對較低。在推理階段,系統調用該預測器估算剩余動作的顯著性:若預測變化量低于預設閾值,則提前啟動下一輪觀測,實現觀測與執行的并行;若高于閾值,則等待動作執行完畢后再進行觀測,以確保 VLM 獲取準確的環境信息。該預測器運行時的額外開銷僅占模型總推理時間的約 5%,訓練成本也遠低于全模型微調,卻能帶來可觀的加速收益。
三、實驗結果:雙重優異的性能與效率
(一)模擬環境測試
本文在 LIBERO 仿真環境的四個任務集上對 StreamingVLA 進行了全面評估。實驗結果表明,StreamingVLA 在保持與基線模型(Pi0.5)相當的成功率(94.9%)的前提下,實現了顯著的效率提升。相較于一次觀測生成 10 個動作的 Pi0.5(h=10),單動作延遲從 49.9 毫秒降低至 31.6 毫秒,實現了 1.57 倍的加速;卡頓時間從 230.8 毫秒銳減至 36.0 毫秒,降幅達 6.45 倍。
![]()
(二)消融實驗
消融實驗進一步驗證了各模塊的有效性。狀態對齊是動作流匹配成功的關鍵,缺乏對齊會直接導致訓練失敗,而引入對齊后模型成功率躍升至 97.1%,同時延遲與卡頓均大幅降低。自適應提前觀測相比隨機提前觀測,在相同觸發頻率下將成功率從 90.9% 提升至 94.9%,充分證明了其智能調度的有效性。
![]()
(三)真機實驗
為進一步驗證 StreamingVLA 在真實物理環境中的有效性,本文將其部署于 Franka Panda 機械臂平臺,在桌面工作空間下執行抓取 - 放置任務。該任務要求機械臂從指定位置抓取物體并放置于目標位置,是檢驗動作執行精度與感知更新及時性的典型場景。實驗采用基于 Pi0.5 架構的模型,動作視界設為 8。基線配置下,原始 Pi0.5 策略使用 8 個動作視界與 4 步重規劃;StreamingVLA 則采用相同視界但以流式方式生成動作。實驗結果表明,StreamingVLA 的平均動作延遲為 170.88 毫秒,而原始 Pi0.5 基線模型的平均動作延遲為 271.49 毫秒。這一結果驗證了 StreamingVLA 在真實物理系統中同樣能夠顯著提升控制效率,為實時機器人操作提供了關鍵的速度保障。
四、總結與展望
本文針對 VLA 模型在實際部署中面臨的高延遲與執行卡頓問題,提出了 StreamingVLA 框架。通過對執行流程的系統性分析,本文識別出關鍵瓶頸,并引入動作流匹配與自適應提前觀測兩項核心技術,分別實現了 “動作生成 - 動作執行” 與 “場景觀測 - 動作執行” 兩個維度的并行處理。實驗結果表明,StreamingVLA 在不犧牲模型性能的前提下,實現了顯著的速度提升與流暢度改善。
這一工作為研究者提供了更深入的啟發:在構建高效的具身智能系統時,優化不應僅停留在模型壓縮層面,更應關注執行流程的協同與并行。StreamingVLA 所展現的 “流式” 執行思想,不僅適用于 VLA 模型,也為其他多階段、多模態的實時交互系統提供了新的設計思路,有望推動智能系統在真實場景中的高效部署與廣泛應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.