在 LIBERO 基準測試中,StreamingVLA 在保持 94.9% 高成功率(與基線模型 95.1% 基本持平)的同時,將單動作延遲縮短至 31.6 毫秒,實現 2.4 倍端到端加速,并將執行過程中的卡頓時間從 232.3 毫秒大幅壓縮至 36.0 毫秒,降幅達 6.5 倍。在真機實驗中,StreamingVLA 使得平均動作延遲由 271.49 毫秒降低到 170.88 毫秒,實現 1.58 倍加速,為 VLA 模型在真實場景中的高效部署提供了新的解決方案。
![]()
圖:StreamingVLA 的整體框架與效果
![]()
首先需要明確當前 VLA 模型部署的核心矛盾,隨著 VLA 模型規模的不斷擴大,其在實際部署中面臨的效率問題日益突出,尤其是在資源受限的邊緣設備上,高延遲與執行卡頓成為制約其應用的關鍵瓶頸。
現有 VLA 模型通常采用同步執行流水線,即 “場景觀測 - 動作生成 - 動作執行” 三個階段依次進行,每一階段必須等待前一階段完成后才能開始。動作的生成需要等待場景觀測 VLM 處理完成之后才能開始,動作執行需要等待完整的動作生成,而下一輪的場景觀測又需要等待全部的動作執行完成。這種串行機制導致機器人在執行過程中頻繁停頓,動作缺乏連貫性。以當前主流的 Pi0.5 模型為例,其執行過程中存在的空閑等待時間(即卡頓時間)嚴重影響了任務的執行流暢度與用戶體驗。
![]()
一、系統性分析:識別 VLA 動作卡頓的本質原因,提出延時分析框架
首先,觀測階段中,VLM 根據當前圖像、語言指令與機器人狀態生成隱層特征(KV Cache);動作生成階段中,動作專家基于這些特征通過擴散過程生成一個包含多個未來動作的動作塊;最后,執行階段中,機器人依次執行這些動作,完成后進入下一輪循環(如圖左下側所示)。
在傳統同步執行模式下,三個階段嚴格串行,彼此等待。這意味著在每次動作執行完畢后,系統必須等待下一次觀測與動作生成全部完成才能繼續執行,由此產生的卡頓時間等于觀測時間與動作生成時間之和。實際測試表明,這一等待時間相當可觀,是導致機器人動作不連貫的主要根源。
![]()
圖:StreamingVLA 對執行時序的系統性分析與優化
二、方案設計
(一)動作流匹配:實現生成與執行的并行
![]()
圖:基于狀態建模的動作流匹配方法
在傳統 VLA 模型的執行流水線中,動作生成與執行階段嚴格串行,這是造成系統效率低下的主要原因之一。具體而言,在動作塊生成機制下,動作專家通過多步擴散去噪過程一次性生成包含多個未來動作的動作塊,只有當整個動作塊完全生成后,機器人才能開始執行其中的第一個動作。這種 “先全部生成,再依次執行” 的模式,使得動作生成與執行之間無法產生任何時間重疊。
通過上述擴展與調整,動作流匹配得以在大型 VLA 模型中成功部署,顯著縮短了動作生成與執行之間的等待時間,為實現 “生成 - 執行” 維度的并行奠定了堅實基礎。
(二)自適應提前觀測:實現觀測與執行的并行
![]()
圖:動作顯著性感知的自適應提前觀測
在動作流匹配解決了 “生成 - 執行” 并行問題之后,系統延遲的另一主要來源 ——“觀測” 與 “執行” 之間的串行等待 —— 便成為進一步優化的關鍵。若能使 VLM 在機器人尚未完成全部動作時就提前開始下一輪觀測的處理,則觀測與執行的時間便能夠產生重疊,從而進一步縮短卡頓時間。提前觀測技術正是針對這一目標提出的,其核心思想是在機器人執行當前動作塊的部分動作后即開始下一輪觀測的 VLM 推理。
動作顯著性,即某一動作對后續觀測結果的影響程度。高顯著性動作(如大幅度移動)會引發環境的劇烈變化,若在尚未執行此類動作時就提前觀測,VLM 得到的環境信息與實際物理環境之間將出現嚴重不匹配,生成的后續動作自然難以準確。相反,低顯著性動作對環境變化影響甚微,提前觀測造成的誤差也相應較小。
三、實驗結果:雙重優異的性能與效率
(一)模擬環境測試
![]()
(二)消融實驗
消融實驗進一步驗證了各模塊的有效性。狀態對齊是動作流匹配成功的關鍵,缺乏對齊會直接導致訓練失敗,而引入對齊后模型成功率躍升至 97.1%,同時延遲與卡頓均大幅降低。自適應提前觀測相比隨機提前觀測,在相同觸發頻率下將成功率從 90.9% 提升至 94.9%,充分證明了其智能調度的有效性。
![]()
(三)真機實驗
四、總結與展望
這一工作為研究者提供了更深入的啟發:在構建高效的具身智能系統時,優化不應僅停留在模型壓縮層面,更應關注執行流程的協同與并行。StreamingVLA 所展現的 “流式” 執行思想,不僅適用于 VLA 模型,也為其他多階段、多模態的實時交互系統提供了新的設計思路,有望推動智能系統在真實場景中的高效部署與廣泛應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.