網易首頁 > 網易號 > 正文申請入駐

統一VLA范式！港科大開源StarVLA樂高式架構，復現成本大幅降低

2026-04-13 12:07:47　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】當前具身智能的VLA（Vision-Language-Action）賽道正陷入典型的「碎片化」泥潭：不同團隊采用異構的動作解碼范式、強耦合的數據管線、互不兼容的評測協議，導致方法難以橫向對比，復現成本極高。開源項目 StarVLA 沒有選擇堆砌算力或盲目刷榜，而是從系統抽象層面直擊痛點，提出了一套Backbone-Action Head的「樂高式」統一架構。

盡管VLA模型已成為具身通用智能的主流范式，但學術研究正面臨三重「巴別塔」困境：

架構割裂：自回歸離散Token化、并行連續回歸、流匹配去噪、雙系統推理……不同動作解碼范式采用完全不同的代碼實現與接口假設。
管線強耦合：現有開源框架多為「單方法定制」，數據預處理、訓練循環、評測協議深度綁定，導致模塊無法跨項目復用。
評測標準不一：各論文僅在disjoint的基準子集上報告結果，且預處理與推理協議不透明，公平對比幾乎不可能。

這種碎片化嚴重拖慢了具身基礎模型的迭代節奏。

香港科技大學開源了一個新項目StarVLA，核心洞察在于：VLM-based與World-Model-based并非根本對立的范式，而是同一策略框架下不同輔助學習信號（L_aux）的變體。

基于此，團隊構建了一個高度模塊化、接口統一的開源底座，讓研究者能像搭樂高一樣自由組合主干網絡與動作頭，在完全受控的條件下驗證單一設計變量的影響。

開源地址：https://github.com/starVLA/starVLA

項目主頁：https://starvla.github.io

論文鏈接：https://arxiv.org/abs/2604.05014

架構解碼

Policy-Centric的「樂高」抽象

StarVLA 在系統層引入了統一的策略中心公式，將多模態觀測、語言指令與未來動作塊映射到同一計算圖中：

其中為多模態歷史觀測，?為語言指令，為預測的動作塊，為可選的輔助輸出（如未來視覺幀、空間推理文本等）。訓練目標被統一分解為：

Direct VLA：，純動作監督。

VLM-based VLA：引入語言對齊輔助目標（如子任務規劃、空間 grounding）。
WM-based VLA：引入未來觀測預測作為輔助目標或隱式先驗。

在這一抽象下，StarVLA實現了雙向模塊化（Bidirectional Modularity）：

可插拔Backbone：支持Qwen3-VL、InternVL等指令微調 VLM，以及Cosmos-Predict2等世界模型，只需輕量適配層即可接入統一表示契約。
可插拔Action Head：內置 4 種代表性動作解碼器，共享同一forward()與predict_action()接口：
- StarVLA-FAST：自回歸離散 Token 生成
- StarVLA-OFT：輕量 MLP 并行連續回歸
- StarVLA-π：層間 Cross-DiT 流匹配去噪
- StarVLA-GR00T：System 2（慢推理）+ System 1（快動作）雙系統架構

所有變體共享同一數據接口、訓練循環與評測管線，僅需替換Backbone或Action Head即可完成范式切換。這徹底消除了跨方法對比時的「隱性變量干擾」。

訓練范式

從單基準微調走向多模態協同

StarVLA 將訓練策略抽象為與架構解耦的可復用配置，支持三大核心范式：

1. 行為克隆監督微調（SFT）

提供完整的分布式訓練腳本（Accelerate + DeepSpeed ZeRO-2），支持全參數微調與子模塊凍結。優化器采用多參數組獨立學習率、bfloat16 混合精度與余弦衰減調度，確保異構組件訓練穩定。

2. 多目標協同訓練（Co-Training）

純動作微調極易導致 VLM 主干「災難性遺忘」。

StarVLA 內置雙數據流協同機制：交替執行 VLA 動作前向與 VLM 語言建模前向，通過trainer.loss_scale.vlm動態平衡動作學習與多模態表征保留。實驗表明，協同訓練可顯著提升空間grounding能力，并在WidowX與Google Robot 上帶來4%~10%的成功率增益。

3. 跨形態混合訓練（Cross-Embodiment）

通過LeRobotMixtureDataLoader，用戶可在YAML中聲明任意機器人數據集組合與采樣權重，框架自動處理動作空間對齊與形態標簽追蹤。這一設計讓「跨形態預訓練」從定制腳本變為標準化配置。

評測與部署

Server-Client架構打通Sim2Real

為避免benchmark依賴污染模型環境，StarVLA采用輕量級WebSocket Server-Client評測抽象：

模型側僅暴露predict_action()接口，加載 checkpoint 后啟動策略服務。
評測側（如 LIBERO、SimplerEnv、RoboTwin 2.0 官方環境）通過獨立 Client 封裝觀測字典，以 msgpack 通信，返回歸一化動作。
真實機器人部署無需修改任何代碼：只需將機器人控制器替換為 Client，提供相同格式的相機觀測與指令，即可無縫遷移至物理世界。

目前已集成7大主流基準（含LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K、CALVIN等），并附帶完整的benchmark-specific adapter 實現動作反歸一化、Chunk拆分、Delta/Absolute轉換等后處理邏輯。

性能與效率

極簡配置下的強泛化證明

StarVLA 刻意避免復雜的數據工程與在線優化（如 DAgger），僅用公開 VL 預訓練權重在基準官方演示集上微調，即可達到極具競爭力的性能：

更關鍵的是，Backbone替換幾乎不損性能：將Qwen3-VL-4B換為Cosmos-Predict2-2B，LIBERO平均分仍穩定在95.2%以上，驗證了架構的泛化魯棒性。

在跨基準Generalist設置中，單模型聯合訓練LIBERO + SimplerEnv + RoboTwin 2.0 + RoboCasa-GR1，RoboCasa平均成功率從Specialist最優的48.8%提升至57.3%，證明了統一管線下All-in-One訓練的可行性。

計算效率方面：8×A100單節點測試顯示，Per-GPU Batch Size=8時GPU利用率達92%，樣本吞吐量56.6 samples/s；擴展至256 GPU多節點時，通信開銷僅在8→32 GPU階段產生一次躍升（0.735s→0.899s/step），隨后穩定在~0.93s，并行效率維持在79%~80%，為大規模分布式訓練提供明確的Scaling Guide。

總結與展望

StarVLA的價值在于為具身智能社區提供了一套可復現、可對比、可組合的基礎設施標準。它用工程化的克制（統一 I/O 契約、聲明式 YAML 配置、Server-Client 解耦）與理論上的洞察（L = L_action + L_aux的策略統一視角），終結了 VLA 研究的「巴別塔」時代。

對于研究者，它是驗證新動作頭/新主干的即插即用沙盒；對于工程師，它是從仿真到實機零代碼修改的部署底座；對于社區，它是降低復現門檻、推動標準化評測的公共品。

參考資料：

https://arxiv.org/abs/2604.05014

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.