大數據文摘受權轉載自頭部科技
文丨譚梓馨
視覺-語言-動作(VLA)模型最近已成為具身智能領域的研究焦點,VLA模型利用視覺-語言模型(VLM)中豐富的知識作為先驗,有助于增強機器人策略的泛化能力。
現有的大多數VLA方法都側重于開發更先進的網絡架構、整合額外的訓練范式或模態,以及優化動作解碼方案。
然而,對于VLA核心的一個基本問題,目前的關注卻十分有限:底層VLM的選擇及其特定能力如何影響VLA策略的性能?
![]()
針對這個課題, 清華、阿里Qwen團隊在日前聯合發表的一篇論文中提出了VLM4VLA,這是一個統一的訓練和評估框架,旨在系統地研究VLM模型對VLA模型性能的影響。
研究發現,在具身操作任務中,對VLM的性能要求與其視覺問答(VQA)能力并不完全一致。
![]()
與普遍預期相反,在通用VQA基準測試中表現良好的VLM,在應用于VLA時并不一定表現得更好。此外,在多個輔助的具身問答(Embodied-QA)任務上,對其中大多數任務進行微調反而會導致最終VLA的性能下降。
評估框架設計
研究人員首先構建了通用的VLM4VLA流水線,可將通用VLM轉換為VLA策略,這是一個精心設計的網絡插件,僅引入不到1%的新參數。
![]()
基于VLM4VLA流水線,這項研究在三個常用基準的多個下游任務上進行了大規模實證研究,共評估了24個不同的、零樣本或經過微調的VLM,主要從三個維度考察VLM的能力:通用能力、具身特定能力、模態級分析。
初步研究發現,雖然VLM初始化相比從頭訓練具有持續優勢,但VLM的通用能力并不能很好地預測其在下游任務中的性能。
不同基準之間的不一致性表明,VLA策略所需要的能力超出了當前VLM所追求的范圍。此外,通過在特定輔助具身任務上微調VLM所獲得的提升并不能遷移到下游控制任務中。
最后,模態級分析確定視覺編碼器是主要的性能瓶頸, 而非語言組件 。
微調視覺編碼器對于實現強控制性能至關重要,而語言編碼器的重要性較低。在將與動作相關的信息注入VLM內部的視覺模塊后所觀察到的顯著性能提升,證實了標準VLM預訓練與 VLA模型的實際需求 之間存在關鍵的領域鴻溝。
結果對比和關鍵結論
為確保實驗的可復現性和公平性,這項研究在三個仿真環境中進行測試,并選擇最具挑戰性的場景作為評估基準:Calvin ABC-D、SimplerEnv Bridge和Libero-Long。
![]()
![]()
通過繪制多條通用VLM質量保證基準測試結果(橫軸代表VLM能力),以及VLA在各仿真環境下的性能(縱軸),并對兩者進行線性擬合,結果發現VLM能力與VLA性能之間并無明顯的正相關性,更強的VLM并不一定產生更強的VLA,這表明VLM預訓練目標與VLA目標之間存在錯位。
此外,論文還研究了不同VLM輔助任務對VLA性能的影響。
近期不少研究提出利用機器人數據構建VQA數據集以改進VLM骨干網,但鮮有研究探討這種持續微調是否真的能提升下游任務中VLA的性能。
![]()
結果顯示,向VLM添加與具身相關的輔助任務損失并不能保證更強的VLA。所有模型的表現均不如原始基線,大多數模型的性能都出現了輕微下降。
現有的具身VQA風格任務并不能為訓練端到端VLA以執行下游操作任務提供明顯的益處,這表明VLA可能需要廣泛的通用能力,而不僅僅是具身技能,才能在下游任務中表現良好。
![]()
在VLM4VLA訓練期間,凍結視覺編碼器會導致所有模型在Calvin和Simpler兩個基準測試上的性能顯著下降,這強烈表明,在將VLM適配為VLA時,微調視覺編碼器至關重要。
對于VLM和VLA之間差距的分析,研究人員推測,可能源于以下兩個因素:
1、真實圖像與模擬渲染(真實到模擬):在預訓練階段,視覺模型接觸到的桌面模擬渲染圖像相對較少。因此,視覺編碼器可能缺乏對操作過程中遇到的模擬圖像的有效高級語義表示。
2、視覺語言理解與低級動作控制:VLM的視覺編碼器編碼的視覺特征與QA類任務典型的語言輸出目標更加一致,而機器人中的低級動作控制需要不同的視覺線索和表示。
結果還揭示了一個關鍵洞察,視覺編碼器微調的必要性源于“語義鴻溝”,而非仿真偽影,因為,為推理優化的VLM特征缺乏控制任務所需的細粒度表示。VLM視覺編碼器捕獲語義級別的信息,而VLA需要更詳細的空間信息。
![]()
雖然VLM預訓練對于泛化能力仍然不可或缺,但VLM和VLA的學習軌跡最終會分歧到不同的區域,這種分歧解釋了盡管兩者最初是對齊的,但它們之間仍然存在顯著的差距,這使得必須采用特定的微調策略來彌合多模態理解與機器人操作之間的差異。
研究人員表示,VLM與VLA之間的視覺差異很可能源于視覺-語言任務與底層動作控制任務之間的固有異質性,而不僅僅是簡單的圖像級“仿真到真實”差距。
爆炸式增長的VLA研究
VLA領域在過去兩年經歷了顯著增長。根據OpenReview上的關鍵詞搜索,在AI頂會ICLR中提交的相關論文數量呈現出有趣的增長趨勢。
ICLR 2024僅有1篇;ICLR 2025有6篇論文被接收,3篇被拒;ICLR 2026有164篇論文聚焦和提到VLA,更多學術創新出現在令人興奮的機器人學領域。
![]()
當前VLA研究的現狀和該領域取得的進展非常樂觀,從架構設計到訓練策略和評估方法,不少科研團隊對VLA模型的各個方面都展現出濃厚的興趣和積極貢獻。
業內人士認為,投稿數量的爆炸式增長以及在離散擴散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,隨著業內不斷突破根本性挑戰,我們有望實現超強泛化能力的VLA,促進機器人在混亂的、非結構化的環境中更好工作。
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.