大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨譚梓馨
視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型最近已成為具身智能領(lǐng)域的研究焦點(diǎn),VLA模型利用視覺(jué)-語(yǔ)言模型(VLM)中豐富的知識(shí)作為先驗(yàn),有助于增強(qiáng)機(jī)器人策略的泛化能力。
現(xiàn)有的大多數(shù)VLA方法都側(cè)重于開(kāi)發(fā)更先進(jìn)的網(wǎng)絡(luò)架構(gòu)、整合額外的訓(xùn)練范式或模態(tài),以及優(yōu)化動(dòng)作解碼方案。
然而,對(duì)于VLA核心的一個(gè)基本問(wèn)題,目前的關(guān)注卻十分有限:底層VLM的選擇及其特定能力如何影響VLA策略的性能?
![]()
針對(duì)這個(gè)課題, 清華、阿里Qwen團(tuán)隊(duì)在日前聯(lián)合發(fā)表的一篇論文中提出了VLM4VLA,這是一個(gè)統(tǒng)一的訓(xùn)練和評(píng)估框架,旨在系統(tǒng)地研究VLM模型對(duì)VLA模型性能的影響。
研究發(fā)現(xiàn),在具身操作任務(wù)中,對(duì)VLM的性能要求與其視覺(jué)問(wèn)答(VQA)能力并不完全一致。
![]()
與普遍預(yù)期相反,在通用VQA基準(zhǔn)測(cè)試中表現(xiàn)良好的VLM,在應(yīng)用于VLA時(shí)并不一定表現(xiàn)得更好。此外,在多個(gè)輔助的具身問(wèn)答(Embodied-QA)任務(wù)上,對(duì)其中大多數(shù)任務(wù)進(jìn)行微調(diào)反而會(huì)導(dǎo)致最終VLA的性能下降。
評(píng)估框架設(shè)計(jì)
研究人員首先構(gòu)建了通用的VLM4VLA流水線(xiàn),可將通用VLM轉(zhuǎn)換為VLA策略,這是一個(gè)精心設(shè)計(jì)的網(wǎng)絡(luò)插件,僅引入不到1%的新參數(shù)。
![]()
基于VLM4VLA流水線(xiàn),這項(xiàng)研究在三個(gè)常用基準(zhǔn)的多個(gè)下游任務(wù)上進(jìn)行了大規(guī)模實(shí)證研究,共評(píng)估了24個(gè)不同的、零樣本或經(jīng)過(guò)微調(diào)的VLM,主要從三個(gè)維度考察VLM的能力:通用能力、具身特定能力、模態(tài)級(jí)分析。
初步研究發(fā)現(xiàn),雖然VLM初始化相比從頭訓(xùn)練具有持續(xù)優(yōu)勢(shì),但VLM的通用能力并不能很好地預(yù)測(cè)其在下游任務(wù)中的性能。
不同基準(zhǔn)之間的不一致性表明,VLA策略所需要的能力超出了當(dāng)前VLM所追求的范圍。此外,通過(guò)在特定輔助具身任務(wù)上微調(diào)VLM所獲得的提升并不能遷移到下游控制任務(wù)中。
最后,模態(tài)級(jí)分析確定視覺(jué)編碼器是主要的性能瓶頸, 而非語(yǔ)言組件 。
微調(diào)視覺(jué)編碼器對(duì)于實(shí)現(xiàn)強(qiáng)控制性能至關(guān)重要,而語(yǔ)言編碼器的重要性較低。在將與動(dòng)作相關(guān)的信息注入VLM內(nèi)部的視覺(jué)模塊后所觀(guān)察到的顯著性能提升,證實(shí)了標(biāo)準(zhǔn)VLM預(yù)訓(xùn)練與 VLA模型的實(shí)際需求 之間存在關(guān)鍵的領(lǐng)域鴻溝。
結(jié)果對(duì)比和關(guān)鍵結(jié)論
為確保實(shí)驗(yàn)的可復(fù)現(xiàn)性和公平性,這項(xiàng)研究在三個(gè)仿真環(huán)境中進(jìn)行測(cè)試,并選擇最具挑戰(zhàn)性的場(chǎng)景作為評(píng)估基準(zhǔn):Calvin ABC-D、SimplerEnv Bridge和Libero-Long。
![]()
![]()
通過(guò)繪制多條通用VLM質(zhì)量保證基準(zhǔn)測(cè)試結(jié)果(橫軸代表VLM能力),以及VLA在各仿真環(huán)境下的性能(縱軸),并對(duì)兩者進(jìn)行線(xiàn)性擬合,結(jié)果發(fā)現(xiàn)VLM能力與VLA性能之間并無(wú)明顯的正相關(guān)性,更強(qiáng)的VLM并不一定產(chǎn)生更強(qiáng)的VLA,這表明VLM預(yù)訓(xùn)練目標(biāo)與VLA目標(biāo)之間存在錯(cuò)位。
此外,論文還研究了不同VLM輔助任務(wù)對(duì)VLA性能的影響。
近期不少研究提出利用機(jī)器人數(shù)據(jù)構(gòu)建VQA數(shù)據(jù)集以改進(jìn)VLM骨干網(wǎng),但鮮有研究探討這種持續(xù)微調(diào)是否真的能提升下游任務(wù)中VLA的性能。
![]()
結(jié)果顯示,向VLM添加與具身相關(guān)的輔助任務(wù)損失并不能保證更強(qiáng)的VLA。所有模型的表現(xiàn)均不如原始基線(xiàn),大多數(shù)模型的性能都出現(xiàn)了輕微下降。
現(xiàn)有的具身VQA風(fēng)格任務(wù)并不能為訓(xùn)練端到端VLA以執(zhí)行下游操作任務(wù)提供明顯的益處,這表明VLA可能需要廣泛的通用能力,而不僅僅是具身技能,才能在下游任務(wù)中表現(xiàn)良好。
![]()
在VLM4VLA訓(xùn)練期間,凍結(jié)視覺(jué)編碼器會(huì)導(dǎo)致所有模型在Calvin和Simpler兩個(gè)基準(zhǔn)測(cè)試上的性能顯著下降,這強(qiáng)烈表明,在將VLM適配為VLA時(shí),微調(diào)視覺(jué)編碼器至關(guān)重要。
對(duì)于VLM和VLA之間差距的分析,研究人員推測(cè),可能源于以下兩個(gè)因素:
1、真實(shí)圖像與模擬渲染(真實(shí)到模擬):在預(yù)訓(xùn)練階段,視覺(jué)模型接觸到的桌面模擬渲染圖像相對(duì)較少。因此,視覺(jué)編碼器可能缺乏對(duì)操作過(guò)程中遇到的模擬圖像的有效高級(jí)語(yǔ)義表示。
2、視覺(jué)語(yǔ)言理解與低級(jí)動(dòng)作控制:VLM的視覺(jué)編碼器編碼的視覺(jué)特征與QA類(lèi)任務(wù)典型的語(yǔ)言輸出目標(biāo)更加一致,而機(jī)器人中的低級(jí)動(dòng)作控制需要不同的視覺(jué)線(xiàn)索和表示。
結(jié)果還揭示了一個(gè)關(guān)鍵洞察,視覺(jué)編碼器微調(diào)的必要性源于“語(yǔ)義鴻溝”,而非仿真?zhèn)斡埃?strong>因?yàn)椋瑸橥评韮?yōu)化的VLM特征缺乏控制任務(wù)所需的細(xì)粒度表示。VLM視覺(jué)編碼器捕獲語(yǔ)義級(jí)別的信息,而VLA需要更詳細(xì)的空間信息。
![]()
雖然VLM預(yù)訓(xùn)練對(duì)于泛化能力仍然不可或缺,但VLM和VLA的學(xué)習(xí)軌跡最終會(huì)分歧到不同的區(qū)域,這種分歧解釋了盡管兩者最初是對(duì)齊的,但它們之間仍然存在顯著的差距,這使得必須采用特定的微調(diào)策略來(lái)彌合多模態(tài)理解與機(jī)器人操作之間的差異。
研究人員表示,VLM與VLA之間的視覺(jué)差異很可能源于視覺(jué)-語(yǔ)言任務(wù)與底層動(dòng)作控制任務(wù)之間的固有異質(zhì)性,而不僅僅是簡(jiǎn)單的圖像級(jí)“仿真到真實(shí)”差距。
爆炸式增長(zhǎng)的VLA研究
VLA領(lǐng)域在過(guò)去兩年經(jīng)歷了顯著增長(zhǎng)。根據(jù)OpenReview上的關(guān)鍵詞搜索,在A(yíng)I頂會(huì)ICLR中提交的相關(guān)論文數(shù)量呈現(xiàn)出有趣的增長(zhǎng)趨勢(shì)。
ICLR 2024僅有1篇;ICLR 2025有6篇論文被接收,3篇被拒;ICLR 2026有164篇論文聚焦和提到VLA,更多學(xué)術(shù)創(chuàng)新出現(xiàn)在令人興奮的機(jī)器人學(xué)領(lǐng)域。
![]()
當(dāng)前VLA研究的現(xiàn)狀和該領(lǐng)域取得的進(jìn)展非常樂(lè)觀(guān),從架構(gòu)設(shè)計(jì)到訓(xùn)練策略和評(píng)估方法,不少科研團(tuán)隊(duì)對(duì)VLA模型的各個(gè)方面都展現(xiàn)出濃厚的興趣和積極貢獻(xiàn)。
業(yè)內(nèi)人士認(rèn)為,投稿數(shù)量的爆炸式增長(zhǎng)以及在離散擴(kuò)散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,隨著業(yè)內(nèi)不斷突破根本性挑戰(zhàn),我們有望實(shí)現(xiàn)超強(qiáng)泛化能力的VLA,促進(jìn)機(jī)器人在混亂的、非結(jié)構(gòu)化的環(huán)境中更好工作。
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.