網易首頁 > 網易號 > 正文申請入駐

與普遍預期相反！清華、阿里Qwen團隊聯合研究，系統性揭示VLM如何影響VLA性能

2026-01-20 18:35:56　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

視覺-語言-動作（VLA）模型最近已成為具身智能領域的研究焦點，VLA模型利用視覺-語言模型（VLM）中豐富的知識作為先驗，有助于增強機器人策略的泛化能力。

現有的大多數VLA方法都側重于開發更先進的網絡架構、整合額外的訓練范式或模態，以及優化動作解碼方案。

然而，對于VLA核心的一個基本問題，目前的關注卻十分有限：底層VLM的選擇及其特定能力如何影響VLA策略的性能？

針對這個課題，清華、阿里Qwen團隊在日前聯合發表的一篇論文中提出了VLM4VLA，這是一個統一的訓練和評估框架，旨在系統地研究VLM模型對VLA模型性能的影響。

研究發現，在具身操作任務中，對VLM的性能要求與其視覺問答（VQA）能力并不完全一致。

與普遍預期相反，在通用VQA基準測試中表現良好的VLM，在應用于VLA時并不一定表現得更好。此外，在多個輔助的具身問答（Embodied-QA）任務上，對其中大多數任務進行微調反而會導致最終VLA的性能下降。

評估框架設計

研究人員首先構建了通用的VLM4VLA流水線，可將通用VLM轉換為VLA策略，這是一個精心設計的網絡插件，僅引入不到1%的新參數。

基于VLM4VLA流水線，這項研究在三個常用基準的多個下游任務上進行了大規模實證研究，共評估了24個不同的、零樣本或經過微調的VLM，主要從三個維度考察VLM的能力：通用能力、具身特定能力、模態級分析。

初步研究發現，雖然VLM初始化相比從頭訓練具有持續優勢，但VLM的通用能力并不能很好地預測其在下游任務中的性能。

不同基準之間的不一致性表明，VLA策略所需要的能力超出了當前VLM所追求的范圍。此外，通過在特定輔助具身任務上微調VLM所獲得的提升并不能遷移到下游控制任務中。

最后，模態級分析確定視覺編碼器是主要的性能瓶頸，而非語言組件。

微調視覺編碼器對于實現強控制性能至關重要，而語言編碼器的重要性較低。在將與動作相關的信息注入VLM內部的視覺模塊后所觀察到的顯著性能提升，證實了標準VLM預訓練與 VLA模型的實際需求之間存在關鍵的領域鴻溝。

結果對比和關鍵結論

為確保實驗的可復現性和公平性，這項研究在三個仿真環境中進行測試，并選擇最具挑戰性的場景作為評估基準：Calvin ABC-D、SimplerEnv Bridge和Libero-Long。

通過繪制多條通用VLM質量保證基準測試結果（橫軸代表VLM能力），以及VLA在各仿真環境下的性能（縱軸），并對兩者進行線性擬合，結果發現VLM能力與VLA性能之間并無明顯的正相關性，更強的VLM并不一定產生更強的VLA，這表明VLM預訓練目標與VLA目標之間存在錯位。

此外，論文還研究了不同VLM輔助任務對VLA性能的影響。

近期不少研究提出利用機器人數據構建VQA數據集以改進VLM骨干網，但鮮有研究探討這種持續微調是否真的能提升下游任務中VLA的性能。

結果顯示，向VLM添加與具身相關的輔助任務損失并不能保證更強的VLA。所有模型的表現均不如原始基線，大多數模型的性能都出現了輕微下降。

現有的具身VQA風格任務并不能為訓練端到端VLA以執行下游操作任務提供明顯的益處，這表明VLA可能需要廣泛的通用能力，而不僅僅是具身技能，才能在下游任務中表現良好。

在VLM4VLA訓練期間，凍結視覺編碼器會導致所有模型在Calvin和Simpler兩個基準測試上的性能顯著下降，這強烈表明，在將VLM適配為VLA時，微調視覺編碼器至關重要。

對于VLM和VLA之間差距的分析，研究人員推測，可能源于以下兩個因素：

1、真實圖像與模擬渲染（真實到模擬）：在預訓練階段，視覺模型接觸到的桌面模擬渲染圖像相對較少。因此，視覺編碼器可能缺乏對操作過程中遇到的模擬圖像的有效高級語義表示。

2、視覺語言理解與低級動作控制：VLM的視覺編碼器編碼的視覺特征與QA類任務典型的語言輸出目標更加一致，而機器人中的低級動作控制需要不同的視覺線索和表示。

結果還揭示了一個關鍵洞察，視覺編碼器微調的必要性源于“語義鴻溝”，而非仿真偽影，因為，為推理優化的VLM特征缺乏控制任務所需的細粒度表示。VLM視覺編碼器捕獲語義級別的信息，而VLA需要更詳細的空間信息。

雖然VLM預訓練對于泛化能力仍然不可或缺，但VLM和VLA的學習軌跡最終會分歧到不同的區域，這種分歧解釋了盡管兩者最初是對齊的，但它們之間仍然存在顯著的差距，這使得必須采用特定的微調策略來彌合多模態理解與機器人操作之間的差異。

研究人員表示，VLM與VLA之間的視覺差異很可能源于視覺-語言任務與底層動作控制任務之間的固有異質性，而不僅僅是簡單的圖像級“仿真到真實”差距。

爆炸式增長的VLA研究

VLA領域在過去兩年經歷了顯著增長。根據OpenReview上的關鍵詞搜索，在AI頂會ICLR中提交的相關論文數量呈現出有趣的增長趨勢。

ICLR 2024僅有1篇；ICLR 2025有6篇論文被接收，3篇被拒；ICLR 2026有164篇論文聚焦和提到VLA，更多學術創新出現在令人興奮的機器人學領域。

當前VLA研究的現狀和該領域取得的進展非常樂觀，從架構設計到訓練策略和評估方法，不少科研團隊對VLA模型的各個方面都展現出濃厚的興趣和積極貢獻。

業內人士認為，投稿數量的爆炸式增長以及在離散擴散和具身推理等有前景的方向上的融合表明，VLA研究正在迅速成熟，隨著業內不斷突破根本性挑戰，我們有望實現超強泛化能力的VLA，促進機器人在混亂的、非結構化的環境中更好工作。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

一場春節突襲，阿里改寫了AI戰局

虎嗅APP 2026-02-17 23:19:16
6 跟貼 6
國產大模型“春節檔”混戰，一文看懂豆包是怎么打這仗的

鈦媒體APP 2026-02-18 20:49:39
0 跟貼 0

Jeff Dean萬字訪談：我們正在殺死割裂AI應用，2026是大一統元年

DeepTech深科技 2026-02-18 20:02:25
4 跟貼 4

面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0
讓擴散模型「可解釋」不再降質，開啟圖片編輯新思路

機器之心Pro 2025-12-16 14:37:44
0 跟貼 0

Claude最強Sonnet模型4.6來了，百萬token上下文

機器之心Pro 2026-02-18 21:11:29
2 跟貼 2

懂人性更懂執行，螞蟻這個萬億開源模型把情商和戰斗力都給拉滿了

量子位 2026-02-19 12:45:37
2 跟貼 2
印度一大學拿中國機器狗冒充自研

環球時報 2026-02-18 16:09:05
2162 跟貼 2162

Clawdbot進化速度離譜：突然開口說話，給自己捏臉，還能炒股砍價

DeepTech深科技 2026-01-29 18:14:10
539 跟貼 539
重塑軟件工程：從Vibe Coding走向Spec Coding

鈦媒體APP 2026-02-11 09:37:53
47 跟貼 47
谷歌Gemini上線AI音樂創作，一夜革了Suno的命！

新智元 2026-02-19 12:39:23
2 跟貼 2
春晚之后，AI和機器人為啥都去了一個地方？

量子位 2026-02-19 12:40:49
5 跟貼 5
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
45億紅包打響AI入口大戰，百度給出另一種回應

量子位 2026-02-19 17:54:22
0 跟貼 0
阿里發布新一代大模型Qwen3.5，推理吞吐量提升至19倍

每日經濟新聞 2026-02-17 01:34:40
2 跟貼 2
蔡崇信回憶加入阿里，放棄百萬年薪拿500工資

快科技 2026-02-15 08:02:36
0 跟貼 0
臺媒：中國文化風靡全球

多奇探秘 2026-02-19 02:48:31
0 跟貼 0
學渣穿越回高考前一天考試，清華北大隨便挑

豫新影視 2026-02-18 12:33:37
1 跟貼 1
清華教授揚言物理太難，馬斯克接下來的話，對方瞬間啞口無言！

飛鴻愛說生活 2026-02-18 07:05:41
1 跟貼 1
阿麗瑪揚言要把公公阿里的腿也打斷(1)

休高逸 2026-02-19 05:21:43
0 跟貼 0
子彈天上飛落傷人揭秘：測試結果大反轉！

吾白薇 2026-02-15 06:39:07
70 跟貼 70
3D版ControlNet突破多模態控制，實現高精度3D資產生成

機器之心Pro 2025-09-29 16:10:08
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
盤點那些成了精的狗子們，送孩子上學吧，別耽誤靠清華了

開心君呀y 2026-02-18 23:59:32
0 跟貼 0
“我就是她取精生子的工具”清華學霸哭訴，撕開了女富豪的遮羞布

真正能保護你的 2026-02-18 10:25:25
48 跟貼 48
這個揮金如土的闊太，才是馬云真正的靠山

雷科技 2025-11-12 16:35:27
0 跟貼 0
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
本來說好考清華的，但當從舅舅嘴里得知，清華里有算術題后

爆笑大聰明丫 2026-02-17 09:55:09
165 跟貼 165
近日，青海。車主自駕青海遇男子招手搭車，男子去快遞站給孩子們取過冬物資，車主好心送男子去學校，車主：

中安在線 2026-02-18 22:00:26
122 跟貼 122
媒體：馬克龍真魔怔了在印度還暗戳戳提中國

澎湃新聞 2026-02-18 22:58:24
1733 跟貼 1733
內蒙古草原名場面！狼偷不著羊，就跟藏獒貼貼，網友：前狼假寐，蓋以誘敵

BRTV新聞 2026-02-19 07:15:56
148 跟貼 148
28歲財務自由，32歲淘寶總裁，蔣凡的人生有多爽文？

飯統戴老板 2025-09-09 15:05:13
0 跟貼 0
馬云的奇幻漂流：斷臂2023（中）

飯統戴老板 2025-10-17 10:36:14
0 跟貼 0
好神奇！視覺的錯位沖擊，在看就要睡著了

講事的少少 2026-02-15 10:45:49
1 跟貼 1
牢A講述留美華人，去哪里了

苦瓜紅夫人 2026-02-17 01:50:47
0 跟貼 0
看起來轉速不快，其實是視覺錯誤，這操作讓人“菊花”一緊！

樂活捕手 2026-02-17 07:51:36
1 跟貼 1
匈牙利、斯洛伐克宣布暫停向烏克蘭出口柴油

財聯社 2026-02-18 23:58:05
2378 跟貼 2378
小米前備箱裝水，測試結果萬萬沒想到，雷軍拯救了中國汽車

娶回時尚 2026-02-16 19:12:00
21 跟貼 21
新西蘭女孩清華畢業后，入職中國大廠！“不用996，還學了廣場舞”

發現新西蘭 2026-02-18 11:44:35
3 跟貼 3

大數據文摘

專注大數據，每日有分享！

6825文章數 94529關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

教育

房產

時尚

家居要聞

手機 / 數碼

房產 / 家居

與普遍預期相反！清華、阿里Qwen團隊聯合研究，系統性揭示VLM如何影響VLA性能

怒燒45億，騰訊字節阿里決戰春節

2名初中生扶摔倒女子被交警定次責 摔倒女子索賠22萬

2名初中生扶摔倒女子被交警定次責 摔倒女子索賠22萬

首金！蘇翊鳴唱國歌落淚 自信比1吶喊

明星過年百態！黃曉明等現身三亞

面條火腿香菇醬！上市公司這些年請你吃

量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

態度原創

本真棲居 愛暖伴流年

春花齊放2026：《駿馬奔騰迎新歲》

新航道春季班｜雅思入門預備課程：夯實英語根基，科學銜接進階

頂豪搶房潮席卷全國！ 中旅馥棠公館項目395㎡大平層加推入市！

冬季穿衣不用太復雜！內搭選高領、外套選簡約款，大方又耐看

2名初中生扶摔倒女子被交警定次責摔倒女子索賠22萬

2名初中生扶摔倒女子被交警定次責摔倒女子索賠22萬

首金！蘇翊鳴唱國歌落淚自信比1吶喊

量產甲醇插混吉利銀河星耀6甲醇插混版申報圖

本真棲居愛暖伴流年

頂豪搶房潮席卷全國！中旅馥棠公館項目395㎡大平層加推入市！