<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      與普遍預期相反!清華、阿里Qwen團隊聯合研究,系統性揭示VLM如何影響VLA性能

      0
      分享至

      大數據文摘受權轉載自頭部科技

      文丨譚梓馨

      視覺-語言-動作(VLA)模型最近已成為具身智能領域的研究焦點,VLA模型利用視覺-語言模型(VLM)中豐富的知識作為先驗,有助于增強機器人策略的泛化能力。

      現有的大多數VLA方法都側重于開發更先進的網絡架構、整合額外的訓練范式或模態,以及優化動作解碼方案。

      然而,對于VLA核心的一個基本問題,目前的關注卻十分有限:底層VLM的選擇及其特定能力如何影響VLA策略的性能?


      針對這個課題, 清華、阿里Qwen團隊在日前聯合發表的一篇論文中提出了VLM4VLA,這是一個統一的訓練和評估框架,旨在系統地研究VLM模型對VLA模型性能的影響。

      研究發現,在具身操作任務中,對VLM的性能要求與其視覺問答(VQA)能力并不完全一致。


      與普遍預期相反,在通用VQA基準測試中表現良好的VLM,在應用于VLA時并不一定表現得更好。此外,在多個輔助的具身問答(Embodied-QA)任務上,對其中大多數任務進行微調反而會導致最終VLA的性能下降。

      評估框架設計

      研究人員首先構建了通用的VLM4VLA流水線,可將通用VLM轉換為VLA策略,這是一個精心設計的網絡插件,僅引入不到1%的新參數


      基于VLM4VLA流水線,這項研究在三個常用基準的多個下游任務上進行了大規模實證研究,共評估了24個不同的、零樣本或經過微調的VLM,主要從三個維度考察VLM的能力:通用能力、具身特定能力、模態級分析。

      初步研究發現,雖然VLM初始化相比從頭訓練具有持續優勢,但VLM的通用能力并不能很好地預測其在下游任務中的性能。

      不同基準之間的不一致性表明,VLA策略所需要的能力超出了當前VLM所追求的范圍。此外,通過在特定輔助具身任務上微調VLM所獲得的提升并不能遷移到下游控制任務中。

      最后,模態級分析確定視覺編碼器是主要的性能瓶頸, 而非語言組件 。

      微調視覺編碼器對于實現強控制性能至關重要,而語言編碼器的重要性較低。在將與動作相關的信息注入VLM內部的視覺模塊后所觀察到的顯著性能提升,證實了標準VLM預訓練與 VLA模型的實際需求 之間存在關鍵的領域鴻溝。

      結果對比和關鍵結論

      為確保實驗的可復現性和公平性,這項研究在三個仿真環境中進行測試,并選擇最具挑戰性的場景作為評估基準:Calvin ABC-D、SimplerEnv Bridge和Libero-Long。



      通過繪制多條通用VLM質量保證基準測試結果(橫軸代表VLM能力),以及VLA在各仿真環境下的性能(縱軸),并對兩者進行線性擬合,結果發現VLM能力與VLA性能之間并無明顯的正相關性,更強的VLM并不一定產生更強的VLA,這表明VLM預訓練目標與VLA目標之間存在錯位。

      此外,論文還研究了不同VLM輔助任務對VLA性能的影響。

      近期不少研究提出利用機器人數據構建VQA數據集以改進VLM骨干網,但鮮有研究探討這種持續微調是否真的能提升下游任務中VLA的性能。


      結果顯示,向VLM添加與具身相關的輔助任務損失并不能保證更強的VLA。所有模型的表現均不如原始基線,大多數模型的性能都出現了輕微下降。

      現有的具身VQA風格任務并不能為訓練端到端VLA以執行下游操作任務提供明顯的益處,這表明VLA可能需要廣泛的通用能力,而不僅僅是具身技能,才能在下游任務中表現良好。


      在VLM4VLA訓練期間,凍結視覺編碼器會導致所有模型在Calvin和Simpler兩個基準測試上的性能顯著下降,這強烈表明,在將VLM適配為VLA時,微調視覺編碼器至關重要。

      對于VLM和VLA之間差距的分析,研究人員推測,可能源于以下兩個因素:

      1、真實圖像與模擬渲染(真實到模擬):在預訓練階段,視覺模型接觸到的桌面模擬渲染圖像相對較少。因此,視覺編碼器可能缺乏對操作過程中遇到的模擬圖像的有效高級語義表示。

      2、視覺語言理解與低級動作控制:VLM的視覺編碼器編碼的視覺特征與QA類任務典型的語言輸出目標更加一致,而機器人中的低級動作控制需要不同的視覺線索和表示。

      結果還揭示了一個關鍵洞察,視覺編碼器微調的必要性源于“語義鴻溝”,而非仿真偽影,因為,為推理優化的VLM特征缺乏控制任務所需的細粒度表示。VLM視覺編碼器捕獲語義級別的信息,而VLA需要更詳細的空間信息。


      雖然VLM預訓練對于泛化能力仍然不可或缺,但VLM和VLA的學習軌跡最終會分歧到不同的區域,這種分歧解釋了盡管兩者最初是對齊的,但它們之間仍然存在顯著的差距,這使得必須采用特定的微調策略來彌合多模態理解與機器人操作之間的差異。

      研究人員表示,VLM與VLA之間的視覺差異很可能源于視覺-語言任務與底層動作控制任務之間的固有異質性,而不僅僅是簡單的圖像級“仿真到真實”差距。

      爆炸式增長的VLA研究

      VLA領域在過去兩年經歷了顯著增長。根據OpenReview上的關鍵詞搜索,在AI頂會ICLR中提交的相關論文數量呈現出有趣的增長趨勢。

      ICLR 2024僅有1篇;ICLR 2025有6篇論文被接收,3篇被拒;ICLR 2026有164篇論文聚焦和提到VLA,更多學術創新出現在令人興奮的機器人學領域。


      當前VLA研究的現狀和該領域取得的進展非常樂觀,從架構設計到訓練策略和評估方法,不少科研團隊對VLA模型的各個方面都展現出濃厚的興趣和積極貢獻。

      業內人士認為,投稿數量的爆炸式增長以及在離散擴散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,隨著業內不斷突破根本性挑戰,我們有望實現超強泛化能力的VLA,促進機器人在混亂的、非結構化的環境中更好工作。


      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      盧浮宮十年驚天騙局曝光!中國導游團伙內外勾結,損失超千萬歐元

      盧浮宮十年驚天騙局曝光!中國導游團伙內外勾結,損失超千萬歐元

      老馬拉車莫少裝
      2026-02-19 05:14:29
      27歲荷蘭女王破紀錄,拉鏈一拉全網爆,代言或超百萬美元?

      27歲荷蘭女王破紀錄,拉鏈一拉全網爆,代言或超百萬美元?

      老吳教育課堂
      2026-02-19 04:14:51
      前線嘴炮互不相讓,后方能源接連被炸,這場消耗戰早已沒有底線

      前線嘴炮互不相讓,后方能源接連被炸,這場消耗戰早已沒有底線

      軍聞新大門
      2026-02-19 16:47:15
      小球時代的王,盤點錯過庫里的3支球隊,尼克斯可惜,1隊錯過2次

      小球時代的王,盤點錯過庫里的3支球隊,尼克斯可惜,1隊錯過2次

      摸神drose
      2026-02-19 16:42:44
      大衣哥女兒回娘家,朱雪梅超200斤體重頂雞窩頭,帶10箱牛奶火腿

      大衣哥女兒回娘家,朱雪梅超200斤體重頂雞窩頭,帶10箱牛奶火腿

      瘋說時尚
      2026-02-19 09:32:15
      皇俄大佬直言:俄已無力全面升級,再打要動50萬動員與民眾存款

      皇俄大佬直言:俄已無力全面升級,再打要動50萬動員與民眾存款

      老馬拉車莫少裝
      2026-02-17 11:40:19
      三花智控,悶聲發財!

      三花智控,悶聲發財!

      投研邦V
      2026-02-17 20:13:49
      馬謖為何丟了街亭,輕視“當道扎營”,千年后塔山防守戰給出答案

      馬謖為何丟了街亭,輕視“當道扎營”,千年后塔山防守戰給出答案

      芊芊子吟
      2026-02-19 10:40:05
      越活越舒服的10個小習慣,請從今天開始養成!

      越活越舒服的10個小習慣,請從今天開始養成!

      明智家庭教育
      2026-02-14 11:07:51
      俄方向美方發出照會,未得到答復

      俄方向美方發出照會,未得到答復

      上觀新聞
      2026-02-19 17:59:07
      一級軍士長王忠心簡歷,他享受什么待遇?退休后婉拒百萬年薪

      一級軍士長王忠心簡歷,他享受什么待遇?退休后婉拒百萬年薪

      混沌錄
      2026-01-27 22:33:05
      美國男籃世界杯預選賽12人大名單:懷斯曼、布蘭登·奈特在列

      美國男籃世界杯預選賽12人大名單:懷斯曼、布蘭登·奈特在列

      林子說事
      2026-02-19 14:29:08
      乾隆對準噶爾的“滅族行動”,究竟給當時世界帶來多大沖擊波

      乾隆對準噶爾的“滅族行動”,究竟給當時世界帶來多大沖擊波

      會跳的加菲貓
      2026-02-07 13:35:17
      術后五年一切良好,醫生看著腫瘤標志物報告:馬上回來住院!

      術后五年一切良好,醫生看著腫瘤標志物報告:馬上回來住院!

      荷蘭豆愛健康
      2026-02-19 14:46:19
      2026年春晚語言類節目評分出爐,只有一個作品超過及格線

      2026年春晚語言類節目評分出爐,只有一個作品超過及格線

      那些故事有點遠
      2026-02-17 10:00:14
      山東一男子10歲時父親離世被親戚收留,長大后在除夕悄悄放禮品在親戚家門口“一事無成,沒臉見他們”

      山東一男子10歲時父親離世被親戚收留,長大后在除夕悄悄放禮品在親戚家門口“一事無成,沒臉見他們”

      大象新聞
      2026-02-19 11:48:13
      徐志勝回山東老家秒變社恐,家宴被圍觀啃饅頭挺尷尬,才開13萬車

      徐志勝回山東老家秒變社恐,家宴被圍觀啃饅頭挺尷尬,才開13萬車

      瘋說時尚
      2026-02-19 14:15:02
      寧波一男子除夕夜報警,稱開車時不小心撞到花壇和指示牌,結果因涉嫌危險駕駛罪被拘!

      寧波一男子除夕夜報警,稱開車時不小心撞到花壇和指示牌,結果因涉嫌危險駕駛罪被拘!

      環球網資訊
      2026-02-19 15:09:15
      放心吧,我們不是日本,也不會有“失去的三十年”

      放心吧,我們不是日本,也不會有“失去的三十年”

      六爺阿旦
      2026-01-19 17:10:26
      親戚很有錢是啥體驗?網友:果然窮人只想沾光,這就是人性!

      親戚很有錢是啥體驗?網友:果然窮人只想沾光,這就是人性!

      帶你感受人間冷暖
      2025-11-26 00:15:03
      2026-02-19 18:36:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6825文章數 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      2名初中生扶摔倒女子被交警定次責 摔倒女子索賠22萬

      頭條要聞

      2名初中生扶摔倒女子被交警定次責 摔倒女子索賠22萬

      體育要聞

      首金!蘇翊鳴唱國歌落淚 自信比1吶喊

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      家居
      本地
      教育
      房產
      時尚

      家居要聞

      本真棲居 愛暖伴流年

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      教育要聞

      新航道春季班|雅思入門預備課程:夯實英語根基,科學銜接進階

      房產要聞

      頂豪搶房潮席卷全國! 中旅馥棠公館項目395㎡大平層加推入市!

      冬季穿衣不用太復雜!內搭選高領、外套選簡約款,大方又耐看

      無障礙瀏覽 進入關懷版