<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      與普遍預(yù)期相反!清華、阿里Qwen團(tuán)隊(duì)聯(lián)合研究,系統(tǒng)性揭示VLM如何影響VLA性能

      0
      分享至

      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

      文丨譚梓馨

      視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型最近已成為具身智能領(lǐng)域的研究焦點(diǎn),VLA模型利用視覺(jué)-語(yǔ)言模型(VLM)中豐富的知識(shí)作為先驗(yàn),有助于增強(qiáng)機(jī)器人策略的泛化能力。

      現(xiàn)有的大多數(shù)VLA方法都側(cè)重于開(kāi)發(fā)更先進(jìn)的網(wǎng)絡(luò)架構(gòu)、整合額外的訓(xùn)練范式或模態(tài),以及優(yōu)化動(dòng)作解碼方案。

      然而,對(duì)于VLA核心的一個(gè)基本問(wèn)題,目前的關(guān)注卻十分有限:底層VLM的選擇及其特定能力如何影響VLA策略的性能?


      針對(duì)這個(gè)課題, 清華、阿里Qwen團(tuán)隊(duì)在日前聯(lián)合發(fā)表的一篇論文中提出了VLM4VLA,這是一個(gè)統(tǒng)一的訓(xùn)練和評(píng)估框架,旨在系統(tǒng)地研究VLM模型對(duì)VLA模型性能的影響。

      研究發(fā)現(xiàn),在具身操作任務(wù)中,對(duì)VLM的性能要求與其視覺(jué)問(wèn)答(VQA)能力并不完全一致。


      與普遍預(yù)期相反,在通用VQA基準(zhǔn)測(cè)試中表現(xiàn)良好的VLM,在應(yīng)用于VLA時(shí)并不一定表現(xiàn)得更好。此外,在多個(gè)輔助的具身問(wèn)答(Embodied-QA)任務(wù)上,對(duì)其中大多數(shù)任務(wù)進(jìn)行微調(diào)反而會(huì)導(dǎo)致最終VLA的性能下降。

      評(píng)估框架設(shè)計(jì)

      研究人員首先構(gòu)建了通用的VLM4VLA流水線(xiàn),可將通用VLM轉(zhuǎn)換為VLA策略,這是一個(gè)精心設(shè)計(jì)的網(wǎng)絡(luò)插件,僅引入不到1%的新參數(shù)


      基于VLM4VLA流水線(xiàn),這項(xiàng)研究在三個(gè)常用基準(zhǔn)的多個(gè)下游任務(wù)上進(jìn)行了大規(guī)模實(shí)證研究,共評(píng)估了24個(gè)不同的、零樣本或經(jīng)過(guò)微調(diào)的VLM,主要從三個(gè)維度考察VLM的能力:通用能力、具身特定能力、模態(tài)級(jí)分析。

      初步研究發(fā)現(xiàn),雖然VLM初始化相比從頭訓(xùn)練具有持續(xù)優(yōu)勢(shì),但VLM的通用能力并不能很好地預(yù)測(cè)其在下游任務(wù)中的性能。

      不同基準(zhǔn)之間的不一致性表明,VLA策略所需要的能力超出了當(dāng)前VLM所追求的范圍。此外,通過(guò)在特定輔助具身任務(wù)上微調(diào)VLM所獲得的提升并不能遷移到下游控制任務(wù)中。

      最后,模態(tài)級(jí)分析確定視覺(jué)編碼器是主要的性能瓶頸, 而非語(yǔ)言組件 。

      微調(diào)視覺(jué)編碼器對(duì)于實(shí)現(xiàn)強(qiáng)控制性能至關(guān)重要,而語(yǔ)言編碼器的重要性較低。在將與動(dòng)作相關(guān)的信息注入VLM內(nèi)部的視覺(jué)模塊后所觀(guān)察到的顯著性能提升,證實(shí)了標(biāo)準(zhǔn)VLM預(yù)訓(xùn)練與 VLA模型的實(shí)際需求 之間存在關(guān)鍵的領(lǐng)域鴻溝。

      結(jié)果對(duì)比和關(guān)鍵結(jié)論

      為確保實(shí)驗(yàn)的可復(fù)現(xiàn)性和公平性,這項(xiàng)研究在三個(gè)仿真環(huán)境中進(jìn)行測(cè)試,并選擇最具挑戰(zhàn)性的場(chǎng)景作為評(píng)估基準(zhǔn):Calvin ABC-D、SimplerEnv Bridge和Libero-Long。



      通過(guò)繪制多條通用VLM質(zhì)量保證基準(zhǔn)測(cè)試結(jié)果(橫軸代表VLM能力),以及VLA在各仿真環(huán)境下的性能(縱軸),并對(duì)兩者進(jìn)行線(xiàn)性擬合,結(jié)果發(fā)現(xiàn)VLM能力與VLA性能之間并無(wú)明顯的正相關(guān)性,更強(qiáng)的VLM并不一定產(chǎn)生更強(qiáng)的VLA,這表明VLM預(yù)訓(xùn)練目標(biāo)與VLA目標(biāo)之間存在錯(cuò)位。

      此外,論文還研究了不同VLM輔助任務(wù)對(duì)VLA性能的影響。

      近期不少研究提出利用機(jī)器人數(shù)據(jù)構(gòu)建VQA數(shù)據(jù)集以改進(jìn)VLM骨干網(wǎng),但鮮有研究探討這種持續(xù)微調(diào)是否真的能提升下游任務(wù)中VLA的性能。


      結(jié)果顯示,向VLM添加與具身相關(guān)的輔助任務(wù)損失并不能保證更強(qiáng)的VLA。所有模型的表現(xiàn)均不如原始基線(xiàn),大多數(shù)模型的性能都出現(xiàn)了輕微下降。

      現(xiàn)有的具身VQA風(fēng)格任務(wù)并不能為訓(xùn)練端到端VLA以執(zhí)行下游操作任務(wù)提供明顯的益處,這表明VLA可能需要廣泛的通用能力,而不僅僅是具身技能,才能在下游任務(wù)中表現(xiàn)良好。


      在VLM4VLA訓(xùn)練期間,凍結(jié)視覺(jué)編碼器會(huì)導(dǎo)致所有模型在Calvin和Simpler兩個(gè)基準(zhǔn)測(cè)試上的性能顯著下降,這強(qiáng)烈表明,在將VLM適配為VLA時(shí),微調(diào)視覺(jué)編碼器至關(guān)重要。

      對(duì)于VLM和VLA之間差距的分析,研究人員推測(cè),可能源于以下兩個(gè)因素:

      1、真實(shí)圖像與模擬渲染(真實(shí)到模擬):在預(yù)訓(xùn)練階段,視覺(jué)模型接觸到的桌面模擬渲染圖像相對(duì)較少。因此,視覺(jué)編碼器可能缺乏對(duì)操作過(guò)程中遇到的模擬圖像的有效高級(jí)語(yǔ)義表示。

      2、視覺(jué)語(yǔ)言理解與低級(jí)動(dòng)作控制:VLM的視覺(jué)編碼器編碼的視覺(jué)特征與QA類(lèi)任務(wù)典型的語(yǔ)言輸出目標(biāo)更加一致,而機(jī)器人中的低級(jí)動(dòng)作控制需要不同的視覺(jué)線(xiàn)索和表示。

      結(jié)果還揭示了一個(gè)關(guān)鍵洞察,視覺(jué)編碼器微調(diào)的必要性源于“語(yǔ)義鴻溝”,而非仿真?zhèn)斡埃?strong>因?yàn)椋瑸橥评韮?yōu)化的VLM特征缺乏控制任務(wù)所需的細(xì)粒度表示。VLM視覺(jué)編碼器捕獲語(yǔ)義級(jí)別的信息,而VLA需要更詳細(xì)的空間信息。


      雖然VLM預(yù)訓(xùn)練對(duì)于泛化能力仍然不可或缺,但VLM和VLA的學(xué)習(xí)軌跡最終會(huì)分歧到不同的區(qū)域,這種分歧解釋了盡管兩者最初是對(duì)齊的,但它們之間仍然存在顯著的差距,這使得必須采用特定的微調(diào)策略來(lái)彌合多模態(tài)理解與機(jī)器人操作之間的差異。

      研究人員表示,VLM與VLA之間的視覺(jué)差異很可能源于視覺(jué)-語(yǔ)言任務(wù)與底層動(dòng)作控制任務(wù)之間的固有異質(zhì)性,而不僅僅是簡(jiǎn)單的圖像級(jí)“仿真到真實(shí)”差距。

      爆炸式增長(zhǎng)的VLA研究

      VLA領(lǐng)域在過(guò)去兩年經(jīng)歷了顯著增長(zhǎng)。根據(jù)OpenReview上的關(guān)鍵詞搜索,在A(yíng)I頂會(huì)ICLR中提交的相關(guān)論文數(shù)量呈現(xiàn)出有趣的增長(zhǎng)趨勢(shì)。

      ICLR 2024僅有1篇;ICLR 2025有6篇論文被接收,3篇被拒;ICLR 2026有164篇論文聚焦和提到VLA,更多學(xué)術(shù)創(chuàng)新出現(xiàn)在令人興奮的機(jī)器人學(xué)領(lǐng)域。


      當(dāng)前VLA研究的現(xiàn)狀和該領(lǐng)域取得的進(jìn)展非常樂(lè)觀(guān),從架構(gòu)設(shè)計(jì)到訓(xùn)練策略和評(píng)估方法,不少科研團(tuán)隊(duì)對(duì)VLA模型的各個(gè)方面都展現(xiàn)出濃厚的興趣和積極貢獻(xiàn)。

      業(yè)內(nèi)人士認(rèn)為,投稿數(shù)量的爆炸式增長(zhǎng)以及在離散擴(kuò)散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,隨著業(yè)內(nèi)不斷突破根本性挑戰(zhàn),我們有望實(shí)現(xiàn)超強(qiáng)泛化能力的VLA,促進(jìn)機(jī)器人在混亂的、非結(jié)構(gòu)化的環(huán)境中更好工作。


      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

      掃碼了解詳情?

      點(diǎn)「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      南京一派出所副所長(zhǎng)為完成查處任務(wù),“設(shè)計(jì)”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

      南京一派出所副所長(zhǎng)為完成查處任務(wù),“設(shè)計(jì)”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

      大風(fēng)新聞
      2026-04-25 22:34:13
      一旦武統(tǒng)臺(tái)灣,這4個(gè)臺(tái)灣人必上“斬首”名單,一個(gè)都跑不掉!

      一旦武統(tǒng)臺(tái)灣,這4個(gè)臺(tái)灣人必上“斬首”名單,一個(gè)都跑不掉!

      混沌錄
      2026-04-23 21:14:04
      快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

      快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

      極目新聞
      2025-10-28 11:13:51
      中國(guó)第四艘航母官宣:是核動(dòng)力!舷號(hào)19,命名大概率是“江蘇號(hào)”

      中國(guó)第四艘航母官宣:是核動(dòng)力!舷號(hào)19,命名大概率是“江蘇號(hào)”

      福建睿平
      2026-04-26 10:53:36
      動(dòng)力電池下半場(chǎng),瑞浦蘭鈞如何押注場(chǎng)景、平臺(tái)、全球化

      動(dòng)力電池下半場(chǎng),瑞浦蘭鈞如何押注場(chǎng)景、平臺(tái)、全球化

      芯流智庫(kù)
      2026-04-26 11:10:21
      又一個(gè)3-0!SGA42+8雷霆再勝太陽(yáng),布魯克斯33+7布克16中6

      又一個(gè)3-0!SGA42+8雷霆再勝太陽(yáng),布魯克斯33+7布克16中6

      湖人崛起
      2026-04-26 06:03:20
      小米:李某華已被行拘

      小米:李某華已被行拘

      南方都市報(bào)
      2026-04-26 12:01:47
      白宮開(kāi)槍兇手是老師?網(wǎng)傳其剛在洛杉磯拿了“月度優(yōu)秀教師”獎(jiǎng)

      白宮開(kāi)槍兇手是老師?網(wǎng)傳其剛在洛杉磯拿了“月度優(yōu)秀教師”獎(jiǎng)

      爆角追蹤
      2026-04-26 12:16:15
      霍爾木茲海峽,傳來(lái)大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬(wàn)人爆倉(cāng)!

      霍爾木茲海峽,傳來(lái)大消息!伊朗總統(tǒng),最新發(fā)聲!比特幣跳水,超9.9萬(wàn)人爆倉(cāng)!

      證券時(shí)報(bào)e公司
      2026-04-25 22:11:02
      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣(mài)淫行為?

      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣(mài)淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      圓明園地下大反轉(zhuǎn),大火燒掉的僅是圓明園的表皮

      圓明園地下大反轉(zhuǎn),大火燒掉的僅是圓明園的表皮

      混沌錄
      2026-04-24 21:02:11
      從攤位被擋到全網(wǎng)撐腰,長(zhǎng)沙后湖這個(gè)煎餅攤前隊(duì)伍越排越長(zhǎng),女?dāng)傊饔袀€(gè)樸素簡(jiǎn)單的愿望

      從攤位被擋到全網(wǎng)撐腰,長(zhǎng)沙后湖這個(gè)煎餅攤前隊(duì)伍越排越長(zhǎng),女?dāng)傊饔袀€(gè)樸素簡(jiǎn)單的愿望

      瀟湘晨報(bào)
      2026-04-25 21:02:19
      孩子脫臼復(fù)位只收100元,家長(zhǎng)舉報(bào)亂收費(fèi)!衛(wèi)健委:應(yīng)收110元,你還少給了!家長(zhǎng)拒繳費(fèi)后離開(kāi)!

      孩子脫臼復(fù)位只收100元,家長(zhǎng)舉報(bào)亂收費(fèi)!衛(wèi)健委:應(yīng)收110元,你還少給了!家長(zhǎng)拒繳費(fèi)后離開(kāi)!

      醫(yī)脈圈
      2026-04-25 20:04:06
      兩男子應(yīng)聘浦發(fā)銀行銷(xiāo)售代表,通過(guò)3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學(xué)歷不符為由拒絕入職

      兩男子應(yīng)聘浦發(fā)銀行銷(xiāo)售代表,通過(guò)3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學(xué)歷不符為由拒絕入職

      大象新聞
      2026-04-24 16:49:09
      俄朝圖們江二橋主體正式合攏!比一橋更矮,摯友關(guān)系似乎更貼近了

      俄朝圖們江二橋主體正式合攏!比一橋更矮,摯友關(guān)系似乎更貼近了

      歷史擺渡
      2026-04-25 22:30:03
      北京緊急通報(bào)!柬埔寨國(guó)王在華手術(shù),全程不回本國(guó),原因不簡(jiǎn)單

      北京緊急通報(bào)!柬埔寨國(guó)王在華手術(shù),全程不回本國(guó),原因不簡(jiǎn)單

      白淺娛樂(lè)聊
      2026-04-26 06:58:48
      30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

      30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

      迷世書(shū)童H9527
      2026-04-25 14:15:25
      消息人士:白宮記協(xié)晚宴安全事件嫌疑人作案目標(biāo)為美政府官員

      消息人士:白宮記協(xié)晚宴安全事件嫌疑人作案目標(biāo)為美政府官員

      新京報(bào)
      2026-04-26 13:39:07
      37歲男籃傳奇人物:定居廣東,身居要職財(cái)富自由,娶嬌妻生雙胞胎

      37歲男籃傳奇人物:定居廣東,身居要職財(cái)富自由,娶嬌妻生雙胞胎

      尋墨閣
      2026-04-26 01:21:55
      白宮記協(xié)晚宴安全事件嫌疑人為一名來(lái)自加州的30歲男子

      白宮記協(xié)晚宴安全事件嫌疑人為一名來(lái)自加州的30歲男子

      界面新聞
      2026-04-26 10:15:44
      2026-04-26 14:07:00
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專(zhuān)注大數(shù)據(jù),每日有分享!
      6853文章數(shù) 94542關(guān)注度
      往期回顧 全部

      科技要聞

      漲價(jià)浪潮下,DeepSeek推動(dòng)AI“價(jià)格戰(zhàn)”

      頭條要聞

      白宮槍手系教師兼游戲開(kāi)發(fā)者 曾向哈里斯總統(tǒng)競(jìng)選捐款

      頭條要聞

      白宮槍手系教師兼游戲開(kāi)發(fā)者 曾向哈里斯總統(tǒng)競(jìng)選捐款

      體育要聞

      那一刻開(kāi)始,兩支球隊(duì)的命運(yùn)悄然改變了

      娛樂(lè)要聞

      《八千里路云和月》大結(jié)局意難平

      財(cái)經(jīng)要聞

      DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

      汽車(chē)要聞

      預(yù)售19.38萬(wàn)元起 哈弗猛龍PLUS七座版亮相

      態(tài)度原創(chuàng)

      旅游
      時(shí)尚
      教育
      親子
      藝術(shù)

      旅游要聞

      春光正好迎假期 文旅消費(fèi)暖意濃 多元“微度假”體驗(yàn)解鎖小城引流密碼

      IU的臉,真的有自己的時(shí)間線(xiàn)

      教育要聞

      新疆溫泉縣:山水映校園 少年正向陽(yáng)

      親子要聞

      媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

      藝術(shù)要聞

      鄭麗文訪(fǎng)問(wèn)清華附中引發(fā)熱議,蔣中正信札字跡真實(shí)性遭質(zhì)疑

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 无码国产精品成人| 亚洲av无码专区国产乱码电影| 国精产品一品二品国精在线观看| 小鸡入水蜜桃免费观看电视剧| 成人区人妻精品一区二蜜臀| 亚洲国产成人久久精品软件| 精品三级内地国产在线观看| 国产精品国产高清国产av| 97大香| 国产网站在线看| 天堂资源中文| 久热久热久热久热久热久热| 中文字幕日韩精品有码视频| 69视频免费在线观看| 色欲二区| 在线观看美女网站大全免费| 久久久久人妻精品一区三寸蜜桃| 国产精品天干天干| 女人被爽到高潮视频免费国产| √天堂资源地址在线官网| AV一二三| 亚洲成在人网站无码天堂| 青青草AV| 99热线精品大全在线观看| 丰满妇女强制高潮18xxxx| 蜜桃视频免费版在线观看| 国产内射999视频一区| 亚洲欧美国产另类视频| 一区二区乱子伦在线播放| 亚洲自拍另类| 亚洲无码五区| 白嫩少妇丰满一区二区| 婷婷四虎东京热无码群交双飞视频| 欧美人人妻人人澡人人尤物| 中文字幕无码AV不卡一区| 国产精品亚洲一区二区三区| 罗源县| 丰满人妻熟妇乱又伦精品软件| 九九三级影视| 亚洲日韩成人无码| 老司机性色福利精品视频|