<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      「不僅會想,還能準確去做」VLA-R1把「推理+行動」帶進真實世界

      0
      分享至





      在機器人與智能體領域,一個老大難問題是:當你讓機器人 “把黃碗放進白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時,它不僅要看懂環境,更要解釋指令、規劃路徑 / 可操作區域,并把這些推理落實為準確的動作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動作,缺乏對可供性(affordance)與軌跡(trajectory)幾何關系的顯式推理,一旦遇到顏色相近、目標重復或容器多選等場景,就容易出錯。VLA-R1 的目標,不僅把 “會想” 這步補上,而且通過強化學習進一步加強執行動作的準確性,讓機器人解釋清楚再去準確執行

      VLA-R1 出場:它是什么?



      • 論文標題:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
      • 文章鏈接:https://arxiv.org/abs/2510.01623
      • 項目主頁:https://gigaai-research.github.io/VLA-R1/

      一句話概括:VLA-R1 是一個 “先推理、后執行” 的 VLA(視覺 - 語言 - 行動)基礎模型。它把鏈式思維(CoT)監督可驗證獎勵的強化學習(RLVR,基于 GRPO)結合起來,同時優化 “推理質量” 和 “執行正確性”。簡單說,就是讓模型既能把思考過程講明白,還能把動作做準。

      關鍵創新點

      1)兩階段訓練:SFT + RL(基于 GRPO)



      先用顯式 CoT 監督做有教師的指令微調(SFT),再用可驗證獎勵做后訓練強化(GRPO)。后者通過組內歸一化優勢與 KL 約束,穩定地把 “會想” 轉化為 “會做”。推理輸出采用固定結構: + …,從而保證可讀、可查錯。

      2)三類 “可驗證獎勵”(RLVR)直擊 “看準 + 走對 + 格式對”

      • 空間對齊獎勵(GIoU):即使預測框與真值不相交也能得到有效梯度,也能提供有效梯度,顯著加速區域對齊與學習穩定性;
      • 軌跡一致性獎勵(引入角度及段長比值的 Fréchet 距離(ALHF)):綜合位置、切向角度與段長尺度,懲罰 “軌跡形狀不對,彎曲不合理,段長突變” 的情況;
      • 輸出格式獎勵:強制推理段與動作段結構化輸出,減少 “答非所問”。



      3)VLA-CoT 數據引擎與 VLA-CoT-13K 數據集

      為讓模型 “學會按步驟思考”,作者用Qwen2.5-VL-72B自動生成可供性與軌跡兩類任務的結構化 CoT,并在提示中固定四步范式,最終得到13K條與視覺 / 動作嚴格對齊的 CoT 標注,用作 SFT 的高質量監督信號。





      實驗速覽

      VLA-R1 在四個層級進行了系統評測:域內(In-Domain)測試、域外(Out-of-Domain)測試、仿真平臺、真實機器人實驗。此外還做了有無 CoT,RL 的消融實驗以證明方法的有效性。



      基準集(In-Domain)

      VLA-R1 的基準集來自團隊自建的VLA-CoT-13K數據引擎,共含約 1.3 萬條視覺 - 語言 - 行動樣本,任務涵蓋 “可供性識別(Affordance Detection)” 與 “軌跡規劃(Trajectory Generation)” 兩大類。場景以桌面和實驗室為主,光照均勻、背景簡潔,包含碗、杯、勺、筆、盒子、籃子等常見物體,每條數據都配有精確的區域標注、軌跡點坐標和配套的鏈式思維推理。

      實驗結果

      • 可供性 IoU,比強基線 ManipLVM-R1提升 17.78%
      • 軌跡平均誤差(Avg),相對基線降 17.25%

      域外集(Out-of-Domain)

      為了檢驗模型的泛化與語義遷移能力,研究團隊引入兩個全新測試集:UMD DatasetVAIT Dataset。UMD 提供豐富的家庭物體及其功能標簽(如 graspable、containable 等),而 VAIT 著重考察視覺場景與自然語言指令的對應關系。與基準集相比,域外數據在物體類別、背景風格、光照條件及語言結構上均存在顯著差異,幾乎不存在訓練重疊。

      實驗結果

      • 可供性 IoU,在 UMD 數據集上仍然保持領先。
      • 軌跡平均誤差(Avg),在 VAIT 子集上展現穩健泛化

      真實機器人(4 個餐桌場景)

      在 VLA-R1 的真實機器人實驗中,作者共設計了四個桌面場景(S1–S4),每個場景都針對不同的環境復雜度與視覺干擾進行布置,用以驗證模型在真實視覺條件下的穩健性與泛化性。S1 為彩色碗拾取與放置場景,主要測試模型在多種顏色相近物體下的目標區分與空間定位能力;S2 為水果拾取場景,物體外觀相似且數量較多,用于考察模型在同類物體識別與實例辨析下的可供性推理;S3 為廚房復雜遮擋場景,實驗臺上布置微波爐等大型遮擋物,考查模型在部分可見與非均勻光照環境下的穩健推理;S4 為混合雜亂場景,包含多類別、不同屬性的日常物體,模擬多目標混放與多容器選擇的真實桌面環境。四個場景均采用相同的機械臂與相機系統,在隨機物體排列與任務順序下獨立進行十次實驗,以評估模型在真實干擾條件中的整體穩定性與任務一致性。





      • 可供性感知 SR:62.5%;軌跡執行 SR:75%。
      • 顏色相近、遮擋、目標擾動等干擾下,VLA-R1 仍能給出空間一致、接近目標的預測。

      仿真(Piper / UR5,測試跨機器人平臺通用性)

      為測試跨平臺通用性,VLA-R1 被部署到兩種機械臂仿真環境:輕量級的 Piper 與工業級的 UR5。仿真任務涵蓋多種隨機物體與動作指令。





      • 可供性 SR:60% / 50%;軌跡 SR:80% / 60%,
      • 跨機器人維持較好成功率,顯示出跨平臺泛化潛力。

      消融實驗

      為了測試 CoT,RL 的有效性,論文分別進行了直接輸出軌跡,只用 CoT,以及 CoT+RL 后訓練三種實驗的對比



      • 只用 CoT(無 RL):IoU 從 23.74 → 28.37,軌跡誤差也小幅下降;
      • CoT + RL:進一步把 IoU 拉到 36.51,軌跡各項顯著改進,說明 “先學會想,再用獎勵把想法煉成動作” 是有效路徑。

      Demo 展示

      思考過程展示



      真機平臺





      仿真平臺



      應用前景

      家居拾放 / 收納等日常操控:面向客廳 / 廚房 / 書桌等開放環境,VLA-R1 可在多物體、光照不均、紋理干擾與部分遮擋下穩定完成 “找 — 拿 — 放” 的閉環。它先用顯式推理消解 “相似目標 / 相近顏色 / 多個容器可選” 等歧義,再輸出可供性區域與可執行軌跡,最終由低層控制棧完成抓取與放置。典型場景包括:將勺子→碗、筆→白盒、香蕉→籃子的收納,或在反光桌面、雜物堆疊的桌面上進行安全、可解釋的物品整理。

      倉揀 / 輕工裝配:在料箱揀選、工位配盤、工裝上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元關系明確寫在推理里(如 “為何選擇該容器 / 該姿態 / 該路徑”),再生成滿足安全距離與路徑順滑度的軌跡,減少誤抓與誤放。它對重復件、套件、易混部件尤其有效:可在同批次零件中依據形狀 / 位置 / 容器容量做出解釋性選擇;同時結構化輸出便于與 MES/PLC/ 視覺檢測系統對接,形成可追溯的產線閉環。

      教學 / 評測平臺:VLA-R1 的 < think>…+… 格式天然適合教學演示與自動化評分:教師 / 研究者能直接檢查 “任務解析、場景理解、可供性定位、可行性校驗、軌跡邏輯” 等中間步驟是否合理。配合標準化的 IoU/Fréchet / 成功率等指標,可將其用作課程與競賽的基線模型,學生只需替換數據或模塊,即可對比 “僅 SFT”“SFT+RL”“不同獎勵 / 不同數據引擎” 的差異,快速定位問題與量化改進效果。

      作者介紹

      葉安根是中國科學院自動化研究所模式識別與智能系統方向的在讀博士,研究方向聚焦于強化學習、機器人操作、具身智能。曾參與多項科研項目,致力于通過強化學習構建少樣本、多任務的通用機器人系統。

      張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。

      通訊作者朱政,極佳科技聯合創始人、首席科學家,2019 年博士畢業于中國科學院自動化研究所;2019 年至 2021 年在清華大學自動化系從事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等頂級期刊和會議上發表論文 70 余篇,文章總引用 16000 余次 (Google Citations),連續 4 年入選全球前 2% 頂尖科學家榜單。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      天天熱點見聞
      2026-01-23 12:57:06
      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      伯利塔BERITA
      2026-01-23 19:29:46
      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      以茶帶書
      2026-01-22 19:35:35
      尺度大到變態,這新劇太重口了

      尺度大到變態,這新劇太重口了

      天天美劇吧
      2026-01-23 20:37:50
      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      妙知
      2026-01-24 12:34:23
      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      史行途
      2026-01-23 15:57:57
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      全景體育V
      2026-01-24 19:28:55
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      昆明信息港
      2026-01-24 14:55:58
      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      飯小妹說歷史
      2026-01-07 09:30:45
      四大名著,終于有人敢說,這本,該踢出四大名著了

      四大名著,終于有人敢說,這本,該踢出四大名著了

      長風文史
      2026-01-22 15:17:46
      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      北緯的咖啡豆
      2026-01-24 14:14:11
      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      boss外傳
      2026-01-23 20:00:03
      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      網絡易不易
      2026-01-24 12:50:51
      牛股業績出爐!300475、688233、300503,預計盈利大增

      牛股業績出爐!300475、688233、300503,預計盈利大增

      證券時報e公司
      2026-01-24 14:43:33
      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      素衣讀史
      2026-01-23 17:20:48
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      46名學者學術不端,被集中通報批評

      46名學者學術不端,被集中通報批評

      新京報政事兒
      2026-01-24 14:50:35
      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      2026-01-24 21:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      旅游
      本地
      藝術
      家居
      游戲

      旅游要聞

      在積木王國感受中國年味,上海樂高樂園新春主題盛典即將啟幕

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      藝術要聞

      梁益君 2025風景油畫寫生

      家居要聞

      在家度假 160平南洋混搭宅

      踢球還能爆衣?這款足球新游還是太懂玩家了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产男女猛烈无遮挡免费视频| 亚洲另类欧美综合久久图片区| 2020精品国产自在现线看| 又爽又黄又无遮挡的视频| 日本三级理论久久人妻电影| 美姑县| 久久精品人成免费| 国产黄a三级三级三级三级看三级 欧美精产国品一二三产品区别 | 三上悠亚精品一区二区久久| 国产wwww| 翼城县| 久久精品午夜一区二区福利| 日本高清视频网站www| 日本三级理论久久人妻电影| caoporn免费视频公开| 插入中文字幕在线一区二区三区| 综合色在线| 日本夜爽爽一区二区三区| 99久久婷婷国产综合精品| 人妻少妇精品系列一区二区| 亚洲精品久久| 大尺度国产一区二区视频| 午夜在线不卡| av无码av无码专区| 日日噜噜夜夜狠狠视频| 久久18禁| 久治县| 亚洲国产精品综合一区二区| 大安市| 内射老阿姨1区2区3区4区| 午夜被窝网| 日日噜噜夜夜狠狠久久蜜桃| 91福利导航| 欧美视频网站www色| 亚洲黑人av| 少妇50p| 国产永久在线视频| 国产日韩一区二区三区在线观看 | 亚洲一区二区三区成人网站| 疯狂做受xxxx高潮欧美日本| 国产丝袜视频一区二区三区|