<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      「不僅會(huì)想,還能準(zhǔn)確去做」VLA-R1把「推理+行動(dòng)」帶進(jìn)真實(shí)世界

      0
      分享至





      在機(jī)器人與智能體領(lǐng)域,一個(gè)老大難問題是:當(dāng)你讓機(jī)器人 “把黃碗放進(jìn)白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時(shí),它不僅要看懂環(huán)境,更要解釋指令、規(guī)劃路徑 / 可操作區(qū)域,并把這些推理落實(shí)為準(zhǔn)確的動(dòng)作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動(dòng)作,缺乏對(duì)可供性(affordance)與軌跡(trajectory)幾何關(guān)系的顯式推理,一旦遇到顏色相近、目標(biāo)重復(fù)或容器多選等場(chǎng)景,就容易出錯(cuò)。VLA-R1 的目標(biāo),不僅把 “會(huì)想” 這步補(bǔ)上,而且通過強(qiáng)化學(xué)習(xí)進(jìn)一步加強(qiáng)執(zhí)行動(dòng)作的準(zhǔn)確性,讓機(jī)器人解釋清楚再去準(zhǔn)確執(zhí)行

      VLA-R1 出場(chǎng):它是什么?



      • 論文標(biāo)題:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
      • 文章鏈接:https://arxiv.org/abs/2510.01623
      • 項(xiàng)目主頁:https://gigaai-research.github.io/VLA-R1/

      一句話概括:VLA-R1 是一個(gè) “先推理、后執(zhí)行” 的 VLA(視覺 - 語言 - 行動(dòng))基礎(chǔ)模型。它把鏈?zhǔn)剿季S(CoT)監(jiān)督可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR,基于 GRPO)結(jié)合起來,同時(shí)優(yōu)化 “推理質(zhì)量” 和 “執(zhí)行正確性”。簡(jiǎn)單說,就是讓模型既能把思考過程講明白,還能把動(dòng)作做準(zhǔn)。

      關(guān)鍵創(chuàng)新點(diǎn)

      1)兩階段訓(xùn)練:SFT + RL(基于 GRPO)



      先用顯式 CoT 監(jiān)督做有教師的指令微調(diào)(SFT),再用可驗(yàn)證獎(jiǎng)勵(lì)做后訓(xùn)練強(qiáng)化(GRPO)。后者通過組內(nèi)歸一化優(yōu)勢(shì)與 KL 約束,穩(wěn)定地把 “會(huì)想” 轉(zhuǎn)化為 “會(huì)做”。推理輸出采用固定結(jié)構(gòu): + …,從而保證可讀、可查錯(cuò)。

      2)三類 “可驗(yàn)證獎(jiǎng)勵(lì)”(RLVR)直擊 “看準(zhǔn) + 走對(duì) + 格式對(duì)”

      • 空間對(duì)齊獎(jiǎng)勵(lì)(GIoU):即使預(yù)測(cè)框與真值不相交也能得到有效梯度,也能提供有效梯度,顯著加速區(qū)域?qū)R與學(xué)習(xí)穩(wěn)定性;
      • 軌跡一致性獎(jiǎng)勵(lì)(引入角度及段長(zhǎng)比值的 Fréchet 距離(ALHF)):綜合位置、切向角度與段長(zhǎng)尺度,懲罰 “軌跡形狀不對(duì),彎曲不合理,段長(zhǎng)突變” 的情況;
      • 輸出格式獎(jiǎng)勵(lì):強(qiáng)制推理段與動(dòng)作段結(jié)構(gòu)化輸出,減少 “答非所問”。



      3)VLA-CoT 數(shù)據(jù)引擎與 VLA-CoT-13K 數(shù)據(jù)集

      為讓模型 “學(xué)會(huì)按步驟思考”,作者用Qwen2.5-VL-72B自動(dòng)生成可供性與軌跡兩類任務(wù)的結(jié)構(gòu)化 CoT,并在提示中固定四步范式,最終得到13K條與視覺 / 動(dòng)作嚴(yán)格對(duì)齊的 CoT 標(biāo)注,用作 SFT 的高質(zhì)量監(jiān)督信號(hào)。





      實(shí)驗(yàn)速覽

      VLA-R1 在四個(gè)層級(jí)進(jìn)行了系統(tǒng)評(píng)測(cè):域內(nèi)(In-Domain)測(cè)試、域外(Out-of-Domain)測(cè)試、仿真平臺(tái)、真實(shí)機(jī)器人實(shí)驗(yàn)。此外還做了有無 CoT,RL 的消融實(shí)驗(yàn)以證明方法的有效性。



      基準(zhǔn)集(In-Domain)

      VLA-R1 的基準(zhǔn)集來自團(tuán)隊(duì)自建的VLA-CoT-13K數(shù)據(jù)引擎,共含約 1.3 萬條視覺 - 語言 - 行動(dòng)樣本,任務(wù)涵蓋 “可供性識(shí)別(Affordance Detection)” 與 “軌跡規(guī)劃(Trajectory Generation)” 兩大類。場(chǎng)景以桌面和實(shí)驗(yàn)室為主,光照均勻、背景簡(jiǎn)潔,包含碗、杯、勺、筆、盒子、籃子等常見物體,每條數(shù)據(jù)都配有精確的區(qū)域標(biāo)注、軌跡點(diǎn)坐標(biāo)和配套的鏈?zhǔn)剿季S推理。

      實(shí)驗(yàn)結(jié)果

      • 可供性 IoU,比強(qiáng)基線 ManipLVM-R1提升 17.78%
      • 軌跡平均誤差(Avg),相對(duì)基線降 17.25%

      域外集(Out-of-Domain)

      為了檢驗(yàn)?zāi)P偷姆夯c語義遷移能力,研究團(tuán)隊(duì)引入兩個(gè)全新測(cè)試集:UMD DatasetVAIT Dataset。UMD 提供豐富的家庭物體及其功能標(biāo)簽(如 graspable、containable 等),而 VAIT 著重考察視覺場(chǎng)景與自然語言指令的對(duì)應(yīng)關(guān)系。與基準(zhǔn)集相比,域外數(shù)據(jù)在物體類別、背景風(fēng)格、光照條件及語言結(jié)構(gòu)上均存在顯著差異,幾乎不存在訓(xùn)練重疊。

      實(shí)驗(yàn)結(jié)果

      • 可供性 IoU,在 UMD 數(shù)據(jù)集上仍然保持領(lǐng)先。
      • 軌跡平均誤差(Avg),在 VAIT 子集上展現(xiàn)穩(wěn)健泛化

      真實(shí)機(jī)器人(4 個(gè)餐桌場(chǎng)景)

      在 VLA-R1 的真實(shí)機(jī)器人實(shí)驗(yàn)中,作者共設(shè)計(jì)了四個(gè)桌面場(chǎng)景(S1–S4),每個(gè)場(chǎng)景都針對(duì)不同的環(huán)境復(fù)雜度與視覺干擾進(jìn)行布置,用以驗(yàn)證模型在真實(shí)視覺條件下的穩(wěn)健性與泛化性。S1 為彩色碗拾取與放置場(chǎng)景,主要測(cè)試模型在多種顏色相近物體下的目標(biāo)區(qū)分與空間定位能力;S2 為水果拾取場(chǎng)景,物體外觀相似且數(shù)量較多,用于考察模型在同類物體識(shí)別與實(shí)例辨析下的可供性推理;S3 為廚房復(fù)雜遮擋場(chǎng)景,實(shí)驗(yàn)臺(tái)上布置微波爐等大型遮擋物,考查模型在部分可見與非均勻光照環(huán)境下的穩(wěn)健推理;S4 為混合雜亂場(chǎng)景,包含多類別、不同屬性的日常物體,模擬多目標(biāo)混放與多容器選擇的真實(shí)桌面環(huán)境。四個(gè)場(chǎng)景均采用相同的機(jī)械臂與相機(jī)系統(tǒng),在隨機(jī)物體排列與任務(wù)順序下獨(dú)立進(jìn)行十次實(shí)驗(yàn),以評(píng)估模型在真實(shí)干擾條件中的整體穩(wěn)定性與任務(wù)一致性。





      • 可供性感知 SR:62.5%;軌跡執(zhí)行 SR:75%。
      • 顏色相近、遮擋、目標(biāo)擾動(dòng)等干擾下,VLA-R1 仍能給出空間一致、接近目標(biāo)的預(yù)測(cè)。

      仿真(Piper / UR5,測(cè)試跨機(jī)器人平臺(tái)通用性)

      為測(cè)試跨平臺(tái)通用性,VLA-R1 被部署到兩種機(jī)械臂仿真環(huán)境:輕量級(jí)的 Piper 與工業(yè)級(jí)的 UR5。仿真任務(wù)涵蓋多種隨機(jī)物體與動(dòng)作指令。





      • 可供性 SR:60% / 50%;軌跡 SR:80% / 60%,
      • 跨機(jī)器人維持較好成功率,顯示出跨平臺(tái)泛化潛力。

      消融實(shí)驗(yàn)

      為了測(cè)試 CoT,RL 的有效性,論文分別進(jìn)行了直接輸出軌跡,只用 CoT,以及 CoT+RL 后訓(xùn)練三種實(shí)驗(yàn)的對(duì)比



      • 只用 CoT(無 RL):IoU 從 23.74 → 28.37,軌跡誤差也小幅下降;
      • CoT + RL:進(jìn)一步把 IoU 拉到 36.51,軌跡各項(xiàng)顯著改進(jìn),說明 “先學(xué)會(huì)想,再用獎(jiǎng)勵(lì)把想法煉成動(dòng)作” 是有效路徑。

      Demo 展示

      思考過程展示



      真機(jī)平臺(tái)





      仿真平臺(tái)



      應(yīng)用前景

      家居拾放 / 收納等日常操控:面向客廳 / 廚房 / 書桌等開放環(huán)境,VLA-R1 可在多物體、光照不均、紋理干擾與部分遮擋下穩(wěn)定完成 “找 — 拿 — 放” 的閉環(huán)。它先用顯式推理消解 “相似目標(biāo) / 相近顏色 / 多個(gè)容器可選” 等歧義,再輸出可供性區(qū)域與可執(zhí)行軌跡,最終由低層控制棧完成抓取與放置。典型場(chǎng)景包括:將勺子→碗、筆→白盒、香蕉→籃子的收納,或在反光桌面、雜物堆疊的桌面上進(jìn)行安全、可解釋的物品整理。

      倉揀 / 輕工裝配:在料箱揀選、工位配盤、工裝上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元關(guān)系明確寫在推理里(如 “為何選擇該容器 / 該姿態(tài) / 該路徑”),再生成滿足安全距離與路徑順滑度的軌跡,減少誤抓與誤放。它對(duì)重復(fù)件、套件、易混部件尤其有效:可在同批次零件中依據(jù)形狀 / 位置 / 容器容量做出解釋性選擇;同時(shí)結(jié)構(gòu)化輸出便于與 MES/PLC/ 視覺檢測(cè)系統(tǒng)對(duì)接,形成可追溯的產(chǎn)線閉環(huán)。

      教學(xué) / 評(píng)測(cè)平臺(tái):VLA-R1 的 < think>…+… 格式天然適合教學(xué)演示與自動(dòng)化評(píng)分:教師 / 研究者能直接檢查 “任務(wù)解析、場(chǎng)景理解、可供性定位、可行性校驗(yàn)、軌跡邏輯” 等中間步驟是否合理。配合標(biāo)準(zhǔn)化的 IoU/Fréchet / 成功率等指標(biāo),可將其用作課程與競(jìng)賽的基線模型,學(xué)生只需替換數(shù)據(jù)或模塊,即可對(duì)比 “僅 SFT”“SFT+RL”“不同獎(jiǎng)勵(lì) / 不同數(shù)據(jù)引擎” 的差異,快速定位問題與量化改進(jìn)效果。

      作者介紹

      葉安根是中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別與智能系統(tǒng)方向的在讀博士,研究方向聚焦于強(qiáng)化學(xué)習(xí)、機(jī)器人操作、具身智能。曾參與多項(xiàng)科研項(xiàng)目,致力于通過強(qiáng)化學(xué)習(xí)構(gòu)建少樣本、多任務(wù)的通用機(jī)器人系統(tǒng)。

      張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn),積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。

      通訊作者朱政,極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家,2019 年博士畢業(yè)于中國(guó)科學(xué)院自動(dòng)化研究所;2019 年至 2021 年在清華大學(xué)自動(dòng)化系從事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等頂級(jí)期刊和會(huì)議上發(fā)表論文 70 余篇,文章總引用 16000 余次 (Google Citations),連續(xù) 4 年入選全球前 2% 頂尖科學(xué)家榜單。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “山西旱碼頭”將迎新市長(zhǎng)

      “山西旱碼頭”將迎新市長(zhǎng)

      大呂梁
      2025-12-08 08:09:05
      油價(jià)一夜變天!今天12月8日國(guó)內(nèi)油價(jià)調(diào)整,95、92號(hào)汽油價(jià)格下調(diào)

      油價(jià)一夜變天!今天12月8日國(guó)內(nèi)油價(jià)調(diào)整,95、92號(hào)汽油價(jià)格下調(diào)

      有料財(cái)經(jīng)
      2025-12-08 00:36:19
      張稀哲在國(guó)安拿到足協(xié)杯冠軍后,做出重要決定,讓球迷直言意外

      張稀哲在國(guó)安拿到足協(xié)杯冠軍后,做出重要決定,讓球迷直言意外

      懂個(gè)球
      2025-12-07 23:42:19
      白巖松:若有余錢,不要不舍得,給自己添置這3樣?xùn)|西“養(yǎng)老”...

      白巖松:若有余錢,不要不舍得,給自己添置這3樣?xùn)|西“養(yǎng)老”...

      詩詞中國(guó)
      2025-12-07 19:56:43
      薩拉赫稱凱恩曾10場(chǎng)不進(jìn)球,opta:凱恩生涯沒有過6場(chǎng)首發(fā)球荒

      薩拉赫稱凱恩曾10場(chǎng)不進(jìn)球,opta:凱恩生涯沒有過6場(chǎng)首發(fā)球荒

      懂球帝
      2025-12-07 22:53:55
      果然不出中國(guó)所料:高市早苗“黑料”被扒,她最大的敵人并非中國(guó)

      果然不出中國(guó)所料:高市早苗“黑料”被扒,她最大的敵人并非中國(guó)

      歷史求知所
      2025-12-07 07:55:08
      廣州大廠金發(fā)科技真的值得去嗎?老員工曝薪資、加班與酒桌文化

      廣州大廠金發(fā)科技真的值得去嗎?老員工曝薪資、加班與酒桌文化

      生活新鮮市
      2025-12-07 16:52:11
      教授:不要忙著打日本,應(yīng)該去全國(guó)各地武器倉庫突擊大檢查!

      教授:不要忙著打日本,應(yīng)該去全國(guó)各地武器倉庫突擊大檢查!

      荊楚寰宇文樞
      2025-12-07 17:10:13
      海軍新聞發(fā)言人就遼寧艦航母編隊(duì)遠(yuǎn)海訓(xùn)練發(fā)布消息

      海軍新聞發(fā)言人就遼寧艦航母編隊(duì)遠(yuǎn)海訓(xùn)練發(fā)布消息

      界面新聞
      2025-12-07 12:51:11
      經(jīng)營(yíng)上海機(jī)場(chǎng)免稅店26年的“日上”或被剝奪投標(biāo)資格

      經(jīng)營(yíng)上海機(jī)場(chǎng)免稅店26年的“日上”或被剝奪投標(biāo)資格

      環(huán)球網(wǎng)資訊
      2025-12-07 13:39:19
      逃離中國(guó)的跨國(guó)公司,如今正在撤離印度和越南,扎堆往中國(guó)西部跑

      逃離中國(guó)的跨國(guó)公司,如今正在撤離印度和越南,扎堆往中國(guó)西部跑

      流蘇晚晴
      2025-12-07 16:49:30
      浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

      浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

      杭城村叔
      2025-09-11 12:54:47
      72歲曾志偉和紅顏知己現(xiàn)身日本大阪逛商場(chǎng)購(gòu)物,手牽手很親密

      72歲曾志偉和紅顏知己現(xiàn)身日本大阪逛商場(chǎng)購(gòu)物,手牽手很親密

      陳意小可愛
      2025-12-06 01:59:29
      安徽女老板王曉析去世,年僅36歲,經(jīng)常熬夜直播,弟弟曝去世原因

      安徽女老板王曉析去世,年僅36歲,經(jīng)常熬夜直播,弟弟曝去世原因

      鋭娛之樂
      2025-12-08 08:23:06
      豪門悲喜夜:皇馬爆大冷門0-2,尤文圖斯1-2,多特蒙德2-0

      豪門悲喜夜:皇馬爆大冷門0-2,尤文圖斯1-2,多特蒙德2-0

      側(cè)身凌空斬
      2025-12-08 06:17:49
      打瘋了!快船壓制西部豪強(qiáng):哈登8中6轟19分4斷,萊昂納德14分

      打瘋了!快船壓制西部豪強(qiáng):哈登8中6轟19分4斷,萊昂納德14分

      體壇小李
      2025-12-07 10:19:18
      李亞鵬赴北川看望養(yǎng)女,父女見面抱頭痛哭,女兒曾在地震中遭截肢

      李亞鵬赴北川看望養(yǎng)女,父女見面抱頭痛哭,女兒曾在地震中遭截肢

      小海娛計(jì)
      2025-12-05 22:36:39
      12月7日新聞:沒想到收拾日本還可以這樣收拾。

      12月7日新聞:沒想到收拾日本還可以這樣收拾。

      陳博世財(cái)經(jīng)
      2025-12-07 14:10:25
      網(wǎng)友扒出“亡妻回憶錄”博主妻子生前社交帳號(hào)質(zhì)疑其婚內(nèi)出軌,隨后該男子清空賬號(hào)中懷念離世妻子的相關(guān)視頻

      網(wǎng)友扒出“亡妻回憶錄”博主妻子生前社交帳號(hào)質(zhì)疑其婚內(nèi)出軌,隨后該男子清空賬號(hào)中懷念離世妻子的相關(guān)視頻

      觀威海
      2025-12-07 16:42:03
      俄地區(qū)不承保引發(fā)熱議,有網(wǎng)友以此來質(zhì)疑當(dāng)?shù)夭话踩?>
    </a>
        <h3>
      <a href=映射生活的身影
      2025-12-07 11:27:16
      2025-12-08 09:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|李笛再創(chuàng)業(yè),炮轟大模型,再戰(zhàn)AI

      頭條要聞

      美國(guó)安全戰(zhàn)略發(fā)生重大轉(zhuǎn)變 國(guó)安報(bào)告第19頁才提及中國(guó)

      頭條要聞

      美國(guó)安全戰(zhàn)略發(fā)生重大轉(zhuǎn)變 國(guó)安報(bào)告第19頁才提及中國(guó)

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎(jiǎng)禮,韓娛愛豆均站起鞠躬

      財(cái)經(jīng)要聞

      養(yǎng)牛場(chǎng)的秘密:每天開采數(shù)十車礦石倒賣

      汽車要聞

      傳奇超跑電動(dòng)形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      本地
      旅游
      游戲
      公開課
      軍事航空

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      旅游要聞

      渝見好“村”光|城口龍盤村:感受純凈的雪域水墨畫,人間值得!

      KeSPA杯:DK和HLE戰(zhàn)勝對(duì)手,T1首戰(zhàn)輕取日本隊(duì)

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達(dá)照射日戰(zhàn)機(jī) 國(guó)防部回應(yīng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 龙口市| 狠狠人妻久久久久久综合果冻| 99视频精品全部免费 在线| 丁香五香天堂网| 99re在线| AV五十路| 日本三级香港三级三级人妇久| 国产98色在线 | 日韩| 国产麻豆成人精品av| 日韩人妻精品无码| 西充县| 超碰911| 亚洲av无码牛牛影视在线二区 | 亚洲国产成人无码网站大全| 人妻?综合?无码?另类| 伊人AV在线| 亚洲国产a片。| 亚洲天堂男人| 成人国产精品免费网站| 国产成人精品日本亚洲第一区 | 3p无码| 亚洲少妇人妻无码视频| 久艹视频免费看| 丰满大爆乳波霸奶| 精品无码一区二区三区水蜜桃 | 污污污www精品国产网站| 中文字幕日韩精品有码视频| 亚洲人成电影网站色| 欧美在线观看视频111111| 亚洲国产乱| 开阳县| 平昌县| 中文字幕在线观看亚洲| 日韩深夜福利视频在线观看| 色婷婷久久久swag精品| 亚洲v欧美v国产v在线观看| 18分钟处破好疼哭视频在线观看| 欧美?日韩?人妻| 撸啊撸激情久久| 探花AV| 欧美丰满少妇猛烈进入A片蜜桃|