<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      告別專家依賴,讓機器人學會自我參考,僅需200步性能飆升至99.2%

      0
      分享至



      費森俞,上海創智學院 & 同濟大學博士一年級學生,導師趙憲忠教授,研究方向為 VLA 強化學習后訓練。王思尹,上海創智學院 & 復旦大學博士二年級學生,導師邱錫鵬教授,研究方向為多模態具身智能。為本文共同第一作者。

      龔經經,上海創智學院全時導師。邱錫鵬,復旦大學教授,上海創智學院全時導師。為本文共同通訊作者。

      你是否想過,機器人也能像人一樣,從失敗中學習,不斷自我提升

      當前,視覺語言動作(VLA)模型在機器人操作任務中表現出色,但其性能嚴重依賴專家示范數據,不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強化學習雖好,卻常因「獎勵稀疏」問題,讓機器人無法從失敗中真正受益。





      • 論文鏈接:https://arxiv.org/pdf/2511.15605
      • 代碼倉庫:https://github.com/sii-research/siiRL
      • 技術文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

      動機與貢獻

      近期研究表明,強化學習作為一種有效的后訓練策略,能顯著提升 VLA 模型在分布內與分布外的性能。在強化學習方法中,基于組優化的方法(如 GRPO)因其簡潔高效的學習范式,已成為 VLA-RL 的重要技術路徑,但其仍面臨獎勵信號稀疏的挑戰。該問題在 VLA 領域尤為突出:多輪軌跡推理的計算成本極高,對失敗軌跡信息的低效利用嚴重降低了訓練效率。雖有研究嘗試通過過程監督提供密集反饋,但這些方法通常依賴專家示范或人工任務分解來定義中間進展,其固有的擴展性局限與自主學習目標存在根本矛盾。



      圖 1:GRPO 等方法僅依賴稀疏的結果獎勵,學習信號有限;手動設計的過程獎勵(PRM)需要成本高昂的外部示范或任務微調;而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。

      為應對獎勵稀疏挑戰,我們提出自我參考學習范式,以模型自身生成的成功軌跡作為參照標準,評估并引導失敗嘗試。與 GRPO 僅利用結果性獎勵進行優勢估計不同,我們的方法能更高效地利用完整軌跡批,這一范式將監督問題的核心從「如何獲取專家標簽」轉變為「如何從自身成功經驗中提取漸進式獎勵」。

      該范式的核心挑戰在于如何量化成功與失敗軌跡之間的行為相似性,以評估任務完成進度。傳統像素級世界模型存在跨領域泛化能力不足或需要大量任務特定微調的問題,我們發現潛在世界表征天然捕捉了跨環境可遷移的行為進展模式,使得無需精確環境重建或領域特定訓練即可實現魯棒的軌跡比較。

      基于以上洞察,我們提出自參考策略優化(SRPO),貢獻主要包括以下三方面:

      1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進式獎勵,緩解獎勵稀疏性問題,消除對專家示范或任務特定工程的依賴。

      2. 提出基于潛在世界表征的漸進式獎勵方法,克服傳統像素級世界模型的泛化局限與領域特定訓練需求。

      3. 實驗結果表明,我們的方法在 LIBERO 基準測試中達到 SOTA 性能,在 LIBERO-Plus 上展現出強大泛化能力,并驗證了獎勵建模的真機可遷移性。

      技術方案

      如圖 2 所示,SRPO 通過一種「向成功者學習」的直觀方式,幫助機器人智能體在復雜任務中更有效地學習。該方案主要包含如下核心環節:



      圖 2: 策略推理過程產生的軌跡被收集到動態參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進式獎勵在 KL 正則化的約束下用于優勢估計和策略優化。

      1. 同策略軌跡收集:每次策略更新后,模型將推理時產生的所有軌跡數據存入動態參考集,并根據任務完成情況劃分為「成功」與「失敗」兩組。

      2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對整個任務過程的濃縮概括,包含物理世界的本質規律。值得注意的是,這種表征完全基于對原始觀測的直接建模,不依賴于人類發明的「語言」或「符號」作為中介。

      3. 漸進式獎勵及策略更新:對于參考集中的成功軌跡,SRPO 計算其表征聚類中心作為典型成功范式,通過計算每條失敗軌跡到最近典型成功表征的距離來作為進度度量,距離越大說明與成功越遠,即進度越低,通過批次歸一化將距離變為 0 到 1 之間的連續漸進式獎勵,進而使用 PPO 式的目標函數更新策略。

      問題建模





      世界進展獎勵模型







      自參考策略優化



      優化目標:采用 PPO 風格的裁剪目標函數,并添加 KL 散度正則項以保持策略穩定性:





      實驗結果

      僅用 200 步強化學習,成功率從 48.9% 飆升至 99.2%

      表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優于依賴 0/1 獎勵的 SimpleVLA-RL、RLinf 等強化學習基線,也超越了需要人工設計階段獎勵的 TGRPO 等方案,超越多個依賴腕部視角、本體感知、3D 輸入的復雜模型,突顯 SRPO 在信息利用上的高效性。



      表 1: SRPO 僅通過第三視角觀測,在 LIBERO 上取得了 SOTA 性能。策略輸入符號說明:T (第三視角),I (語言指令),P (本體數據),W (腕部視角),D (深度)。

      泛化能力實測:一舉超越 15w 步監督學習基線

      表 2 表明,在更具挑戰的 LIBERO-Plus 泛化測試中,SRPO 帶來的性能提升高達 167%。即便未使用任何泛化場景數據進行訓練,僅通過 SRPO 自身的探索學習,泛化性能仍然超越 SFT 模型。



      表 2: SRPO 在 LIBERO-Plus 泛化性測試基準上的表現顯著優于其基線。

      獎勵信號:物理世界的「內行視角」

      圖 3 中,我們以「將馬克杯放進微波爐并關門」(兩階段時序任務,仿真環境)和收拾桌面(五個重復性「抓取 - 放置」任務,真實環境)兩個典型任務為例,展示 SRPO 在獎勵構建上的優勢:相較于易受視覺干擾,無法反映真實進度的像素級方法,或缺乏物理規律理解,獎勵波動劇烈的通用視覺模型,我們的獎勵曲線平滑、單調,符合物理世界進展規律



      圖 3: 仿真環境 (a-c) 和真實環境 (d-f) 中漸進式獎勵對比圖。

      效率優勢顯著

      效率方面,在圖 4 中,對于 LIBERO 長時序任務,初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。



      圖 4: SRPO 與 GRPO 的訓練效率比較。

      獎勵建模真機實測





      圖 5: 相較于 SFT 基線,SRPO 獎勵構建方法在真實世界任務上成功率有顯著提升。

      激發創造性:讓機器人學會「自主尋路」

      此外,我們發現 SRPO 訓練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態,如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發機器人超越示范、自主探索新的解決策略。



      圖 6: 模型推理過程中末端執行器軌跡記錄圖。



      我們發現,SRPO 是其零成本的代替方案,是一個「免費的午餐」





      結語

      告別昂貴的數據標注和復雜的獎勵設計,SRPO 僅憑模型自身的成功經驗與物理世界常識,即可實現性能躍遷。無需訓練價值模型,無需人工獎勵工程,無需密集專家示范,SRPO 實現了讓機器人從「模仿」走向「創造」,從「依賴」走向「自主」,為 VLA 強化學習開辟了一條充滿希望的新路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么剛炒完菜不能用水沖鐵鍋?若不是醫生提醒,差點犯了大錯!

      為什么剛炒完菜不能用水沖鐵鍋?若不是醫生提醒,差點犯了大錯!

      小彭的燦爛筆記1
      2025-11-16 08:25:08
      年僅58歲!復旦管院副院長殷志文去世,學生曝其真實人品

      年僅58歲!復旦管院副院長殷志文去世,學生曝其真實人品

      凱旋學長
      2025-12-09 17:30:51
      “不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現實

      “不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現實

      紅夢史說
      2025-07-11 11:23:39
      被曝“翻墻式教學”,無教培資質?教委已對VIPKID進行調查

      被曝“翻墻式教學”,無教培資質?教委已對VIPKID進行調查

      趣解商業
      2025-12-10 15:22:41
      王雷李小萌曬娃引熱議,兒子長相被說像“返祖”,家庭寵愛藏玄機

      王雷李小萌曬娃引熱議,兒子長相被說像“返祖”,家庭寵愛藏玄機

      鋒哥與八卦哥
      2025-12-10 13:19:51
      三星、東芝、阿迪耐克,佳能關閉了中國工廠,產能轉移到越南泰國

      三星、東芝、阿迪耐克,佳能關閉了中國工廠,產能轉移到越南泰國

      南權先生
      2025-12-10 16:20:25
      舒淇在節目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

      舒淇在節目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

      歲月有情1314
      2025-11-29 15:40:25
      反轉!央視剛表揚李佳婷,教育局就緊急叫停!到底動了誰的奶酪?

      反轉!央視剛表揚李佳婷,教育局就緊急叫停!到底動了誰的奶酪?

      丁丁鯉史紀
      2025-12-10 09:16:42
      安保公司公開援救藍戰非細節:本人損失108.8萬,網紅加碼爆料!

      安保公司公開援救藍戰非細節:本人損失108.8萬,網紅加碼爆料!

      知法而形
      2025-12-10 13:24:36
      12月10日俄烏最新:莫斯科再劃紅線

      12月10日俄烏最新:莫斯科再劃紅線

      西樓飲月
      2025-12-10 17:59:40
      0-3啞火!張本智和被打懵,狂吼變沉默,邱黨用3板殺招打回原形

      0-3啞火!張本智和被打懵,狂吼變沉默,邱黨用3板殺招打回原形

      番茄體壇
      2025-12-10 14:02:18
      太原美特好儲值卡又刷不了多家門店網絡故障退卡還卡支付憑...

      太原美特好儲值卡又刷不了多家門店網絡故障退卡還卡支付憑...

      三農老歷
      2025-12-10 14:08:23
      臺灣經研院:中國制造先進芯片的能力已達極限,預計至少5年后才能有所突破

      臺灣經研院:中國制造先進芯片的能力已達極限,預計至少5年后才能有所突破

      逍遙漠
      2025-12-10 10:19:40
      烏克蘭“薩普桑”彈道導彈已經實戰,比德國金牛座導彈還厲害?

      烏克蘭“薩普桑”彈道導彈已經實戰,比德國金牛座導彈還厲害?

      山河路口
      2025-12-10 17:06:36
      石平太郎女兒回國無望,簽證連續三次被中方拒絕,網友:自作自受

      石平太郎女兒回國無望,簽證連續三次被中方拒絕,網友:自作自受

      小lu侃侃而談
      2025-10-03 01:28:39
      變本加厲,中日交鋒進入第3場,高市已通告中國,一語激起千層浪

      變本加厲,中日交鋒進入第3場,高市已通告中國,一語激起千層浪

      荷蘭豆愛健康
      2025-12-11 03:34:58
      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      蕭竹輕語
      2025-12-05 17:38:25
      印媒放話:臺灣不會變成下一個烏克蘭,印度將在關鍵時刻發揮作用

      印媒放話:臺灣不會變成下一個烏克蘭,印度將在關鍵時刻發揮作用

      青杍無夢
      2025-12-11 01:35:54
      準備好了嗎?美聯儲年內最后一次“鷹派降息”即將來襲……

      準備好了嗎?美聯儲年內最后一次“鷹派降息”即將來襲……

      財聯社
      2025-12-10 08:18:06
      冷空氣+雨雪已啟程,14日江蘇最低溫將跌破冰點

      冷空氣+雨雪已啟程,14日江蘇最低溫將跌破冰點

      揚子晚報
      2025-12-10 20:28:48
      2025-12-11 05:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11891文章數 142509關注度
      往期回顧 全部

      科技要聞

      防"走私",英偉達被曝開發“芯片定位”技術

      頭條要聞

      特朗普失去耐心 給澤連斯基下最后通牒

      頭條要聞

      特朗普失去耐心 給澤連斯基下最后通牒

      體育要聞

      試訓20支球隊,落選,成為NBA新秀助攻王

      娛樂要聞

      為何網友不再相信張柏芝的“故事”?

      財經要聞

      美聯儲降息25基點 預計2026年降息一次

      汽車要聞

      有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

      態度原創

      親子
      教育
      本地
      公開課
      軍事航空

      親子要聞

      冀連梅 | 哪些孩子需要吃藥預防流感?美國兒科學會為什么建議首選奧司他韋作為預防藥物?

      教育要聞

      高考成績一般?前100名免學費!抓住機會

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中俄聯合空中戰略巡航引日本擔憂 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大陆熟妇丰满多毛xxxx| 日韩av一区二区三区不卡| 久久露脸国语精品国产91| 婷婷伊人綜合中文字幕小说| 国产视频9999| 天天狠天天透天天伊人| 亚洲精品9999久久久久无码| 毛片一区二区在线看| 亚洲成A| 乐安县| 奶头又大又白喷奶水av| 男人用嘴添女人私密视频| 亚洲色成人网站www永久四虎| 久久精品亚洲| 99精品久久毛片a片| 国产精品久久精品第一页| 欧美激情 亚洲 在线| 精品熟女视频专区| 国产精品77777| 欧美寡妇xxxx黑人猛交| 中日韩精品视频一区二区三区| 无线亚洲成人| 日韩AV色| 中文字幕精品无码一区二区三区| 国产高潮又爽又刺激的视频| 亚洲啊v.在线播放| 久久人妻乱| 国产精品爽爽久久久久久蜜臀| 高潮迭起av乳颜射后入| 夜夜国自一区| 国产-第1页-浮力影院| 久久天天躁狠狠躁夜夜婷| 一本一道狠狠躁东京热| 另类小说av| 日本公妇乱偷中文字幕| 亚洲精中文字幕二区三区| www.30p| 最近免费中文字幕中文高清百度| 永久免费毛片在线播放| 亚洲国产中文字幕在线视频综合| 香蕉av在线|