<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepMind 顛覆機器人學習范式:讓機器像人一樣 “自由成長”

      0
      分享至



      從 “模仿者” 到 “學習者”,機器人的進化更進一步。

      作者丨劉欣

      編輯丨陳彩嫻

      機器人在底層控制方面的應用始終局限于行為克隆,這種類似于照貓畫虎的學習方式,要求機器人必須依賴海量標注的模仿數據,不僅收集成本極高,更無法讓機器人應對訓練數據之外的全新場景。

      谷歌 DeepMind 的最新研究試圖打破這一現狀,他們受到大型語言模型微調中強化學習階段成功經驗的啟發,提出了一種面向機器人學的兩階段后訓練方法,第一階段是監督微調( Supervised Fine-Tuning, SFT ),第二階段是自我提升( Self-Improvement )。

      通過在真實世界與仿真機器人實體( LanguageTable 與 Aloha )上開展的大量實驗,提出的后訓練方法在具身基礎模型上取得了顯著成果,機器人能自主練習并習得元朝訓練時模仿學習數據集中所觀察到行為的新技能,并實現廣泛泛化。



      論文鏈接:https://arxiv.org/pdf/2509.15155

      01

      兩階段后訓練框架

      本研究的核心是探究強化學習后訓練在機器人具身基礎模型中的有效性。然而,機器人強化學習(尤其是操作任務)面臨的關鍵挑戰是獎勵工程問題:設計有效的獎勵函數需要反復迭代訓練策略并修正獎勵定義以規避非預期結果;此外,即便獎勵定義完美,在真實世界中測量獎勵也需要大量工程投入。因此,當團隊致力于訓練能夠完成日益廣泛任務的機器人時,人工設計獎勵函數在真實世界機器人學中已難以為繼。


      DeepMind 通過學習數據驅動型獎勵函數克服了這一障礙,該函數同時繼承了底層基礎模型經網絡級預訓練所具備的穩健性與泛化性。提出的后訓練框架如上圖所示,包含兩個階段:第一階段為監督微調( Supervised Fine-Tuning, SFT ),利用以下兩種目標對預訓練基礎模型進行微調:a) 行為克??;b) 剩余步驟預測( steps-to-go prediction )。第二階段為自我提升( Self-Improvement ),剩余步驟預測能夠助力提取平滑的獎勵函數與穩健的成功檢測器,使機器人集群可在極少人工監督的情況下自主練習下游任務。至關重要的是,數據驅動型獎勵設計無需真值獎勵,且能借助底層基礎模型的穩健性與泛化性。

      研究首先在第一階段先對模仿數據集進行假設,再基于數據集以預訓練基礎模型初始化具身基礎模型,對行為克隆損失、剩余步驟預測損失這兩個目標進行監督微調。在第二階段,則是想通過在線強化學習對具身基礎模型進行下游任務微調,以快速提升策略性能。研究對獎勵函數和成功指示器進行了定義,即可對具身基礎模型進行下游任務的在線強化學習微調,凍結了一個第一階段的檢查點用于獎勵函數計算與成功檢測,同時也從第一階段檢查點初始化第二階段的策略。

      研究提出了以下問題:

      • Q1:自我提升能否在監督學習階段的基礎上進一步提升下游任務性能?

      • Q2:監督學習與自我提升的結合是否比單純的監督學習具有更高的樣本效率?

      • Q3:依賴強化學習的自我提升方法是否足夠可靠且可復現,能夠應用于真實世界機器人學?

      • Q4:預訓練對自我提升流程有何貢獻?

      • Q5:網絡級基礎模型預訓練能否使自我提升在超出模仿數據集覆蓋范圍的任務上生效?

      02

      從“模仿者”到“學習者”

      DeepMind 基于 LanguageTable 與 Aloha 兩種機器人實體,在仿真與真實世界環境中開展實驗,來驗證所提自我提升框架的有效性,研究全程采用 30 億參數的 PaLI 視覺 - 語言模型作為基礎預訓練模型。研究主要進行了6個實驗來回答上述問題,分別是:

      (1)仿真 LanguageTable 實驗

      仿真 LanguageTable 領域第一階段策略訓練所使用的數據集來自原始研究,包含 181,020 條人類生成軌跡,以及 78,623 條描述軌跡目標的獨特指令。對該數據集進行子采樣,生成 3 個新數據集(原始規模的 10%、20% 和 80%)。針對每個數據集規模,在第一階段訓練后,采用 3 個隨機種子進行第二階段微調,以驗證自我提升流程的可靠性。第二階段微調聚焦于 Block2Block 任務子集(例如 “將藍色月亮形狀塊移至紅色五邊形形狀塊處”),當策略成功率趨于穩定時停止訓練。

      (2)真實世界 LanguageTable 實驗

      上述實驗中展現的高樣本效率與穩健性表明,自我提升流程確實可應用于真實世界機器人學。研究將所提方法應用于真實世界 LanguageTable 領域,分別采用 20% 和 80% 規模的模仿學習數據集。與仿真場景相同,第二階段微調聚焦于 Block2Block 任務子集。由于指令采樣、獎勵標記與成功檢測均為自動化流程,在自我提升階段,一名人類操作員即可監控所有 LanguageTable 機器人工作站。操作員的唯一職責是在積木掉落桌面或工作站超過 5 分鐘未洗牌重置時進行重置。每個實驗持續約 20 小時。

      (3)仿真 Aloha 單插入任務實驗

      研究還在第二種機器人實體 —— 雙臂 Aloha 操作平臺上驗證了所提微調框架。設計并收集了雙臂插入任務的數據:左臂拿起套筒,右臂拿起插銷并將其插入套筒。該任務具有更復雜的觀測空間、70 維動作空間以及更小的模仿數據集,為驗證所提方法提供了挑戰性場景。

      研究還構建了 3 個規模分別為 5K、10K 和 15K 片段的模仿數據集,對 5K 和 10K 規模數據集執行兩階段微調,并報告 15K 規模數據集的監督學習結果以作對比。與 LanguageTable 領域實驗相比,本實驗的方法差異在于:1)第二階段策略初始化的檢查點選擇;2)由于相機無法觀測到插銷完全插入套筒的成功條件,在獎勵函數中加入了一個小的正常數以標記成功狀態。

      (4)基礎模型預訓練實驗

      為消融 PaLI 中嵌入的多模態知識的影響,實驗基于 PaLI 模型的變體開展兩階段微調:

      • 隨機初始化( Scratch ):采用 PaLI 架構,但參數隨機初始化。

      • 單模態 PaLI( Uni-PaLI ):PaLI 參數由單獨預訓練的視覺模型與語言模型初始化,未進行聯合多模態視覺 - 語言微調。

      在仿真 LanguageTable 領域采用與第一個實驗相同的設置進行對比實驗。將消融實驗聚焦于自我提升階段:從 PaLI 第一階段檢查點初始化策略,使用隨機初始化或 Uni-PaLI 檢查點進行獎勵計算。

      (5)仿真與真實世界間的域遷移

      首先探究較簡單的泛化形式 —— 仿真與真實世界間的域遷移。Sim2Real 是一類重要方法,可大幅減少訓練高性能機器人策略所需的真實世界經驗,并已在多個場景中成功應用。為簡化實驗,在 LanguageTable 領域探究反向問題 ——Real2Sim 遷移:使用 80% 的真實世界 LanguageTable 數據集訓練第一階段模型,在仿真 LanguageTable 環境中執行第二階段自我提升。

      (6)習得新技能的強泛化能力

      為了進一步探究更強的泛化形式:預訓練基礎模型的自我提升能否使策略練習并習得超出第一階段模仿數據集所觀察到的全新行為技能。基于真實世界 LanguageTable 數據集訓練的策略與獎勵模型,在一個名為 “BananaTable” 的新任務上執行自我提升。

      與以往研究中機器人基礎模型的語義泛化能力不同,BananaTable 任務的遷移需要行為泛化,要求策略習得新技能。例如,由于香蕉的細長幾何形狀,推擊位置不準確會導致香蕉自轉而非按預期方向移動,如下圖所示。


      03

      邁向自主學習新路徑

      通過在 LanguageTable 與 Aloha 兩種機器人實體的真實與仿真環境中開展大量實驗,DeepMind 證實了所提新型后訓練框架的驚人有效性。首先,自我提升不僅能穩健地超越行為克隆的策略性能,且監督微調與自我提升的結合在樣本效率上遠優于單純擴大模仿數據規模的監督學習。例如,在 LanguageTable 領域,僅增加 10% 的機器人自我提升訓練時間,就能將策略成功率從 45% 提升至 75%;而將機器人模仿數據量增加 8 倍,成功率僅從 45% 提升至 60%。進一步的消融實驗凸顯了基礎模型預訓練在實現這一樣本效率與穩健性中的核心作用。

      更為振奮人心的是,在線自我提升與網絡級預訓練的創新結合,還解鎖了現有方法無法實現的獨特能力:使機器人能夠自主練習并習得新技能。與以往研究中展示的語義泛化不同,這個組合方案實現了行為泛化,其范圍遠超第一階段模仿數據所覆蓋的行為。本研究凸顯了將預訓練基礎模型與在線自我提升相結合的變革性潛力,為機器人自主技能習得開辟了新路徑。

      雖然這項研究在機器人自主學習新技能上取得了巨大的進步,但在一些方面仍具有局限性:第一,樣本片段與技能邊界的規模化標注:人工標注成本過高,需要創新策略(如利用現有多模態基礎模型)從原始交互日志中恢復一致的邊界。探索此類自動分割方法是未來研究的重要方向。第二,在這個框架中,獎勵推斷無實時性要求,延遲約束極小,因此可使用更大規模的模型 —— 甚至迭代式、思維鏈推理 —— 以獲得更高保真度的標記。

      第三,本研究微調的通用視覺 - 語言骨干網絡在預訓練階段從未接觸過機器人數據。隨著更大規模的機器人經驗多模態語料庫的出現,設計預訓練課程至關重要 —— 既要賦予具身基礎模型強大的物理推理先驗,又要保留其廣泛的視覺 - 語義知識。

      第四,研究選擇使用不重用數據的在線 REINFORCE 算法。這一選擇規避了 “致命三要素” 中的兩個要素:自舉法與離線學習。但該選擇也放棄了現代離線算法的數據重用優勢。探究可擴展至大型模型的離線變體有望進一步降低機器人時間需求。

      最后,團隊觀察到,當自我提升超出性能峰值后,成功率會下降,這表明需要更好的停止準則或自適應正則化器,以避免對塑形獎勵的過度優化。對獎勵函數選擇的理論探究也可能揭示這種性能下降的原因。


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最后關頭,高市被催謝罪,日方要廢除中國出兵權,遼寧艦逼近琉球

      最后關頭,高市被催謝罪,日方要廢除中國出兵權,遼寧艦逼近琉球

      文史旺旺旺
      2025-12-17 20:26:14
      商業航天、衛星互聯網強勢領漲!重倉航空航天的通用航空ETF(159231)大漲超2%

      商業航天、衛星互聯網強勢領漲!重倉航空航天的通用航空ETF(159231)大漲超2%

      新浪財經
      2025-12-18 19:46:45
      穿搭的最高境界, 是讓人覺得你沒刻意打扮, 卻依然很美

      穿搭的最高境界, 是讓人覺得你沒刻意打扮, 卻依然很美

      牛彈琴123456
      2025-11-18 21:25:51
      上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

      上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

      讀懂世界歷史
      2025-11-23 11:18:04
      美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

      美國對臺軍售捅馬蜂窩,中國反手大舉賣武器,反美國家搶瘋了。

      百態人間
      2025-11-21 17:02:27
      美日現才明白過來,中國之所以按兵不動,是為了拖著日本跟美國

      美日現才明白過來,中國之所以按兵不動,是為了拖著日本跟美國

      安安說
      2025-12-14 11:03:34
      擊碎孫穎莎金牌夢后,她終于說出離開乒乓球國家隊的原因,令人唏噓

      擊碎孫穎莎金牌夢后,她終于說出離開乒乓球國家隊的原因,令人唏噓

      蘇子Vlog一
      2025-12-17 19:51:36
      記者:恩德里克的租借合同中規定,球員必須代表里昂出場25次

      記者:恩德里克的租借合同中規定,球員必須代表里昂出場25次

      懂球帝
      2025-12-18 18:24:31
      曝李湘前夫因經濟犯罪被抓!7天前才剛露過面,負債后開直播自救

      曝李湘前夫因經濟犯罪被抓!7天前才剛露過面,負債后開直播自救

      萌神木木
      2025-12-18 14:25:22
      大V解析楊鳴連吃兩T:裁判吹的沒任何問題!吳乃群賽后表示不理解

      大V解析楊鳴連吃兩T:裁判吹的沒任何問題!吳乃群賽后表示不理解

      顏小白的籃球夢
      2025-12-18 09:46:47
      媒體人:曾凡博前往澳大利亞選項已關閉 拒絕伊拉瓦拉老鷹的報價

      媒體人:曾凡博前往澳大利亞選項已關閉 拒絕伊拉瓦拉老鷹的報價

      狼叔評論
      2025-12-18 17:23:03
      勝北控發布會!劉煒滿意攻守+籃板,齊麟直指打出新疆氣勢!

      勝北控發布會!劉煒滿意攻守+籃板,齊麟直指打出新疆氣勢!

      細話籃球
      2025-12-19 00:36:41
      新疆105-95北控 球員評價:5人滿分,吳冠希及格,5人低迷

      新疆105-95北控 球員評價:5人滿分,吳冠希及格,5人低迷

      籃球資訊達人
      2025-12-18 21:52:06
      看完CBA前三輪,發現這三位球員最應該入選中國男籃!徐杰領銜

      看完CBA前三輪,發現這三位球員最應該入選中國男籃!徐杰領銜

      多特體育說
      2025-12-18 22:19:25
      美國最頂級戰略家,為何集體錯判中國?他們漏算了一個隱藏變量

      美國最頂級戰略家,為何集體錯判中國?他們漏算了一個隱藏變量

      遠方風林
      2025-12-18 23:47:18
      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      環球熱點快評
      2025-11-03 22:40:40
      打起來了!賴清德抓捕13個國民黨人,鄭麗文和蔣萬安宣戰賴清德!

      打起來了!賴清德抓捕13個國民黨人,鄭麗文和蔣萬安宣戰賴清德!

      特特農村生活
      2025-12-18 11:31:26
      中期大選戰況激烈,特朗普罕見認慫后,他的最大死對頭決定出山

      中期大選戰況激烈,特朗普罕見認慫后,他的最大死對頭決定出山

      鯨探所長
      2025-12-18 20:14:02
      多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

      多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

      觀星賞月
      2025-12-19 00:25:44
      要干什么?要打生物戰嗎?

      要干什么?要打生物戰嗎?

      求實處
      2025-12-18 00:28:44
      2025-12-19 03:55:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7012文章數 20715關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      手機
      藝術
      親子
      家居
      軍事航空

      手機要聞

      iPhone Air2再次被確認:升級雙攝+降價,只為存活下來!

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      親子要聞

      當家爸爸的聚會,鮑家寨方言課開課,奶爸學方言笑翻全場,“你據撒起”教學開始啦~

      家居要聞

      高端私宅 理想隱居圣地

      軍事要聞

      福建艦入列后首過臺海 臺方談為何"甲板上沒有艦載機"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久国产盗摄| 怡红院久久| 阳原县| 湖南省| 亚洲日韩久久综合中文字幕| 国产无套精品一区二区| 天天摸日日摸狠狠添| 伊人久在线观看视频| 国产在线中文字幕精品| 日韩欧美午夜成人无码| 熟女丝袜逼| 一本大道无码人妻| 一根材综合成网| 中文字幕精品无码一区二区三区| 加勒比无码人妻东京热| 亚洲天堂无码| 毛片不能到63com| www熟女com| 亚洲成人av| 日本中文字幕在线播放| 深夜福利啪啪片| 欧美一二三区| 国产精品无码成人午夜电影| 又大又长粗又爽又黄少妇视频 | 特大巨黑吊av在线播放| 日本中国内射bbxx| 亚洲人妻一区二区精品| 日韩无码系列| 亚洲国产精品美女久久久久| 啪一啪射一射插一插| 亚洲av综合av一区| 亚洲无码2025| 亚洲原创无码| 亚洲女初尝黑人巨| 国内精品伊人久久久久7777| A片网| 涡阳县| 免费观看日本污污ww网站| 伊人色综合久久天天五月婷| 欧美一级高清片久久99| 色墦五月丁香|