<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      如何訓練VLA?豐田研究院發布史上最大實驗規?!副D芳墶菇坛?/h1>
      0
      分享至



      是不是經常糾結于 VLA(視覺 - 語言 - 動作)模型的訓練技巧?面對層出不窮的 VLA 算法,是不是常常感到眼花繚亂,不知道哪種數據模態、訓練策略最有效?

      別急,豐田研究院(TRI)和清華大學剛剛發布了一份「保姆級」教程。為了搞清楚這些問題,他們真的「拼了」—— 這項研究使用了4000 小時的機器人與人類操作數據,5000 萬個視覺 - 語言樣本,訓練了89 個不同的策略模型,并在58000 次仿真評估和2835 次真機測試中進行了驗證。

      這不僅僅是一篇論文,更是一份關于大型行為模型(Large Behavior Model,LBM)訓練數據與策略的避坑指南。

      先來看看這個 Demo:得益于 Co-training 打下的堅實基礎,這是模型在解鎖從未見過的長程、靈巧操作任務時的表現:


      https://mp.weixin.qq.com/s/2O_u-IX_XjqM6CeLJ0K3nw

      本研究的核心聚焦于Co-training(協同訓練)。簡單來說,就是別只盯著昂貴的機器人數據薅羊毛。Co-training 主張讓機器人「博采眾長」,同時從目標機器人的數據和其他異構數據模態(比如互聯網上的圖文數據、人類視頻、其他機器人的數據、離散動作表征)中學習。

      這聽起來很完美,但在 TRI 這篇論文出來之前,并沒有人系統性地告訴我們:到底哪種「外援」數據最好用?怎么用才最有效?



      • 論文鏈接: https://arxiv.org/abs/2602.01067
      • 項目主頁: https://co-training-lbm.github.io/

      五大模態,三種策略:地毯式搜索「最佳配方」



      為了找到訓練 VLA 的「圣杯」,研究團隊系統地研究了以下五種 Co-training 數據模態:

      • 標準視覺 - 語言數據:包含 VQA、圖像描述等,提供常識、空間推理和物體定位能力;
      • 機器人軌跡的語言標注:包括基于規則的腳本生成,以及利用 GPT-5 生成的富語義描述,提供顯式的語義監督;
      • 跨具身機器人數據:來自 Open X-Embodiment 等數據集,包含不同形態機器人的數據,引入多樣化的物理交互先驗;
      • 人類視頻:利用海量第一視角視頻,通過提取「潛在動作(Latent Actions)」或利用 GPT-5 生成語言標注來利用;
      • 離散機器人動作 Token:將連續動作壓縮為離散 Token(如 FAST 或 VQ-VAE),探究動作離散化建模的有效性。

      團隊也對比了三種訓練策略:

      • 單階段協同訓練 (Single-phase):將目標機器人數據與協同訓練數據混合,進行聯合訓練;
      • 兩階段 - 僅首階段協同 (Two-phase 1st-phase-only):第一階段使用協同數據進行預訓練,第二階段僅使用目標機器人數據進行微調;
      • 兩階段 - 全協同 (Two-phase full):第一階段同上,但在第二階段微調時,繼續保留協同數據(以一定比例混合),以緩解災難性遺忘。

      精巧的模型架構

      TRI 采用了 VLM + Action Flow Transformer 的架構。與 π0 等架構不同,本文并沒有使用所有層的 KV,而是通過一個特殊的 Observation Encoding Token 來壓縮視覺語言特征。實驗證明,這種壓縮的單 token 的表征方式,比復雜的全量特征在泛化性上更強!

      實驗結果:誰是「真大腿」,誰是「偽概念」?

      為了驗證上述模態與策略的有效性,研究團隊進行了史上最大規模的系統評估,涵蓋了分布內任務、分布外場景、未見任務以及真機環境下的語言指令跟隨能力。



      對所有模態的模擬器實驗



      對有效模態的真機實驗

      紅榜:泛化能力的「硬通貨」

      1.引入「多樣的視覺 - 語言數據」和「跨具身機器人數據」,能顯著提升模型對分布外場景、未見任務以及語言指令跟隨的適應能力。

      2. 不同模態的「最佳打開方式」不同:

      • 全階段受益:得益于豐富的信息量,「標準視覺 - 語言數據」和「人類視頻的語言標注」,無論是在兩階段訓練的「第一階段」還是「第二階段」加入,都能帶來收益;
      • 僅首階段受益:相比之下,「機器人軌跡的語言標注」和「跨具身機器人數據」,主要在「第一階段」發揮作用。

      3. 「三巨頭」揭示了 VLM 的本質:在所有有效的協同訓練模態中,「標準視覺 - 語言數據」「VLM 生成的機器人數據標注」,以及「人類視頻的語言標注」效果最為顯著。 這三者本質上都屬于多樣的視覺 - 語言數據,這有力地證明了:增強 VLM 基座的視覺 - 語言理解能力,能夠直接轉化為更強的機器人策略。

      黑榜:離散動作 Token 的「祛魅」時刻

      盡管「動作 Token 化」是近期的研究熱點,但本研究發現:

      • 離散動作 Token (包括從視頻提取的 Latent Actions, FAST Token, VQ-VAE Token):協同訓練實驗中并未帶來統計學意義上的顯著提升;
      • FAST Token 的副作用:具體來說,使用 FAST Token 協同訓練甚至會降低模型的泛化性;
      • Latent Actions 的局限性:從視頻中提取的 Latent Actions 僅在目標機器人數據匱乏時有效;一旦機器人數據量增加,其帶來的收益便迅速遞減。

      值得注意的是,無論引入何種協同訓練數據,對于訓練集中已經見過的任務,性能基本維持不變。Co-training 的核心價值在于提升「泛化性」。

      組合模態的威力與模型表征的質變

      既然明確了有效模態,將它們組合起來是否有累積效應?答案是肯定的。



      研究團隊將所有有效模態組合訓練得到的模型,在各項指標上全面超越了僅用機器人數據訓練的模型。特別是在真實世界的語言指令跟隨任務中,平均完成率提升了45.3%;在仿真環境的未見任務中,成功率提升了36.4%

      Co-training 的價值遠不止于此,它還極大提升了模型的表征質量與快速適應能力。在微調實驗中,僅使用 200 條演示數據,經過 Co-training 的模型就能迅速掌握全新的長程靈巧操作任務(如收納袋子、整理碗碟),展現出遠超無 Co-training 模型的動作精度與穩定性。


      https://mp.weixin.qq.com/s/2O_u-IX_XjqM6CeLJ0K3nw


      https://mp.weixin.qq.com/s/2O_u-IX_XjqM6CeLJ0K3nw

      除了下游的機器人操作性能,研究團隊還深入分析了 Co-training 如何重塑 VLM 主干網絡。團隊在涵蓋語義理解、空間推理和長程推理的一系列標準視覺 - 語言基準上,對策略模型中提取出的 VLM 進行了評測。



      實驗結果顯示,未經過 Co-training 的模型在通用視覺語言基準上分數大幅下降,而有效的 Co-training 能夠幫助模型保留這些理解能力。經過 Co-training 的模型不僅保留了通用的視覺語言能力,甚至在空間推理等維度上優于原始的 VLM 權重。

      這證明:一個保持了世界理解能力的 VLM Backbone,是構建高性能機器人策略的基礎。

      CoT (思維鏈) 失靈了?

      鑒于 VLM 強大的推理能力,顯式地進行「思維鏈(CoT)」推理是否能提升性能?



      研究團隊嘗試讓模型在輸出動作前,先顯式生成從 Co-training 數據中學到的中間推理步驟。

      結果令人意外:與僅將 CoT 內容作為輔助訓練目標相比,顯式 CoT 條件化并沒有帶來性能提升??梢?strong>對于目標明確、反饋即時的物理操作任務,Co-training 帶來的隱式推理已經足夠。

      這篇論文的內容遠不止于此。除了上述結論,文中還包含了大量關于:

      • 模型架構的詳細消融實驗(為什么單 Token 表征更好?)
      • 超參數的精細調節(Loss 權重怎么設?數據配比多少最合適?)
      • 統計學上的嚴謹驗證。

      如果你正致力于訓練通用的機器人大腦,這篇論文絕對值得加入你的必讀列表!

      關于作者



      本研究的第一作者是林凡淇,清華大學交叉信息研究院二年級博士生,師從高陽教授。該工作是他在豐田研究院(TRI)LBM 團隊實習期間完成的。

      他的研究聚焦于具身智能與機器人學習,致力于利用大規模數據與基礎模型,使機器人獲得人類水平的操作能力。他的多篇論文發表于 ICLR、CoRL、ICRA、IROS 等頂級會議,并多次獲得 Best Paper 或 Oral 榮譽。其代表性工作包括 Co-training LBMs、OneTwoVLA、Data Scaling Laws 等,主要圍繞大規模具身模型(如 VLA)與數據的構建展開。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      演都不演了,剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      演都不演了,剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      一娛三分地
      2026-03-03 13:51:03
      內塔尼亞胡喊話伊朗:以色列不是要分裂伊朗,立即放下武器!

      內塔尼亞胡喊話伊朗:以色列不是要分裂伊朗,立即放下武器!

      現代小青青慕慕
      2026-03-10 09:37:54
      消金巨震:M1、M2全面禁止委外催收

      消金巨震:M1、M2全面禁止委外催收

      新浪財經
      2026-03-10 12:40:12
      baby私下聚會視頻!旗袍邋遢煙不離手請男模,舉止浮夸疑精神失常

      baby私下聚會視頻!旗袍邋遢煙不離手請男模,舉止浮夸疑精神失常

      八卦王者
      2026-03-09 11:05:16
      “榻榻米”已退出中國家庭,學上海人的高級做法,美觀又實用!

      “榻榻米”已退出中國家庭,學上海人的高級做法,美觀又實用!

      室內設計師有料兒
      2026-03-09 15:29:55
      韓國芯片,徹底爆了!

      韓國芯片,徹底爆了!

      華商韜略
      2026-03-10 10:42:39
      以軍空襲伊朗核實驗室

      以軍空襲伊朗核實驗室

      界面新聞
      2026-03-10 14:10:11
      又一白酒在廣西“一炮打響”,0添加、0香精,不是三花酒、丹泉酒

      又一白酒在廣西“一炮打響”,0添加、0香精,不是三花酒、丹泉酒

      影像渭南
      2026-03-10 13:30:05
      楊紫真的已經瘦到天賦上限了,這也太牛了…

      楊紫真的已經瘦到天賦上限了,這也太牛了…

      手工制作阿殲
      2026-02-22 13:25:34
      微信迎來史詩級大更新!全新界面來了

      微信迎來史詩級大更新!全新界面來了

      XCiOS俱樂部
      2026-03-09 20:35:39
      小米YU9“閃現”!攬勝“輾轉反側”

      小米YU9“閃現”!攬勝“輾轉反側”

      手機評測室
      2026-03-09 11:50:20
      3只一字跌停的油氣股,盤中同時打開,博反包的進去后瞬間封板!

      3只一字跌停的油氣股,盤中同時打開,博反包的進去后瞬間封板!

      丁丁鯉史紀
      2026-03-10 16:34:40
      0-3爆冷!王曼昱輸球原因揭曉,前國手一針見血,國乒女單敲警鐘

      0-3爆冷!王曼昱輸球原因揭曉,前國手一針見血,國乒女單敲警鐘

      大秦壁虎白話體育
      2026-03-10 15:10:05
      曝伊朗女足前往機場!部分人員留在澳洲 只剩申請庇護的最后機會

      曝伊朗女足前往機場!部分人員留在澳洲 只剩申請庇護的最后機會

      念洲
      2026-03-10 12:36:49
      中東戰火未停,亞太又出亂子?朝鮮試射導彈,特朗普收到挑戰書

      中東戰火未停,亞太又出亂子?朝鮮試射導彈,特朗普收到挑戰書

      史行途
      2026-03-08 04:48:54
      沈騰與林允回應戀情:不是知三當三,沒有劈腿...

      沈騰與林允回應戀情:不是知三當三,沒有劈腿...

      背包旅行
      2026-03-09 15:02:55
      文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網絡熱詞,老外愛上喝開水吃火鍋等中式生活

      文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網絡熱詞,老外愛上喝開水吃火鍋等中式生活

      新民晚報
      2026-03-07 15:00:52
      小米YU7的29萬訂單被快速消化,小米要走下坡路了嗎?

      小米YU7的29萬訂單被快速消化,小米要走下坡路了嗎?

      新能源前瞻
      2026-03-09 16:01:51
      梅婷寵著、閆妮護著,長得不帥氣卻讓大咖輪流作配,他啥來頭?

      梅婷寵著、閆妮護著,長得不帥氣卻讓大咖輪流作配,他啥來頭?

      查爾菲的筆記
      2026-03-09 15:32:20
      即將首秀!你好,崔永熙!等了整整1年時間

      即將首秀!你好,崔永熙!等了整整1年時間

      籃球實戰寶典
      2026-03-10 15:41:23
      2026-03-10 22:43:00

      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142581關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      頭條要聞

      小伙輾轉8天回國:后悔賺錢賺到伊朗 赴死的心都有了

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      藝術
      本地
      健康
      公開課
      軍事航空

      藝術要聞

      30000畝杏花開了,新疆的春天這么美!

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版