<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      英偉達研究:看完44000小時人類視頻后,機器人學會想象物理世界

      0
      分享至

      在走向通用人工智能的道路上,機器人領域長期面臨著“莫拉維克悖論”的限制:許多對人類來說很困難的事,AI 卻很擅長;而許多對人類來說輕而易舉的事,AI 反而做不到。

      例如,讓計算機在智力測試或棋類游戲中擊敗人類或許相對容易,但要讓機器人像一歲孩子那樣具備對物理世界的感知和運動本能,卻難如登天。

      近年來,大語言模型展現(xiàn)了對人類知識的壓縮與生成能力,但在物理交互層面,如何讓智能體理解“動作”與“環(huán)境”之間復雜的因果關系,始終是具身智能尚未攻克的難題。

      近日,英偉達(NVIDIA)與其通用具身智能研究團隊(GEAR)共 30 個作者聯(lián)合發(fā)布了一項代號為 DreamDojo 的最新研究成果,試圖從根本上影響機器人學習物理世界的方式。


      (來源:GitHub)

      這項工作并沒有依賴傳統(tǒng)的、昂貴的機器人遙操作數(shù)據(jù)堆疊,而是另辟蹊徑,構(gòu)建了一個包含 44,000 小時、第一人稱視角人類視頻的龐大數(shù)據(jù)庫,并以此訓練出了一個能夠通用化的機器人世界模型。

      這一模型不僅能夠逼真地生成物理交互視頻,更關鍵的是,它讓機器人首次具備了可控的“想象力”。即在執(zhí)行動作之前,在潛意識中預演人類世界物理后果的能力。


      (來源:論文)

      世界模型的概念已經(jīng)并不新鮮。從早期的游戲環(huán)境模擬到自動駕駛中的軌跡預測,預測未來狀態(tài)一直是智能決策的核心。然而,在開放世界的機器人操作任務中,世界模型的構(gòu)建面臨著獨特的挑戰(zhàn)。與有著清晰規(guī)則的電子游戲或結(jié)構(gòu)化道路不同,家庭、工廠或辦公室等非結(jié)構(gòu)化環(huán)境充滿了不確定性。

      例如一個看似簡單的“抓取水杯”動作,涉及物體材質(zhì)、摩擦力、液體晃動以及機械臂動力學等無數(shù)變量。此前的視頻生成模型,如 OpenAI 的 Sora 或 Google 的 Genie,雖然在畫面生成質(zhì)量上取得了突破,但它們大多缺乏精確的動作控制接口,難以直接服務于機器人的決策回路。

      而此次 DreamDojo 的核心突破就在于此,它證明了通過大規(guī)模的人類視頻預訓練,結(jié)合創(chuàng)新的“潛在動作”(Latent Actions)表征,可以有效地彌合人類與機器人之間的“具身差異”(Embodiment Gap),從而讓機器人獲得對物理規(guī)律的通用理解。

      借力人類視頻突破數(shù)據(jù)缺口

      長期以來,制約機器人基礎模型發(fā)展的最大瓶頸在于數(shù)據(jù)。盡管互聯(lián)網(wǎng)上充斥著萬億級別的文本和圖像數(shù)據(jù),但高質(zhì)量的“機器人操作數(shù)據(jù)”。即包含精確動作指令(Action Labels)和環(huán)境反饋的序列數(shù)據(jù)卻極度稀缺。目前主流的機器人數(shù)據(jù)集,如 Open X-Embodiment,雖然匯集了多個實驗室的數(shù)據(jù),但在場景多樣性和物理交互的豐富度上,仍遠不足以覆蓋真實世界的復雜性。

      英偉達團隊意識到,單純依靠擴大機器人實體數(shù)據(jù)的采集規(guī)模是不現(xiàn)實的。采集成本高昂、硬件損耗大、場景布置繁瑣,這些因素限制了數(shù)據(jù)的增長速度。相比之下,人類在日常生活中每時每刻都在與物理世界交互,而這些交互過程如果被記錄下來,本身就是蘊含著豐富物理知識的寶庫。

      為了挖掘這一寶庫,研究團隊構(gòu)建了名為 DreamDojo-HV(Human Videos)的數(shù)據(jù)集。這是一個規(guī)模驚人的數(shù)據(jù)集合,包含了約 44,711 小時的第一人稱視角視頻。

      這些視頻并非來自于受控的實驗室環(huán)境,而是廣泛采集自真實世界,涵蓋了家庭烹飪、工業(yè)維修、手工制作、日常清潔等超過 6,000 種獨特的技能和 1,000 多種不同的場景。為了保證數(shù)據(jù)的多樣性,團隊還特別整合了 EgoDex 等現(xiàn)有的高質(zhì)量數(shù)據(jù)集,使得 DreamDojo-HV 在規(guī)模上比此前機器人學習中使用的最大視頻數(shù)據(jù)集還要大出幾個數(shù)量級。


      (來源:論文)

      然而,直接使用人類視頻訓練機器人模型也面臨著一定困難。最直觀的問題是:人類的手臂結(jié)構(gòu)與機器人的機械臂完全不同,且人類視頻中并不包含機器人的關節(jié)角度、力矩等控制信號。這種缺失導致模型難以直接學習“動作”與“結(jié)果”之間的映射關系。

      逐幀推理下一個動作

      為了解決無標簽人類視頻的利用問題,DreamDojo 引入了一項關鍵技術:連續(xù)潛在動作(Continuous Latent Actions)。

      在傳統(tǒng)的機器人學習中,模型通常直接預測離散的關節(jié)動作或末端執(zhí)行器位姿。但在處理海量無標注的人類視頻時,這種方法行不通了。因此,研究人員設計了一個基于時空 Transformer 的變分自編碼器(VAE)作為“潛在動作模型”。

      這個模型的作用類似于一個能夠理解動作本質(zhì)的“翻譯官”。它不關注具體的關節(jié)如何旋轉(zhuǎn),而是通過觀察視頻中連續(xù)幀的變化,提取出一個低維的、連續(xù)的潛在向量。這個向量代表了導致環(huán)境發(fā)生變化的“意圖”或“力學特征”。


      圖 | 潛在動作模型(來源:論文)

      通過這種設計,潛在動作成為了連接人類視頻與機器人控制的通用橋梁。在預訓練階段,模型通過自我監(jiān)督的方式,學習如何從像素變化中推斷出潛在動作,并利用這些潛在動作預測下一幀畫面。

      這使得 DreamDojo 能夠在沒有顯式動作標簽的情況下,從 44,000 小時的視頻中汲取物理世界的因果邏輯。例如,它通過觀察無數(shù)次“手推開門”的視頻,學會了“施加推力”這一潛在動作會導致“門打開”這一視覺結(jié)果的物理規(guī)律,而這種規(guī)律對于機器人來說同樣適用。

      在具體的模型架構(gòu)上,DreamDojo 建立在英偉達此前發(fā)布的 Cosmos-Predict2.5 基礎之上。這是一個強大的潛在視頻擴散模型(Latent Video Diffusion Model),原本用于通用的視頻生成。為了適應機器人的實時控制需求,研究團隊對其進行了深度的改造。

      為了提高動作的可控性,團隊放棄了絕對關節(jié)位置的輸入方式,轉(zhuǎn)而采用“相對動作”(Relative Actions)作為條件。實驗表明,相對動作能夠更好地聚焦于物體與手部的交互變化,減少了背景環(huán)境對模型注意力的分散。

      同時,針對視頻生成中常見的“因果混淆”問題,即模型難以區(qū)分動作是原因還是結(jié)果。研究團隊提出了一種“分塊注入”(Chunked Injection)策略。

      他們將未來的動作序列打包成塊,一次性輸入到模型的每一幀生成過程中。這種強先驗信息強制模型關注長時程的動作影響,從而顯著提升了生成視頻的邏輯連貫性。

      此外,為了確保生成的物理過程符合現(xiàn)實世界的連續(xù)性,研究團隊還引入了專門的時間一致性損失函數(shù)(Temporal Consistency Loss)。這一函數(shù)約束了物體在時間軸上的運動軌跡,防止了視頻生成中常見的物體閃爍、憑空消失或形狀突變等偽影現(xiàn)象,確保了物理模擬的高保真度。

      從慢速擴散到超快實時“想象”

      擁有一個懂物理的模型只是第一步,對于機器人應用來說,推理速度至關重要。傳統(tǒng)的視頻擴散模型生成一幀高質(zhì)量畫面往往需要數(shù)十次迭代,耗時數(shù)秒,這對于需要毫秒級響應的機器人控制回路來說是不可接受的。

      為了解決這一難題,DreamDojo 采用了一種名為“自強迫”(Self Forcing)的蒸餾技術,成功將原本笨重的雙向注意力擴散模型轉(zhuǎn)化為高效的自回歸模型。

      這一過程通過“教師-學生”訓練模式實現(xiàn):首先利用高精度的教師模型生成大量的軌跡數(shù)據(jù),然后訓練學生模型去模仿這些軌跡。但在蒸餾過程中,學生模型不僅要學習單幀的生成,還要學習如何在僅有極短歷史上下文的情況下,預測未來的長期演變。

      這一蒸餾過程將模型的推理步數(shù)從原本的 35 步大幅壓縮至 4 步。最終,DreamDojo 在單張 NVIDIA H100 GPU 上實現(xiàn)了 10.81 FPS(幀/秒)的實時推理速度。這意味著機器人可以在不到 0.1 秒的時間內(nèi),在“腦海”中生成未來的視覺反饋。

      這不僅滿足了實時控制的要求,更讓長時程的交互模擬成為可能。實驗顯示,經(jīng)過蒸餾后的模型能夠連續(xù)生成長達 1 分鐘(約 600 幀)的穩(wěn)定視頻,且在長時間跨度下依然保持對物體及其物理屬性的記憶,沒有出現(xiàn)常見的畫面崩壞。

      打通“虛實”邊界的實際應用

      DreamDojo 的價值遠不止于生成逼真的視頻,其實質(zhì)是為機器人提供了一個低成本、高保真的“試錯空間”。基于這一世界模型,英偉達團隊展示了三項核心應用,充分證明了其在機器人研發(fā)與部署流程中的潛力。

      首先是策略評估(Policy Evaluation)。在機器人開發(fā)中,驗證一個新的控制策略通常需要實機測試,這不僅效率低下,還伴隨著硬件損壞的風險。DreamDojo 提供了一個替代方案:將策略部署在世界模型中,讓機器人在虛擬的視頻流中執(zhí)行任務。

      研究人員在 AgiBot 機器人的水果包裝任務中進行了驗證,結(jié)果令人振奮:DreamDojo 模擬出的任務成功率與真實世界的成功率呈現(xiàn)出極高的線性相關性(Pearson 相關系數(shù)高達 0.995)。這意味著開發(fā)者可以放心地在模擬環(huán)境中篩選最優(yōu)策略,而無需在現(xiàn)實世界中進行成百上千次的物理實驗。

      其次是基于模型的規(guī)劃(Model-based Planning)。利用 DreamDojo 的預測能力,機器人可以在執(zhí)行動作之前,在“思維”中并行推演多種動作方案的結(jié)果。

      例如,在抓取一個被遮擋的蘋果時,機器人可以預演直接抓取和先移開遮擋物兩種方案,DreamDojo 會即時生成相應的未來視頻。通過評估視頻中的任務完成度,機器人可以選擇最優(yōu)路徑。實驗表明,在引入這種在線規(guī)劃機制后,機器人在復雜長程任務中的成功率相比直接執(zhí)行策略提升了近兩倍。

      最后是實時遙操作(Live Teleoperation)。借助蒸餾后的高推理速度,操作員可以通過 VR 手柄實時驅(qū)動虛擬環(huán)境中的機器人。DreamDojo 能夠即時響應操作員的動作,并生成相應的視覺反饋。這種“所見即所得”的零延遲體驗,不僅為遠程控制提供了新的界面,也為人類向機器人演示復雜技能提供了更直觀的數(shù)據(jù)收集方式。


      (來源:論文)

      當然,DreamDojo 并非完美無缺。英偉達團隊在報告中坦誠地指出了當前模型的局限性。盡管在大部分日常場景中表現(xiàn)優(yōu)異,但在面對一些極端動態(tài)(如快速揮手、物體高速碰撞)或涉及復雜流體動力學(如倒水時的水流湍流)的場景時,生成的視頻仍會出現(xiàn)物理失真或模糊。

      此外,雖然模型在未見過的物體上展現(xiàn)了良好的泛化性,但對于完全陌生的物理機制(例如具有特殊彈性的軟體材料),其預測能力依然有限。

      此外,目前的 DreamDojo 主要側(cè)重于視覺層面的物理模擬,尚未整合觸覺、聽覺等多模態(tài)信息。對于像“盲插鑰匙”或“判斷物體重量”這樣極度依賴觸覺反饋的精細操作任務,單純依靠視覺預測的世界模型仍顯得力不從心。未來的研究方向可能需要探索如何將觸覺信號引入潛在動作空間,構(gòu)建更加全能的多模態(tài)世界模型。

      https://arxiv.org/abs/2602.06949

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曾有10隊想簽他!索漢決定加盟尼克斯:為紐約提升多個位置深度

      曾有10隊想簽他!索漢決定加盟尼克斯:為紐約提升多個位置深度

      羅說NBA
      2026-02-13 06:00:24
      6人參賽,1人奪牌!冬奧會最新獎牌榜:中國僅第16,落后日本韓國

      6人參賽,1人奪牌!冬奧會最新獎牌榜:中國僅第16,落后日本韓國

      侃球熊弟
      2026-02-13 05:44:38
      1948年粟裕匯報全殲450萬蔣軍,主席聽后大驚

      1948年粟裕匯報全殲450萬蔣軍,主席聽后大驚

      小蒨喜歡解說
      2026-02-13 09:35:57
      羅永浩懟段永平“懂個屁”,這個全是“破爛”的時代

      羅永浩懟段永平“懂個屁”,這個全是“破爛”的時代

      不正確
      2026-02-11 22:53:03
      林孝埈全程墊底,網(wǎng)友嘆英雄遲暮!賽后本人回應,2次提到了中國

      林孝埈全程墊底,網(wǎng)友嘆英雄遲暮!賽后本人回應,2次提到了中國

      十點街球體育
      2026-02-13 14:55:03
      45歲仍拍三級片,敗光兩任億萬家產(chǎn),62歲坦言后悔嫁給鐘鎮(zhèn)濤

      45歲仍拍三級片,敗光兩任億萬家產(chǎn),62歲坦言后悔嫁給鐘鎮(zhèn)濤

      無人傾聽無人傾聽
      2026-01-17 15:17:25
      36歲便慷慨就義的瞿秋白,建國后毛主席為何會有 “以后少紀念他” 這樣的評價?

      36歲便慷慨就義的瞿秋白,建國后毛主席為何會有 “以后少紀念他” 這樣的評價?

      桃煙讀史
      2025-12-31 21:38:26
      當曾毓群和71位頂級科學家坐在一起

      當曾毓群和71位頂級科學家坐在一起

      中國企業(yè)家雜志
      2026-02-12 15:11:48
      不滿黎智英被判20年,為了報復中國,英國決定讓2.6萬人潤英!

      不滿黎智英被判20年,為了報復中國,英國決定讓2.6萬人潤英!

      壹知眠羊
      2026-02-12 19:48:34
      79歲李保田老態(tài)難辨,住處雜亂喝10元桶裝水與兒子關系在意料之中

      79歲李保田老態(tài)難辨,住處雜亂喝10元桶裝水與兒子關系在意料之中

      阿會情感
      2026-02-11 17:20:04
      驚爆!特朗普通過愛潑斯坦,認識小24歲梅拉尼婭,拯救并娶她為妻

      驚爆!特朗普通過愛潑斯坦,認識小24歲梅拉尼婭,拯救并娶她為妻

      小寒嫣語
      2026-02-13 15:04:55
      網(wǎng)友乘坐從上海至河南的高鐵,看到一只小狗在車廂里奔跑撒歡,12306客服:任何寵物都不允許攜帶

      網(wǎng)友乘坐從上海至河南的高鐵,看到一只小狗在車廂里奔跑撒歡,12306客服:任何寵物都不允許攜帶

      臺州交通廣播
      2026-02-13 09:16:34
      孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

      孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

      荊楚寰宇文樞
      2026-01-25 23:08:14
      挖墳了!一女子網(wǎng)購敬酒服穿臟后焊接吊牌退貨,網(wǎng)友扒出發(fā)貨地址

      挖墳了!一女子網(wǎng)購敬酒服穿臟后焊接吊牌退貨,網(wǎng)友扒出發(fā)貨地址

      火山詩話
      2026-02-12 08:23:01
      尼古拉斯·凱奇主演!《暗影蜘蛛俠》發(fā)布新海報

      尼古拉斯·凱奇主演!《暗影蜘蛛俠》發(fā)布新海報

      情感大頭說說
      2026-02-12 20:59:38
      這跟不穿有啥區(qū)別?格萊美紅毯女星穿衣大膽,連美國網(wǎng)友都無語了

      這跟不穿有啥區(qū)別?格萊美紅毯女星穿衣大膽,連美國網(wǎng)友都無語了

      夢醉為紅顏一笑
      2026-02-10 14:52:10
      央媒發(fā)文,官宣28歲趙心童喜訊,讓丁俊暉和整個體壇刮目相看

      央媒發(fā)文,官宣28歲趙心童喜訊,讓丁俊暉和整個體壇刮目相看

      翰飛觀事
      2026-02-13 16:55:11
      川大才女35歲掌管近700億,受賄4900萬元獲刑

      川大才女35歲掌管近700億,受賄4900萬元獲刑

      蓬勃新聞
      2026-02-08 17:35:48
      鄭州男子出售前女友送的銀鐲,剪開發(fā)現(xiàn)竟是銀包金:金子占30克,銀子僅占10克;得知手鐲“秘密”小伙難掩傷感

      鄭州男子出售前女友送的銀鐲,剪開發(fā)現(xiàn)竟是銀包金:金子占30克,銀子僅占10克;得知手鐲“秘密”小伙難掩傷感

      揚子晚報
      2026-02-13 11:20:42
      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      TVB劇評社
      2026-02-13 16:22:16
      2026-02-13 19:31:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16265文章數(shù) 514607關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      首次訪華前 德國總理默茨在發(fā)言中將中歐對比引發(fā)關注

      頭條要聞

      首次訪華前 德國總理默茨在發(fā)言中將中歐對比引發(fā)關注

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      米蘭冬奧摘銀 谷愛凌再遭美國網(wǎng)友網(wǎng)暴

      財經(jīng)要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態(tài)度原創(chuàng)

      手機
      藝術
      家居
      房產(chǎn)
      數(shù)碼

      手機要聞

      存儲漲價干的好事:今年手機廠商崩潰 中低端機型越賣越虧

      藝術要聞

      于右任又一真跡出土!這才是當代“真草圣”

      家居要聞

      中古雅韻 樂韻伴日常

      房產(chǎn)要聞

      三亞新機場,又傳出新消息!

      數(shù)碼要聞

      銀昕推出2U Single服務器電源:ATX 3.1金牌,直出線設計

      無障礙瀏覽 進入關懷版