機(jī)器人需要借助大規(guī)模、高物理精度且多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,才能在復(fù)雜環(huán)境中進(jìn)行推理并完成多種任務(wù),而目前這些數(shù)據(jù)難以公開獲取。
在華盛頓特區(qū)舉行的 NVIDIA GTC 大會上,NVIDIA 發(fā)布了基于 NVIDIA Cosmos 世界基礎(chǔ)模型構(gòu)建的 Isaac GR00T-Dreams 合成數(shù)據(jù)生成與神經(jīng)仿真框架,可幫助機(jī)器人突破現(xiàn)實(shí)經(jīng)驗(yàn)的局限進(jìn)行學(xué)習(xí)。通過生成如虛擬世界狀態(tài)與動作軌跡的“夢境”,開發(fā)者可為機(jī)器人生成不同環(huán)境下的訓(xùn)練數(shù)據(jù)與動作指令,使其掌握新技能。
傳統(tǒng)合成數(shù)據(jù)生成方法需要開發(fā)者耗費(fèi)大量精力構(gòu)建虛擬環(huán)境,而 GR00T-Dreams 框架徹底改變了這一模式:僅需一張圖片以及簡單的自然語言指令,即可“構(gòu)想”出全新的訓(xùn)練場景。
GR00T-Dreams 框架包含兩種核心模式:
- Passive dreaming 模式能夠自動生成多樣化的機(jī)器人訓(xùn)練視頻場景。開發(fā)者只需輸入圖像和指令,例如移動物體或在空間內(nèi)導(dǎo)航,即可對類似 NVIDIA Cosmos Predict 等世界模型進(jìn)行后訓(xùn)練。隨后,GR00T-Dreams 僅需文本提示,即可“構(gòu)想”生成多個(gè)合成序列,動態(tài)呈現(xiàn)機(jī)器人如何在新環(huán)境中完成各類任務(wù),同時(shí)場景中的物體與背景可以完全通過文本提示進(jìn)行更換。
- Lucid dreaming 模式作為一個(gè)響應(yīng)式神經(jīng)仿真器則更進(jìn)一步。它可使 AI 模型僅憑一張 2D 圖像構(gòu)建出完整的交互式虛擬世界,在這些環(huán)境中開發(fā)者可以遠(yuǎn)程精確控制機(jī)器人進(jìn)行復(fù)雜機(jī)械動作,還可實(shí)時(shí)測試各種邊緣場景。
場景生成后,GR00T-Dreams 會將其送入 Cosmos Reason 推理模型進(jìn)行篩選,該模型能夠過濾存在缺陷或質(zhì)量較低的“不好的夢境”。經(jīng)篩選保留的數(shù)據(jù)將形成連貫的動作軌跡,為 GR00T?N 系列等視覺語言動作模型提供后訓(xùn)練支持。
這些模型集成了視覺感知、自然語言理解與物理控制系統(tǒng),使機(jī)器人能夠精準(zhǔn)解析指令并在復(fù)雜環(huán)境中做出自主響應(yīng)。
以上為摘要內(nèi)容,點(diǎn)擊鏈接閱讀完整內(nèi)容:NVIDIA GTC 華盛頓特區(qū):AI 未來發(fā)展的實(shí)時(shí)動態(tài) | NVIDIA 英偉達(dá)博客
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.