
ROBOT INDUSTRY
“通用”是機器人迭代演進的目標形態,這要求機器人具備高度泛化的感知、認知和決策能力,需要依托海量數據對具身模型進行訓練。傳統的人工數據采集方式難度大、要求高、效率低,成為制約機器人智能化水平提升的關鍵“卡點”,NVIDIA打造的數據合成解決方案成為破解“數據荒”的關鍵一招。
![]()
當前,具身智能無疑是風靡全球的流行熱詞,這項技術的發展,使機器人不再是只能執行預設程序的自動化裝備,而是逐漸成為具有視覺感知、環境理解、自主決策和持續學習等綜合能力的智能體,加快推動生產力重塑,賦能傳統產業轉型升級。
作為具身智能領域的“流量明星”,人形機器人的研發和應用被給予厚望。馬拉松、拳擊賽、足球賽等競技活動引人矚目,進工廠、進商店、進社區等實踐案例不勝枚舉,人形機器人商業化藍海吸引無數創業者投身其中,然而由0到1的規模化應用突破仍然存在難以逾越的現實桎梏。近年來,國內人形機器人訓練場在多地陸續設立,國外部分企業不惜斥重金雇傭人類員工訓練機器人,諸如此類的消息頻頻引發行業關注,究其原因在于這背后蘊藏著共同的關切——數據——制約人形機器人智能化水平提升的“隱形門檻”。
如果說大模型是人形機器人的“大腦”,那么數據則是它“生長發育”所離不開的“養料”,這就不難理解數據為何會如此重要。舉例而言,僅僅一個倒水的動作,就需要采集100條高質量數據供大模型訓練,而在現實生活中,杯子的外形、位置千差萬別,機器人想要靈活應對各種情況,就需要采用更大規模的數據集進行訓練學習。因此,機器人領域存在一個普遍共識:海量數據訓練是實現智能化的核心前提。
1
“數據荒”成為人形機器人智能化瓶頸

人形機器人的能力進化高度依賴數據“滋養”,而數據匱乏是行業面臨的共性難題。現階段,大語言模型已經得到成熟應用,融入社會生產生活的諸多方面,但人形機器人在行走、取物、交互等方面仍“躡手躡腳”,沒有想象中靈巧聰慧,這就是數據量差異帶來的直觀表現。基于互聯網數十年的發展積累,可用于訓練大語言模型的數據量規模達PB級,但能用于訓練人形機器人的有效數據卻遠不及此,盡管一部分整機企業開放了真機數據,但仍難填鴻溝。
人形機器人緣何面臨“數據荒”?主要原因可歸結為以下三點。
一是行業發展起步晚,數據積累不足。人形機器人的高速發展集中在近5年,盡管此前工業機器人已經廣泛應用于制造業,但由于其在物理結構、傳感器配置、任務場景等方面均與前者存在顯著差異,因此相關數據難以遷移至人形機器人。除此之外,由于各家廠商的機器人在本體設計、傳感器配置等方面也存在區別,導致數據跨平臺復用率低。
二是數據采集難度大、成本高。人形機器人的運行涉及視覺、力覺、觸覺等多維感知信息,需要同步各傳感器數據,時序對齊精度達毫秒級,現有技術誤差容易導致動作失控;采集真實交互數據需部署高精度光學動捕系統,并依托專業操作員手把手示教,硬件采購和人員成本普遍較高,并且一旦涉及工業等真實作業場景,還可能占用產線資源,第三方配合意愿低。
三是“數據孤島”現象突出。一方面,企業將數據視為核心競爭力,紛紛組建私有數據集,即便一些開源社區上線了共享數據集,但大多聚焦簡單任務,復雜場景數據依然十分稀缺。另一方面,數據集缺乏統一的質量評估體系,難以規避錯誤標注帶來的現實風險,例如錯誤的數據標注可能造成醫療機器人拿錯藥物,因而導致“數據信任”窘境。
目前,行業普遍認同的數據破題路徑主要分為兩類,一是通過整合資源、規范標準、共建共享等手段多措并舉,打造高質量真實數據集;二是借助物理仿真技術手段,降低真機數據采集成本,高效生成訓練數據。針對前者,國家地方共建人形機器人創新中心、北京人形機器人創新中心等機構已經開展積極探索,收獲顯著成效。后者則涌現出了以NVIDIA為代表的科技企業先驅,基于深厚的行業積累,創新打造全棧機器人解決方案,幫助機器人開發者應對未來的技術挑戰。
2
NVIDIA合成數據生成技術打造人形機器人數據“糧倉”

模仿學習是指人形機器人通過觀察和效仿演示操作的方式獲取新技能,這是機器人學習的一條重要途徑。其中,“演示操作”可以是人類錄制的真實視頻,也可以是仿真數據。經過訓練的人類演示員,平均每分鐘可以錄制一段高質量示范動作,但由于這種傳統的數據采集方式需要大量人力支持,且存在出錯的可能,因此難以大規模推廣。相比之下,NVIDIA推出的NVIDIA Isaac GR00T Blueprint,能夠基于少量的人類演示數據創建大量合成運動軌跡,并用于訓練機器人。測試結果表明,GR00T Blueprint可以在11小時內生成780,000個合成軌跡,相當于人類演示員連續9個月采集的數據總量。此外,GR00T Blueprint生成的數據還能與真實世界數據相結合,進一步提升數據的質量和規模,從而達到與人類演示數據相似的訓練成功率。
![]()
圖1 NVIDIA Isaac GR00T Blueprint架構
從運行邏輯上看,GR00T Blueprint的工作流程可分為數據采集和生成合成軌跡兩部分。在數據采集階段,NVIDIA Isaac Lab平臺會生成機器人環境仿真,操作者通過佩戴Apple Vision Pro等高保真顯示設備沉浸式觀察作業環境,其手部動作被Apple Vision Pro實時采集并傳輸回Isaac Lab平臺,以此讓操作者直觀地控制仿真世界中的機器人執行任務,完成示教操作。在生成合成軌跡階段,Isaac GR00T-Mimic會從少量的人類示范中推算出大量合成運動軌跡,這個過程包括在示范中標記關鍵點,使用插值法合成平滑且符合情境的運動軌跡,以及對生成的數據進行評估和優化等,確保仿真數據滿足訓練標準。
仿真數據的生成過程看似簡單,但要想縮小仿真和現實之間的訓練差距,就需要使合成的機器人和場景具有足夠逼真的3D效果,并通過隨機設定照明、顏色和背景等各種參數來增加多樣性。通常,仿真的過程需要由專業的建模人員耗費大量時間完成。如今,借助NVIDIA推出的Cosmos Transfer(WFMs),只需簡單的文本提示,就能生成高質量仿真場景,將耗時從數小時縮短至幾分鐘,大幅提升了建模效率。
![]()
圖2 NVIDIA Isaac GR00T N系列模型架構
通過利用合成數據集進行真實訓練,NVIDIA驗證了這項解決方案的實用價值。Isaac GR00T N系列模型是NVIDIA打造的用于通用人形機器人推理和技能的開源基礎模型,能夠流暢處理文本指令與圖像等多模態輸入,輸出機器人動作指令,具備出色的跨實體、跨任務泛化能力。該模型基于來自互聯網的大規模數據和人類視頻進行訓練,此外還補充了通過GR00T Blueprint生成的合成數據,將這些合成數據與真實數據相結合后,與僅使用真實數據進行訓練的情況相比,GR00T N的性能能夠提升40%。2025年5月,NVIDIA發布了Isaac GR00T N1.5,借助GR00T-Dreams Blueprint生成合成訓練數據,研究人員僅用36小時就完成了GR00T N1的迭代升級。如果采用人工數據收集的方式進行訓練,該過程則需耗時近3個月。
3
高質量數據加速具身智能落地部署

近年來,越來越多的科技企業選擇運用NVIDIA Isaac平臺技術,加快推進人形機器人的開發與部署。
作為生成式AI與仿真技術合成數據提供商,光輪智能成功將GR00T N1人形機器人基礎模型部署至汽車制造生產線,實現了GR00T N1模型在行業場景的首次實戰應用。通過構建物理交互真實、場景多樣化的仿真環境,光輪智能模擬了汽車工廠中的復雜任務場景,并基于“人在環”的仿真遙操作,生成了覆蓋各類任務的大規模遙操作合成數據。這些高質量合成數據不僅加速了GR00T N1模型的訓練過程,還通過“Real2Sim2Real+Realism Validation”技術架構,有效縮小了仿真環境與物理現實世界的差距,確保訓練成果能夠順利遷移至真實應用場景,從而大幅提升模型在實際環境中的表現水平。在汽車工廠中,搭載GR00T N1模型的人形機器人裝載通過質檢的零部件并批量搬運放置到精確位置的動作,展現了其在工業場景中的應用潛力。兩者合作為具身智能進入智能制造樹立了新范式。
![]()
通用具身機器人領域的“明星企業”智元機器人,推出了基于Isaac GR00T-Teleop和GR00T-Mimic技術的仿真大規模數據采集方案和海量開源仿真數據集AgiBot Digital World,高效解決機器人數據稀缺的問題。智元機器人的仿真數據生成方案,借助Isaac Sim高度逼真的視覺渲染和精確的物理引擎,精準還原機器人的訓練環境,并結合GR00T-Teleop遠程操作和GR00T-Mimic的數據增廣技術,快速生成高質量且多樣化的專家軌跡數據,不僅大幅降低了數據采集的成本和時間,還為機器人模型訓練提供了豐富的仿真數據資源,幫助機器人更高效地融入人類社會,推動各行各業的智能化轉型。
專注于具身多模態大模型通用機器人研發的創新企業銀河通用,借助Isaac Lab和Isaac Sim搭建了靈巧手抓取模型的仿真測試環境,顯著加速了對于靈巧手抓取模型Scaling Law的探索進程,以及靈巧手泛化抓取技能在真實應用場景中的落地進程。
隨著生成式AI與物理仿真的深度融合,機器人加速由“專用工具”向“通用數字勞動力”轉型。正如黃仁勛所言:“通用機器人時代已經到來。”NVIDIA正依托全棧機器人解決方案,與全球開發者共同開啟人機協同新紀元。
閱讀更多內容,歡迎訂購《機器人產業》雜志。
點擊跳轉!圈內人都在看的專家觀點
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.