機(jī)器之心發(fā)布
具身世界模型新一代原生范式重磅登場!繼具身基礎(chǔ)模型 GigaBrain-0.1 斬獲 RoboChallenge 全球第一后,性能更強(qiáng)大的 GigaBrain-0.5M* 又來了。
![]()
作為依托世界模型實(shí)現(xiàn)自我進(jìn)化的 VLA 大模型,GigaBrain-0.5M* 在家庭疊衣、服務(wù)沖煮咖啡、工業(yè)折紙盒等多個(gè)真實(shí)機(jī)器人任務(wù)中,均實(shí)現(xiàn)數(shù)小時(shí)零失誤、持續(xù)穩(wěn)定運(yùn)轉(zhuǎn)。
![]()
https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ
GigaBrain-0.5M* 作為一款基于世界模型條件驅(qū)動(dòng)(World Model-Conditioned)的 VLA 大模型,以世界模型對(duì)未來狀態(tài)與價(jià)值的預(yù)測結(jié)果作為條件輸入,可顯著提升模型在長時(shí)程任務(wù)中的魯棒性。
在此基礎(chǔ)上,GigaBrain-0.5M* 創(chuàng)新引入人在回路(Human-in-the-Loop)持續(xù)學(xué)習(xí)機(jī)制,系統(tǒng)依托經(jīng)人工篩選與校正的模型推演軌跡開展迭代訓(xùn)練,基于真實(shí)環(huán)境交互反饋持續(xù)優(yōu)化決策策略,最終實(shí)現(xiàn)「行動(dòng) — 反思 — 進(jìn)化」的閉環(huán)式持續(xù)學(xué)習(xí)與自主迭代升級(jí)。
![]()
- 論文鏈接:https://arxiv.org/pdf/2602.12099
- 項(xiàng)目鏈接:https://gigabrain05m.github.io/
01
基于世界模型的強(qiáng)化學(xué)習(xí)訓(xùn)練范式
在 GigaBrain-0.5M* 的研發(fā)中,極佳視界提出基于世界模型的強(qiáng)化學(xué)習(xí)范式,并采用迭代式四階段閉環(huán)訓(xùn)練流程:
- 基于大規(guī)模機(jī)器人操作數(shù)據(jù)完成世界模型預(yù)訓(xùn)練,實(shí)現(xiàn)對(duì)未來狀態(tài)及對(duì)應(yīng)價(jià)值的精準(zhǔn)預(yù)測;
- 以世界模型輸出的未來狀態(tài)預(yù)測與價(jià)值評(píng)估為條件,對(duì)策略網(wǎng)絡(luò)進(jìn)行微調(diào),以指引動(dòng)作決策;
- 將條件化策略部署至真實(shí)物理環(huán)境,依托人在環(huán)干預(yù)機(jī)制,采集模型自主推演軌跡數(shù)據(jù);
- 利用經(jīng)篩選后的有效軌跡數(shù)據(jù)集,聯(lián)合優(yōu)化世界模型與決策策略,實(shí)現(xiàn)模型持續(xù)學(xué)習(xí)與自主進(jìn)化。
![]()
02
數(shù)小時(shí)連續(xù)零失誤執(zhí)行
在與 AWR、RECAP 等主流模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)基線方法的系統(tǒng)對(duì)比中,GigaBrain-0.5M* 展現(xiàn)出顯著優(yōu)勢,在相同任務(wù)設(shè)定下,相較于由 π*0.6 由所提出的 RECAP 基線,任務(wù)成功率提升近 30%,并實(shí)現(xiàn)了穩(wěn)定可靠的模型效果。
尤其在高難度長時(shí)程任務(wù)中,面對(duì)折紙盒、咖啡制備、衣物折疊等包含多階段操作、精細(xì)感知與持續(xù)決策的復(fù)雜場景,GigaBrain?0.5M* 均實(shí)現(xiàn)接近 100% 的任務(wù)成功率,并可穩(wěn)定復(fù)現(xiàn)成功執(zhí)行軌跡,充分彰顯出卓越的策略魯棒性。
![]()
![]()
https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ
![]()
https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ
![]()
https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ
03
高效且準(zhǔn)確的價(jià)值預(yù)測
實(shí)驗(yàn)結(jié)果表明,基于世界模型的價(jià)值預(yù)測方案在執(zhí)行效率與預(yù)測精度上,均優(yōu)于 π*0.6 所提出的 VLM 方案。該方案的核心優(yōu)勢源自對(duì)未來狀態(tài)的顯式建模與世界模型單步降噪機(jī)制,可為價(jià)值函數(shù)提供關(guān)鍵的時(shí)序上下文支撐,讓價(jià)值估計(jì)實(shí)現(xiàn)更高效、更精準(zhǔn)、更穩(wěn)定的輸出。
以疊衣服任務(wù)為例:任務(wù)初期,機(jī)械臂反復(fù)調(diào)整衣物姿態(tài)時(shí),預(yù)測價(jià)值呈現(xiàn)合理波動(dòng);當(dāng)衣物擺正、進(jìn)入穩(wěn)定疊放階段,價(jià)值曲線穩(wěn)步上升;若中途出現(xiàn)干擾物,價(jià)值驟降以反映任務(wù)受阻;待干擾物被移除后,價(jià)值迅速恢復(fù)增長趨勢。這種與任務(wù)物理進(jìn)程高度對(duì)齊的價(jià)值演化,正是世界模型提供「認(rèn)知先驗(yàn)」的直接體現(xiàn)。
![]()
![]()
https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ
04
上萬小時(shí)的訓(xùn)練數(shù)據(jù)
GigaBrain-0.5M* 的基座模型 GigaBrain-0.5 基于總計(jì) 10,931 小時(shí)的多樣化機(jī)器人操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,其中 61%(6,653 小時(shí))由自研具身世界模型 GigaWorld 高保真合成,覆蓋紋理遷移、視角變換、人手到機(jī)械臂映射等豐富場景;剩余 39%(4,278 小時(shí))源自真實(shí)機(jī)器人采集,確保策略在物理世界中的可執(zhí)行性。
海量數(shù)據(jù)的引入顯著拓展了模型的任務(wù)覆蓋廣度與策略魯棒性,使其在面對(duì)復(fù)雜、長時(shí)程操作任務(wù)時(shí)具備更強(qiáng)的泛化能力;而 GigaWorld 生成的合成數(shù)據(jù)則有效突破了真實(shí)采集的長尾瓶頸。通過可控地生成新紋理、新物體位姿與新觀測視角下的訓(xùn)練樣本,增強(qiáng)了模型在分布外場景中的適應(yīng)性,為具身智能走向開放世界奠定了數(shù)據(jù)基石。
![]()
公司及團(tuán)隊(duì)介紹
極佳視界是一家具身智能和通用機(jī)器人公司,圍繞「基模 - 本體 - 場景」三位一體,為工業(yè)、商業(yè)、家庭等場景提供軟硬一體的具身智能機(jī)器人解決方案,推動(dòng)通用機(jī)器人服務(wù)千行百業(yè)、走進(jìn)千家萬戶。
公司核心團(tuán)隊(duì)包括清華、北大、中科院、中科大、WashU、CMU 等全球知名院校頂尖研究人員,以及來自微軟、三星、地平線、百度、博世等全球知名企業(yè)高管,核心團(tuán)隊(duì)在物理 AI 方向兼具業(yè)內(nèi)領(lǐng)先的研究能力和大規(guī)模的產(chǎn)業(yè)落地經(jīng)驗(yàn)。
極佳視界是國內(nèi)第一家布局世界模型的科技公司,以世界模型平臺(tái) GigaWorld、通用具身大腦 GigaBrain、原生本體 Maker 構(gòu)建閉環(huán)生態(tài),致力實(shí)現(xiàn) 10-100 倍以上的數(shù)據(jù)、訓(xùn)練、測試全鏈路效率提升,推動(dòng)通用具身智能機(jī)器人、通用自動(dòng)駕駛等物理 AGI 大規(guī)模爆發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.