網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

極佳視界斬獲全球第一后，GigaBrain-0.5M*再進(jìn)化

2026-02-14 15:39:15　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心發(fā)布

具身世界模型新一代原生范式重磅登場！繼具身基礎(chǔ)模型 GigaBrain-0.1 斬獲 RoboChallenge 全球第一后，性能更強(qiáng)大的 GigaBrain-0.5M* 又來了。

作為依托世界模型實(shí)現(xiàn)自我進(jìn)化的 VLA 大模型，GigaBrain-0.5M* 在家庭疊衣、服務(wù)沖煮咖啡、工業(yè)折紙盒等多個(gè)真實(shí)機(jī)器人任務(wù)中，均實(shí)現(xiàn)數(shù)小時(shí)零失誤、持續(xù)穩(wěn)定運(yùn)轉(zhuǎn)。

https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ

GigaBrain-0.5M* 作為一款基于世界模型條件驅(qū)動(dòng)（World Model-Conditioned）的 VLA 大模型，以世界模型對(duì)未來狀態(tài)與價(jià)值的預(yù)測結(jié)果作為條件輸入，可顯著提升模型在長時(shí)程任務(wù)中的魯棒性。

在此基礎(chǔ)上，GigaBrain-0.5M* 創(chuàng)新引入人在回路（Human-in-the-Loop）持續(xù)學(xué)習(xí)機(jī)制，系統(tǒng)依托經(jīng)人工篩選與校正的模型推演軌跡開展迭代訓(xùn)練，基于真實(shí)環(huán)境交互反饋持續(xù)優(yōu)化決策策略，最終實(shí)現(xiàn)「行動(dòng) — 反思 — 進(jìn)化」的閉環(huán)式持續(xù)學(xué)習(xí)與自主迭代升級(jí)。

論文鏈接：https://arxiv.org/pdf/2602.12099
項(xiàng)目鏈接：https://gigabrain05m.github.io/

基于世界模型的強(qiáng)化學(xué)習(xí)訓(xùn)練范式

在 GigaBrain-0.5M* 的研發(fā)中，極佳視界提出基于世界模型的強(qiáng)化學(xué)習(xí)范式，并采用迭代式四階段閉環(huán)訓(xùn)練流程：

基于大規(guī)模機(jī)器人操作數(shù)據(jù)完成世界模型預(yù)訓(xùn)練，實(shí)現(xiàn)對(duì)未來狀態(tài)及對(duì)應(yīng)價(jià)值的精準(zhǔn)預(yù)測；
以世界模型輸出的未來狀態(tài)預(yù)測與價(jià)值評(píng)估為條件，對(duì)策略網(wǎng)絡(luò)進(jìn)行微調(diào)，以指引動(dòng)作決策；
將條件化策略部署至真實(shí)物理環(huán)境，依托人在環(huán)干預(yù)機(jī)制，采集模型自主推演軌跡數(shù)據(jù)；
利用經(jīng)篩選后的有效軌跡數(shù)據(jù)集，聯(lián)合優(yōu)化世界模型與決策策略，實(shí)現(xiàn)模型持續(xù)學(xué)習(xí)與自主進(jìn)化。

數(shù)小時(shí)連續(xù)零失誤執(zhí)行

在與 AWR、RECAP 等主流模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)基線方法的系統(tǒng)對(duì)比中，GigaBrain-0.5M* 展現(xiàn)出顯著優(yōu)勢，在相同任務(wù)設(shè)定下，相較于由 π*0.6 由所提出的 RECAP 基線，任務(wù)成功率提升近 30%，并實(shí)現(xiàn)了穩(wěn)定可靠的模型效果。

尤其在高難度長時(shí)程任務(wù)中，面對(duì)折紙盒、咖啡制備、衣物折疊等包含多階段操作、精細(xì)感知與持續(xù)決策的復(fù)雜場景，GigaBrain?0.5M* 均實(shí)現(xiàn)接近 100% 的任務(wù)成功率，并可穩(wěn)定復(fù)現(xiàn)成功執(zhí)行軌跡，充分彰顯出卓越的策略魯棒性。

https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ

高效且準(zhǔn)確的價(jià)值預(yù)測

實(shí)驗(yàn)結(jié)果表明，基于世界模型的價(jià)值預(yù)測方案在執(zhí)行效率與預(yù)測精度上，均優(yōu)于 π*0.6 所提出的 VLM 方案。該方案的核心優(yōu)勢源自對(duì)未來狀態(tài)的顯式建模與世界模型單步降噪機(jī)制，可為價(jià)值函數(shù)提供關(guān)鍵的時(shí)序上下文支撐，讓價(jià)值估計(jì)實(shí)現(xiàn)更高效、更精準(zhǔn)、更穩(wěn)定的輸出。

以疊衣服任務(wù)為例：任務(wù)初期，機(jī)械臂反復(fù)調(diào)整衣物姿態(tài)時(shí)，預(yù)測價(jià)值呈現(xiàn)合理波動(dòng)；當(dāng)衣物擺正、進(jìn)入穩(wěn)定疊放階段，價(jià)值曲線穩(wěn)步上升；若中途出現(xiàn)干擾物，價(jià)值驟降以反映任務(wù)受阻；待干擾物被移除后，價(jià)值迅速恢復(fù)增長趨勢。這種與任務(wù)物理進(jìn)程高度對(duì)齊的價(jià)值演化，正是世界模型提供「認(rèn)知先驗(yàn)」的直接體現(xiàn)。

https://mp.weixin.qq.com/s/CCIAKyB9fw00WD9qD-HcMQ

上萬小時(shí)的訓(xùn)練數(shù)據(jù)

GigaBrain-0.5M* 的基座模型 GigaBrain-0.5 基于總計(jì) 10,931 小時(shí)的多樣化機(jī)器人操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，其中 61%（6,653 小時(shí)）由自研具身世界模型 GigaWorld 高保真合成，覆蓋紋理遷移、視角變換、人手到機(jī)械臂映射等豐富場景；剩余 39%（4,278 小時(shí)）源自真實(shí)機(jī)器人采集，確保策略在物理世界中的可執(zhí)行性。

海量數(shù)據(jù)的引入顯著拓展了模型的任務(wù)覆蓋廣度與策略魯棒性，使其在面對(duì)復(fù)雜、長時(shí)程操作任務(wù)時(shí)具備更強(qiáng)的泛化能力；而 GigaWorld 生成的合成數(shù)據(jù)則有效突破了真實(shí)采集的長尾瓶頸。通過可控地生成新紋理、新物體位姿與新觀測視角下的訓(xùn)練樣本，增強(qiáng)了模型在分布外場景中的適應(yīng)性，為具身智能走向開放世界奠定了數(shù)據(jù)基石。

公司及團(tuán)隊(duì)介紹

極佳視界是一家具身智能和通用機(jī)器人公司，圍繞「基模 - 本體 - 場景」三位一體，為工業(yè)、商業(yè)、家庭等場景提供軟硬一體的具身智能機(jī)器人解決方案，推動(dòng)通用機(jī)器人服務(wù)千行百業(yè)、走進(jìn)千家萬戶。

公司核心團(tuán)隊(duì)包括清華、北大、中科院、中科大、WashU、CMU 等全球知名院校頂尖研究人員，以及來自微軟、三星、地平線、百度、博世等全球知名企業(yè)高管，核心團(tuán)隊(duì)在物理 AI 方向兼具業(yè)內(nèi)領(lǐng)先的研究能力和大規(guī)模的產(chǎn)業(yè)落地經(jīng)驗(yàn)。

極佳視界是國內(nèi)第一家布局世界模型的科技公司，以世界模型平臺(tái) GigaWorld、通用具身大腦 GigaBrain、原生本體 Maker 構(gòu)建閉環(huán)生態(tài)，致力實(shí)現(xiàn) 10-100 倍以上的數(shù)據(jù)、訓(xùn)練、測試全鏈路效率提升，推動(dòng)通用具身智能機(jī)器人、通用自動(dòng)駕駛等物理 AGI 大規(guī)模爆發(fā)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.