![]()
在人工通用智能(AGI)的探索征程中,具身智能 Agents 作為連接數(shù)字認(rèn)知與物理世界的關(guān)鍵載體,其核心價(jià)值在于能夠在真實(shí)物理環(huán)境中實(shí)現(xiàn)穩(wěn)健的空間感知、高效的任務(wù)規(guī)劃與自適應(yīng)的執(zhí)行閉環(huán)。
然而,當(dāng)前主流大語言模型(LLMs)與多模態(tài)大語言模型(MLLMs)在具身任務(wù)場景中,普遍面臨三大核心瓶頸:一是模型設(shè)計(jì)與智能體實(shí)際需求存在顯著脫節(jié),難以適配物理世界的動(dòng)力學(xué)特性、傳感器噪聲與動(dòng)態(tài)變化;二是實(shí)時(shí)延遲與任務(wù)性能間存在不可調(diào)和的權(quán)衡,輕量化模型雖能滿足實(shí)時(shí)性需求,卻在指令遵循、空間感知等關(guān)鍵能力上表現(xiàn)薄弱;三是現(xiàn)有評(píng)估依賴非真實(shí)的離線指標(biāo),無法全面反映模型在復(fù)雜真實(shí)場景中的魯棒性與泛化能力。
為此,中興星云大腦團(tuán)隊(duì)(ZTE NebulaBrain Team)重磅推出具身視覺 - 語言基礎(chǔ)模型 EmbodiedBrain,以 7B 和 32B 兩種參數(shù)規(guī)格構(gòu)建了涵蓋數(shù)據(jù)架構(gòu)、訓(xùn)練策略、評(píng)估體系的全流程創(chuàng)新框架,為下一代通用具身智能體的發(fā)展提供了突破性解決方案。
![]()
- Arxiv: https://arxiv.org/abs/2510.20578
- WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/
- Code: https://github.com/ZTERobot/EmbodiedBrain1.0/
- Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7B
- https://huggingface.co/ZTE-AIM/EmbodiedBrain-32B
架構(gòu)創(chuàng)新:模塊化設(shè)計(jì)實(shí)現(xiàn)感知 - 推理 - 行動(dòng)一體化閉環(huán)
EmbodiedBrain 以 Qwen2.5-VL 為基礎(chǔ)框架,創(chuàng)新性地采用模塊化編碼器 - 解碼器架構(gòu),成功打通了「感知 - 推理 - 行動(dòng)」的全鏈路,實(shí)現(xiàn)了三大核心能力的深度協(xié)同(圖 1)。
![]()
圖 1 EmbodiedBrain 的架構(gòu):該模型處理多種多模態(tài)輸入,包括任意分辨率的圖像、長視頻序列以及復(fù)雜的語言指令。視覺輸入由視覺編碼器和 MLP 投影器處理,文本輸入則進(jìn)行分詞處理。所有輸入被送入核心大語言模型(LLM)解碼器,該解碼器執(zhí)行深度推理并生成結(jié)構(gòu)化輸出。最終輸出包含三部分:自然語言響應(yīng)(
)、分步規(guī)劃(
)和可執(zhí)行動(dòng)作序列(
),從而實(shí)現(xiàn)對具身環(huán)境的直接控制與交互。
該架構(gòu)的三大核心組件各司其職且高效聯(lián)動(dòng):
1. 原生分辨率視覺 Transformer(ViT):作為視覺編碼器,其采用窗口 注意力機(jī)制,能夠在處理原生分辨率圖像時(shí)兼顧效率與細(xì)節(jié)捕捉;同時(shí)引入二維旋轉(zhuǎn)位置編碼(2D Rotary Positional Embedding, ROPE),精準(zhǔn)保留圖像中的空間幾何關(guān)系,為后續(xù)空間推理提供扎實(shí)的視覺基礎(chǔ)。
2. 輕量級(jí) MLP 視覺 - 語言融合器:承擔(dān)視覺特征與語言嵌入空間的「橋梁」作用,通過壓縮視覺特征維度、對齊模態(tài)語義分布,確保視覺信息與語言指令能夠在統(tǒng)一的表示空間中高效交互,避免多模態(tài)信息割裂導(dǎo)致的理解偏差。
3. 基于 Qwen2.5 初始化的解碼器:作為模型的「認(rèn)知核心」,采用僅解碼器結(jié)構(gòu),引入時(shí)間對齊的多模態(tài) ROPE(Multimodal RoPE Aligned to Absolute Time)技術(shù),顯著強(qiáng)化對長視頻序列的時(shí)序理解能力,能夠處理動(dòng)態(tài)場景中的時(shí)間依賴關(guān)系。
從工作流程來看,視覺輸入首先經(jīng)視覺編碼器與 MLP 融合器處理,轉(zhuǎn)化為與語言兼容的特征;文本指令經(jīng)分詞后與視覺特征共同構(gòu)成多模態(tài) token 序列,輸入解碼器;最終解碼器輸出包含三部分的結(jié)構(gòu)化結(jié)果:
字段提供自然語言交互反饋,
字段將任務(wù)分解為 [Navigate](導(dǎo)航)與 [Manipulate](操作)兩類可解釋步驟,
字段以二元 / 三元組格式生成直接調(diào)用智能體 API 的可執(zhí)行動(dòng)作。
以「從冰箱取番茄并加熱」任務(wù)為例(圖 1),模型可生成「導(dǎo)航至冰箱→打開冰箱→取出番茄→導(dǎo)航至微波爐→加熱番茄」的清晰規(guī)劃,以及對應(yīng)的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等動(dòng)作序列,完美實(shí)現(xiàn)從語義理解到物理執(zhí)行的閉環(huán)。
數(shù)據(jù)與訓(xùn)練:Agent 對齊設(shè)計(jì)與強(qiáng)化學(xué)習(xí)突破長程規(guī)劃瓶頸
數(shù)據(jù)架構(gòu):面向具身智能的結(jié)構(gòu)化設(shè)計(jì)與多源篩選
為解決模型與具身智能體需求脫節(jié)的根本問題,EmbodiedBrain 創(chuàng)新設(shè)計(jì)了規(guī)劃中心型結(jié)構(gòu)化數(shù)據(jù)格式(圖 2、圖 3),該格式嚴(yán)格遵循「用戶查詢 - 模型響應(yīng) - 顯式規(guī)劃 - 底層動(dòng)作」的層級(jí)邏輯,確保高層任務(wù)目標(biāo)與底層執(zhí)行步驟的精準(zhǔn)對齊。
以「將臟衣服放入洗衣機(jī)」任務(wù)為例(圖 2),
字段明確交互意圖,
字段分解為 5 個(gè)導(dǎo)航與操作步驟,
字段以 [Search, Dirty clothes]、[Navigate, Basket] 等標(biāo)準(zhǔn)化格式生成動(dòng)作,既滿足機(jī)器可解析性,又保留人類可解釋性。
![]()
圖 2: EmbodiedBrain 訓(xùn)練數(shù)據(jù)概覽
訓(xùn)練數(shù)據(jù)涵蓋四大核心類別,通過多階段篩選策略保障質(zhì)量:
1. 通用多模態(tài)指令數(shù)據(jù):包括 tulu-3-sft-personas-instruction-following(10K 樣本,強(qiáng)化指令遵循與約束滿足)、UltraIF-sft-175k(20K 樣本,含單輪 / 多輪對話,提升長程記憶)、MM-IFInstruct-23k(22K 樣本,結(jié)合圖像接地對話,強(qiáng)化多模態(tài) grounding),為模型奠定通用指令理解基礎(chǔ)。
2. 空間推理數(shù)據(jù):基于 EmbSpatial 與 pixmo-points 數(shù)據(jù)集,通過「基線模型生成驗(yàn)證 + GPT-4o 二次過濾」的兩階段拒絕采樣(圖 2),篩選出 50K 空間推理樣本(含目標(biāo)查詢、物體關(guān)系推理)與 60K 視覺定位樣本(含計(jì)數(shù)、坐標(biāo)標(biāo)注),強(qiáng)化模型對三維空間的理解能力。
3. 任務(wù)規(guī)劃數(shù)據(jù):基于 Alfred 數(shù)據(jù)集(AI2-THOR 環(huán)境),通過解析 PDDL 文件生成子任務(wù)序列、捕獲全景圖像與物體邊界框、動(dòng)態(tài)更新物體位置等流程(圖 3),構(gòu)建空間接地的規(guī)劃數(shù)據(jù)集,確保規(guī)劃步驟與物理環(huán)境適配。
4. 視頻理解數(shù)據(jù):融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大數(shù)據(jù)集,生成「回顧性理解」(如「已完成何種動(dòng)作」)與「前瞻性規(guī)劃」(如「下一步應(yīng)執(zhí)行何種動(dòng)作」)兩類 QA 樣本,并通過 Qwen2.5-VL-72B 過濾確保數(shù)據(jù)質(zhì)量,提升模型對動(dòng)態(tài)場景的時(shí)序推理能力。
![]()
圖 3 監(jiān)督微調(diào)(SFT)階段的整體數(shù)據(jù)分布及各動(dòng)作的規(guī)劃數(shù)據(jù)分布
在數(shù)據(jù)配比上,通過對比 5 種不同數(shù)據(jù)混合方案(表 1),發(fā)現(xiàn)「通用 MLLM 數(shù)據(jù) 52K: 空間推理數(shù)據(jù) 130K: 任務(wù)規(guī)劃數(shù)據(jù) 51.5K: 視頻理解數(shù)據(jù) 20K」的配比(52:130:51.5:20)效果最優(yōu) —— 該配比在空間推理平均得分達(dá) 70.27%(僅比最高值低 0.6%),同時(shí)在任務(wù)規(guī)劃平均得分達(dá) 64.64%(為所有方案最高),尤其在執(zhí)行規(guī)劃(EP1/EP2)與目標(biāo)導(dǎo)向推理(EgT)子任務(wù)上提升顯著,為后續(xù)訓(xùn)練奠定了均衡的數(shù)據(jù)基礎(chǔ)。
訓(xùn)練策略:兩階段范式與 Step-GRPO 創(chuàng)新突破
EmbodiedBrain 采用「監(jiān)督微調(diào)(SFT)+ 強(qiáng)化學(xué)習(xí)(RL)」的兩階段訓(xùn)練策略,層層遞進(jìn)優(yōu)化模型能力:
![]()
圖 4 所提出的 Step-GRPO 的詳細(xì)流程
Stage 1:多模態(tài)拒絕采樣 SFT:核心目標(biāo)是提升模型的基礎(chǔ)感知與推理能力。針對數(shù)據(jù)噪聲問題,設(shè)計(jì) “粗粒度過濾 + 細(xì)粒度驗(yàn)證” 的兩階段拒絕采樣:首先用 Qwen2.5-VL-7B 生成 8 個(gè)候選響應(yīng),通過 Qwen3-30B-A3B-Instruct-2507 篩選掉明顯錯(cuò)誤樣本;再用 Qwen2.5-VL-72B 生成 “ oracle 答案”,與原始標(biāo)簽對比,剔除標(biāo)簽錯(cuò)誤樣本。該過程有效去除數(shù)據(jù)噪聲,確保 SFT 階段學(xué)習(xí)信號(hào)的可靠性。
Stage 2:Step-GRPO 多任務(wù)強(qiáng)化學(xué)習(xí):如何讓模型在沒有人類手把手教學(xué)的情況下,學(xué)會(huì)處理復(fù)雜的長序列任務(wù)?EmbodiedBrain 給出的答案是Step-GRPO(分步增強(qiáng)的組相對策略優(yōu)化)。類似于 DeepSeek-R1 等推理模型背后的強(qiáng)化學(xué)習(xí)思路,Step-GRPO 引入了「引導(dǎo)先驗(yàn)」機(jī)制。這就好比老師在教學(xué)生解難題時(shí),不是直接給答案,而是給出關(guān)鍵的中間步驟提示。這種機(jī)制將復(fù)雜的長任務(wù)拆解為可逐步優(yōu)化的子問題,配合異步獎(jiǎng)勵(lì)計(jì)算架構(gòu),不僅讓模型學(xué)會(huì)了「三思而后行」,還實(shí)現(xiàn)了約 20% 的訓(xùn)練加速。
聚焦長程任務(wù)規(guī)劃與輸出格式標(biāo)準(zhǔn)化。針對傳統(tǒng)強(qiáng)化學(xué)習(xí)在長序列規(guī)劃中穩(wěn)定性差、收斂慢的問題,創(chuàng)新提出 Step-Augumented Group Relative Policy Optimization(Step-GRPO)方法(圖 4):在任務(wù)規(guī)劃時(shí),隨機(jī)引入 1-3 步前置規(guī)劃步驟作為「引導(dǎo)先驗(yàn)」(Guided Precursors),將復(fù)雜長任務(wù)分解為可逐步優(yōu)化的子問題。例如在「尋找畫筆」任務(wù)中,通過注入「導(dǎo)航至設(shè)備架」、「定位畫筆」等前置步驟,幫助模型建立步驟間的依賴關(guān)系,提升規(guī)劃連貫性。
同時(shí),為提升訓(xùn)練效率與獎(jiǎng)勵(lì)可靠性,EmbodiedBrain 設(shè)計(jì)了多維度獎(jiǎng)勵(lì)系統(tǒng):
1. 指令遵循任務(wù):基于答案與真值的匹配度計(jì)算正確性獎(jiǎng)勵(lì);
2. 視覺感知任務(wù):接地與檢測任務(wù)采用加權(quán) IoU 評(píng)分,計(jì)數(shù)任務(wù)采用數(shù)值匹配度;
3. 空間感知任務(wù):區(qū)分選擇題與描述題,結(jié)合語義一致性與簡潔性評(píng)分;
4. 任務(wù)規(guī)劃任務(wù):采用「規(guī)則獎(jiǎng)勵(lì)(0-1 分,評(píng)估 XML 格式完整性、動(dòng)作集合規(guī)性)+GRM 獎(jiǎng)勵(lì)(0-1 分,Qwen3-30B-A3B 評(píng)估規(guī)劃合理性)」的雙重機(jī)制,平衡格式規(guī)范性與規(guī)劃邏輯性。
此外,通過異步獎(jiǎng)勵(lì)計(jì)算架構(gòu),將 GRM 推理與 RL 訓(xùn)練解耦,實(shí)現(xiàn)約 20% 的訓(xùn)練加速,且無性能損失。
![]()
表 1:不同數(shù)據(jù)混合配置下冷啟動(dòng)監(jiān)督微調(diào)(SFT)性能評(píng)估(所有數(shù)值單位為 %)
評(píng)估體系:三維基準(zhǔn)與開源環(huán)境構(gòu)建真實(shí)能力校驗(yàn)
為全面、客觀驗(yàn)證模型性能,EmbodiedBrain 構(gòu)建了包含通用多模態(tài)能力、空間感知、端到端仿真規(guī)劃的三維評(píng)估體系,覆蓋 14 項(xiàng)主流基準(zhǔn)測試,徹底解決傳統(tǒng)離線評(píng)估的局限性。
多維度基準(zhǔn)設(shè)計(jì)與性能表現(xiàn)
1. 通用多模態(tài)能力評(píng)估(5 項(xiàng)基準(zhǔn)):采用 MM-IFEval(指令遵循)、MMMU(跨學(xué)科推理)、MMStar(多模態(tài)綜合推理)、AI2D(圖表理解)、OCRBench(圖像文本推理),全面檢驗(yàn)?zāi)P偷幕A(chǔ)多模態(tài)能力。實(shí)驗(yàn)結(jié)果(表 2)顯示,EmbodiedBrain-32B 在 MM-IFEval 達(dá) 46.98%,較 Qwen2.5-VL 32B(46.66%)與 RoboBrain 2.0 32B(39.75%)顯著領(lǐng)先;在 MMStar 達(dá) 65.80%,超越同類模型,證明其在保留通用能力的同時(shí),實(shí)現(xiàn)了具身場景的專項(xiàng)提升。
![]()
表 2:EmbodiedBrain 與先前模型在 14 個(gè)不同基準(zhǔn)測試上的性能對比。每個(gè)基準(zhǔn)測試組中最高分?jǐn)?shù)以粗體突出顯示。
2. 空間感知能力評(píng)估(4 項(xiàng)基準(zhǔn)):通過 BLINK(空間關(guān)系理解)、CV-Bench(3D 物體屬性推理)、EmbSpatial(第一視角空間關(guān)系)、ERQA(端到端多模態(tài)推理),檢驗(yàn)?zāi)P蛯θS空間的理解能力。表 2 數(shù)據(jù)顯示,EmbodiedBrain-7B 在 BLINK 達(dá) 88.11%,較 RoboBrain 2.0 7B(62.94%)提升 39.99%;32B 版本在 CV-Bench 達(dá) 83.64%,EmbSpatial 達(dá) 77.03%,均為所有測試模型最高,印證了其空間推理能力的優(yōu)越性。
3. 任務(wù)規(guī)劃能力評(píng)估(5 項(xiàng)基準(zhǔn)):涵蓋 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公開基準(zhǔn),以及自主設(shè)計(jì)的 Internal Planning 基準(zhǔn)與 VLM-PlanSim-99 仿真基準(zhǔn)。其中,Internal Planning 基準(zhǔn)針對長程規(guī)劃能力,采用「匈牙利算法計(jì)算動(dòng)作匹配度 + LCS 算法計(jì)算順序一致性」評(píng)估方法,EmbodiedBrain-32B 的 F1 分?jǐn)?shù)達(dá) 90.50%,較 Qwen2.5-VL 32B(28.30%)提升超 2 倍。此外,為了拒絕「刷榜式」的虛高分?jǐn)?shù),團(tuán)隊(duì)提出并開源了包含 99 個(gè)手動(dòng)驗(yàn)證家庭任務(wù)的 VLM-PlanSim-99 仿真基準(zhǔn),在最考驗(yàn)「真功夫」的端到端仿真規(guī)劃中,EmbodiedBrain-32B 斬獲了 46.46% 的成功率,幾乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的兩倍。這一數(shù)據(jù)有力證明了:EmbodiedBrain 不是一個(gè)只會(huì)做選擇題的模型,而是一個(gè)真正能干活的具身大腦。
![]()
圖 5:EmbodiedBrain 的空間推理示例
典型案例驗(yàn)證:從空間推理到端到端執(zhí)行
在空間推理任務(wù)中(圖 5),EmbodiedBrain 能夠精準(zhǔn)回答「物體相對位置」、「目標(biāo)物體計(jì)數(shù)」、「空間關(guān)系判斷」等問題,例如正確識(shí)別「車門在左側(cè)」、「手中物品為雞蛋」,展現(xiàn)出對復(fù)雜空間線索的整合能力。
![]()
圖 6:EmbodiedBrain 為「在水槽清洗蘋果后將其放入冰箱」任務(wù)生成的成功 11 步規(guī)劃定性示例。該模型正確識(shí)別并執(zhí)行了兩個(gè)連續(xù)子目標(biāo):(1) 步驟 1-6:獲取物體、將其置于水槽并清洗;(2) 步驟 7-11:拿起清潔后的物體并將其存放在冰箱中。
在任務(wù)規(guī)劃案例中,針對「烘焙糕點(diǎn)設(shè)置計(jì)時(shí)器」任務(wù), EmbodiedBrain 正確選擇「安裝計(jì)時(shí)器」動(dòng)作,而 RoboBrain 2.0 與 Qwen2.5-VL 分別選擇錯(cuò)誤的「攪拌面糊」、「預(yù)熱烤箱」;針對「清洗碗具并冷藏」任務(wù),模型生成 11 步完整執(zhí)行序列(圖 6),從「導(dǎo)航至碗具→放入水槽→清洗→導(dǎo)航至冰箱→存放」,每一步均符合物理邏輯與任務(wù)流程,實(shí)現(xiàn)端到端閉環(huán)。
開源共享與未來展望:賦能具身智能生態(tài)發(fā)展
作為面向全球科研社區(qū)的開放成果,中興團(tuán)隊(duì)已將 EmbodiedBrain 的全部訓(xùn)練數(shù)據(jù)、模型權(quán)重與評(píng)估方法開源(https://zterobot.github.io/EmbodiedBrain.github.io),同時(shí)開源了創(chuàng)新的 VLM-PlanSim-99 仿真環(huán)境,為具身智能領(lǐng)域提供了統(tǒng)一的基準(zhǔn)平臺(tái)與工具鏈,有效解決了現(xiàn)有研究中「數(shù)據(jù)封閉」、「評(píng)估標(biāo)準(zhǔn)不一」的痛點(diǎn)。
未來,EmbodiedBrain 將重點(diǎn)推進(jìn)兩大方向:一是拓展至多智能體協(xié)同任務(wù),探索多智能體間的分工、通信與協(xié)作機(jī)制;二是研究領(lǐng)域隨機(jī)化技術(shù),提升模型在不同真實(shí)機(jī)器人平臺(tái)(如家庭服務(wù)機(jī)器人、工業(yè)協(xié)作機(jī)器人)上的適配性,推動(dòng)具身智能從仿真環(huán)境走向?qū)嶋H應(yīng)用。
中興星云大腦團(tuán)隊(duì)以 EmbodiedBrain 為契機(jī),不僅在學(xué)術(shù)層面突破了具身智能任務(wù)規(guī)劃的性能邊界,更在產(chǎn)業(yè)層面為 AGI 落地物理世界提供了可復(fù)用的技術(shù)框架。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.