![]()
你能想象嗎?
當老墨對機器人說“把臟衣服放進洗衣機再烘干”,它不僅聽得懂,還能一步步規劃路線、打開衣柜、分類衣物,甚至在洗衣液不足時主動提示——這不是科幻電影場景,而是中興最新具身模型EmbodiedBrain實現的真實效果。
最近這個模型在行業測試里創下46.46%的任務成功率,直接是同類產品的兩倍,讓AI從只會“紙上談兵”的虛擬工具,變成了能落地干活的“實干家”。
![]()
![]()
EmbodiedBrain模型的架構革新
要知道,以前不少AI模型看著厲害,一到真實場景就“掉鏈子”。
要么看不懂復雜環境,把醬油當醋拿;要么反應慢半拍,指令下達后得等好幾秒才行動;更關鍵的是,很多測試數據都是實驗室里的“理想情況”,到了家里、工廠這種真實場景就水土不服。
![]()
中興星云大腦團隊就是沖著這些痛點去的,花了大功夫搞出了這套EmbodiedBrain模型,分7B和32B兩種參數規格,從架構到訓練全是新設計。
這個模型最絕的地方,是打通了“看得到、想得通、做得對”的全流程。
![]()
它有三個核心部件協同工作:原生分辨率視覺編碼器能像人眼一樣捕捉細節,連衣服上的褶皺、物品的擺放角度都能精準識別;視覺-語言融合器就像“翻譯官”,把看到的圖像信息和聽到的語言指令統一成模型能理解的“通用語言”;再加上基于Qwen2.5的解碼器當“大腦”,能處理長視頻里的動態變化,比如看著鍋里的水燒開就知道該關火。
光有好架構還不夠,訓練數據和方法更是關鍵。
![]()
![]()
訓練突破:從數據到方法的全面升級
團隊設計了一套“規劃中心型”數據格式,比如“取番茄加熱”這個任務,會明確拆成“導航到冰箱→打開冰箱→取番茄→加熱”等步驟,每個步驟都對應具體動作。
數據來源也很雜,既有10萬級的通用對話樣本,也有50萬條空間推理數據,連老人用手勢控制家電的場景都考慮到了。
![]()
訓練時先用監督微調打基礎,再用獨創的Step-GRPO強化學習讓模型“舉一反三”,比如教它“取蘋果”后,它能自己學會“取橙子”,還能比傳統方法快20%完成訓練。
最近一個月,這套技術已經在真實場景里落地了。
![]()
![]()
從單場景到多協同
上海有個社區試點了搭載該模型的養老服務機器人,有位獨居老人不小心把湯灑在地上,機器人看到后立刻規劃了處理流程:先通過語音提示“地面濕滑請小心”,再導航到儲物間取拖把,拖地時還會避開老人常走的路線。
更有意思的是,機器人發現老人沒吃午飯,還主動問“是否需要加熱冰箱里的饅頭”,整個過程沒出一點錯,反應時間不到1秒。
![]()
負責試點的工作人員說,之前用其他品牌機器人,要么識別不出地面水漬,要么取拖把時會撞翻椅子,現在這個成功率高多了。
性能數據更是實打實的硬。
![]()
在14項主流測試里,EmbodiedBrain-32B版本在空間推理的BLINK基準上拿到88.11分,比同類7B模型高了近40分;在最考驗真功夫的VLM-PlanSim-99仿真測試中,它完成了46個家庭任務,而同類產品最多只完成25個。
就拿“清洗蘋果后放冰箱”這個任務來說,它能生成11步完整流程,從“導航到水槽”“打開水龍頭”到“擦干蘋果”“放入冰箱冷藏室”,每一步都符合生活邏輯,而其他模型要么漏掉“擦干”步驟,要么會把蘋果放進冷凍室。
![]()
更讓人佩服的是,中興直接把模型的訓練數據、代碼和評估方法全開源了,還公開了99個家庭任務的仿真環境。
這意味著其他企業和科研機構不用從零開始,直接就能在這個基礎上做開發。
團隊負責人說,接下來要讓模型支持多機器人協作,比如家里的清潔機器人和廚房機器人能配合做飯,工廠里的搬運機器人和組裝機器人能協同作業,還要適配更多品牌的硬件設備。
![]()
![]()
從實驗室數據到真實場景落地,從中興的技術突破到全行業共享,EmbodiedBrain讓我們看到了AI落地的清晰路徑。
隨著這類技術的普及,未來機器人幫我們做家務、照顧老人、打理工廠將不再是遙不可及的事,中國在具身智能領域的競爭力也越來越強了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.