![]()
想象這樣一個日常畫面:你吩咐家用機器人「燒壺開水」,它卻當場卡殼——水壺在哪?該接自來水還是過濾水?先插電還是先按開關?水開了又該如何判斷?這些對人類而言像呼吸一樣自然的家務,對過去的機器人卻是大大的難題:要么忘了插電,要么找不到水壺,甚至會把柜門把手錯當成開關一通亂按。
最近,加州伯克利和馬里蘭大學聯手推出的MomaGraph 技術,就是要讓機器人徹底告別這種「做家務的人工智障」時刻。這套算法不僅能讓機器人真正理解「做事的先后順序」,更在星動紀元星動 Q5 上成功完成了開柜子、開微波爐、開電視、關燈等真實家務。
![]()
- 論文名稱:MOMAGRAPH: STATE-AWARE UNIFIED SCENE GRAPHS WITH VISION–LANGUAGE MODEL FOR EMBODIED TASK PLANNING
- 論文地址:https://arxiv.org/pdf/2512.16909
一、研究背景:
家用機器人做不好家務的「三大卡點」
家用移動操作機器人(比如幫你開窗戶、熱牛奶的機器人)需要同時「看路」(導航)和「動手」(操作),但過去的技術一直存在三個關鍵問題卡點,導致機器人「做不好家務」:
卡點 1:只知「在哪」,不知「咋用」
比如機器人要開窗戶,傳統技術可能只知道「窗戶在書桌右邊」(空間關系),但不知道「窗戶把手能控制開關」(功能關系)——就像你知道手機在口袋里,卻不知道按電源鍵能開機,自然用不了手機。
卡點 2:只認「圖片」,不認「變化」
傳統模型會把場景當成靜態圖片,比如機器人轉了窗戶把手后,模型還以為「窗戶沒動」,不知道狀態已經從「鎖著」變成「待打開」;就像你關了燈,卻還以為燈是亮的,后續行動規劃肯定會出錯。
卡點 3:只想「步驟」,不想「前提」
過去的 AI(比如 GPT-5)會直接從圖片里「想步驟」,比如讓它「燒開水」,可能會說「裝水 → 加熱」,卻漏掉「插電源」這個關鍵前提;而人做這件事時,一定會先確認「水壺能通電」,再規劃步驟。
![]()
二、突破思路:
給機器人畫一張「任務說明書」
研究團隊的核心想法很簡單:讓機器人先畫一張「任務導向的場景圖」,再按圖規劃任務執行步驟,這就是「Graph-then-Plan」(先圖后規劃)思路,而這張圖就是「MomaGraph」。
這張圖到底特殊在哪?舉個「開窗戶」的例子:
- 統一空間 + 功能:圖里會同時寫「把手在窗戶右側」(空間)和「把手能控制窗戶開關」(功能);
- 動態更新狀態:機器人轉了把手后,圖會從「把手未旋轉 → 窗戶鎖著」更新為「把手已旋轉 → 窗戶待打開」;
- 緊扣任務需求:只保留和「開窗戶」相關的信息(比如忽略窗戶上的貼紙),不做無用功。
簡單說,傳統模型是「看到圖片直接猜步驟」,而 MomaGraph 是「先搞清楚『有什么、怎么用、狀態如何』,再一步步規劃」——就像你做飯前會先看「冰箱有雞蛋、鍋能加熱」,再想「打雞蛋 → 開火 → 煎蛋」,而不是直接拿鍋就燒。
三、研究方法:
從「數據」到「機器人」的全鏈條方案
要讓 MomaGraph 落地,研究團隊搭建了「數據集 - 模型 - 基準 - 真實機器人」的完整體系,其中星動紀元輪式人形機器人星動 Q5 成為了「把技術從實驗室變實用」的核心硬件。
第一步:建「訓練素材庫」——MomaGraph-Scenes 數據集
要教機器人「懂家務」,得先給它看足夠多的「家務樣本」。團隊收集了:
- 6278 張多視角家庭照片(比如從正面、側面拍柜子、微波爐);
- 1050 個「任務場景圖」(比如「開微波爐」的圖里,標注了「微波爐把手在正面」「把手能開門」);
- 覆蓋 350+ 家庭場景、93 種任務(開窗戶、燒開水、開電視等)。
這些數據就像機器人的「家務課本」,讓它知道不同場景下「物體該怎么用」。
![]()
第二步:訓「聰明大腦」——MomaGraph-R1 模型
團隊用 70 億參數的視覺語言模型(VL 模型,基于 Qwen-2.5-VL-7B),通過強化學習訓練出 MomaGraph-R1:
- 訓練邏輯:模型生成場景圖后,系統會按「三個標準」打分(獎勵):步驟對不對?有沒有漏物體?空間/功能關系準不準?比如生成「水壺插電才能加熱」就加分,漏了「插電」就扣分;
- 核心能力:能根據任務生成「精簡有用」的場景圖,比如「找遙控器開電視」時,會重點標注「遙控器在沙發上」「遙控器能控制電視」,忽略沙發顏色這類無關信息。
![]()
第三步:測「能力高低」——MomaGraph-Bench 基準
為了判斷機器人「學沒學會」,團隊設計了 6 種能力測試(比如「步驟對不對」「能不能找對物體」「知不知道操作后會發生什么」),覆蓋從簡單(開柜子)到復雜(燒開水)4 個難度等級,確保測試結果真實可信。
![]()
關鍵一步:真實機器人落地——星動紀元 Q5 的硬件優勢
再好的「大腦」也需要「手腳」來執行,研究團隊選擇星動紀元星動 Q5 輪式人形機器人做真實場景測試,這款硬件的優勢直接幫 MomaGraph 發揮出最佳效果:
![]()
- 雙臂 + 移動底座:能「走」到不同房間(比如從客廳到廚房),還能「動手」精準操作——開柜子時,雙臂能穩定抓住把手并拉動;開微波爐時,能控制力度避免損壞;
- 多視角相機(Intel RealSense D455):能拍物體的多個角度(比如從上方看水壺、從側面看插座),幫模型獲取準確的空間信息,避免「認錯位置」(比如不會把柜子把手當成開關);
- 適應家庭場景:硬件尺寸適合家庭環境(不會撞壞家具),雙臂力度可控(不會捏碎杯子),完美匹配「家務任務」的需求。
比如測試「開柜子」時,星動 Q5 的相機先拍柜子和把手的多視角圖,MomaGraph-R1 根據圖片生成「把手在柜子正面、能開柜子」的場景圖,再規劃「靠近柜子 → 抓把手 → 拉柜子」的步驟,Q5 的雙臂精準執行,成功率遠超傳統機器人。
四、研究結論:
機器人「做家務」的能力大幅提升
從基準測試到真實機器人實驗,MomaGraph 交出了亮眼的成績,核心結論可以總結為三點:
「先畫圖再規劃」遠勝「直接猜步驟」
在 MomaGraph-Bench 基準測試中,MomaGraph-R1 的準確率達到 71.6%,比目前最好的開源模型(比如 LLaVA-OneVision)高 11.4%;而像 GPT-5 這樣的閉源大模型,常會漏關鍵步驟(比如燒開水沒提「插電源」),MomaGraph-R1 卻能 100% 覆蓋前提步驟——因為它先畫了「水壺需要插電」的場景圖,再規劃步驟。
![]()
「空間 + 功能」一起看,比單獨看更準
實驗對比了「只看空間關系」、「只看功能關系」、「兩者都看」的效果:MomaGraph-R1(統一版)在復雜任務(Tier 4)的準確率是 68.1%,而「只看功能」的版本只有 59.0%,「只看空間」的版本更低只有 45.4%。這說明:機器人既要知道「東西在哪」,也要知道「東西怎么用」,才能做好家務等任務的執行。
![]()
在真實機器人上能落地,還能處理復雜任務
團隊用星動紀元星動 Q5 測試了 4 個常見任務:開柜子、開微波爐、開電視、關燈,全部成功;更難的「長任務」(「開燈 → 找遙控器 → 開顯示器」),10 次測試成功 7 次——而這個任務需要機器人「先解決照明(狀態影響可見性),再找遙控器(空間定位),最后開顯示器(功能控制)」,傳統機器人根本做不到。
![]()
此外,MomaGraph-R1 在視覺對應任務上也表現突出,在 BLINK 基準和 MomaGraph-Bench 的對應任務中,比最好的開源模型分別高出 3.8% 和 4.8%。
![]()
五、行業意義:
家用服務機器人離「進家門」又近了一步
MomaGraph 的價值,本質是解決了「機器人理解家庭場景」的核心難題:它讓機器人從「只會按固定程序做事」(比如只會重復「推窗戶」),變成「能根據場景靈活調整」(比如先看有沒有把手,再決定轉還是推)。
而星動紀元星動 Q5 這類執行硬件的參與,更證明了這項技術不僅僅適用于實驗室——仿人雙臂、移動底座、精準相機的組合,讓 MomaGraph 的「聰明大腦」有了可靠的「手腳」。未來,隨著技術優化,我們可能會看到:機器人能幫老人燒開水、整理柜子,甚至幫上班族準備早餐——家用服務機器人從「概念」走向「實用」,終于有了清晰的技術路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.