<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      原力靈機具身大模型DM0硬核拆解:物理AI如何迎來自己的“原生”時代

      0
      分享至


      責編 | 夢依丹

      出品丨AI 科技大本營(ID:rgznai100)

      當前,大語言模型(LLMs)和視覺語言模型(VLMs)在語義領域的成功未能直接遷移至物理機器人,歸根結底在于其互聯網原生的基因。主流的“預訓練-后適配”(Pretrain-then-Adapt)的范式依賴互聯網靜態數據,導致模型先天缺失物理基礎(Physical Grounding),在落地時往往顧此失彼:要么導致操作與導航的模塊割裂,要么引發災難性遺忘,在追求控制精度的過程中丟失了核心的通用推理能力。


      圖1:DM0 在異構語料庫上進行預訓練——無縫整合互聯網、自動駕駛和具身操作數據

      為了打破這一局限,原力靈機聯合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「從0開始」:從訓練的最初階段,就采用統一的視角,將具身傳感器與運動數據視為與語言、視覺數據同等重要的一等公民。

      作為一個端到端模型,DM0 可以無縫統一機器人的精細操作(Manipulation)與移動導航(Navigation)。在 RoboChallenge 真實世界基準測試 Table 30 中,DM0 在單任務(Specialist)和多任務(Generalist)兩種設置下均以顯著優勢領先現有 SOTA 模型,展現出極其強大的物理世界泛化與執行能力。

      • 論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI

      • 論文鏈接:https://arxiv.org/html/2602.14974v1

      • DM0 GitHub : https://github.com/Dexmal/dexbotic

      • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0


      方法與架構:多源混合訓練與空間腳手架

      真正的通用機器人需要一個具身原生模型,這要求模型必須調和異構數據源——涵蓋互聯網語料、自動駕駛日志以及機器人操作軌跡,學習既具有豐富語義又具備物理可執行性的表征。為此,DM0 并未采用簡單的端到端多層感知機映射,而是設計了一套精妙的多源混合訓練與具身空間腳手架(Embodied Spatial Scaffolding)架構。

      整體模型架構


      圖 2:DM0 架構圖,包含 VLM 主干和基于流匹配(Flow Matching)的動作專家

      DM0 的核心架構由兩個主要組件構成:

      1. VLM 主干網絡: 基于 Qwen3-1.7B 大語言模型構建,并增加了一個強大的感知編碼器 PE,負責多模態感知、語義理解以及在機器人環境中的具身推理。輸入的多視角圖像會被調整為 728×728 的高分辨率,經過感知編碼器處理后,提取出細粒度的視覺特征。

      2. 動作專家:這是一個基于流匹配的連續控制模塊。它不直接從圖像提取特征,而是接收來自 VLM 主干網絡提取的鍵值(KV)緩存作為條件輸入,從而生成平滑、精確的連續控制動作。

      在推理時,DM0 支持兩種模式:既可以直接從多模態觀察和指令中預測連續動作;也可以先通過 VLM 生成文本形式的具身推理過程,隨后將這些推理文本作為條件,引導動作專家輸出動作。

      多源混合訓練

      聯合優化語言目標與連續控制目標往往會破壞預訓練 VLM 中保存的語義表征。為了解決這個問題,DM0 采用了一種受知識隔離(Knowledge Insulation)啟發的混合梯度策略。

      具體而言,在針對具身機器人數據進行訓練時,動作專家的梯度不會回傳給 VLM 主干網絡。這種解耦操作有效防止機器人動作數據對 VLM 通用常識的侵蝕。與此同時,VLM 仍然會繼續使用非具身數據進行更新,不斷優化其通用語言和視覺理解能力。此外,VLM 還被監督預測離散的動作 Token,促使它編碼出有利于下游連續動作預測的動作相關語義。

      具身空間腳手架

      為進一步彌合高級語言推理與低級動作控制之間的鴻溝,本文創新性提出一套分層預測框架——具身空間腳手架。在訓練中,模型被要求順序執行以下輔助任務,構建出空間維度的思維鏈(Spatial CoT):

      • 子任務預測:將復雜的總指令分解為一系列可解釋、易管理的子步驟。

      • 目標邊界框預測:在視覺觀察中預測出目標物體或目標區域的 2D 邊界框。

      • 末端執行器軌跡預測:預測機器臂末端在主攝像機視圖下的未來 2D 軌跡。

      • 離散動作預測:預測代表機器人控制命令的離散 Token。

      這種設計如同為模型搭建一層層腳手架,引導其從抽象的語義意圖,逐步過渡到以物體為中心的空間定位,再到動作相關的幾何軌跡,最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務無關的噪聲,還極大地限制了動作策略的解空間。


      三階段訓練配方:從互聯網原生走向具身原生


      圖3:預訓練、中期訓練、后期訓練的數據混合比例

      DM0 的強大不僅源于架構,更歸功于其精心設計的三階段訓練 pipeline,總計消耗了高達 1.2T Token 的數據。預訓練階段在大規模的互聯網、自動駕駛和具身數據上建立強大的多模態感知;中訓練階段加入動作預測,并在跨多種機器人平臺的具身數據上把模型錨定為可執行的控制,同時保留通用對話能力;后訓練階段則收窄所使用的本體與數據范圍,以便在少數目標平臺上穩定視覺-運動對齊。

      Pretraining

      這個階段,模型在一套極其豐富的異構語料庫上進行聯合優化,參數全部解凍。數據不僅包含傳統的網頁文本、教育文獻、OCR 數據和通用 VQA,還極具前瞻性地引入 GUI 界面數據、自動駕駛深度檢測數據以及大量的具身數據。通過 1.13T Token 的大規模洗禮,模型在獲得語義知識的同時,隱式地掌握了物理先驗(如空間關系、深度結構、物理動力學)。

      Mid-Training

      中期訓練階段引入了動作預測模塊,數據規模約為 200M 樣本。此時,混合梯度策略(知識隔離)開始生效。數據混合了跨形態的單臂/雙臂機器人軌跡(如 Franka、UR5、ALOHA)、仿真環境數據以及視覺-語言指令微調數據(如 Cambrian-10M、LLaVA-OV)。為了增強模型的長程規劃能力,本文還專門構建了具身推理(ER)數據集,包含任務分解、進度估計等訓練項。

      Post-Training

      后期訓練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本,將目標縮小至少數特定的真實機器人平臺。減少不同形態機器人的分布方差,使得模型能在目標機械臂上建立極其穩定的視覺-運動映射。


      實驗結果:在 RoboChallenge 上的碾壓級表現

      為全面驗證 DM0 的物理世界交互能力,DM0 在極具挑戰性的 RoboChallenge 真實世界基準 Table30 上進行評估。該基準包含 30 個需要多步推理和精確連續控制的長視野桌面操作任務。

      單任務(Specialist)評估


      表 1:RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結果

      如表 1 所示,DM0-Specialist 模型在僅有 2.4B 參數量的情況下,在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上,全面超越參數量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型,取得了 62.00% 的平均成功率。

      值得注意的是,在諸如“在籃子中整理水果”、“插網線”和“掃垃圾”這類長時序、強交互的復雜任務中,DM0 甚至取得了 100% 或 80% 這樣接近完美的成績,而其他基準模型在這些任務上經常徹底失敗(0%)。

      多任務(Generalist)評估


      表 2:RoboChallenge Table30 上當前最佳的開源 VLA 多任務模型的對比結果

      在更考驗模型跨任務適應能力的多任務中(一個模型同時掌握某平臺下的所有任務),DM0-Generalist 同樣展現出壓倒性優勢,取得了 37.3% 的平均成功率和 49.08 的任務得分,大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27;特別是在“堆疊彩色方塊”、“將鞋子放在鞋架上”等需要高精度空間理解的任務中,DM0 依然能夠打出滿分。


      圖4:DM0 具備在具身場景中預測子任務的思維鏈(CoT)能力

      除了卓越的動作執行能力,由于實施了知識隔離,處于 Mid-Training 階段的 DM0 依然完美保留了多模態對話能力。在具身場景的物體檢測、復雜圖表 OCR 識別、甚至是作為手機智能體(Mobile Agent)識別外賣按鈕的任務中,它也能對答如流。


      結論與未來展望

      DM0 從根本上重新思考了通用機器人策略的開發路徑。它證明了與其讓純語義的大語言模型在事后去適應機器人身體,不如在預訓練的萌芽期,就將物理世界的感知與多源數據相融合,構建一個真正意義上的具身原生 VLA 模型;其獨創的混合梯度訓練保護了認知不退化,而具身空間腳手架則賦予了模型三維空間的推理直覺。

      盡管 DM0 已經樹立了一個強大的基準,但這僅僅是 Physical AI 邁出的一小步。論文的最后,作者團隊也指出了幾個極具潛力的演進方向:

      1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型。未來,團隊計劃將其擴展至 7B 甚至 30B 規模,并吞吐更為龐大的仿真+真實的混合數據集,以期觀察到在物理推理層面的涌現能力。

      2. 更廣闊的多模態感知:現實世界的物理交互絕不僅限于看和說。DM0 的預訓練階段未來有望直接整合觸覺反饋、音頻以及純深度信息,讓機器人即便在視野受限的動態環境中依然游刃有余。

      3. 長程推理與世界模型:現有的空間腳手架雖然解決了部分規劃問題,但跨越超長時間維度的任務仍是業界難題。未來,若能將世界模型整合進 DM0 ,賦予機器人在腦海中預演動作后果并進行長期規劃的能力,真正的全能型 Physical AI 將不再遙遠。


      未來沒有前后端,只有 AI Agent 工程師。

      這場十倍速的變革已至,你的下一步在哪?

      4 月 17-18 日,由 CSDN 與奇點智能研究院聯合主辦「2026 奇點智能技術大會」將在上海隆重召開,大會聚焦 Agent 系統、世界模型、AI 原生研發等 12 大前沿專題,為你繪制通往未來的認知地圖。

      成為時代的見證者,更要成為時代的先行者。

      奇點智能技術大會上海站,我們不見不散!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      炸裂!巴薩18歲新星重傷歸來5場狂轟4球,拉瑪西亞再出中場真核!

      炸裂!巴薩18歲新星重傷歸來5場狂轟4球,拉瑪西亞再出中場真核!

      田先生籃球
      2026-03-06 11:05:50
      黃蜂瘋了!首發五人組勝率90%,還順手碎了項67年的NBA紀錄

      黃蜂瘋了!首發五人組勝率90%,還順手碎了項67年的NBA紀錄

      仰臥撐FTUer
      2026-03-06 13:59:05
      伊朗外長最新表態

      伊朗外長最新表態

      環球時報國際
      2026-03-07 00:15:51
      中國女籃72-66雙殺巴西!數據一清二楚:不是張子宇, 最大功臣是她

      中國女籃72-66雙殺巴西!數據一清二楚:不是張子宇, 最大功臣是她

      林子說事
      2026-03-07 06:26:56
      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      父母若是有以下7種疾病,子女基本都會遺傳,不少人并不清楚!

      健康之光
      2026-03-03 17:35:03
      愛因斯坦去世后大腦被偷走研究數十年,到底發現了什么?

      愛因斯坦去世后大腦被偷走研究數十年,到底發現了什么?

      宇宙時空
      2026-03-06 07:00:09
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      比利
      2026-02-16 01:34:21
      湖南衛視元宵晚會直播發生意外,一名表演嘉賓在完成舞臺動作時意外失誤撞向何炅,何炅:這是要給我拜個晚年嗎

      湖南衛視元宵晚會直播發生意外,一名表演嘉賓在完成舞臺動作時意外失誤撞向何炅,何炅:這是要給我拜個晚年嗎

      極目新聞
      2026-03-04 09:59:45
      訂單大漲118%!光通信四大龍頭比拼,誰才是真增長王?

      訂單大漲118%!光通信四大龍頭比拼,誰才是真增長王?

      小陸搞笑日常
      2026-03-06 13:11:37
      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      當年舉報畢福劍的那位告密者竟然變成這樣了!誰能想到啊?

      霹靂炮
      2026-02-06 13:48:54
      文班亞馬:去年前往少林寺是完美時機,我學了一系列新動作

      文班亞馬:去年前往少林寺是完美時機,我學了一系列新動作

      懂球帝
      2026-03-06 22:30:08
      海報被指抄襲路虎,長城汽車魏建軍道歉:愿承擔全部法律和經濟責任

      海報被指抄襲路虎,長城汽車魏建軍道歉:愿承擔全部法律和經濟責任

      澎湃新聞
      2026-03-06 21:22:29
      2017年,84歲的南大教授找到失聯23年的學霸兒子,兒子卻拒絕相見

      2017年,84歲的南大教授找到失聯23年的學霸兒子,兒子卻拒絕相見

      北有南梔
      2026-03-05 17:55:03
      豬油再次被關注!醫生發現:高血壓患者常吃豬油,或出現幾種變化

      豬油再次被關注!醫生發現:高血壓患者常吃豬油,或出現幾種變化

      蜉蝣說
      2026-02-23 21:23:05
      男子稱在上海一銀行門口被三名彪形大漢挾持上車,搶走20萬!民警調查揪出“黑吃黑”真相

      男子稱在上海一銀行門口被三名彪形大漢挾持上車,搶走20萬!民警調查揪出“黑吃黑”真相

      大象新聞
      2026-03-06 14:43:03
      1.2億農村老人,每月只領200元養老金,買兩袋米就沒了。

      1.2億農村老人,每月只領200元養老金,買兩袋米就沒了。

      流蘇晚晴
      2026-02-26 18:18:15
      “中美罕見協調一致,敦促加納”

      “中美罕見協調一致,敦促加納”

      觀察者網
      2026-03-06 18:25:06
      隊報:盡管格子不想在賽季中期離開馬競,但奧蘭多城仍未放棄

      隊報:盡管格子不想在賽季中期離開馬競,但奧蘭多城仍未放棄

      懂球帝
      2026-03-07 08:14:42
      人類去世之后靈魂仍舊存在?科學家們曾做過相關實驗!

      人類去世之后靈魂仍舊存在?科學家們曾做過相關實驗!

      宇宙時空
      2026-03-05 21:40:03
      18-21,12-21!梁王組合連丟兩局遺憾出局,無緣全英公開賽四強

      18-21,12-21!梁王組合連丟兩局遺憾出局,無緣全英公開賽四強

      全景體育V
      2026-03-07 06:20:32
      2026-03-07 08:36:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創造者和使用者
      2639文章數 7659關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗大規模發射新一代導彈 摧毀美軍大量設施、裝備

      頭條要聞

      伊朗大規模發射新一代導彈 摧毀美軍大量設施、裝備

      體育要聞

      跑了24年,他終于成為英超“最長的河”

      娛樂要聞

      周杰倫社交媒體曬昆凌,夫妻感情穩定

      財經要聞

      關于經濟、股市等,五部門都說了啥?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      游戲
      本地
      旅游
      藝術
      教育

      曝下代Xbox靠純算力制霸!性能“爆殺”PS6

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      旅游要聞

      鄭州海昌海洋公園:以“友好”為筆,繪就春日共融畫卷

      藝術要聞

      陳獨秀寫給青年毛澤東的對聯,一語雙關,陳氏書法“天花板”!

      教育要聞

      本科擴招10萬人!深度解析戰略布局

      無障礙瀏覽 進入關懷版