網易首頁 > 網易號 > 正文申請入駐

圖片生成仿真！這個AI讓3D資產「開箱即用」，直接賦能機器人訓練

2025-11-23 12:23:59　來源: 量子位

北京舉報

分享至

非羊整理自凹非寺
量子位 | 公眾號 QbitAI

一張照片，就能生成可直接用于仿真的3D資產。

（沒錯，下圖中幾乎所有物體都是AI生成的）

隨著三維建模從傳統的靜態視覺效果，逐步邁向可用于仿真與交互的物理可動資產，如何直接生成具備物理屬性與關節結構的3D對象，成為推動具身智能（embodied AI）發展的關鍵。

然而，現有大多數3D生成方法往往忽視這些核心的物理與運動特性，嚴重限制了其在機器人等相關領域的應用。

為此，來自南洋理工大學與上海人工智能實驗室的合作研究團隊提出PhysX-Anything——首個面向仿真、具備物理屬性的3D生成框架：僅需單張圖像，即可生成高質量、可直接用于仿真的3D資產，并同時具備顯式幾何結構、關節運動以及物理參數。

從「靜態模型」走向「物理仿真」

在機器人、具身智能和交互仿真等任務中，對能在物理引擎中直接運行的高質量3D資產需求日益增長。然而，當前大多數3D生成方法仍側重于整體幾何與外觀，或僅關注部件結構，普遍缺失密度、絕對尺度、關節約束等關鍵物理信息，難以直接用于真實仿真與控制。

盡管已有少數研究開始探索可動3D對象的生成，但由于高質量3D物理標注數據的稀缺，多采用“檢索現有模型+附加運動”的范式，難以從單張真實圖像泛化生成全新且物理一致的資產。此外，現有方法對形變行為的建模也常假設材料均勻或忽略部分物理屬性。即便是能夠生成物理3D資產的PhysXGen，其輸出也尚未支持在主流物理引擎中即插即用，限制了在控制任務中的實用性。

為彌合合成3D資產與真實下游應用之間的差距，研究團隊提出了PhysX-Anything——首個面向仿真的物理3D生成范式。該框架僅憑一張圖像，即可生成高質量、可直接導入標準模擬器的sim-ready（仿真就緒）3D資產。該成果有望為3D生成、具身智能與機器人領域帶來新的可能性與研究范式。

如何通過一張圖，實現3D物理重建？

PhysX-Anything采用“由粗到細（coarse-to-fine）”的生成框架。給定一張真實場景圖像，系統通過多輪對話，依次生成整體物理描述與各部件幾何信息，通過對物理表征進行解碼，最終解碼輸出六種常用格式的可仿真3D資產。

1. 實現193倍壓縮比！「體素」如何重構3D表示？

在傳統視覺語言模型（VLM）中進行3D生成時，為壓縮原始網格的token長度，主流方法通常采用基于頂點量化的文本序列表示，但所得幾何token仍十分冗長。3D VQ-GAN雖可進一步壓縮幾何token，卻需要在微調階段引入額外特殊token和自定義tokenizer，增加了訓練與部署的復雜度。

為此，研究團隊提出一種新型3D表征方式，在顯式保留幾何結構的同時顯著縮短token序列，且無需任何額外token。該方法受體素（就是三維的像素）表征在精度與效率間良好折中的啟發，基于體素構建幾何表示：首先在323體素網格上由VLM建模粗略幾何，再由下游解碼器細化得到高保真形狀，從而保留體素顯式結構優勢，同時避免過高token開銷。

在整體信息表征上，團隊沿用樹狀、VLM友好的結構，并以JSON風格格式替代標準URDF，使其包含更豐富的物理屬性與文本描述，便于VLM理解與推理。同時，團隊將關鍵運動學參數（如運動方向、關節軸位置、運動范圍等）統一映射到體素空間，以保證運動學與幾何結構的一致性。

2. 從「全局藍圖」到「局部精修」

在上述物理3D資產表征的基礎上，研究團隊采用Qwen2.5作為基礎模型，并在自建的物理3D數據集上對該VLM進行微調。通過精心設計的多輪對話流程，PhysX-Anything能同時生成高質量的全局描述（整體物理與結構屬性）與局部信息（部件級幾何）。

為獲取更精細的幾何細節，團隊受ControlNet啟發，設計了一個可控的flow transformer。該模塊將粗體素表示作為擴散模型的引導信號，控制細粒度體素幾何的生成。在得到細粒度體素表示后，系統采用預訓練的結構化潛在擴散模型解碼出多種格式的3D資產，包括網格表面、輻射場與3D高斯等。

隨后，基于體素分配結果，使用最近鄰算法將重建網格劃分為部件級組件。

最終，結合全局結構信息與細粒度體素幾何，PhysX-Anything能夠生成用于仿真的URDF、XML及部件級網格，實現“仿真就緒”的物理3D生成。

效果如何？多項實測全面驗證

1. 在PhysX-Mobility數據集上的評估

研究團隊將PhysX-Anything與當前最新方法URDFormer、Articulate-Anything和PhysXGen進行對比。如下表所示，PhysX-Anything在幾何與物理兩類指標上均取得最優表現。得益于強大的VLM先驗，其在絕對尺度上的誤差大幅降低。此外，由于VLM結構適合處理文本，PhysX-Anything在文本描述相關指標上也取得最高得分，表明該方法方法不僅能夠生成物理上合理的屬性，還能產出連貫的、具備部件層級的文字描述，對物體結構與功能具備較強理解能力。

除了定量結果，定性對比也清晰顯示，PhysX-Anything在泛化能力方面具有顯著優勢，尤其相較于檢索式方法更為突出。依托強大的VLM先驗與高效表征設計，該系統還能生成比PhysXGen更合理、可信的物理屬性。

2. 真實世界場景測試

基于VLM的評估：為評估方法的泛化能力，團隊進一步在真實世界圖像上測試其性能。這些圖像覆蓋了最常見的日常物體類別。為避免VLM在某些具體物理屬性上判斷不穩定的問題，本次評估重點放在幾何與關節運動質量上。結果表明，PhysX-Anything在幾何與運動學參數兩項指標上均顯著優于所有對比方法，顯示出對真實輸入的強泛化能力。

作為補充，團隊還召集了一些人類志愿者為不同模型的生成結果打分，PhysX-Anything的生成結構在幾何與物理屬性都獲得了最高分，表明其生成結果對比來看也更受人類認可。

在真實場景上的可視化結果也可進一步直觀展示該方法的優勢：PhysX-Anything能夠生成更加準確的幾何結構、關節運動以及物理屬性。

3. 「開箱即用」賦能具身智能訓練

為驗證生成資產對下游任務的支撐能力，團隊在MuJoCo風格的模擬器中進行了實驗。生成的sim-ready 3D資產——包括水龍頭、柜子、打火機、眼鏡等日常物體——可以直接導入模擬器，并用于接觸豐富的機器人策略學習。

該實驗不僅展示了生成資產在物理行為與幾何結構上的高度可信性，也突顯了它們在推動多種下游機器人與具身智能應用方面的巨大潛力。

推動3D重建從「形似」走向「神似」

研究團隊提出首個面向仿真的物理3D生成范式PhysX-Anything，通過統一的VLM管線與定制3D表征，在顯式保留幾何結構的前提下實現超過193倍的token壓縮，顯著提升了物理3D生成的效率與可擴展性。

同時，團隊構建了覆蓋47個常見真實類別、具備豐富物理標注的PhysX-Mobility數據集，大幅拓展了現有物理3D資產的多樣性。基于該數據集及真實世界場景的實驗表明，PhysX-Anything在sim-ready物理3D生成上具有優異性能與穩健泛化能力，仿真實驗進一步驗證了其在下游機器人策略學習中的應用潛力。

該框架有望為3D視覺、具身智能與機器人研究開辟新的方向，推動從“視覺建模”到“物理建模”的范式轉變。

視頻鏈接：https://mp.weixin.qq.com/s/gUooZUSc1yWQlf4NpViZrA

原論文第一作者曹子昂，南洋理工大學博士二年級，研究方向是計算機視覺、3D AIGC和具身智能。主要合作者為來自南洋理工大學洪方舟、陳昭熹和來自上海人工智能實驗室的潘亮，通訊作者為南洋理工大學劉子緯教授。

論文鏈接：https://arxiv.org/abs/2511.13648
項目主頁：hthttps://physx-anything.github.io/
GitHub代碼：https://github.com/ziangcao0312/PhysX-Anything

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.