![]()
讓靜態的圖片變成三維物體并動起來已經不算新鮮,但如果讓圖片不僅動起來,還能完美遵循現實世界的物理規律(比如蛋糕的Q彈、沙堆的散落、石雕的堅硬)呢?
以往,為了讓模型懂“物理”,研究者們往往需要耗費數小時進行緩慢的逐場景優化。而現在,來自北京理工大學和理想汽車等機構的研究團隊提出了一種全新框架PhysGM,只需輸入單張圖片,1分鐘內即可生成高保真、高物理真實性的4D動態視頻!
徹底告別耗時的SDS(分數蒸餾采樣),PhysGM 巧妙地將大語言模型中廣泛使用的DPO(直接偏好優化)引入基于物理仿真的重建生成領域,實現了端到端的快速前饋推理。
![]()
目前,該工作已被計算機視覺頂會CVPR 2026接收,相關代碼已開源:
- 論文鏈接:https://arxiv.org/abs/2508.13911
- 項目主頁:https://github.com/Hihixiaolv/PhysGM
- 代碼開源:https://hihixiaolv.github.io/PhysGM.github.io/
效果驚艷:
蛋糕、石頭、沙堆,萬物皆可“物理模擬”
廢話不多說,先看效果。
給模型喂一張蛋糕的靜態圖片,PhysGM 不僅在幾秒內重建了它的3D高斯表示,還能立刻推斷出它的物理材料、楊氏模量和泊松比。經過極短時間的MPM(物質點法)物理引擎仿真,一個栩栩如生、掉落在地Q彈十足的蛋糕就誕生了:
![]()
換成石頭、沙子、陶瓷或橡膠等各種不同材料,PhysGM 同樣能精準拿捏不同材質的物理特性。石頭砸下的堅硬、沙堆落地的崩散和橡膠落地的形變,全都在1分鐘內一氣呵成:
![]()
同時PhysGM還支持多物體,帶背景的照片和不同受力場景的仿真生成:
![]()
相比于目前主流的優化型基線模型(如 OmniPhysGS, DreamPhysics),PhysGM除了在速度上全面碾壓,在各個評價指標上也都實現了超越。
![]()
痛點與破局:
為什么我們要拋棄“逐場景優化”?
近年來,基于 3D Gaussian Splatting (3DGS) 的靜態場景生成取得了巨大進展。但到了4D(動態)特別是包含復雜物理交互的生成時,目前的范式遇到了巨大的瓶頸:太慢了!
現有的方法通常嚴重依賴預先重建的3DGS,然后利用視頻生成模型的先驗知識,通過 SDS梯度回傳到可微物理引擎中,對材質屬性進行數百上千次的迭代優化。這導致生成一個物理場景往往需要數十分鐘甚至十幾個小時!此外,簡單地將3DGS與物理模塊拼接,往往會忽略圖像本身包含的豐富物理線索。
為了打破這個計算瓶頸,北理工與理想汽車的團隊提出了一個靈魂拷問:我們能不能像人眼一樣,看一眼圖片,就直接“前饋”出它的3DGS表示和物理屬性?PhysGM應運而生:
![]()
PhysGM 的核心架構是一個基于 Transformer 的強大網絡,它巧妙地設計了兩個并行的 Decoder:
DPT Head:負責預測初始的 3D Gaussian 場景參數(幾何與外觀)。
Physics Head:負責預測物體物理屬性(物體、材料楊氏模量、泊松比)的概率分布。
在獲得這些參數后,只需不到3秒,系統就會將它們輸入到 MPM(物質點法)模擬器中,直接渲染出最終的動態視頻。
核心創新:
物理生成界的“RLHF”,引入DPO對齊物理直覺
為了讓模型不僅“懂物理”,而且生成的動態效果符合人類的視覺直覺,研究團隊提出了一個新穎的兩階段訓練范式。
第一階段(大規模監督預訓練):模型在海量數據上聯合預測 3DGS 和物理參數,建立起強大的生成先驗,徹底擺脫了對多視角圖像預重建的依賴。
第二階段(基于 DPO 的偏好微調):這是整個工作最亮眼的設計之一。在缺乏可微物理引擎支持的情況下,如何進一步提升視頻質量?團隊使用了強化學習的方法——直接偏好優化 (DPO)。
系統會從模型預測的概率分布中采樣出不同的物理參數,并在MPM中進行模擬渲染。然后,利用 SAM-2 和 CoTracker-3 提取軌跡并與真實物理視頻計算感知距離。距離小的被標記為“Winner”,距離大的標記為“Loser”。通過這種不需要物理引擎可微的偏好驅動訓練,PhysGM 被引導向生成更加具有物理合理性和時間連貫性的視頻序列。
![]()
基礎設施:
構建5萬規模的 PhysAssets 數據集
巧婦難為無米之炊。為了支撐前饋模型的訓練,當前社區極度缺乏同時包含“3D資產 + 物理屬性標注”的大規模數據集。
為此,研究團隊還制作了相應的PhysAssets數據集。
他們整合了 Objaverse, OmniObject3D, HSSD等數據集,利用多模態大模型 Qwen3-VL 進行精準的材質分類,并通過預定義的物理描述(楊氏模量/泊松比)匹配參數。最終,使用基于物理的仿真框架生成了超過50,000個高質量的“物體-物理參數”對,并有一部分含有對應參考視頻的子集,為該領域的未來研究提供了寶貴的“燃料”。
壓倒性的性能優勢:
從12小時到不到1分鐘
在定性和定量的對比中,PhysGM 展現出了驚人的優勢。
在面對5種不同材質的測試中,無論是在CLIPsim(視覺與文本物理描述語義一致性)還是UPR(用戶偏好率)指標上,PhysGM 均大幅領先現有的 SDS-based 方法。
更夸張的是在做到泛化性和效果驚艷的同時還有計算成本的降低。對比此前的 SOTA 方法:
- OmniPhysGS:生成時間 >12 小時
- DreamPhysics:生成時間 >0.5 小時
- PhysGM:生成時間 < 1 分鐘!
這種質的飛躍,真正讓物理驅動的 4D 生成具備了走向大規模實際應用(如具身智能體、自動駕駛仿真、交互式VR)的可能。
總結
PhysGM 是首個能夠在極短時間(單次前饋+模擬)內從稀疏輸入中生成帶物理規律4D動態場景的框架。它不僅解決了物理生成的效率瓶頸,更開拓了一條利用大規模數據集和 DPO 對齊技術進行 3D/4D 物理學習的新路徑。
隨著模型在端到端生成和物理保真度上的不斷突破,我們有理由相信,未來的虛擬世界將不再只是看起來真實,而是“動”起來和真實世界一模一樣”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.