網易首頁 > 網易號 > 正文申請入駐

智源清華帶來PAM，手物交互數據生成新SOTA | CVPR 2026

2026-03-25 10:07:21　來源: AI科技評論

廣東舉報

分享至

PAM僅需初始/目標手部姿態與物體幾何信息，即可生成高保真交互視頻。

Project Page: https://gasaiyu.github.io/PAM.github.io/

TL；DR

? 在只給定初始姿態、目標姿態和不含外觀的物體幾何信息的輸入下，如何直接生成逼真的手物交互（HOI）視頻？

? 現有方法存在一系列問題：姿態合成方法只能預測 MANO 軌跡，而不能生成像素細節；文生圖方法能生成能產生外觀，但缺乏動態信息；而視頻生成方法目前大多依賴完整的姿態序列和首幀作為輸入，導致其無法真正應用于 Sim-to-Real數據生成管線。

? 我們提出PAM (Pose-Appearance-Motion)，一個統一的數據生成引擎，利用姿態、外觀和運動的解耦生成過程，完美解決上述痛點。

? 這是第一個僅需條件初始姿態、目標姿態和物體的幾何信息作為輸入，即可實現高質量 Sim-to-Real 手物交互視頻生成的框架，且利用這個管線合成的數據能顯著提升下游任務（例如手部姿態估計）的性能。

簡介

手物交互（HOI）的重建與合成正逐漸成為具身智能和 AR/VR 領域的核心基石。盡管數據驅動范式推動了準確的手部姿態估計和視頻生成領域的的快速發展，但獲取帶有詳細標注的真實 HOI序列需要耗費極大的人力物力，這嚴重限制了可擴展性。

為了打破這一數據壁壘，北京大學聯合清華大學、智源研究院（BAAI）、上海交通大學及東方理工大學提出了一個突破性的統一引擎——PAM。PAM 能夠將姿態（Pose）、外觀（Appearance）和運動（Motion）無縫整合到一個連貫的框架中。用戶只需提供初始和目標姿態以及物體幾何形狀，PAM 就能生成具有連貫動態和逼真手物交互的視頻。實驗證明，PAM 不僅在視頻保真度和幾何準確度上大幅超越現有方法，其生成的合成視頻還能直接作為數據增強工具，使下游手部姿態估計模型在僅使用 50%真實數據加上合成數據的情況下，就能匹配使用100%真實數據的效果！

研究動機

隨著深度學習和擴散模型的出現，大規模生成 HOI 視頻展現出了巨大潛力。然而，縱觀當前最先進的方法，整個研究領域呈現出三種趨勢：

1.純姿態合成（Pose-only synthesis）：只預測手部MANO軌跡而不生成外觀，缺乏視覺真實感，降低了其實用價值。

2.單圖外觀生成（Appearance generation）：根據掩碼或 2D 提示生成外觀，但完全無法捕捉時間上的動態連貫性。

3.視頻運動生成（Motion generation）：雖然能生成視頻，但需要完整的姿態序列和真實的視頻第一幀作為輸入，這些條件在實際場景中較難獲得，容易獲得的是模擬器中的手部姿態數據，但由于模擬器中根本無法獲取真實的第一幀，這類方法不適合 Sim-to-Real的部署。

基于上述痛點，研究團隊認為 HOI 生成亟需一個能統一融合姿態、外觀和運動的引擎。因此，PAM 引入了整合運動與外觀的擴散過程，繞過了對第一幀條件和完成手部姿態序列的依賴，從而最大化了運動和外觀的多樣性。

PAM 方法

方法概覽

給定初始 MANO 手部姿態、無外觀的物體 Mesh 、初始 6-DoF 物體姿態以及目標手部 MANO 姿態，PAM 的目標是生成一段逼真的 HOI 視頻。整個模型可以形式化為一個生成函數：

該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列。為了應對生成 HOI 視頻的高維時空流形的復雜性，PAM 將生成過程解構為三個核心階段：

第一階段：姿態生成 (Pose Generation)

在這個階段，模型主要解決中間物理運動的插值問題。使用預訓練的姿態生成模型（如 GraspXL）來合成對齊的手物交互姿態序列。模型接收作為輸入，輸出時間上連貫的手部和物體運動軌跡。這確保了物理一致性，為后續的視覺渲染奠定幾何基礎。

第二階段：外觀生成 (Appearance Generation)

為了解決從模擬器到真實視頻的視覺鴻溝，PAM 利用可控的圖像擴散模型 Flux 來合成逼真的視頻第一幀。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導，它們均為的特征圖：

?深度圖 (Depth Maps)：保證全局的幾何連貫性。

?語義掩碼 (Semantic Masks)：保證實例級別的語義一致性。

?手部關鍵點映射 (Hand Keypoints)：提供精確的手部骨骼拓撲結構，保證手部細節生成的一致性。

這些條件首先通過 VAE 編碼為的潛在表示，在通道維度上拼接后，注入到 ControlNet 分支的 DiT 塊中。特征的注入計算公式如下：

其中是原始 Flux 模型中第 7 層 DiT 塊的輸出，是接收拼接條件輸入的復制 DiT 塊的輸出，而零卷積層 (Zero-convolution layer) 為參數全零初始化的卷積層。

第三階段：運動生成 (Motion Generation)

在生成首幀后，模型將第一階段生成的序列逐幀渲染，得到對應的深度圖、語義圖和關鍵點序列。隨后，利用預訓練的視頻 VAE 將這些空間條件編碼為形狀為的潛在張量。

PAM 采用基于 CogVideoX 的可控視頻擴散模型來生成最終的視頻流。為了保持與姿態序列的一致性，視頻模型沿用了上述公式的特征融合機制，將多模態特征通過 12 個復制的 DiT 塊注入網絡。特別地，在訓練階段，為了防止模型過度依賴某單一模態特征，每種條件都會以的概率被隨機掩碼，從而提升模型的泛化能力。

實驗結果

基準測試

團隊在 DexYCB（聚焦于單手交互）和 OAKINK2（聚焦于雙手復雜交互）兩個基準數據集上對 PAM 進行了全面評估，并與當前最先進的 ManiVideo、InterDyn 和 CosHand 等方法進行了對比。

定量結果

? 在DexYCB數據集上：PAM 實現了 29.13 的 FVD（Fréchet Video Distance，反映視頻整體的時空連貫性與真實度，該數值越低越好），大幅優于 InterDyn 的 38.83。在反映手部姿態準確度的 MPJPE 指標上，PAM 達到了19.37 mm，遠優于 CosHand 的 30.05 mm。此外，在結構相似性（SSIM）和運動保真度（MF）等指標上，PAM 也穩居第一。

?在OAKINK2數據集上：面對更復雜的雙手交互場景，PAM 同樣展現出強大的建模能力，將 FVD 從 CosHand 的 68.76 顯著降至 46.31，MPJPE 從 14.49 mm 大幅降低至 7.01 mm。

?更高清的分辨率：相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻，PAM 能夠穩定生成 480 \times 720 的高保真、高分辨率交互視頻。

定性結果

?如上圖所示，現有方法（如 CosHand）由于僅依賴手部掩碼作為單一條件，缺乏深度的幾何引導，且缺少顯式的時間建模機制，導致生成的視頻往往出現手部姿態畸變以及嚴重的幀間閃爍。相比之下，PAM 利用帶有時間注意力機制的視頻擴散基礎模型，加以多條件的控制，保證了較強的幀間連貫性。

多條件的消融實驗

? DexYCB數據集上的消融實驗證實，PAM 的“深度圖+語義掩碼+手部關鍵點”多模態控制組合缺一不可。如上圖所示，僅靠手部關鍵點會導致整體外觀質量下降，而僅靠語義掩碼或深度圖則會引發手部姿態的錯位失真。PAM 巧妙結合了全局場景理解（深度與語義）與局部手部細節（關鍵點），明確保留了手部結構的細節。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度，還成功消除了幾何錯位，生成了準確、流暢且符合物理常理的視頻序列。

Sim-To-Real生成

如上圖所示，PAM 展現了強大的 Sim-to-Real 遷移能力。僅僅給定初始和終止狀態的HOI Pose，利用解耦架構，模型成功結合了 GraspXL 的運動先驗與擴散模型的外觀建模，合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務提供了源源不斷的數據生成管線。

下游任務驗證

為了評估生成視頻的實用性，研究人員將合成視頻用于下游手部姿態估計任務（SimpleHand 模型）的數據增強。PAM 訓練生成了 3,400 個視頻序列（包含 207,400 幀）作為增強數據。

結果表明，使用合成數據結合不同比例的真實數據進行訓練，始終能提高手部姿態估計的準確度。從上圖中可以看到，僅使用 50% 真實數據加上 PAM 生成的合成樣本，其性能就足以具備與使用 100% 真實數據基線相競爭的實力！這證明了合成數據能有效彌補真實數據量的不足。

總結

PAM 提出了一個創新的 Pose-Appearance-Motion 解耦架構，成功打破了傳統方法依賴真實第一幀的瓶頸，實現了從極簡姿態輸入到高保真 HOI 視頻的生成。其卓越的感知質量、幾何準確度以及對下游任務的顯著增益，為具身智能領域的生成模型研究提供了堅實的基礎。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.