<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      智源清華帶來PAM,手物交互數據生成新SOTA | CVPR 2026

      0
      分享至


      PAM僅需初始/目標手部姿態與物體幾何信息,即可生成高保真交互視頻。

      Project Page: https://gasaiyu.github.io/PAM.github.io/

      01

      TL;DR

      ? 在只給定初始姿態、目標姿態和不含外觀的物體幾何信息的輸入下,如何直接生成逼真的手物交互(HOI)視頻

      ? 現有方法存在一系列問題:姿態合成方法只能預測 MANO 軌跡,而不能生成像素細節;文生圖方法能生成能產生外觀,但缺乏動態信息;而視頻生成方法目前大多依賴完整的姿態序列和首幀作為輸入,導致其無法真正應用于 Sim-to-Real數據生成管線。

      ? 我們提出PAM (Pose-Appearance-Motion),一個統一的數據生成引擎,利用姿態、外觀和運動的解耦生成過程,完美解決上述痛點。

      ? 這是第一個僅需條件初始姿態、目標姿態和物體的幾何信息作為輸入,即可實現高質量 Sim-to-Real 手物交互視頻生成的框架,且利用這個管線合成的數據能顯著提升下游任務(例如手部姿態估計)的性能。

      02


      簡介


      手物交互(HOI)的重建與合成正逐漸成為具身智能和 AR/VR 領域的核心基石。盡管數據驅動范式推動了準確的手部姿態估計和視頻生成領域的的快速發展,但獲取帶有詳細標注的真實 HOI序列需要耗費極大的人力物力,這嚴重限制了可擴展性。

      為了打破這一數據壁壘,北京大學聯合清華大學、智源研究院(BAAI)、上海交通大學及東方理工大學提出了一個突破性的統一引擎——PAM。PAM 能夠將姿態(Pose)、外觀(Appearance)和運動(Motion)無縫整合到一個連貫的框架中。用戶只需提供初始和目標姿態以及物體幾何形狀,PAM 就能生成具有連貫動態和逼真手物交互的視頻。實驗證明,PAM 不僅在視頻保真度和幾何準確度上大幅超越現有方法,其生成的合成視頻還能直接作為數據增強工具,使下游手部姿態估計模型在僅使用 50%真實數據加上合成數據的情況下,就能匹配使用100%真實數據的效果!

      03


      研究動機

      隨著深度學習和擴散模型的出現,大規模生成 HOI 視頻展現出了巨大潛力。然而,縱觀當前最先進的方法,整個研究領域呈現出三種趨勢:

      1.純姿態合成(Pose-only synthesis只預測手部MANO軌跡而不生成外觀,缺乏視覺真實感,降低了其實用價值。

      2.單圖外觀生成(Appearance generation根據掩碼或 2D 提示生成外觀,但完全無法捕捉時間上的動態連貫性。

      3.視頻運動生成(Motion generation雖然能生成視頻,但需要完整的姿態序列和真實的視頻第一幀作為輸入,這些條件在實際場景中較難獲得,容易獲得的是模擬器中的手部姿態數據,但由于模擬器中根本無法獲取真實的第一幀,這類方法不適合 Sim-to-Real的部署。

      基于上述痛點,研究團隊認為 HOI 生成亟需一個能統一融合姿態、外觀和運動的引擎。因此,PAM 引入了整合運動與外觀的擴散過程,繞過了對第一幀條件和完成手部姿態序列的依賴,從而最大化了運動和外觀的多樣性。

      04


      PAM 方法


      方法概覽

      給定初始 MANO 手部姿態 、無外觀的物體 Mesh 、初始 6-DoF 物體姿態 以及目標手部 MANO 姿態 ,PAM 的目標是生成一段逼真的 HOI 視頻。整個模型可以形式化為一個生成函數 :

      該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列 。為了應對生成 HOI 視頻的高維時空流形的復雜性,PAM 將生成過程解構為三個核心階段:

      第一階段:姿態生成 (Pose Generation)

      在這個階段,模型主要解決中間物理運動的插值問題。使用預訓練的姿態生成模型(如 GraspXL)來合成對齊的手物交互姿態序列。模型接收 作為輸入,輸出時間上連貫的手部和物體運動軌跡 。這確保了物理一致性,為后續的視覺渲染奠定幾何基礎。

      第二階段:外觀生成 (Appearance Generation)

      為了解決從模擬器到真實視頻的視覺鴻溝,PAM 利用可控的圖像擴散模型 Flux 來合成逼真的視頻第一幀 。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導,它們均為 的特征圖:

      ?深度圖 (Depth Maps):保證全局的幾何連貫性。

      ?語義掩碼 (Semantic Masks)保證實例級別的語義一致性。

      ?手部關鍵點映射 (Hand Keypoints):提供精確的手部骨骼拓撲結構,保證手部細節生成的一致性。

      這些條件首先通過 VAE 編碼為 的潛在表示,在通道維度上拼接后,注入到 ControlNet 分支的 DiT 塊中。特征的注入計算公式如下:

      其中 是原始 Flux 模型中第 7 層 DiT 塊的輸出, 是接收拼接條件輸入的復制 DiT 塊的輸出,而零卷積層 (Zero-convolution layer) 為參數全零初始化的 卷積層。

      第三階段:運動生成 (Motion Generation)

      在生成首幀 后,模型將第一階段生成的序列 逐幀渲染,得到對應的深度圖、語義圖和關鍵點序列。隨后,利用預訓練的視頻 VAE 將這些空間條件編碼為形狀為 的潛在張量。

      PAM 采用基于 CogVideoX 的可控視頻擴散模型來生成最終的視頻流。為了保持與姿態序列的一致性,視頻模型沿用了上述公式的特征融合機制,將多模態特征通過 12 個復制的 DiT 塊注入網絡。特別地,在訓練階段,為了防止模型過度依賴某單一模態特征,每種條件都會以 的概率被隨機掩碼,從而提升模型的泛化能力。

      05


      實驗結果

      基準測試

      團隊在 DexYCB(聚焦于單手交互)和 OAKINK2(聚焦于雙手復雜交互)兩個基準數據集上對 PAM 進行了全面評估,并與當前最先進的 ManiVideo、InterDyn 和 CosHand 等方法進行了對比。

      定量結果


      ? 在DexYCB數據集上:PAM 實現了 29.13 的 FVD(Fréchet Video Distance,反映視頻整體的時空連貫性與真實度,該數值越低越好),大幅優于 InterDyn 的 38.83。在反映手部姿態準確度的 MPJPE 指標上,PAM 達到了19.37 mm,遠優于 CosHand 的 30.05 mm。此外,在結構相似性(SSIM)和運動保真度(MF)等指標上,PAM 也穩居第一。

      ?OAKINK2數據集上面對更復雜的雙手交互場景,PAM 同樣展現出強大的建模能力,將 FVD 從 CosHand 的 68.76 顯著降至 46.31,MPJPE 從 14.49 mm 大幅降低至 7.01 mm。

      ?更高清的分辨率相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻,PAM 能夠穩定生成 480 \times 720 的高保真、高分辨率交互視頻。

      定性結果


      ?如上圖所示,現有方法(如 CosHand)由于僅依賴手部掩碼作為單一條件,缺乏深度的幾何引導,且缺少顯式的時間建模機制,導致生成的視頻往往出現手部姿態畸變以及嚴重的幀間閃爍。相比之下,PAM 利用帶有時間注意力機制的視頻擴散基礎模型,加以多條件的控制,保證了較強的幀間連貫性。

      06


      多條件的消融實驗



      ? DexYCB數據集上的消融實驗證實,PAM 的“深度圖+語義掩碼+手部關鍵點”多模態控制組合缺一不可。如上圖所示,僅靠手部關鍵點會導致整體外觀質量下降,而僅靠語義掩碼或深度圖則會引發手部姿態的錯位失真。PAM 巧妙結合了全局場景理解(深度與語義)與局部手部細節(關鍵點),明確保留了手部結構的細節。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度,還成功消除了幾何錯位,生成了準確、流暢且符合物理常理的視頻序列。

      07


      Sim-To-Real生成


      如上圖所示,PAM 展現了強大的 Sim-to-Real 遷移能力。僅僅給定初始和終止狀態的HOI Pose,利用解耦架構,模型成功結合了 GraspXL 的運動先驗與擴散模型的外觀建模,合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務提供了源源不斷的數據生成管線。

      08


      下游任務驗證


      為了評估生成視頻的實用性,研究人員將合成視頻用于下游手部姿態估計任務(SimpleHand 模型)的數據增強。PAM 訓練生成了 3,400 個視頻序列(包含 207,400 幀)作為增強數據。

      結果表明,使用合成數據結合不同比例的真實數據進行訓練,始終能提高手部姿態估計的準確度。從上圖中可以看到,僅使用 50% 真實數據加上 PAM 生成的合成樣本,其性能就足以具備與使用 100% 真實數據基線相競爭的實力!這證明了合成數據能有效彌補真實數據量的不足。

      09


      總結

      PAM 提出了一個創新的 Pose-Appearance-Motion 解耦架構,成功打破了傳統方法依賴真實第一幀的瓶頸,實現了從極簡姿態輸入到高保真 HOI 視頻的生成。其卓越的感知質量、幾何準確度以及對下游任務的顯著增益,為具身智能領域的生成模型研究提供了堅實的基礎。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《浪姐》宋妍霏遭疑「墊屁股」 霸氣曬白眼照回擊:少關注人的臀

      《浪姐》宋妍霏遭疑「墊屁股」 霸氣曬白眼照回擊:少關注人的臀

      ETtoday星光云
      2026-03-27 10:38:09
      馬杜羅下場敲警鐘!俄羅斯立死規:敢抓普京、拘俄公民,直接出兵

      馬杜羅下場敲警鐘!俄羅斯立死規:敢抓普京、拘俄公民,直接出兵

      溫讀史
      2026-03-27 17:46:44
      重磅!伊朗已回復15點停火協議,最關鍵的48小時來了

      重磅!伊朗已回復15點停火協議,最關鍵的48小時來了

      風風順
      2026-03-27 03:15:05
      TA:馬奎爾團隊不清楚曼聯的想法;他已吸取教訓不再帶傷上陣

      TA:馬奎爾團隊不清楚曼聯的想法;他已吸取教訓不再帶傷上陣

      懂球帝
      2026-03-27 17:08:17
      瞞天過海40年!李嘉誠成最大贏家,日產百萬桶,把石油全賣給中國

      瞞天過海40年!李嘉誠成最大贏家,日產百萬桶,把石油全賣給中國

      阿鳧愛吐槽
      2026-03-24 00:54:18
      出大事了,美國突然倒向烏克蘭,俄方亮明態度,歐盟反應令人意外

      出大事了,美國突然倒向烏克蘭,俄方亮明態度,歐盟反應令人意外

      興史興談
      2026-03-26 18:35:42
      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質缺一不可

      富人圈子里選兒媳鐵律:美貌和文憑都是浮云,這3個品質缺一不可

      千秋文化
      2026-02-15 20:12:48
      剛剛,廣東一地下冰雹!最新提醒

      剛剛,廣東一地下冰雹!最新提醒

      南方都市報
      2026-03-27 16:52:26
      馬英九與蕭旭岑對線后,國民黨大佬集體表態,非常不簡單

      馬英九與蕭旭岑對線后,國民黨大佬集體表態,非常不簡單

      甜檸聊史
      2026-03-27 18:01:09
      國家在全力反腐,人民解放軍除統一大業之外,還暗藏著哪些硬仗?

      國家在全力反腐,人民解放軍除統一大業之外,還暗藏著哪些硬仗?

      李昕言溫度空間
      2026-03-26 19:48:46
      太尷尬!美國政壇傳得沸沸揚揚:特朗普或迎“十年來首度缺席”

      太尷尬!美國政壇傳得沸沸揚揚:特朗普或迎“十年來首度缺席”

      王姐懶人家常菜
      2026-03-27 17:37:46
      會猝死的不只是人!

      會猝死的不只是人!

      走讀新生
      2026-03-26 13:20:32
      島內突傳重磅信號!統一藍圖落地,美國改口,賴清德窮途末路

      島內突傳重磅信號!統一藍圖落地,美國改口,賴清德窮途末路

      觀星賞月
      2026-03-27 17:26:41
      炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

      炸鍋!名宿開罵:英格蘭 4 大廢物不配入選,巨星落選有貓膩

      奶蓋熊本熊
      2026-03-27 05:35:00
      "仁義"好兄弟出手!伊朗終等到最大強援,特朗普萬沒料到的事發生

      "仁義"好兄弟出手!伊朗終等到最大強援,特朗普萬沒料到的事發生

      小舟談歷史
      2026-03-27 14:05:57
      風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

      風向徹底變了!西方媒體集體改口:中國,無需再向世界證明什么

      聞識
      2026-03-27 11:32:15
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      難以置信!因為腳氣太重,一網友囤一大堆鞋子天天輪換,引發熱議

      難以置信!因為腳氣太重,一網友囤一大堆鞋子天天輪換,引發熱議

      火山詩話
      2026-03-27 10:06:14
      央視直播乒乓時間表:3月27日CCTV5轉播國乒!附國乒世界杯新消息

      央視直播乒乓時間表:3月27日CCTV5轉播國乒!附國乒世界杯新消息

      皮皮觀天下
      2026-03-27 11:57:20
      伊朗點名美國兩大軟肋,若敢動地面部隊,先讓阿聯酋巴林變火海

      伊朗點名美國兩大軟肋,若敢動地面部隊,先讓阿聯酋巴林變火海

      書紀文譚
      2026-03-27 17:47:44
      2026-03-27 18:55:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7151文章數 20742關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內景曝光,四周擺滿了鮮花

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      本地
      時尚
      游戲
      公開課
      軍事航空

      本地新聞

      在濰坊待了三天,沒遇到一個“濰坊人”

      從50塊到5w,她們過去一年最愛的包是這些

      科樂美旗下電競學院新增學科 培育網絡直播人材

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版