人類動作,這一復雜而精妙的表達形式,正被人工智能以驚人的方式重新演繹。從文本描述到音樂節拍,再到環境場景,AI正在學習解讀這些信號并將其轉化為流暢自然的人體動作。想象一下,只需一句"優雅地旋轉并鞠躬",AI就能生成相應的舞蹈動作;或者隨著音樂節奏,虛擬角色能夠展現出與之和諧的舞步。這項技術不僅在游戲、電影和虛擬現實中展現出巨大潛力,更在人機交互和數字人領域開辟了新天地。然而,要讓AI生成的動作既自然又符合人類期望,背后隱藏著哪些技術挑戰?這場人工智能重塑人類動作的革命,正悄然改變著我們與數字世界互動的方式。
動作數據基石
人類動作生成技術的發展離不開對基礎數據的理解與采集。就像建筑需要堅實的地基,AI生成逼真人體動作也需要高質量的動作數據作為基礎。這些數據以什么形式存在?又是如何被收集的?
在計算機世界里,人體動作主要以兩種方式被記錄和表示。第一種是關鍵點表示法,將人體簡化為一系列特定點的集合,比如肩膀、手肘、膝蓋等關節位置。這些關鍵點可以是2D坐標(屏幕上的x和y位置)或3D坐標(真實世界中的空間位置)。當這些關鍵點隨時間變化,就形成了動作序列。
第二種是旋轉表示法,通過記錄每個身體部位相對于其父節點(如手臂相對于肩膀)的旋轉角度來描述姿態。典型的例子是SMPL(Skinned Multi-Person Linear)模型,它使用24個關節的旋轉參數和10個體型參數,能夠生成包含6890個頂點的完整人體3D網格。這種表示方法不僅能展現關節位置,還能生成逼真的身體表面。
采集這些動作數據主要有四種方式。最精確的是標記式動作捕捉,在演員身體特定位置放置反光標記或慣性傳感器,通過專業設備追蹤這些標記點的運動。美國卡內基梅隆大學的CMU MoCap數據庫就是使用這種方式采集的,記錄了超過2600段動作序列,總計約9小時的動作數據。
![]()
無標記動作捕捉則更加便捷,僅通過一個或多個攝像頭拍攝演員動作,再用計算機視覺算法提取動作信息。HUMBI數據集就采用這種方式,從772名受試者中捕獲了約2600萬幀的動作數據,涵蓋眼神、面部表情、手部動作和身體姿態。
偽標記方法則針對網絡上已有的視頻資源,使用人體姿態估計算法自動提取動作數據。這種方法雖然便于大規模采集,但精度較低。Speech2Gesture數據集就采用這種方式,從電視節目和大學講座的視頻中提取了約144小時的手勢動作數據。
最后一種是手動標注,由專業動畫師使用動畫軟件創建人體動作。雖然質量可控,但成本高昂且效率低下。盡管如此,像MMD-ARC這樣的數據集仍采用這種方式,包含213個手動創建的舞蹈動作序列,總時長達11.3小時。
這些動作數據不僅要記錄人體姿態,還需匹配相應的條件信號。例如,KIT Motion Language數據集包含3911個動作片段和6353個文本描述;AIST++數據集則提供了1408段舞蹈動作與相應音樂的配對,涵蓋10種舞蹈風格;PROX數據集則記錄了人與室內環境互動的動作,包含12個不同室內場景。
隨著深度學習技術的發展,這些動作數據為人工智能生成人類動作提供了可能。研究人員基于這些數據,開發出各種技術路徑來生成逼真的人類動作。
技術路徑探索
要讓AI理解并生成人類動作,研究者們走出了不同的技術道路。這些路徑各有特點,就像不同的工具適合不同的任務,每種方法在特定場景下都有其獨特優勢。
最直接的方法是回歸模型,其核心思想是建立輸入條件與目標動作之間的直接映射關系。這類方法屬于監督學習范疇,訓練模型直接預測特定條件下的人體動作。例如,AI編舞師系統使用全注意力跨模態Transformer網絡,能夠根據輸入音樂自動預測未來的舞蹈動作。這種方法直觀簡單,但面臨一個根本性挑戰:對于同一個條件信號(如一段音樂),可能存在多種合理的動作響應,簡單的回歸方法難以捕捉這種一對多的映射關系。
![]()
生成模型則從本質上解決了這個問題,它們不是直接預測特定動作,而是學習動作的概率分布。在這個領域,四種典型的生成模型被廣泛應用。
生成對抗網絡(GAN)通過兩個網絡的博弈來生成逼真動作。生成器負責創造動作,判別器則評判其真假。Text2Action系統就是首個利用GAN從語言描述生成多樣化動作的方法。Speech2Gesture項目也采用GAN,從演講者的語音中生成配套手勢。GAN生成的動作往往視覺質量高,但訓練過程不穩定,容易出現"模式崩塌"問題,導致生成結果缺乏多樣性。
變分自編碼器(VAE)則采用不同策略,通過學習動作的低維潛在表示來生成新動作。ACTOR系統使用基于Transformer的VAE模型,能夠一次性生成完整動作序列。Bailando系統先用向量量化VAE將3D動作離散化,再利用生成式預訓練Transformer組合出連貫動作。VAE生成過程高效穩定,但生成的樣本清晰度往往不如GAN。
歸一化流模型則明確學習數據分布,允許精確計算概率密度。StyleGestures系統改編MoGlow模型,實現了對生成手勢風格的精確控制。Transflower系統利用歸一化流表達復雜的動作概率分布,能根據音樂和過去動作生成未來舞步。這類模型計算概率精確,采樣方便,但需要大量變換來建模復雜分布,計算成本高。
擴散模型則是近年嶄露頭角的技術。它們定義一個前向擴散過程,逐步向數據添加噪聲,再學習逆向過程從噪聲恢復數據。MDM系統將擴散模型應用于動作生成,不是預測噪聲,而是直接預測每步的樣本,大幅提升了生成質量。EDGE系統將動作生成視為條件下的動作去噪問題,能夠產生與音樂節奏高度一致的舞蹈動作。擴散模型生成樣本質量高,訓練穩定,但生成過程較慢。
除了這些深度學習方法,動作圖技術作為計算機圖形學領域的經典方法也被廣泛應用。它將動作表示為有向圖,節點代表姿勢,邊代表可行的過渡。ChoreoMaster系統學習音樂與舞蹈的共享嵌入空間,將學到的特征與專家知識整合到基于圖的動作合成框架中。PC-Dance系統進一步通過引入錨點姿勢作為額外輸入,實現了可控的動作生成。這種方法產生的動作自然流暢,但受限于已有動作庫,創新能力有限。
不同技術路徑各有所長,研究者們也在嘗試結合多種方法的優勢。例如,MLD系統受潛在擴散模型啟發,結合了VAE和擴散模型的優點;UDE系統包含量化模塊、條件映射網絡、預測模塊和擴散模型,形成完整的生成管線;GestureDiffuCLIP系統則結合潛在擴散模型和CLIP預訓練模型,實現基于風格提示的手勢生成。
這些技術路徑的探索,讓AI生成的人類動作越來越自然、流暢和多樣化,為虛擬現實、游戲、電影和人機交互等領域帶來了新的可能性。隨著技術的不斷發展,人工智能生成的動作將變得更加逼真,進一步模糊虛擬與現實的邊界。
多模態驅動力
人工智能生成人類動作的魅力在于它能響應多種不同的信號——文字、聲音、環境,就像人類會根據不同情況調整自己的動作一樣。這種能力讓AI生成的動作不再是單調重復的程序,而是有了靈活應變的特性。
文本作為人類表達意圖的基本方式,自然成為驅動動作生成的重要信號。目前,文本驅動的動作生成大致分為兩類任務:動作到動作和文本到動作。
動作到動作任務相對簡單,因為它只需基于特定動作類別生成相應動作。SA-GAN系統使用基于自注意力的圖卷積網絡結合GAN架構,通過兩個判別器增強生成能力。MDM系統則采用擴散模型,不是預測噪聲,而是直接預測每個擴散步驟的樣本。這些方法主要擅長生成單一動作,但要生成包含多個動作的復雜序列仍有挑戰。為此,MultiAct系統提出了利用過去動作遞歸生成長期多動作3D人體動作的方法,并創新提出了面向前方標準化方法,確保局部坐標系在每個遞歸步驟中共享地面幾何。
文本到動作任務則更為復雜,需要從自由形式的自然語言描述生成相應動作。Text2Action首次利用GAN從語言描述生成各種動作。一些方法探索了文本和動作的聯合嵌入學習,如JL2P使用基于GRU的文本編碼器和動作編解碼器將文本映射到相應人體動作。Guo等人提出的VAE方法利用長度估計模塊和每幀詞級注意力模塊,生成多樣化的多長度動作。TEMOS通過VAE和Transformer層學習動作和文本的聯合分布。
這些方法在給定數據集上表現不錯,但在零樣本生成(理解沒見過的描述)上面臨挑戰。為此,MotionCLIP利用基于Transformer的自編碼器,將動作潛在空間與預訓練視覺語言模型CLIP的文本和圖像空間對齊,增強零樣本生成能力。AvatarCLIP也利用CLIP和基于參考的動作合成方法,從自然語言描述生成多樣化動畫。
![]()
近年來,受文本到圖像生成成功啟發,VQ-VAE和擴散模型在文本到動作領域也受到越來越多關注。TM2T利用VQ-VAE同時訓練文本到動作和動作到文本模塊。T2M-GPT應用類GPT的transformer架構生成動作序列,結合VQ-VAE與指數移動平均和代碼重置策略。FLAME提出將動作長度令牌、語言池化令牌、時間步令牌和動作嵌入連接起來,用于生成可變長度和多樣化的動作。
音頻也是驅動動作生成的重要信號,可分為音樂到舞蹈和語音到手勢兩類任務。與文本不同,音頻信號通常不提供明確的動作描述,給生成任務帶來更大自由度,同時也要求生成的動作在高層語義和低層節奏上與音頻和諧。
音樂到舞蹈生成任務可以用回歸模型直接預測動作。Tang等人使用LSTM自編碼器提取聲學特征并轉換為動作特征。AI Choreographer利用全注意力跨模態Transformer,以自回歸方式預測未來動作幀。GroupDancer增加了舞者協作階段,選擇活躍舞者生成多人舞蹈。這些方法從監督學習角度最小化預測動作與真實動作的距離,但難以處理一對多的映射關系。
從生成角度看,GAN方法通過對抗學習調節生成和真實動作數據流形之間的距離。MNET增加了音樂風格代碼,設計多任務判別器執行按風格分類。Transflower利用歸一化流表達復雜的動作概率分布。Bailando先用VQ-VAE量化3D動作,再利用演員-評論家生成式預訓練Transformer組合連貫序列。EDGE基于擴散模型,將任務視為條件下的動作去噪問題。
另一類方法基于經典的動作圖框架,將動作生成視為在預構建圖中求解最優路徑。ChoreoMaster提出學習音樂和舞蹈的共享嵌入空間,將學習到的嵌入和專家知識整合到基于圖的動作合成框架中。PC-Dance通過引入錨點姿勢作為額外輸入實現可控動作生成。ChoreoGraph利用動作段落變形解決節奏對齊問題,減少圖中的動作節點和計算成本。
語音到手勢生成任務的核心是根據語音音頻(有時包括文本轉錄)生成一系列人體手勢。這類手勢在非語言交流中至關重要,傳達說話者的信息和情感。Ginosar等人收集了特定人物的語音視頻數據集,用對抗損失訓練生成模型。Aud2Repr2Pose先構建動作自編碼器,再訓練語音編碼器將語音映射到動作表示。StyleGestures改編MoGlow并對生成動作的風格施加導演控制。
![]()
這些基于場景的生成方法通常采用多階段流程。一種常見的管道是先預測目標位置或交互錨點,然后規劃路徑或軌跡,最后沿軌跡填充動作。例如,Cao等人提出一種三階段動作生成方法,先預測2D目標,再規劃2D和3D路徑,最后通過VAE模型沿路徑生成3D動作。SAMP也采用多階段流程,先估計目標位置和物體的交互方向,然后給定起始身體姿勢規劃3D路徑,最后生成合理的人體動作。
場景條件下的動作生成面臨的獨特挑戰是如何讓生成的動作既符合場景物理約束,又能滿足交互需求。HUMANISE系統結合語言描述(如"走到桌子旁")生成場景中的人體動作。IMoS系統集成預期動作指令(如"喝水")在給定物體位置和類型的條件下生成可控制的全身抓取動作。
前沿與展望
評估AI生成的人類動作質量是個棘手問題。好的動作生成系統需要從多個維度進行評估:動作本身是否自然流暢,是否足夠多樣化,是否與條件信號保持一致,以及最重要的——人類觀眾的主觀感受。
保真度評估關注生成動作的自然度、流暢度和合理性。最直接的方法是與真實動作進行比較,計算兩者之間的距離或準確率。但這種方法有局限,因為對同一條件可能存在多種合理動作。因此,許多研究轉向評估生成動作的自然度,可分為基于動作空間和特征空間兩類。
基于動作空間的方法測量基于幾何統計的分布距離。QPGesture測量速度分布直方圖間的Hellinger距離。SAGA使用PSKL-J測量合成和真實動作加速度分布間的功率譜KL散度,評估動作流暢度。
基于特征空間的方法利用獨立神經網絡作為動作特征提取器,計算分布距離。許多工作使用輔助動作分類器或自編碼器計算Frchet Inception Distance(FID)。EDGE的研究表明FID分數與整體質量評估不一致,質疑了這種常見評估方法的有效性。
物理合理性是另一個重要維度,特別是腳-地面交互:腳滑動和腳-地面接觸。SAGA將腳滑定義為當腳跟在地面閾值內,且雙腳腳跟速度超過閾值時發生。CIRCLE報告序列中腳滑動幀的百分比。HuMoR報告人-地接觸的二進制分類準確率和腳-地板穿透頻率。
![]()
多樣性評估考察生成系統產生各種不同動作的能力,可分為單一動作序列內多樣性(內部多樣性)和不同動作序列間多樣性(外部多樣性)。
內部多樣性量化單個動作序列中的變化程度。一些研究將生成的動作分割為等長的非重疊動作片段,計算它們的平均成對距離。Sun等人提出計算姿勢和平移參數的時間差異,報告凍結率。
外部多樣性評估生成動作流形的覆蓋范圍和多模態性。覆蓋度通常通過采樣驗證集上的不同條件信號,計算生成動作的多樣性來評估。多模態性則考察相同條件下生成結果的變化。常見做法是采樣驗證集上的條件信號,對每個條件生成多個動作,計算每個條件下的平均成對距離。
條件一致性評估生成動作與相應條件信號的協調程度。對于文本-動作一致性,研究者使用基于預訓練動作識別模型的識別準確率評估生成結果。R-精確度計算并排名特征間的歐幾里得距離,平均top-k結果的準確率。多模態距離量化給定描述特征與生成結果動作特征間的差異。
對于音頻-動作一致性,研究者評估生成動作的運動學節拍與輸入音頻節拍的對齊程度。節拍覆蓋率和命中率表示對齊節拍與所有節拍的比率。Li等人提出用節拍距離計算的節拍對齊分數,后來被EDGE等工作改進,強調音樂節拍匹配。
場景-動作一致性則關注生成動作與給定場景條件的協調程度,主要從非碰撞分數和人-場景接觸兩個角度評估。Wang等人將人-場景碰撞計算為以圓柱體模型表示的人體動作與給定場景點云之間的交點,非碰撞率定義為無人-場景碰撞的人體動作數與所有采樣動作的比率。
用戶研究或主觀評估也是評估生成動作的重要組成部分。人類對生物動作中的微小偽影(如抖動和腳滑)高度敏感,且現有客觀指標無法涵蓋生成動作的文化微妙方面,如美學和情感影響。
偏好型用戶研究讓參與者觀察一對人體動作,回答如"哪個動作更符合文本描述"、"哪個舞蹈更逼真,不考慮音樂"等問題,計算方法相對基線的勝率。EDGE進行所有生成方法間的兩兩比較,使用Elo評級同時表示它們的生成質量。評分型用戶研究則讓志愿者為生成結果提供明確分數,有時要求為每個方面(質量、多樣性、一致性)單獨評分。
當前技術挑戰與未來展望方面,數據收集困難且昂貴,導致數據量和質量之間的權衡。表示方式和條件信號的多樣性也限制了現有數據集的廣泛適用性。未來研究可能探索異構數據源的使用,通過弱監督學習方法或多模態基礎模型整合它們的優勢。
人類動作不僅僅是身體部位的移動,還是文化和社會語境中傳達語義信息的非語言交流工具。捕捉人類動作與條件信號(如高層文本描述、音樂/語音風格和環境可及性)之間的語義關系對于生成視覺吸引和美學上令人愉悅的結果至關重要。這個領域的一個特殊挑戰是如何為生成模型配備人類動作語義的先驗知識。
控制生成內容的能力在現實應用中至關重要,這在圖像生成模型中已經是熱門話題。一些近期工作探索了可控人體動作生成,如聯合掩碼或風格提示。未來工作可能進一步探索可控性,如交互式和細粒度編輯。

人類動作的交互性也很重要但尚未充分探索。大多數當前研究主要關注靜態環境中的單人動作生成。未來工作可能深入研究人-人和人-環境交互背景下的人體動作生成,如緊密互動的社交群體(對話、群舞等)和動態可操作場景中的動作生成。
參考資料
Zhu, W., Ma, X., Ro, D., et al. (2023). Human Motion Generation: A Survey. arXiv:2307.10894v1.
Tevet, G., Raab, S., Gordon, B., et al. (2023). Human Motion Diffusion Model. ICLR 2023.
Petrovich, G., Black, M. J., &; Varol, G. (2022). TEMOS: Generating diverse human motions from textual descriptions. ECCV 2022.
Tseng, H. Y., Saito, S., Yang, Y., &; Ikeuchi, K. (2023). EDGE: Editable Dance Generation From Music. CVPR 2023.
Alexanderson, S., Szkely, ., Henter, G. E., et al. (2023). Adversarial Diffusion Distillation. TOG 2023.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.