![]()
新智元報道
編輯:LRST
【新智元導讀】當元宇宙數字人急需「群舞技能」,音樂驅動生成技術卻遭遇瓶頸——舞者碰撞、動作僵硬、長序列崩壞。為解決這些難題,南理工、清華、南大聯合研發端到端模型TCDiff++,突破多人生成技術壁壘,實現高質量、長時序的群體舞蹈自動生成。該模型支持跨模態編舞,可一鍵生成和諧流暢的群舞表演,為虛擬演唱會、數字人集體演出等場景提供完整的AIGC解決方案。作為該領域首批基礎模型之一,TCDiff++從AAAI 2025的開源成果TCDiff升級而來,并被IJCV 2025正式接收。
在常見的群舞數據中,超過80%的動作看起來幾乎一樣!更麻煩的是,每個舞者的動作數據維度高達100多,而位置坐標卻只有可憐的3維——模型直接「臉盲」了,根本分不清誰是誰。
結果舞者身份混淆,跳著跳著就撞在一起。
此外,獨舞也有可能變「滑步」,導致畫面非常魔幻。
你有沒有見過舞者上身跳得標準,雙腳卻像在冰上滑行?這就是典型的「腳部滑動」。其根源在于AI難以協調全身動作和腳下軌跡,導致視覺效果失真,觀感十分出戲。
如果編舞時間過長,也可能導致生成崩潰,長序列群舞仍是難題。
現有技術能生成幾秒鐘的群舞片斷,可一旦拉到幾分鐘甚至更長,動作就開始突變、卡頓、不連貫。而現實中,一場真正的群舞表演動輒數分鐘,音樂劇更要持續數小時——這之間的差距,正是當前技術亟待填補的關鍵空白。
![]()
群舞生成三大難題示意圖以及TCDiff++效果,從左到右分別為多舞者碰撞、單舞者腳滑、長時生成位置突變問題、TCDiff++克服這些難題
在AAAI 2025發表的TCDiff模型,研究人員首次提出「軌跡可控」的生成思路,通過分離軌跡預測與動作生成的兩階段框架,有效防止了群舞中的舞者碰撞。
然而,該設計也導致動作與位移銜接生硬,且在生成長序列時容易出現抖動、性能下降等問題。
為從根本上克服這些缺陷,研究團隊最新推出了升級版——TCDiff++,一個從音樂到舞蹈的端到端生成模型。
![]()
論文地址:https://arxiv.org/pdf/2506.18671
項目地址:https://da1yuqin.github.io/TCDiffpp.website/
代碼地址:https://github.com/Da1yuqin/TCDiffpp
顧名思義,TCDiff++是一個「軌跡可控」的擴散模型,核心創新在于其兩階段生成流程,專門針對群舞的和諧性與真實感設計:
團體舞蹈解碼器(Group Dance Decoder):作為第一道工序,它根據輸入的音樂,首先生成一套整體協調、且能避免舞者相互碰撞的初始舞蹈動作。
步法適配器(Footwork Adaptor):接著,這個專門的模塊會介入,它聚焦于舞者的腳部軌跡,對初始動作進行局部精修,生成扎實的腳步動作,從而有效消除「腳底打滑」的不自然現象。

代碼提供的自動化渲染流程,可以得到項目主頁中同樣的視頻結果,對Blender軟件初學者友好
最終,系統將優化后的精準步法與協調的團體舞姿無縫融合,直接生成一段步伐穩扎、舞者間無碰撞的和諧群舞序列。
![]()
框架圖,包含團體舞蹈解碼器(Group Dance Decoder)和步法適配器(Footwork Adaptor),團體舞蹈解碼器首先生成無軌跡碰撞的初始群舞動作;適配器隨后對其腳部軌跡進行優化,減輕滑步現象;最終將優化后的步法自然融入初始動作,合成協調穩定、舞步扎實的完整舞蹈序列
多舞者防碰撞系統
給舞者「排位置」:通過引入舞者定位嵌入(Dance Positioning Embedding),為每位舞者編碼其在隊伍中的左右相對位置,使模型能記住并維持整體隊形,避免混亂。
增強角色區分:新增融合投影模塊(Fusion Projection),將舞者特征映射到更高維空間,強化模型對不同舞者動作的辨識能力,減少身份混淆。
![]()
融合投影模塊,左圖是之前投影維度,右圖是提出的融合投影模塊,增加了輸入維度以增強舞者區分度
全局距離約束:通過距離一致性損失函數,在全局層面合理約束舞者間距,確保生成隊形既舒展又不會相互碰撞。
精準步態控制
引入交換模式(swap mode):在生成初始動作時,將音樂特征與舞者之間特定的空間交換模式共同作為條件,從源頭引導模型生成更合理的步法。
優化腳部軌跡:步法適配器對群舞解碼器生成的原始動作進行專門優化。它利用腳跟、腳趾的觸地狀態和身體根骨骼的速度信息,針對性修正下半身運動,生成腳踏實地的步法,最后再與富有表現力的上半身動作融合,形成自然流暢的最終結果。
長序列生成優化
分段生成,平滑銜接:提出長序列擴散采樣策略(Long Group Diffusion Sampling)。模型并非一次生成全部序列,而是以「分段生成、后半段重疊」的自回歸方式推進。
在生成新片段時,會利用已生成片段的后半部分作為確定性條件,有效維持長序列中角色位置與動作的連貫性,避免突變。
![]()
長序列擴散采樣策略,首先生成部分重疊的片段,然后將其合并形成完整的序列
模型對比實驗
為何TCDiff++脫穎而出
實驗測試表明,相較于現有方法,TCDiff++生成的群舞在個體動作質量和群體協調效果兩方面均有顯著提升,能夠在較長音樂片段上持續產生高度同步、富有表現力且整體和諧的舞蹈表演。
![]()
不同模型在群舞指標和單舞者指標上的對比實驗,TCDiff++獲得多舞者指標最優、單舞者真實性多樣性效果卓越
![]()
不同模型、不同人數在群舞指標和單舞者指標上的對比實驗,TCDiff++定位和身體動作更加一致,從而在團體舞蹈指標中保持持續優勢
對比實驗顯示,現有模型在多人舞蹈生成中各有明顯缺陷:
EDGE(單舞者模型)在群舞場景中嚴重「水土不服」,因難以區分不同舞者,導致頻繁的「腳底打滑」和舞者間碰撞。
GCD過度關注舞者互動,卻忽略了位置坐標建模,同樣產生嚴重腳滑問題。
CoDancers雖減輕了舞者混淆,卻犧牲了整體隊形的協調性與舞者間關聯,且無法生成精準步法。
TCDiff通過分離坐標與動作的兩階段生成,提升了隊形質量,但也導致動作與位置不匹配,影響了個體動作的自然度。
相比之下,TCDiff++憑借其端到端架構與內部模塊的協同設計,有效解決了舞者身份混淆問題,確保了定位與身體動作的高度一致,從而在所有團體舞蹈指標上持續領先,并在單人動作的多樣性與逼真度上表現卓越。
![]()
長時生成對比實驗,TCDiff++獲得最佳性能
長序列生成能力考驗
在延伸至720幀的長序列測試(表3)中,所有模型均出現性能衰退,具體表現為:
EDGE與GCD因缺乏空間信息引導,生成序列中會出現突兀的舞者位置交換。
CoDancers與TCDiff采用的自回歸方法各有局限:前者忽略群體特征,導致隊形不佳;后者因動作不確定性,誤差會隨時間累積,最終導致動作與位置嚴重脫節。
唯有TCDiff++憑借端到端設計,保證了位置與動作的一致性,并有效利用歷史生成信息來維持位置穩定,成功實現了最佳的長序列生成效果。
![]()
消融實驗,所有模塊在不同程度上緩解了多名舞者碰撞和腳部滑動,從而使舞蹈動作更加逼真
消融實驗的結果也表明當所有模塊同時應用時,模型性能最佳。總體而言,所有模塊都有助于提升模型在群體指標上的表現,從而證明了它們在增強群體舞蹈和諧性方面的有效性。
![]()
用戶調研柱狀圖,TCDiff++生成的視覺效果最受用戶喜愛
用戶調研
此外,團隊還基于四項標準(動作真實感、音樂與動作的關聯性、隊形美感以及舞者的和諧感)做了用戶調查研究。結果表明TCDiff++獲得了更多用戶的青睞,展現了在審美吸引力方面的卓越表現。
從虛擬舞團到元宇宙
TCDiff++的落地前景展望
盡管TCDiff++在群體舞蹈生成上取得了突破,但它仍處于「基礎版」階段,在實用性與交互性上還存在明顯局限:
第一,僅支持音樂跨模態,暫不支持其余「多模態」控制,生成模式較為單一。
目前模型僅支持從音樂生成舞蹈這一基礎功能,尚未引入文本描述、動作關鍵幀、舞種風格等多樣化控制信號。
這雖然為跨模態生成打下了堅實基礎,但在真實落地場景中(如虛擬演唱會或游戲劇情動畫),用戶往往需要更靈活的操控手段來精準表達創作意圖。
研究人員選擇優先攻克生成質量與流暢度這一核心難題,將「多模態交互控制」列為下一步突破的重點——這將是實現產品化應用的關鍵。
第二,對「舞者換位」這類復雜隊形變換的學習能力仍顯不足。
這背后既有算法建模處于早期階段的原因,更受限于現有數據集中「換位動作」樣本稀少、缺乏明確標注的客觀限制。
隨著更豐富的群舞數據與更細致的動作標注出現,結合下一代模型架構的優化,未來系統將能更精準、更自然地呈現隊形動態變換之美。
參考資料:
https://arxiv.org/pdf/2506.18671
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.