CHI 2026最佳論文提名｜一臺(tái)手機(jī)，從任意物體捕捉角色動(dòng)畫

2026-04-03 13:03:19　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

角色動(dòng)畫創(chuàng)作是現(xiàn)代影視游戲行業(yè)中藝術(shù)張力的基石。然而，創(chuàng)作角色動(dòng)畫并非易事。現(xiàn)有動(dòng)畫創(chuàng)作流程中，動(dòng)作捕捉系統(tǒng)需要專門的設(shè)備和演出團(tuán)隊(duì)，導(dǎo)致成本高昂；3D 動(dòng)畫軟件則需要專業(yè)動(dòng)畫師來操作，因?yàn)樵?2D 屏幕內(nèi)編輯 3D 骨骼運(yùn)動(dòng)并不符合人類直覺，此類軟件往往學(xué)習(xí)曲線陡峭、經(jīng)驗(yàn)要求極高。實(shí)踐中，一段動(dòng)畫從設(shè)計(jì)到交付的周期較長，一段 15 秒的角色動(dòng)畫往往需要迭代數(shù)天才能完工。

為了簡化動(dòng)作創(chuàng)作流程，部分研究者們提出 “數(shù)字木偶戲” 問題：希望通過直觀操作物理代理，如玩偶、手機(jī)、物理傳感器、手指等，將物理世界中直觀演繹的動(dòng)作轉(zhuǎn)化為虛擬世界中角色的骨骼動(dòng)畫。然而，現(xiàn)有系統(tǒng)往往采用基于小樣本的、特定規(guī)則的、手工設(shè)計(jì)的傳統(tǒng)機(jī)器學(xué)習(xí)算法，只能夠針對特定的輸入物體，產(chǎn)出特定預(yù)設(shè)的有限幾種角色動(dòng)畫。這一技術(shù)路線不具有泛化能力，極大限制了此類系統(tǒng)的實(shí)際應(yīng)用價(jià)值。

針對這一現(xiàn)狀，一個(gè)來自愛丁堡大學(xué)、蔚藍(lán)海岸大學(xué)、清華大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了DancingBox，并獲得了人機(jī)交互（Human-Computer Interaction）領(lǐng)域頂會(huì) ACM CHI 2026 的最佳論文提名。

項(xiàng)目主頁：https://yyyyyhc.github.io/DancingBox-project-page
論文鏈接：https://arxiv.org/html/2603.17704v1
代碼鏈接：https://github.com/YYYYYHC/DancingBox

DancingBox 第一次實(shí)現(xiàn)了僅需 RGB 相機(jī)，對任意物體生效，產(chǎn)出高質(zhì)量角色動(dòng)畫的能力。下表 1 給出了其與現(xiàn)有工作的對比。

表 1：DancingBox 與現(xiàn)有工作的對比

該團(tuán)隊(duì)重新思考了大模型時(shí)代的數(shù)字木偶戲問題與動(dòng)作捕捉系統(tǒng)。

他們發(fā)現(xiàn)，將現(xiàn)有的幾個(gè)視覺大模型結(jié)合，已經(jīng)可以實(shí)現(xiàn)對任意物體的粗略動(dòng)作捕捉（包圍盒運(yùn)動(dòng)序列）。考慮到視覺大模型空間精度有限，且木偶戲類的演出往往缺失細(xì)節(jié)，本研究進(jìn)一步利用動(dòng)作生成模型，將粗略動(dòng)捕結(jié)果 “翻譯” 成對應(yīng)的、精細(xì)的角色骨骼動(dòng)畫。

圖 1：系統(tǒng)概覽。本文展示的帶模型角色動(dòng)畫使用默認(rèn) mesh 模型，并由 Blender 插件自動(dòng)重定向。

如圖 1，DancingBox 系統(tǒng)僅需一臺(tái)普通相機(jī)（如手機(jī)），地面標(biāo)定（如本文使用的視覺標(biāo)定板等任意平坦物體），及任意演出物體即可工作。能夠?qū)⒋致缘奈矬w演出通過包圍盒做中介，轉(zhuǎn)化為對應(yīng)的真實(shí)感角色動(dòng)畫。

系統(tǒng)實(shí)現(xiàn)

DancingBox 系統(tǒng)分為兩個(gè)模塊：基于視覺基礎(chǔ)模型的粗略動(dòng)作捕捉（MoCap）與基于擴(kuò)散模型的精細(xì)動(dòng)作生成（MoGen）。

粗略動(dòng)作捕捉（MoCap）

圖 2：MoCap 系統(tǒng)。

如圖 2，給定一段用戶操作的物體視頻，該團(tuán)隊(duì)的做法是結(jié)合三個(gè)視覺基礎(chǔ)模型（SAM2， CoTracker3，π3），從 2D 輸入中估計(jì)出 3D 包圍盒運(yùn)動(dòng)序列。

具體而言，先使用 π3，將視頻逐幀轉(zhuǎn)化為 3D 單目點(diǎn)云。而后為了定位感興趣的物體和抽象層次，用戶與 SAM2-video 交互，將感興趣物體的各個(gè)部分在第一幀內(nèi)分割出來。

結(jié)合這二者，能夠獲取各個(gè)運(yùn)動(dòng)部位的逐幀 3D 點(diǎn)云。

此后，為了估計(jì)出時(shí)空中連續(xù)的包圍盒序列，從起始幀估計(jì) PCA 包圍盒作為初始化，并用 CoTracker3 提取出像素級別的追蹤關(guān)系，這一關(guān)系通過 π3 提供的像素-點(diǎn)云對應(yīng)，轉(zhuǎn)化為空間中點(diǎn)與點(diǎn)間的幀間對應(yīng)關(guān)系。通過 SVD 分解，便可以解出完整的包圍盒運(yùn)動(dòng)序列。

讀者也許會(huì)疑惑計(jì)算包圍盒的動(dòng)機(jī)：既然 π3 和 SAM2 已經(jīng)能夠給出每幀的空間信號（粗略點(diǎn)云），似乎可以直接將這些點(diǎn)云作為后續(xù)精細(xì)動(dòng)作生成的輸入，從而省略掉 CoTracker3 模塊。

圖 3：通過包圍盒橋接動(dòng)作估計(jì)模塊與動(dòng)作生成模塊，解除數(shù)據(jù)稀缺的限制。

如圖 3，使用包圍盒的核心考慮是數(shù)據(jù)問題：為了訓(xùn)練由空間信號（點(diǎn)云/包圍盒序列）約束的動(dòng)作生成模型，需要該空間信號和真實(shí)動(dòng)作（來自動(dòng)捕數(shù)據(jù)集）的數(shù)據(jù)對。

然而，由于視覺重建方案得出的點(diǎn)云是表面（而非骨骼）的部分采樣，僅從動(dòng)作捕捉數(shù)據(jù)集的骨骼無法構(gòu)造出合理的數(shù)據(jù)對，即無法估計(jì)骨骼的 “粗細(xì)” 和觀測時(shí)的 “正反面”。

包圍盒序列就是為了解決這一問題：一方面，給定點(diǎn)云的視覺跟蹤信號（CoTracker3），包圍盒運(yùn)動(dòng)信息能夠從粗略點(diǎn)云中估計(jì)出來；另一方面，從動(dòng)捕數(shù)據(jù)集的骨骼運(yùn)動(dòng)數(shù)據(jù)中，可以直接算出對應(yīng)包圍盒序列。只要約定好包圍盒大小范圍，這一中間表示就能夠完美橋接兩個(gè)系統(tǒng)。

精細(xì)動(dòng)作生成（MoGen）

承接上文，現(xiàn)在我們需要訓(xùn)練以包圍盒序列為條件的精細(xì)動(dòng)作生成模型。基于動(dòng)作捕捉數(shù)據(jù)集 HumanML3D，先從數(shù)據(jù)集中真實(shí)采集的人體骨骼動(dòng)畫中，按照圖 4 所示的包圍盒合并策略，計(jì)算同一段骨骼運(yùn)動(dòng)在各種排布方式下產(chǎn)生的包圍盒運(yùn)動(dòng)序列。

為了模擬真實(shí)場景中估計(jì)不準(zhǔn)確的問題，再隨機(jī)放大/縮小/丟棄掉部分包圍盒，并向包圍盒運(yùn)動(dòng)中加入隨機(jī)速度/位置噪聲。

圖 4：初始包圍盒生成邏輯。

接著再訓(xùn)練一個(gè) ControlNet，向預(yù)訓(xùn)練好的文本生成動(dòng)作模型 (Human-Motion-Diffusion-Model，簡稱 MDM）注入額外的包圍盒控制信號。

圖 5：MoGen 系統(tǒng)。

特別地，考慮到包圍盒內(nèi)部的頂點(diǎn)順序、同一時(shí)刻包圍盒之間的排列順序不應(yīng)該影響該時(shí)刻提取出的特征，如圖 5 所示，該團(tuán)隊(duì)參考 PointNet，用平均與最大值運(yùn)算保證特征的順序無關(guān)性。

用戶調(diào)研

本文進(jìn)行了廣泛的用戶調(diào)研。在用戶反饋中，DancingBox 符合直覺，易于使用，即使是新手也可以在短時(shí)間內(nèi)使用系統(tǒng)自由創(chuàng)作。部分問卷結(jié)果如圖 6。

圖 6：部分問卷結(jié)果。

特別地，從用戶調(diào)研中，該團(tuán)隊(duì)發(fā)現(xiàn)：

用戶希望有更靈活自由的物體，實(shí)現(xiàn)精細(xì)的多樣演出。
用戶認(rèn)為雙手控制多關(guān)節(jié)物體運(yùn)動(dòng)存在困難。同時(shí)物體是否容易站立很大程度上影響操作便利性。

該團(tuán)隊(duì)表示：「自由度與交互簡易度構(gòu)成了一組 trade-off，我們希望這能夠啟發(fā)后續(xù)研究，進(jìn)一步探索可交互設(shè)備的更多可能。」

視頻結(jié)果展示

更多視頻結(jié)果，包括正文中各個(gè)圖片的對應(yīng)案例，請見項(xiàng)目主頁。

作者信息

本文的第一作者袁浩程是愛丁堡大學(xué)三年級的博士生，他的研究興趣是用戶友好的計(jì)算機(jī)輔助設(shè)計(jì)（CAD），指導(dǎo)老師為愛丁堡大學(xué)李昌健助理教授。

DancingBox 系統(tǒng)處于持續(xù)研究升級中，歡迎感興趣的研究人員與動(dòng)畫/游戲行業(yè)人員聯(lián)系作者團(tuán)隊(duì)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.