網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 | BiMotion：用 B 樣條曲線重新定義 3D 角色運(yùn)動(dòng)生成

2026-03-26 11:42:56　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

圖 1：同一文本描述下，AnimateAnyMesh（上）與 BiMotion（下）的生成結(jié)果對(duì)比。離散幀采樣導(dǎo)致動(dòng)作語(yǔ)義中途斷裂，而連續(xù) B 樣條曲線則將完整動(dòng)作保留至序列末尾。

論文標(biāo)題：BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation
論文：https://arxiv.org/abs/2602.18873
項(xiàng)目主頁(yè)：https://wangmiaowei.github.io/BiMotion.github.io/
代碼：https://github.com/wangmiaowei/BiMotion
數(shù)據(jù)集（Hugging Face）：https://huggingface.co/datasets/miaoweiwang/BiMotion
第一作者主頁(yè)：https://wangmiaowei.github.io/

當(dāng)你希望 AI 將 "士兵舉起手臂，向后傾身，然后身體向前撲倒" 這段文字轉(zhuǎn)化為一段 3D 角色動(dòng)畫，現(xiàn)有大多數(shù)方法給出的答案是：一段搖搖晃晃、語(yǔ)義殘缺的短片段。這并非模型能力不足，問(wèn)題的根源在于將運(yùn)動(dòng)表達(dá)為逐幀離散序列這一根本性的設(shè)計(jì)決策。

來(lái)自愛丁堡大學(xué)、康奈爾大學(xué)和密歇根大學(xué)的研究團(tuán)隊(duì)提出了 BiMotion：一種基于 B 樣條曲線的文本驅(qū)動(dòng) 3D 角色運(yùn)動(dòng)生成框架，即將在 CVPR 2026 正式發(fā)表，三位審稿人均給出 5/6 的高分評(píng)價(jià)。其核心主張只有一句話：運(yùn)動(dòng)是連續(xù)的，就應(yīng)該用連續(xù)的方式來(lái)表達(dá)。

離散幀的困境：

為什么現(xiàn)有方法總在 "丟情節(jié)"

目前主流 3D 運(yùn)動(dòng)生成方法大多采用 VAE–潛在擴(kuò)散模型架構(gòu)，該架構(gòu)具有固定的輸入窗口，每次只能處理固定幀數(shù)的運(yùn)動(dòng)序列。面對(duì)長(zhǎng)度各異的真實(shí)運(yùn)動(dòng)數(shù)據(jù)，現(xiàn)有方法只有兩條路：

裁剪（Cropping）：將長(zhǎng)序列切割為短片段，模型僅能學(xué)到局部子動(dòng)作，而非完整語(yǔ)義。如文本描述 "轉(zhuǎn)圈后停步"，模型最終只能生成 "向右轉(zhuǎn)"。
均勻降采樣（Downsampling）：將 200 幀壓縮至 16 幀再?gòu)?fù)原，導(dǎo)致動(dòng)作卡頓抖動(dòng)，如同一份低幀率的 GIF。

問(wèn)題的本質(zhì)在于：幀數(shù)僅代表時(shí)間采樣密度，與動(dòng)作語(yǔ)義本身無(wú)關(guān)。一只龍扇翅膀的動(dòng)作，用 24 幀記錄還是 120 幀記錄，語(yǔ)義始終是 "扇翅膀"。逐幀離散表示，是這一領(lǐng)域長(zhǎng)期忽視的根本性瓶頸。

B 樣條：用少數(shù)控制點(diǎn)，刻畫完整軌跡

BiMotion 的核心思路是將每個(gè)頂點(diǎn)隨時(shí)間的運(yùn)動(dòng)軌跡，用一條連續(xù)可微的 B 樣條曲線來(lái)表達(dá)。B 樣條是計(jì)算機(jī)圖形學(xué)中的經(jīng)典參數(shù)曲線，僅用少量 "控制點(diǎn)" 便可描述一條光滑連續(xù)的軌跡；修改其中一個(gè)控制點(diǎn)只影響局部區(qū)域，不會(huì)破壞整體形狀。

具體實(shí)現(xiàn)上，BiMotion 將任意長(zhǎng)度 T 的頂點(diǎn)位移序列，通過(guò)帶 Laplacian 正則化的最小二乘擬合，壓縮為固定數(shù)量（默認(rèn) 16 個(gè)）控制點(diǎn)。該壓縮具有閉合解，在普通消費(fèi)級(jí) CPU 上，對(duì) 5 萬(wàn)頂點(diǎn)、200 幀的網(wǎng)格，不到一秒即可完成。Laplacian 正則專門處理序列極短時(shí)的欠定義問(wèn)題，相比 Ridge 正則，其生成的插值更自然、過(guò)渡更流暢，消融實(shí)驗(yàn)對(duì)此給出了明確驗(yàn)證。

模型架構(gòu)：從控制點(diǎn)到可生成的運(yùn)動(dòng)潛空間

圖 2：BiMotion 整體架構(gòu)。訓(xùn)練時(shí)（紅色箭頭）頂點(diǎn)差異轉(zhuǎn)化為 B 樣條控制點(diǎn)后編碼為運(yùn)動(dòng)潛碼；推理時(shí)（黑色箭頭）從噪聲采樣得到控制點(diǎn)，經(jīng) B 樣條重投影還原為任意長(zhǎng)度的動(dòng)畫序列。

BiMotion 整體采用 VAE 加 Rectified Flow Matching 的兩階段架構(gòu)。

B 樣條 VAE

編碼器將初始網(wǎng)格形狀與控制點(diǎn)一并壓縮為緊湊的運(yùn)動(dòng)潛碼，其中包含兩項(xiàng)關(guān)鍵設(shè)計(jì)：

法線融合（Normal Fusion）：將頂點(diǎn)法線信息以余弦相似度加權(quán)的方式融入點(diǎn)特征，有效解決網(wǎng)格上空間相近但內(nèi)在結(jié)構(gòu)屬于不同部位（如手指關(guān)節(jié)）難以區(qū)分的問(wèn)題，且無(wú)需依賴網(wǎng)格特定的拓?fù)浣Y(jié)構(gòu)，對(duì)任意拓?fù)渚憩F(xiàn)穩(wěn)健。
多層級(jí)控制點(diǎn)嵌入（Multi-level Control Point Embedding）：受小波包分解啟發(fā)，將控制點(diǎn)逐層分解為從粗到細(xì)的多級(jí)殘差并分別編碼。相比標(biāo)準(zhǔn)頻率位置編碼，這種方式能同時(shí)捕捉運(yùn)動(dòng)的全局節(jié)奏與局部細(xì)節(jié)（如獅子尾巴的微小擺動(dòng)），重建誤差大幅降低。

圖 3：B 樣條 VAE 架構(gòu)。編碼器（橙色區(qū)域）將初始形狀與控制點(diǎn)壓縮為潛碼；解碼器（綠色區(qū)域）重建控制點(diǎn)后通過(guò) B 樣條重投影得到頂點(diǎn)差異序列。

損失函數(shù)設(shè)計(jì)

VAE 訓(xùn)練采用三項(xiàng)聯(lián)合損失：擬合損失（直接對(duì)齊控制點(diǎn)）、對(duì)應(yīng)損失（通過(guò) B 樣條重投影對(duì)齊原始軌跡，早期訓(xùn)練收斂更快）、局部剛性損失（約束相鄰頂點(diǎn)間距在各幀保持一致，防止形變時(shí)產(chǎn)生表面 "融化" 的視覺偽影）。三項(xiàng)損失各司其職、互為補(bǔ)充，共同保證運(yùn)動(dòng)的精度、連續(xù)性與形狀一致性。

運(yùn)動(dòng)生成（Flow Matching DiT）

生成階段基于 Rectified Flow 與 Diffusion Transformer（DiT），以初始網(wǎng)格的潛碼和 CLIP 文本嵌入為條件，從高斯噪聲中逐步去噪并采樣出運(yùn)動(dòng)潛碼，再經(jīng) VAE 解碼器還原為完整動(dòng)畫序列。由于 B 樣條重投影對(duì)幀數(shù)完全自由，推理時(shí)可按需輸出任意長(zhǎng)度的動(dòng)畫，如慢動(dòng)作或子彈時(shí)間鏡頭。單張 A100 上平均推理時(shí)間僅為 4.4 秒。

BIMO 數(shù)據(jù)集：約 3.9 萬(wàn)條帶文本標(biāo)注的動(dòng)態(tài)網(wǎng)格序列

為訓(xùn)練 BiMotion，團(tuán)隊(duì)整理并將開放 BIMO 數(shù)據(jù)集，包含約 39,000 條動(dòng)態(tài)網(wǎng)格運(yùn)動(dòng)序列、總計(jì)逾 368 萬(wàn)幀，涵蓋動(dòng)物、機(jī)器人、人體、道具等多種類別。每條序列配有 3 條高質(zhì)量文本描述，全部展開為 16 個(gè) B 樣條控制點(diǎn)存儲(chǔ)，便于直接使用。

DeformingThings4D 部分來(lái)自 OmniMotionGPT 的人工標(biāo)注；Objaverse 部分則通過(guò)基于 GPT-5 的自動(dòng)標(biāo)注流水線生成，配備生成器與質(zhì)檢器兩個(gè)環(huán)節(jié)，確保描述的準(zhǔn)確性和風(fēng)格一致性。

實(shí)驗(yàn)結(jié)果：全面領(lǐng)先，效率顯著提升

圖 4：定性對(duì)比。左列：機(jī)器人與鹿的動(dòng)作對(duì)比；右列：老虎與行走機(jī)器人的動(dòng)作對(duì)比。紅圈標(biāo)注基線方法產(chǎn)生的形變偽影，BiMotion 均表現(xiàn)清晰自然。

團(tuán)隊(duì)在 20 個(gè)靜態(tài)網(wǎng)格上與三類代表性方法展開全面對(duì)比：前饋生成方法 AnimateAnyMesh、動(dòng)態(tài)高斯生成方法 GVFDiffusion，以及基于視頻優(yōu)化重建的 V2M4。網(wǎng)格來(lái)源涵蓋 Meshy 生成資產(chǎn)與現(xiàn)有 3D 內(nèi)容庫(kù)，屬于所有基線中最為嚴(yán)格的評(píng)測(cè)設(shè)置之一。

在 VBench 自動(dòng)評(píng)估的 5 項(xiàng)指標(biāo)中，BiMotion 在整體一致性、時(shí)序穩(wěn)定性、美學(xué)質(zhì)量和動(dòng)作豐富度四項(xiàng)均居最優(yōu)。其主體一致性略低于 AnimateAnyMesh，但消融實(shí)驗(yàn)已揭示該差距為虛高：后者生成的動(dòng)作幅度極小、近乎靜止，相鄰幀高度相似，致使該指標(biāo)人為偏高。

20 位參與者的用戶研究中，BiMotion 在 "文本與動(dòng)作匹配度"、"動(dòng)作合理性"、"動(dòng)作表現(xiàn)力" 三個(gè)維度的平均得分均超過(guò) 4.0/5.0，遠(yuǎn)高于所有對(duì)比方法。效率方面，網(wǎng)格頂點(diǎn)規(guī)模從 9K 增至 24K 時(shí)，BiMotion 生成時(shí)間僅從 3.7 秒微增至 4.6 秒，峰值顯存從 1.1 GB 小幅升至 1.3 GB；而 AnimateAnyMesh 在同等條件下時(shí)間與顯存均翻倍以上，充分體現(xiàn) BiMotion 面向大規(guī)模網(wǎng)格的更強(qiáng)可擴(kuò)展性。

局限性與未來(lái)展望

BiMotion 目前固定使用 16 個(gè)控制點(diǎn)，對(duì)高頻、極復(fù)雜運(yùn)動(dòng)細(xì)節(jié)的表達(dá)能力仍有提升空間；同時(shí)基于固定網(wǎng)格拓?fù)涞募僭O(shè)，暫不支持拓?fù)渥兓ㄈ缃巧至选⑷诤希┑膭?dòng)畫生成。當(dāng)前 BIMO 數(shù)據(jù)集規(guī)模（約 3.9 萬(wàn)條）相較于視頻或圖像領(lǐng)域仍偏小，引入更大規(guī)模數(shù)據(jù)有望進(jìn)一步提升質(zhì)量與泛化能力。代碼與 BIMO 數(shù)據(jù)集現(xiàn)已全部開源，歡迎社區(qū)共同建設(shè)。

作者簡(jiǎn)介：

Miaowei Wang, 目前是愛丁堡大學(xué)信息學(xué)院的博士研究生（2023年10月入學(xué)），研究方向?yàn)橛?jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)中的可控運(yùn)動(dòng)表征（controllable motion representation)。他的博士研究由Amir Vaxman教授和Oisin Mac Aodha教授共同指導(dǎo)。在此之前，他曾就讀于密歇根大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系，在Jason Corso教授的指導(dǎo)下完成研究生學(xué)習(xí)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.