網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北大彭宇新團(tuán)隊(duì)提出NS-Diff，使擴(kuò)散模型學(xué)會(huì)流體與剛體力學(xué)

2026-03-19 11:30:31　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在文本生成視頻領(lǐng)域的最新研究成果，相關(guān)論文已被 CVPR 2026 接收

論文標(biāo)題：NS-Diff: Fluid Navier–Stokes Guided Video Diffusion via Reinforcement Learning
論文鏈接：http://39.108.48.32/mipl/download_paper.php?fileId=202601
開源代碼：https://github.com/PKU-ICST-MIPL/NS-Diff_CVPR2026
實(shí)驗(yàn)室網(wǎng)址：https://www.wict.pku.edu.cn/mipl

背景與動(dòng)機(jī)

想象一下，當(dāng)你讓 AI 生成一段「牛奶倒入咖啡產(chǎn)生絲滑旋渦」的視頻時(shí)，卻發(fā)現(xiàn) AI 根本無(wú)法生成出你想要的「絲滑旋渦」。雖然如今的 Sora、Wan 等視頻生成模型已經(jīng)能做出如電影般華麗的畫面，但它們往往只是「畫皮難畫骨」—— 因?yàn)?AI 并不真正懂得現(xiàn)實(shí)世界的物理定律，導(dǎo)致生成的視頻經(jīng)常出現(xiàn)違背常識(shí)的「穿幫」鏡頭。

在物理世界中，液體的流動(dòng)遵循著復(fù)雜的納維 - 斯托克斯（Navier-Stokes）方程，而剛體的運(yùn)動(dòng)則有著嚴(yán)謹(jǐn)?shù)能壽E規(guī)律。實(shí)現(xiàn)視頻生成從「視覺(jué)真實(shí)」向「物理真實(shí)」的跨越，是當(dāng)前 AIGC 領(lǐng)域的重大挑戰(zhàn)。

針對(duì)這一難題，北京大學(xué)彭宇新教授團(tuán)隊(duì)提出了給擴(kuò)散模型裝上「物理引擎」的新方案 ——NS-Diff。該研究將物理約束與強(qiáng)化學(xué)習(xí)相結(jié)合，通過(guò)物理動(dòng)力學(xué)檢測(cè)器和物理?xiàng)l件注入模塊，讓 AI 像人類一樣在生成畫面的同時(shí)，腦子里還緊繃著一根「物理定律」的弦。

實(shí)驗(yàn)表明，NS-Diff 將視頻中的運(yùn)動(dòng)急動(dòng)度（jerk）誤差降低了 43%，流體發(fā)散度降低了 33%，使 AI 生成的每一幀畫面不僅好看，而且遵循物理規(guī)律。這一成果表明將經(jīng)典物理約束融入視頻生成大模型，是解決視頻生成中物理失真問(wèn)題的有效途徑。

技術(shù)方案

圖 1. 物理引導(dǎo)的視頻生成強(qiáng)化學(xué)習(xí)框架 NS-Diff

本文提出了一種物理引導(dǎo)的視頻生成強(qiáng)化學(xué)習(xí)框架 NS-Diff，將物理約束融入視頻擴(kuò)散過(guò)程中，以提升生成視頻的物理真實(shí)感。其主要貢獻(xiàn)包括：（1）噪聲魯棒的物理動(dòng)力學(xué)檢測(cè)器：設(shè)計(jì)了可在含噪潛在幀中精準(zhǔn)分析運(yùn)動(dòng)信息的檢測(cè)器，實(shí)現(xiàn)對(duì)剛體與流體區(qū)域的有效區(qū)分。（2）物理?xiàng)l件潛在注入模塊：將速度場(chǎng)、形變梯度等關(guān)鍵物理信息編碼，并通過(guò)交叉注意力機(jī)制注入 DiT 去噪器，從而實(shí)現(xiàn)對(duì)生成過(guò)程的物理引導(dǎo)。（3）強(qiáng)化學(xué)習(xí)優(yōu)化模塊：引入強(qiáng)化學(xué)習(xí)，通過(guò)策略梯度對(duì)流體施加簡(jiǎn)化的納維 - 斯托克斯約束，對(duì)剛體施加最小化急動(dòng)度（Jerk）原則，確保了視頻生成中動(dòng)態(tài)過(guò)程的物理合理性。具體如下：

1. 噪聲魯棒的物理動(dòng)力學(xué)檢測(cè)器

實(shí)現(xiàn)物理引導(dǎo)去噪的關(guān)鍵在于高噪聲環(huán)境下對(duì)運(yùn)動(dòng)和材料屬性的精準(zhǔn)估計(jì)。由于去噪過(guò)程在隱空間（latent space）中運(yùn)行，直接在 RGB 幀上使用 ARFlow 是不可行的。為此，本文設(shè)計(jì)了一種結(jié)合隱空間解碼的運(yùn)動(dòng)估計(jì)方案，具體流程如下：

2. 物理?xiàng)l件潛在注入

3. 物理引導(dǎo)的強(qiáng)化學(xué)習(xí)優(yōu)化

4. 物理引導(dǎo)的自適應(yīng)激活

實(shí)驗(yàn)結(jié)果

1. 實(shí)驗(yàn)設(shè)置

本文在 PhysVideoBench 以及 UCF-101（包含 13,320 個(gè)真實(shí)世界人類動(dòng)作視頻）和 WebVid-10M（包含 1000 萬(wàn)個(gè)帶有文本描述的互聯(lián)網(wǎng)視頻）。本文從物理合理性和視覺(jué)質(zhì)量?jī)蓚€(gè)角度對(duì)本文方法進(jìn)行評(píng)估。

（1）物理指標(biāo)：

2）視覺(jué)指標(biāo)：

VBench：綜合視頻質(zhì)量指標(biāo)。本文遵循 VideoJam 的方法計(jì)算視頻外觀和運(yùn)動(dòng)質(zhì)量。
Fréchet Video Distance（FVD）：衡量真實(shí)視頻與生成視頻之間的分布距離。
Frame Consistency：相鄰幀的 CLIP 圖像嵌入之間的平均余弦相似度，反映了時(shí)間上的連貫性。

2. 對(duì)比實(shí)驗(yàn)結(jié)果

表 1. PhysVideoBench 數(shù)據(jù)集結(jié)果

在 PhysVideoBench 上，NS-Diff 在所有指標(biāo)上均實(shí)現(xiàn)了最佳性能。通過(guò)潛空間注入（Latent Injection）以及 Jerk / 散度損失（Jerk/divergence losses）引入物理先驗(yàn)，提升了運(yùn)動(dòng)的真實(shí)性，尤其是在剛體和流體區(qū)域。相比于在給定用戶外力情況下模擬剛體動(dòng)力學(xué)的 PhysGen，NS-Diff 在不需要預(yù)定義外力或模擬的情況下實(shí)現(xiàn)了更好的泛化能力，同時(shí)保持了更高的保真度和更低的散度誤差。實(shí)驗(yàn)表明，本文的方法將 Jerk 誤差降低了 43%，流體散度降低了 33%，并使 FVD 提升了 22.7%，實(shí)現(xiàn)了更高的物理合理性和視覺(jué)質(zhì)量。

表 2. UCF-101 數(shù)據(jù)集結(jié)果

在 UCF-101 基準(zhǔn)測(cè)試中，本文的 NS-Diff 模型表現(xiàn)出色。具體而言，NS-Diff DiT 1B 版本的 FVD 為 106，幀一致性（Frame Consistency）達(dá)到 0.94；而 NS-Diff DiT 11B 版本則進(jìn)一步將 FVD 降低至 85，幀一致性提升至 0.95。這表明本文的方法不僅提升了運(yùn)動(dòng)的物理準(zhǔn)確度，還顯著增強(qiáng)了生成視頻的時(shí)間連貫性。

表 3. WebVid-10M 數(shù)據(jù)集結(jié)果

為了評(píng)估物理引導(dǎo)學(xué)習(xí)框架在受限基準(zhǔn)測(cè)試之外的開放世界場(chǎng)景中的泛化能力，本文在 WebVid-10M 數(shù)據(jù)集上進(jìn)行了文本生成視頻（Text-to-Video）合成測(cè)試。實(shí)驗(yàn)旨在測(cè)試物理約束（剛體 / 流體動(dòng)力學(xué)）在面對(duì)包含新穎物體交互和環(huán)境的未知文本描述時(shí)，是否仍能保持合理性。本方法在運(yùn)動(dòng)質(zhì)量（FVD）和文圖對(duì)齊（CLIPSIM）兩個(gè)指標(biāo)上均優(yōu)于 VideoFactory。

圖 2. 可視化對(duì)比結(jié)果

圖 2 展示了 NS-Diff 與 ModelScope、PhysGen、Wan2.1 以及 OpenSora2 的視覺(jué)效果對(duì)比。結(jié)果分析表明，本文方法生成的視頻在剛體和流體運(yùn)動(dòng)方面表現(xiàn)得更加真實(shí)，顯著減少了諸如物體無(wú)故出現(xiàn)或消失、以及非自然的拆分或合并等不符合物理規(guī)律的偽影。此外，本文方法還大幅提升了幀間一致性，在處理籃球投籃、火山熔巖流、玻璃破碎等物理密集型場(chǎng)景時(shí)，能夠比對(duì)比模型展現(xiàn)出更高的時(shí)間連貫性和運(yùn)動(dòng)可信度。

結(jié)論

本文提出了一種基于強(qiáng)化學(xué)習(xí)的物理引導(dǎo)視頻擴(kuò)散框架 NS-Diff。該框架通過(guò)抗噪物理動(dòng)力學(xué)檢測(cè)器，實(shí)現(xiàn)了對(duì)視頻潛空間中剛體與流體區(qū)域的精準(zhǔn)識(shí)別。利用物理?xiàng)l件潛空間注入技術(shù)，速度場(chǎng)、變形梯度及材料掩碼被有效整合至去噪流程中。此外，本文方法通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)制，將納維 - 斯托克斯方程與最小急動(dòng)度（Minimum-Jerk）原則轉(zhuǎn)化為訓(xùn)練約束，強(qiáng)制模型遵循物理運(yùn)動(dòng)規(guī)律。實(shí)驗(yàn)結(jié)果表明，NS-Diff 在 PhysVideoBench、UCF-101 等多個(gè)基準(zhǔn)數(shù)據(jù)集上超過(guò)現(xiàn)有方法，在顯著降低物理運(yùn)動(dòng)誤差的同時(shí)，確保了視覺(jué)生成質(zhì)量。研究表明，將經(jīng)典物理約束深度融合于生成模型，是解決視頻生成中物理失真問(wèn)題的有效途徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.