![]()
本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在文本生成視頻領(lǐng)域的最新研究成果,相關(guān)論文已被 CVPR 2026 接收
![]()
- 論文標(biāo)題:NS-Diff: Fluid Navier–Stokes Guided Video Diffusion via Reinforcement Learning
- 論文鏈接:http://39.108.48.32/mipl/download_paper.php?fileId=202601
- 開源代碼:https://github.com/PKU-ICST-MIPL/NS-Diff_CVPR2026
- 實(shí)驗(yàn)室網(wǎng)址:https://www.wict.pku.edu.cn/mipl
背景與動(dòng)機(jī)
想象一下,當(dāng)你讓 AI 生成一段「牛奶倒入咖啡產(chǎn)生絲滑旋渦」的視頻時(shí),卻發(fā)現(xiàn) AI 根本無(wú)法生成出你想要的「絲滑旋渦」。雖然如今的 Sora、Wan 等視頻生成模型已經(jīng)能做出如電影般華麗的畫面,但它們往往只是「畫皮難畫骨」—— 因?yàn)?AI 并不真正懂得現(xiàn)實(shí)世界的物理定律,導(dǎo)致生成的視頻經(jīng)常出現(xiàn)違背常識(shí)的「穿幫」鏡頭。
在物理世界中,液體的流動(dòng)遵循著復(fù)雜的納維 - 斯托克斯(Navier-Stokes)方程,而剛體的運(yùn)動(dòng)則有著嚴(yán)謹(jǐn)?shù)能壽E規(guī)律。實(shí)現(xiàn)視頻生成從「視覺(jué)真實(shí)」向「物理真實(shí)」的跨越,是當(dāng)前 AIGC 領(lǐng)域的重大挑戰(zhàn)。
針對(duì)這一難題,北京大學(xué)彭宇新教授團(tuán)隊(duì)提出了給擴(kuò)散模型裝上「物理引擎」的新方案 ——NS-Diff。該研究將物理約束與強(qiáng)化學(xué)習(xí)相結(jié)合,通過(guò)物理動(dòng)力學(xué)檢測(cè)器和物理?xiàng)l件注入模塊,讓 AI 像人類一樣在生成畫面的同時(shí),腦子里還緊繃著一根「物理定律」的弦。
實(shí)驗(yàn)表明,NS-Diff 將視頻中的運(yùn)動(dòng)急動(dòng)度(jerk)誤差降低了 43%,流體發(fā)散度降低了 33%,使 AI 生成的每一幀畫面不僅好看,而且遵循物理規(guī)律。這一成果表明將經(jīng)典物理約束融入視頻生成大模型,是解決視頻生成中物理失真問(wèn)題的有效途徑。
技術(shù)方案
![]()
圖 1. 物理引導(dǎo)的視頻生成強(qiáng)化學(xué)習(xí)框架 NS-Diff
本文提出了一種物理引導(dǎo)的視頻生成強(qiáng)化學(xué)習(xí)框架 NS-Diff,將物理約束融入視頻擴(kuò)散過(guò)程中,以提升生成視頻的物理真實(shí)感。其主要貢獻(xiàn)包括:(1)噪聲魯棒的物理動(dòng)力學(xué)檢測(cè)器:設(shè)計(jì)了可在含噪潛在幀中精準(zhǔn)分析運(yùn)動(dòng)信息的檢測(cè)器,實(shí)現(xiàn)對(duì)剛體與流體區(qū)域的有效區(qū)分。(2)物理?xiàng)l件潛在注入模塊:將速度場(chǎng)、形變梯度等關(guān)鍵物理信息編碼,并通過(guò)交叉注意力機(jī)制注入 DiT 去噪器,從而實(shí)現(xiàn)對(duì)生成過(guò)程的物理引導(dǎo)。(3)強(qiáng)化學(xué)習(xí)優(yōu)化模塊:引入強(qiáng)化學(xué)習(xí),通過(guò)策略梯度對(duì)流體施加簡(jiǎn)化的納維 - 斯托克斯約束,對(duì)剛體施加最小化急動(dòng)度(Jerk)原則,確保了視頻生成中動(dòng)態(tài)過(guò)程的物理合理性。具體如下:
1. 噪聲魯棒的物理動(dòng)力學(xué)檢測(cè)器
實(shí)現(xiàn)物理引導(dǎo)去噪的關(guān)鍵在于高噪聲環(huán)境下對(duì)運(yùn)動(dòng)和材料屬性的精準(zhǔn)估計(jì)。由于去噪過(guò)程在隱空間(latent space)中運(yùn)行,直接在 RGB 幀上使用 ARFlow 是不可行的。為此,本文設(shè)計(jì)了一種結(jié)合隱空間解碼的運(yùn)動(dòng)估計(jì)方案,具體流程如下:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2. 物理?xiàng)l件潛在注入
![]()
![]()
![]()
![]()
3. 物理引導(dǎo)的強(qiáng)化學(xué)習(xí)優(yōu)化
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4. 物理引導(dǎo)的自適應(yīng)激活
![]()
![]()
![]()
實(shí)驗(yàn)結(jié)果
1. 實(shí)驗(yàn)設(shè)置
本文在 PhysVideoBench 以及 UCF-101(包含 13,320 個(gè)真實(shí)世界人類動(dòng)作視頻)和 WebVid-10M(包含 1000 萬(wàn)個(gè)帶有文本描述的互聯(lián)網(wǎng)視頻)。本文從物理合理性和視覺(jué)質(zhì)量?jī)蓚€(gè)角度對(duì)本文方法進(jìn)行評(píng)估。
(1)物理指標(biāo):
![]()
2)視覺(jué)指標(biāo):
- VBench:綜合視頻質(zhì)量指標(biāo)。本文遵循 VideoJam 的方法計(jì)算視頻外觀和運(yùn)動(dòng)質(zhì)量。
- Fréchet Video Distance(FVD):衡量真實(shí)視頻與生成視頻之間的分布距離。
- Frame Consistency:相鄰幀的 CLIP 圖像嵌入之間的平均余弦相似度,反映了時(shí)間上的連貫性。
2. 對(duì)比實(shí)驗(yàn)結(jié)果
![]()
表 1. PhysVideoBench 數(shù)據(jù)集結(jié)果
在 PhysVideoBench 上,NS-Diff 在所有指標(biāo)上均實(shí)現(xiàn)了最佳性能。通過(guò)潛空間注入(Latent Injection)以及 Jerk / 散度損失(Jerk/divergence losses)引入物理先驗(yàn),提升了運(yùn)動(dòng)的真實(shí)性,尤其是在剛體和流體區(qū)域。相比于在給定用戶外力情況下模擬剛體動(dòng)力學(xué)的 PhysGen,NS-Diff 在不需要預(yù)定義外力或模擬的情況下實(shí)現(xiàn)了更好的泛化能力,同時(shí)保持了更高的保真度和更低的散度誤差。實(shí)驗(yàn)表明,本文的方法將 Jerk 誤差降低了 43%,流體散度降低了 33%,并使 FVD 提升了 22.7%,實(shí)現(xiàn)了更高的物理合理性和視覺(jué)質(zhì)量。
![]()
表 2. UCF-101 數(shù)據(jù)集結(jié)果
在 UCF-101 基準(zhǔn)測(cè)試中,本文的 NS-Diff 模型表現(xiàn)出色。具體而言,NS-Diff DiT 1B 版本的 FVD 為 106,幀一致性(Frame Consistency)達(dá)到 0.94;而 NS-Diff DiT 11B 版本則進(jìn)一步將 FVD 降低至 85,幀一致性提升至 0.95。這表明本文的方法不僅提升了運(yùn)動(dòng)的物理準(zhǔn)確度,還顯著增強(qiáng)了生成視頻的時(shí)間連貫性。
![]()
表 3. WebVid-10M 數(shù)據(jù)集結(jié)果
為了評(píng)估物理引導(dǎo)學(xué)習(xí)框架在受限基準(zhǔn)測(cè)試之外的開放世界場(chǎng)景中的泛化能力,本文在 WebVid-10M 數(shù)據(jù)集上進(jìn)行了文本生成視頻(Text-to-Video)合成測(cè)試。實(shí)驗(yàn)旨在測(cè)試物理約束(剛體 / 流體動(dòng)力學(xué))在面對(duì)包含新穎物體交互和環(huán)境的未知文本描述時(shí),是否仍能保持合理性。本方法在運(yùn)動(dòng)質(zhì)量(FVD)和文圖對(duì)齊(CLIPSIM)兩個(gè)指標(biāo)上均優(yōu)于 VideoFactory。
![]()
圖 2. 可視化對(duì)比結(jié)果
圖 2 展示了 NS-Diff 與 ModelScope、PhysGen、Wan2.1 以及 OpenSora2 的視覺(jué)效果對(duì)比。結(jié)果分析表明,本文方法生成的視頻在剛體和流體運(yùn)動(dòng)方面表現(xiàn)得更加真實(shí),顯著減少了諸如物體無(wú)故出現(xiàn)或消失、以及非自然的拆分或合并等不符合物理規(guī)律的偽影。此外,本文方法還大幅提升了幀間一致性,在處理籃球投籃、火山熔巖流、玻璃破碎等物理密集型場(chǎng)景時(shí),能夠比對(duì)比模型展現(xiàn)出更高的時(shí)間連貫性和運(yùn)動(dòng)可信度。
結(jié)論
本文提出了一種基于強(qiáng)化學(xué)習(xí)的物理引導(dǎo)視頻擴(kuò)散框架 NS-Diff。該框架通過(guò)抗噪物理動(dòng)力學(xué)檢測(cè)器,實(shí)現(xiàn)了對(duì)視頻潛空間中剛體與流體區(qū)域的精準(zhǔn)識(shí)別。利用物理?xiàng)l件潛空間注入技術(shù),速度場(chǎng)、變形梯度及材料掩碼被有效整合至去噪流程中。此外,本文方法通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)制,將納維 - 斯托克斯方程與最小急動(dòng)度(Minimum-Jerk)原則轉(zhuǎn)化為訓(xùn)練約束,強(qiáng)制模型遵循物理運(yùn)動(dòng)規(guī)律。實(shí)驗(yàn)結(jié)果表明,NS-Diff 在 PhysVideoBench、UCF-101 等多個(gè)基準(zhǔn)數(shù)據(jù)集上超過(guò)現(xiàn)有方法,在顯著降低物理運(yùn)動(dòng)誤差的同時(shí),確保了視覺(jué)生成質(zhì)量。研究表明,將經(jīng)典物理約束深度融合于生成模型,是解決視頻生成中物理失真問(wèn)題的有效途徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.