滑鐵盧大學(xué)聯(lián)合可靈提出UniVideo：視頻理解、生成、編輯多模態(tài)

2026-03-05 15:59:19　來源: 機(jī)器之心Pro

河北舉報

分享至

統(tǒng)一多模態(tài)模型在多模態(tài)內(nèi)容理解與生成方面已展現(xiàn)出良好效果，但目前仍主要局限于圖像領(lǐng)域。

滑鐵盧大學(xué)與快手可靈團(tuán)隊提出 UniVideo，一個在統(tǒng)一框架下同時支持視頻理解、生成與編輯的多模態(tài)生成模型。

UniVideo 采用雙流架構(gòu)，將多模態(tài)大語言模型（MLLM）的指令理解與推理能力，與多模態(tài)擴(kuò)散 Transformer（MM-DiT）的高質(zhì)量視覺生成能力相結(jié)合。不同于以往依賴任務(wù)特定設(shè)計或受限于單一模態(tài)的方法，UniVideo 能夠理解多模態(tài)指令、區(qū)分不同任務(wù)類型，并在多項基準(zhǔn)上取得接近或超過現(xiàn)有最優(yōu)方法（SoTA）的性能。

更重要的是，UniVideo 無需額外的任務(wù)特定設(shè)計，即可泛化到未見過的任務(wù)及新的任務(wù)組合。這意味著，視頻生成與編輯不必再被拆分為多個孤立模型，統(tǒng)一建模本身就帶來了更強(qiáng)的擴(kuò)展性。

目前，該工作已被 ICLR 2026 接收，代碼已開源。

項目主頁：https://congwei1230.github.io/UniVideo/
論文地址：https://arxiv.org/abs/2510.08377
開源代碼：https://github.com/KlingTeam/UniVideo
開源模型：https://huggingface.co/KwaiVGI/UniVideo

效果展示

模型架構(gòu)

UniVideo 由兩個核心組件組成：多模態(tài)大語言模型（MLLM）和多模態(tài)擴(kuò)散 Transformer（MM-DiT）。

MLLM 負(fù)責(zé)多模態(tài)指令理解與語義推理，能夠接受文本、圖像和視頻輸入，并生成高層語義表示或文本響應(yīng)。
MM-DiT 專注于視覺內(nèi)容生成，在潛空間中進(jìn)行條件圖像 / 視頻建模。

UniVideo 從 MLLM 的最后一層隱藏狀態(tài)中提取多模態(tài)語義特征，這些特征編碼了豐富的跨模態(tài)語義信息。通過可訓(xùn)練的 MLP Connector，將其對齊并注入到 MM-DiT 的理解流（understanding stream）中，用于高層語義條件建模。同時，視覺信號通過 VAE 編碼后輸入至 MM-DiT 的生成流（generation stream），以保留細(xì)粒度的視覺信息。

這種雙流設(shè)計同時具備強(qiáng)語義基礎(chǔ)與高保真視覺重建能力，對于視頻編輯以及需要保持身份一致性的上下文生成任務(wù)尤為關(guān)鍵。

統(tǒng)一 10 個多模態(tài)任務(wù)

UniVideo 將多種視頻生成與編輯任務(wù)統(tǒng)一到單一的多模態(tài)指令范式中，并通過 MLLM + MM-DiT 的雙流架構(gòu)實現(xiàn)靈活的任務(wù)調(diào)度與生成。

多模態(tài)理解（Image / Video → Text，I/V2T）

圖像或視頻輸入由 MLLM 直接處理，并生成對應(yīng)的文本輸出。

文本到圖像 / 視頻生成（Text → Image / Video，T2I / T2V）

文本指令由 MLLM 編碼為語義表示，并作為條件輸入，引導(dǎo) MM-DiT 生成圖像或視頻內(nèi)容。

圖像到視頻生成（Image → Video，I2V）

輸入圖像與文本指令由 MLLM 聯(lián)合理解并生成語義條件；同時，圖像的視覺信息與視頻潛變量一同輸入 MM-DiT，以約束并引導(dǎo)視頻生成過程。

圖像 / 視頻編輯（Image / Video Editing，I2I / V2V）

輸入圖像或視頻及編輯指令由 MLLM 解析為語義條件，MM-DiT 在保持原始內(nèi)容結(jié)構(gòu)的基礎(chǔ)上完成條件編輯生成

上下文圖像 / 視頻生成與編輯（Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V）

在這類任務(wù)中，通常存在多個視覺條件（如多張參考圖像或參考視頻）。所有視覺信號經(jīng) VAE 編碼后統(tǒng)一填充至相同形狀，并沿時間維度拼接，通過自注意力機(jī)制進(jìn)行融合，從而支持 ID 保持和跨上下文生成與編輯。

實驗結(jié)果

在定量評測中，UniVideo 在各項評測指標(biāo)上均優(yōu)于任務(wù)特定（task-specific）的基線方法，并在多數(shù)實驗設(shè)置下達(dá)到或超過當(dāng)前最優(yōu)方法（SoTA）。

下圖展示了 UniVideo 在上下文生成與編輯任務(wù)上的定量對比結(jié)果。

Key Insight：統(tǒng)一模型具備良好的泛化能力

團(tuán)隊從兩個方面驗證了 UniVideo 統(tǒng)一架構(gòu)的泛化能力：

（1）對未見視頻編輯指令的泛化能力：

盡管 UniVideo 未在 free-form 視頻編輯指令數(shù)據(jù)上進(jìn)行訓(xùn)練，但通過聯(lián)合多任務(wù)訓(xùn)練，模型成功將圖像編輯能力遷移至視頻領(lǐng)域，實現(xiàn)了對 free-form 視頻編輯指令的泛化。

（2）對新任務(wù)組合的泛化能力：

即使在訓(xùn)練階段未顯式包含相關(guān)任務(wù)組合，UniVideo 仍能夠自然泛化到新的任務(wù)組合設(shè)置，展現(xiàn)出統(tǒng)一多模態(tài)框架在組合泛化方面的顯著優(yōu)勢。

下圖給出了 UniVideo 泛化到視頻風(fēng)格化與環(huán)境編輯任務(wù)的定性示例：

總結(jié)

UniVideo 通過統(tǒng)一的多模態(tài)指令范式與雙流架構(gòu)，實現(xiàn)了視頻理解、生成與編輯任務(wù)的統(tǒng)一建模。實驗結(jié)果表明，UniVideo 在多項定量評測中優(yōu)于任務(wù)特定的單任務(wù)方法，并在多數(shù)設(shè)置下達(dá)到或超過當(dāng)前最優(yōu)水平。

更重要的是，UniVideo 可泛化到未見過的視頻編輯指令和新的任務(wù)組合。這表明，統(tǒng)一多模態(tài)建模不僅可行，而且可能是一條更具擴(kuò)展性的方向。

作者介紹

本文第一作者魏聰，滑鐵盧大學(xué)博士三年級在讀，導(dǎo)師為陳文虎教授。

個人主頁：https://congwei1230.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.