![]()
統(tǒng)一多模態(tài)模型在多模態(tài)內(nèi)容理解與生成方面已展現(xiàn)出良好效果,但目前仍主要局限于圖像領(lǐng)域。
滑鐵盧大學(xué)與快手可靈團(tuán)隊提出 UniVideo,一個在統(tǒng)一框架下同時支持視頻理解、生成與編輯的多模態(tài)生成模型。
UniVideo 采用雙流架構(gòu),將多模態(tài)大語言模型(MLLM)的指令理解與推理能力,與多模態(tài)擴(kuò)散 Transformer(MM-DiT)的高質(zhì)量視覺生成能力相結(jié)合。不同于以往依賴任務(wù)特定設(shè)計或受限于單一模態(tài)的方法,UniVideo 能夠理解多模態(tài)指令、區(qū)分不同任務(wù)類型,并在多項基準(zhǔn)上取得接近或超過現(xiàn)有最優(yōu)方法(SoTA)的性能。
更重要的是,UniVideo 無需額外的任務(wù)特定設(shè)計,即可泛化到未見過的任務(wù)及新的任務(wù)組合。這意味著,視頻生成與編輯不必再被拆分為多個孤立模型,統(tǒng)一建模本身就帶來了更強(qiáng)的擴(kuò)展性。
目前,該工作已被 ICLR 2026 接收,代碼已開源。
![]()
- 項目主頁:https://congwei1230.github.io/UniVideo/
- 論文地址:https://arxiv.org/abs/2510.08377
- 開源代碼:https://github.com/KlingTeam/UniVideo
- 開源模型:https://huggingface.co/KwaiVGI/UniVideo
效果展示

模型架構(gòu)
![]()
UniVideo 由兩個核心組件組成:多模態(tài)大語言模型(MLLM) 和 多模態(tài)擴(kuò)散 Transformer(MM-DiT)。
- MLLM 負(fù)責(zé)多模態(tài)指令理解與語義推理,能夠接受文本、圖像和視頻輸入,并生成高層語義表示或文本響應(yīng)。
- MM-DiT 專注于視覺內(nèi)容生成,在潛空間中進(jìn)行條件圖像 / 視頻建模。
UniVideo 從 MLLM 的最后一層隱藏狀態(tài)中提取多模態(tài)語義特征,這些特征編碼了豐富的跨模態(tài)語義信息。通過可訓(xùn)練的 MLP Connector,將其對齊并注入到 MM-DiT 的理解流(understanding stream)中,用于高層語義條件建模。同時,視覺信號通過 VAE 編碼后輸入至 MM-DiT 的生成流(generation stream),以保留細(xì)粒度的視覺信息。
這種雙流設(shè)計同時具備強(qiáng)語義基礎(chǔ)與高保真視覺重建能力,對于視頻編輯以及需要保持身份一致性的上下文生成任務(wù)尤為關(guān)鍵。
統(tǒng)一 10 個多模態(tài)任務(wù)
UniVideo 將多種視頻生成與編輯任務(wù)統(tǒng)一到單一的多模態(tài)指令范式中,并通過 MLLM + MM-DiT 的雙流架構(gòu)實現(xiàn)靈活的任務(wù)調(diào)度與生成。
- 多模態(tài)理解(Image / Video → Text,I/V2T)
圖像或視頻輸入由 MLLM 直接處理,并生成對應(yīng)的文本輸出。
![]()
- 文本到圖像 / 視頻生成(Text → Image / Video,T2I / T2V)
文本指令由 MLLM 編碼為語義表示,并作為條件輸入,引導(dǎo) MM-DiT 生成圖像或視頻內(nèi)容。
![]()
- 圖像到視頻生成(Image → Video,I2V)
輸入圖像與文本指令由 MLLM 聯(lián)合理解并生成語義條件;同時,圖像的視覺信息與視頻潛變量一同輸入 MM-DiT,以約束并引導(dǎo)視頻生成過程。
![]()
- 圖像 / 視頻編輯(Image / Video Editing,I2I / V2V)
輸入圖像或視頻及編輯指令由 MLLM 解析為語義條件,MM-DiT 在保持原始內(nèi)容結(jié)構(gòu)的基礎(chǔ)上完成條件編輯生成
![]()
- 上下文圖像 / 視頻生成與編輯(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)
在這類任務(wù)中,通常存在多個視覺條件(如多張參考圖像或參考視頻)。所有視覺信號經(jīng) VAE 編碼后統(tǒng)一填充至相同形狀,并沿時間維度拼接,通過自注意力機(jī)制進(jìn)行融合,從而支持 ID 保持和跨上下文生成與編輯。
![]()
![]()
實驗結(jié)果
在定量評測中,UniVideo 在各項評測指標(biāo)上均優(yōu)于任務(wù)特定(task-specific)的基線方法,并在多數(shù)實驗設(shè)置下達(dá)到或超過當(dāng)前最優(yōu)方法(SoTA)。
下圖展示了 UniVideo 在上下文生成與編輯任務(wù)上的定量對比結(jié)果。
![]()
![]()
Key Insight:統(tǒng)一模型具備良好的泛化能力
團(tuán)隊從兩個方面驗證了 UniVideo 統(tǒng)一架構(gòu)的泛化能力:
(1)對未見視頻編輯指令的泛化能力:
盡管 UniVideo 未在 free-form 視頻編輯指令數(shù)據(jù)上進(jìn)行訓(xùn)練,但通過聯(lián)合多任務(wù)訓(xùn)練,模型成功將圖像編輯能力遷移至視頻領(lǐng)域,實現(xiàn)了對 free-form 視頻編輯指令的泛化。
(2)對新任務(wù)組合的泛化能力:
即使在訓(xùn)練階段未顯式包含相關(guān)任務(wù)組合,UniVideo 仍能夠自然泛化到新的任務(wù)組合設(shè)置,展現(xiàn)出統(tǒng)一多模態(tài)框架在組合泛化方面的顯著優(yōu)勢。
下圖給出了 UniVideo 泛化到視頻風(fēng)格化與環(huán)境編輯任務(wù)的定性示例:

總結(jié)
UniVideo 通過統(tǒng)一的多模態(tài)指令范式與雙流架構(gòu),實現(xiàn)了視頻理解、生成與編輯任務(wù)的統(tǒng)一建模。實驗結(jié)果表明,UniVideo 在多項定量評測中優(yōu)于任務(wù)特定的單任務(wù)方法,并在多數(shù)設(shè)置下達(dá)到或超過當(dāng)前最優(yōu)水平。
更重要的是,UniVideo 可泛化到未見過的視頻編輯指令和新的任務(wù)組合。這表明,統(tǒng)一多模態(tài)建模不僅可行,而且可能是一條更具擴(kuò)展性的方向。
作者介紹
本文第一作者魏聰,滑鐵盧大學(xué)博士三年級在讀,導(dǎo)師為陳文虎教授。
- 個人主頁:https://congwei1230.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.