<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      滑鐵盧大學(xué)聯(lián)合可靈提出UniVideo:視頻理解、生成、編輯多模態(tài)

      0
      分享至



      統(tǒng)一多模態(tài)模型在多模態(tài)內(nèi)容理解與生成方面已展現(xiàn)出良好效果,但目前仍主要局限于圖像領(lǐng)域。

      滑鐵盧大學(xué)與快手可靈團(tuán)隊提出 UniVideo,一個在統(tǒng)一框架下同時支持視頻理解、生成與編輯的多模態(tài)生成模型。

      UniVideo 采用雙流架構(gòu),將多模態(tài)大語言模型(MLLM)的指令理解與推理能力,與多模態(tài)擴(kuò)散 Transformer(MM-DiT)的高質(zhì)量視覺生成能力相結(jié)合。不同于以往依賴任務(wù)特定設(shè)計或受限于單一模態(tài)的方法,UniVideo 能夠理解多模態(tài)指令、區(qū)分不同任務(wù)類型,并在多項基準(zhǔn)上取得接近或超過現(xiàn)有最優(yōu)方法(SoTA)的性能。

      更重要的是,UniVideo 無需額外的任務(wù)特定設(shè)計,即可泛化到未見過的任務(wù)及新的任務(wù)組合。這意味著,視頻生成與編輯不必再被拆分為多個孤立模型,統(tǒng)一建模本身就帶來了更強(qiáng)的擴(kuò)展性。

      目前,該工作已被 ICLR 2026 接收,代碼已開源。



      • 項目主頁:https://congwei1230.github.io/UniVideo/
      • 論文地址:https://arxiv.org/abs/2510.08377
      • 開源代碼:https://github.com/KlingTeam/UniVideo
      • 開源模型:https://huggingface.co/KwaiVGI/UniVideo

      效果展示



      模型架構(gòu)



      UniVideo 由兩個核心組件組成:多模態(tài)大語言模型(MLLM) 和 多模態(tài)擴(kuò)散 Transformer(MM-DiT)。

      • MLLM 負(fù)責(zé)多模態(tài)指令理解與語義推理,能夠接受文本、圖像和視頻輸入,并生成高層語義表示或文本響應(yīng)。
      • MM-DiT 專注于視覺內(nèi)容生成,在潛空間中進(jìn)行條件圖像 / 視頻建模。

      UniVideo 從 MLLM 的最后一層隱藏狀態(tài)中提取多模態(tài)語義特征,這些特征編碼了豐富的跨模態(tài)語義信息。通過可訓(xùn)練的 MLP Connector,將其對齊并注入到 MM-DiT 的理解流(understanding stream)中,用于高層語義條件建模。同時,視覺信號通過 VAE 編碼后輸入至 MM-DiT 的生成流(generation stream),以保留細(xì)粒度的視覺信息。

      這種雙流設(shè)計同時具備強(qiáng)語義基礎(chǔ)與高保真視覺重建能力,對于視頻編輯以及需要保持身份一致性的上下文生成任務(wù)尤為關(guān)鍵。

      統(tǒng)一 10 個多模態(tài)任務(wù)

      UniVideo 將多種視頻生成與編輯任務(wù)統(tǒng)一到單一的多模態(tài)指令范式中,并通過 MLLM + MM-DiT 的雙流架構(gòu)實現(xiàn)靈活的任務(wù)調(diào)度與生成。

      • 多模態(tài)理解(Image / Video → Text,I/V2T)

      圖像或視頻輸入由 MLLM 直接處理,并生成對應(yīng)的文本輸出。



      • 文本到圖像 / 視頻生成(Text → Image / Video,T2I / T2V)

      文本指令由 MLLM 編碼為語義表示,并作為條件輸入,引導(dǎo) MM-DiT 生成圖像或視頻內(nèi)容。



      • 圖像到視頻生成(Image → Video,I2V)

      輸入圖像與文本指令由 MLLM 聯(lián)合理解并生成語義條件;同時,圖像的視覺信息與視頻潛變量一同輸入 MM-DiT,以約束并引導(dǎo)視頻生成過程。



      • 圖像 / 視頻編輯(Image / Video Editing,I2I / V2V)

      輸入圖像或視頻及編輯指令由 MLLM 解析為語義條件,MM-DiT 在保持原始內(nèi)容結(jié)構(gòu)的基礎(chǔ)上完成條件編輯生成



      • 上下文圖像 / 視頻生成與編輯(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)

      在這類任務(wù)中,通常存在多個視覺條件(如多張參考圖像或參考視頻)。所有視覺信號經(jīng) VAE 編碼后統(tǒng)一填充至相同形狀,并沿時間維度拼接,通過自注意力機(jī)制進(jìn)行融合,從而支持 ID 保持和跨上下文生成與編輯。





      實驗結(jié)果

      在定量評測中,UniVideo 在各項評測指標(biāo)上均優(yōu)于任務(wù)特定(task-specific)的基線方法,并在多數(shù)實驗設(shè)置下達(dá)到或超過當(dāng)前最優(yōu)方法(SoTA)。

      下圖展示了 UniVideo 在上下文生成與編輯任務(wù)上的定量對比結(jié)果。





      Key Insight:統(tǒng)一模型具備良好的泛化能力

      團(tuán)隊從兩個方面驗證了 UniVideo 統(tǒng)一架構(gòu)的泛化能力:

      (1)對未見視頻編輯指令的泛化能力:

      盡管 UniVideo 未在 free-form 視頻編輯指令數(shù)據(jù)上進(jìn)行訓(xùn)練,但通過聯(lián)合多任務(wù)訓(xùn)練,模型成功將圖像編輯能力遷移至視頻領(lǐng)域,實現(xiàn)了對 free-form 視頻編輯指令的泛化。

      (2)對新任務(wù)組合的泛化能力:

      即使在訓(xùn)練階段未顯式包含相關(guān)任務(wù)組合,UniVideo 仍能夠自然泛化到新的任務(wù)組合設(shè)置,展現(xiàn)出統(tǒng)一多模態(tài)框架在組合泛化方面的顯著優(yōu)勢。

      下圖給出了 UniVideo 泛化到視頻風(fēng)格化與環(huán)境編輯任務(wù)的定性示例:



      總結(jié)


      UniVideo 通過統(tǒng)一的多模態(tài)指令范式與雙流架構(gòu),實現(xiàn)了視頻理解、生成與編輯任務(wù)的統(tǒng)一建模。實驗結(jié)果表明,UniVideo 在多項定量評測中優(yōu)于任務(wù)特定的單任務(wù)方法,并在多數(shù)設(shè)置下達(dá)到或超過當(dāng)前最優(yōu)水平。

      更重要的是,UniVideo 可泛化到未見過的視頻編輯指令和新的任務(wù)組合。這表明,統(tǒng)一多模態(tài)建模不僅可行,而且可能是一條更具擴(kuò)展性的方向。

      作者介紹


      本文第一作者魏聰,滑鐵盧大學(xué)博士三年級在讀,導(dǎo)師為陳文虎教授。

      • 個人主頁:https://congwei1230.github.io/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      韓國“天弓-Ⅱ”防空系統(tǒng)在阿聯(lián)酋參與攔截伊朗導(dǎo)彈,首次實戰(zhàn),成功攔截

      韓國“天弓-Ⅱ”防空系統(tǒng)在阿聯(lián)酋參與攔截伊朗導(dǎo)彈,首次實戰(zhàn),成功攔截

      瀟湘晨報
      2026-03-04 12:59:30
      母子相認(rèn)現(xiàn)場:母親袖口磨破舍不得扔,卻給26歲兒子買新衣新鞋

      母子相認(rèn)現(xiàn)場:母親袖口磨破舍不得扔,卻給26歲兒子買新衣新鞋

      匹夫來搞笑
      2026-03-05 14:26:35
      北約首次擊落伊朗導(dǎo)彈,土耳其卷入沖突 英國變臉:不排除攻擊伊朗導(dǎo)彈裝置

      北約首次擊落伊朗導(dǎo)彈,土耳其卷入沖突 英國變臉:不排除攻擊伊朗導(dǎo)彈裝置

      紅星新聞
      2026-03-05 11:38:30
      針對美國眾議員的挑釁,谷愛凌正面回?fù)簦⒅袊c正面影響掛鉤

      針對美國眾議員的挑釁,谷愛凌正面回?fù)簦⒅袊c正面影響掛鉤

      十點街球體育
      2026-03-05 16:33:15
      韓國教授:漢朝前中國一直歸屬韓國統(tǒng)治,外國網(wǎng)友評論出奇一致

      韓國教授:漢朝前中國一直歸屬韓國統(tǒng)治,外國網(wǎng)友評論出奇一致

      談史論天地
      2026-02-24 12:51:25
      手握“中國最繁忙高速”,寧滬高速董事長辭任,“新帥”已確定

      手握“中國最繁忙高速”,寧滬高速董事長辭任,“新帥”已確定

      紅星新聞
      2026-03-05 14:30:10
      廣州官方:經(jīng)初步檢查診斷,郭艾倫傷病位置為左膝前交叉韌帶

      廣州官方:經(jīng)初步檢查診斷,郭艾倫傷病位置為左膝前交叉韌帶

      懂球帝
      2026-03-05 23:54:07
      郵報:姆巴佩考取駕照后,被發(fā)現(xiàn)在巴黎駕駛寶馬MINI出行

      郵報:姆巴佩考取駕照后,被發(fā)現(xiàn)在巴黎駕駛寶馬MINI出行

      懂球帝
      2026-03-06 02:35:13
      女子曝浙江餐廳強(qiáng)制消費,滿698才能入座,店家仍嘴硬,結(jié)局爽了

      女子曝浙江餐廳強(qiáng)制消費,滿698才能入座,店家仍嘴硬,結(jié)局爽了

      離離言幾許
      2026-03-05 15:56:41
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      圖片報:呂迪格作惡多端,根本無法控制自己,不應(yīng)該去世界杯

      圖片報:呂迪格作惡多端,根本無法控制自己,不應(yīng)該去世界杯

      懂球帝
      2026-03-05 16:32:06
      招商局集團(tuán)領(lǐng)導(dǎo)班子調(diào)整

      招商局集團(tuán)領(lǐng)導(dǎo)班子調(diào)整

      新浪財經(jīng)
      2026-03-05 23:39:48
      中方還沒批準(zhǔn)進(jìn)口,特朗普先一步下令,對華先進(jìn)芯片必須“限購”

      中方還沒批準(zhǔn)進(jìn)口,特朗普先一步下令,對華先進(jìn)芯片必須“限購”

      井普椿的獨白
      2026-03-05 17:21:08
      央視火速曝光:全是假貨!別再往家里搬了,很多人天天在用!

      央視火速曝光:全是假貨!別再往家里搬了,很多人天天在用!

      悠悠說世界
      2026-03-06 05:55:14
      不止魅族,這10個品牌已“全劇終”,全是我們的青春啊!

      不止魅族,這10個品牌已“全劇終”,全是我們的青春啊!

      小蜜情感說
      2026-03-04 14:20:13
      《生化危機(jī)9》大雷成人mod登上外網(wǎng)熱搜 被批性化女性!

      《生化危機(jī)9》大雷成人mod登上外網(wǎng)熱搜 被批性化女性!

      3DM游戲
      2026-03-03 14:45:05
      有些地方機(jī)關(guān)事業(yè)單位退休人員退休金因為績效獎金均攤到月而增加

      有些地方機(jī)關(guān)事業(yè)單位退休人員退休金因為績效獎金均攤到月而增加

      郭愛華追問教育
      2026-03-05 06:29:26
      女毒梟阮氏慧花5000萬買精液逃避死刑,結(jié)果如何?

      女毒梟阮氏慧花5000萬買精液逃避死刑,結(jié)果如何?

      命運自認(rèn)幽默
      2026-03-06 05:11:15
      比亞迪砍向蔚來

      比亞迪砍向蔚來

      版面之外
      2026-03-06 00:08:17
      夏窗得賣人,電訊報:阿森納正在討論出售哪名球員收入最高

      夏窗得賣人,電訊報:阿森納正在討論出售哪名球員收入最高

      懂球帝
      2026-03-06 03:25:47
      2026-03-06 07:27:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12418文章數(shù) 142578關(guān)注度
      往期回顧 全部

      科技要聞

      獨家|林俊旸辭職 我們和認(rèn)識他的人聊了聊

      頭條要聞

      伊朗:已作好準(zhǔn)備應(yīng)對美國地面行動

      頭條要聞

      伊朗:已作好準(zhǔn)備應(yīng)對美國地面行動

      體育要聞

      不開玩笑,沒人想在季后賽碰上黃蜂

      娛樂要聞

      謝娜下場撕薛之謙,張杰前女友爆猛料

      財經(jīng)要聞

      “十五五”開局之年,這么干!

      汽車要聞

      15.98萬元起 第三代領(lǐng)克03大尾翼版上市

      態(tài)度原創(chuàng)

      健康
      家居
      親子
      教育
      時尚

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      奶白柔境 閑臥享時光

      親子要聞

      去挖煤了?娃穿一天的衣服能臟到哪種程度?網(wǎng)友:掃地機(jī)都多余買

      教育要聞

      “大學(xué)生連雞都不會切”,家長曬只剩下半身的烤雞,無法正常交流

      顯白的奶茶色,穿出春日味道

      無障礙瀏覽 進(jìn)入關(guān)懷版