<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      滑鐵盧大學聯合可靈提出UniVideo:視頻理解、生成、編輯多模態

      0
      分享至



      統一多模態模型在多模態內容理解與生成方面已展現出良好效果,但目前仍主要局限于圖像領域。

      滑鐵盧大學與快手可靈團隊提出 UniVideo,一個在統一框架下同時支持視頻理解、生成與編輯的多模態生成模型。

      UniVideo 采用雙流架構,將多模態大語言模型(MLLM)的指令理解與推理能力,與多模態擴散 Transformer(MM-DiT)的高質量視覺生成能力相結合。不同于以往依賴任務特定設計或受限于單一模態的方法,UniVideo 能夠理解多模態指令、區分不同任務類型,并在多項基準上取得接近或超過現有最優方法(SoTA)的性能。

      更重要的是,UniVideo 無需額外的任務特定設計,即可泛化到未見過的任務及新的任務組合。這意味著,視頻生成與編輯不必再被拆分為多個孤立模型,統一建模本身就帶來了更強的擴展性。

      目前,該工作已被 ICLR 2026 接收,代碼已開源。



      • 項目主頁:https://congwei1230.github.io/UniVideo/
      • 論文地址:https://arxiv.org/abs/2510.08377
      • 開源代碼:https://github.com/KlingTeam/UniVideo
      • 開源模型:https://huggingface.co/KwaiVGI/UniVideo

      效果展示



      模型架構



      UniVideo 由兩個核心組件組成:多模態大語言模型(MLLM) 和 多模態擴散 Transformer(MM-DiT)。

      • MLLM 負責多模態指令理解與語義推理,能夠接受文本、圖像和視頻輸入,并生成高層語義表示或文本響應。
      • MM-DiT 專注于視覺內容生成,在潛空間中進行條件圖像 / 視頻建模。

      UniVideo 從 MLLM 的最后一層隱藏狀態中提取多模態語義特征,這些特征編碼了豐富的跨模態語義信息。通過可訓練的 MLP Connector,將其對齊并注入到 MM-DiT 的理解流(understanding stream)中,用于高層語義條件建模。同時,視覺信號通過 VAE 編碼后輸入至 MM-DiT 的生成流(generation stream),以保留細粒度的視覺信息。

      這種雙流設計同時具備強語義基礎與高保真視覺重建能力,對于視頻編輯以及需要保持身份一致性的上下文生成任務尤為關鍵。

      統一 10 個多模態任務

      UniVideo 將多種視頻生成與編輯任務統一到單一的多模態指令范式中,并通過 MLLM + MM-DiT 的雙流架構實現靈活的任務調度與生成。

      • 多模態理解(Image / Video → Text,I/V2T)

      圖像或視頻輸入由 MLLM 直接處理,并生成對應的文本輸出。



      • 文本到圖像 / 視頻生成(Text → Image / Video,T2I / T2V)

      文本指令由 MLLM 編碼為語義表示,并作為條件輸入,引導 MM-DiT 生成圖像或視頻內容。



      • 圖像到視頻生成(Image → Video,I2V)

      輸入圖像與文本指令由 MLLM 聯合理解并生成語義條件;同時,圖像的視覺信息與視頻潛變量一同輸入 MM-DiT,以約束并引導視頻生成過程。



      • 圖像 / 視頻編輯(Image / Video Editing,I2I / V2V)

      輸入圖像或視頻及編輯指令由 MLLM 解析為語義條件,MM-DiT 在保持原始內容結構的基礎上完成條件編輯生成



      • 上下文圖像 / 視頻生成與編輯(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)

      在這類任務中,通常存在多個視覺條件(如多張參考圖像或參考視頻)。所有視覺信號經 VAE 編碼后統一填充至相同形狀,并沿時間維度拼接,通過自注意力機制進行融合,從而支持 ID 保持和跨上下文生成與編輯。





      實驗結果

      在定量評測中,UniVideo 在各項評測指標上均優于任務特定(task-specific)的基線方法,并在多數實驗設置下達到或超過當前最優方法(SoTA)。

      下圖展示了 UniVideo 在上下文生成與編輯任務上的定量對比結果。





      Key Insight:統一模型具備良好的泛化能力

      團隊從兩個方面驗證了 UniVideo 統一架構的泛化能力:

      (1)對未見視頻編輯指令的泛化能力:

      盡管 UniVideo 未在 free-form 視頻編輯指令數據上進行訓練,但通過聯合多任務訓練,模型成功將圖像編輯能力遷移至視頻領域,實現了對 free-form 視頻編輯指令的泛化。

      (2)對新任務組合的泛化能力:

      即使在訓練階段未顯式包含相關任務組合,UniVideo 仍能夠自然泛化到新的任務組合設置,展現出統一多模態框架在組合泛化方面的顯著優勢。

      下圖給出了 UniVideo 泛化到視頻風格化與環境編輯任務的定性示例:



      總結


      UniVideo 通過統一的多模態指令范式與雙流架構,實現了視頻理解、生成與編輯任務的統一建模。實驗結果表明,UniVideo 在多項定量評測中優于任務特定的單任務方法,并在多數設置下達到或超過當前最優水平。

      更重要的是,UniVideo 可泛化到未見過的視頻編輯指令和新的任務組合。這表明,統一多模態建模不僅可行,而且可能是一條更具擴展性的方向。

      作者介紹


      本文第一作者魏聰,滑鐵盧大學博士三年級在讀,導師為陳文虎教授。

      • 個人主頁:https://congwei1230.github.io/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新華社消息|外交部:已有1萬余名中國旅客自阿聯酋、阿曼、沙特等國安全有序返回

      新華社消息|外交部:已有1萬余名中國旅客自阿聯酋、阿曼、沙特等國安全有序返回

      新華社
      2026-03-10 16:37:42
      67歲湯鎮業近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      67歲湯鎮業近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      代軍哥哥談娛樂
      2026-03-10 09:09:50
      不可錯過!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-03-10 12:34:48
      3月10日俄烏:最直接的受益者

      3月10日俄烏:最直接的受益者

      山河路口
      2026-03-10 18:29:13
      心臟好不好,看臉就知道!3種“求救紋”出現,趕緊按這倆穴位!

      心臟好不好,看臉就知道!3種“求救紋”出現,趕緊按這倆穴位!

      徐孟醫生說疼痛
      2026-03-08 19:00:07
      特朗普稱對伊朗戰事“已基本結束”

      特朗普稱對伊朗戰事“已基本結束”

      每日經濟新聞
      2026-03-10 07:08:31
      偉大的2-1!德約2連勝到手,1戰創造2大紀錄,下輪PK衛冕冠軍!

      偉大的2-1!德約2連勝到手,1戰創造2大紀錄,下輪PK衛冕冠軍!

      劉姚堯的文字城堡
      2026-03-10 07:41:39
      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨自美好

      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨自美好

      余飩搞笑段子
      2026-03-10 11:20:47
      粟裕一度鎮不住許世友,四大野戰軍的幾位首長,有幾人能鎮住他?

      粟裕一度鎮不住許世友,四大野戰軍的幾位首長,有幾人能鎮住他?

      浩渺青史
      2026-03-10 18:31:00
      封神一戰!伊朗導彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      封神一戰!伊朗導彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      音樂時光的娛樂
      2026-03-10 12:25:27
      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬元……法院判了

      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬元……法院判了

      環球網資訊
      2026-03-09 20:09:28
      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經學習的苦白吃了

      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經學習的苦白吃了

      火山詩話
      2026-03-08 06:58:34
      川音“淫魔”校長:88名女音樂教師,霸占87人,細節曝光不堪入目

      川音“淫魔”校長:88名女音樂教師,霸占87人,細節曝光不堪入目

      就一點
      2026-03-08 10:54:42
      美媒公布美軍戰損,美國8年心血構建的防線,只撐了不到一個星期

      美媒公布美軍戰損,美國8年心血構建的防線,只撐了不到一個星期

      安珈使者啊
      2026-03-10 10:30:40
      炸鍋!東莞一中學取消周日晚修!家長:天塌了!

      炸鍋!東莞一中學取消周日晚修!家長:天塌了!

      東莞好生活
      2026-03-10 16:04:11
      Mac版QClaw開放下載:可用微信登錄,默認使用國產大模型

      Mac版QClaw開放下載:可用微信登錄,默認使用國產大模型

      識礁Farsight
      2026-03-10 10:27:14
      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      環球網資訊
      2026-03-10 11:46:00
      震驚!男友父母花近1000萬買新房,女子要加她的名字,然后退婚了

      震驚!男友父母花近1000萬買新房,女子要加她的名字,然后退婚了

      火山詩話
      2026-03-10 06:57:22
      恐怖!美軍的陰暗操作令世界不寒而栗

      恐怖!美軍的陰暗操作令世界不寒而栗

      補壹刀
      2026-03-09 15:41:03
      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      妙知
      2026-01-13 11:55:41
      2026-03-10 20:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142580關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      時尚
      教育
      房產
      健康
      軍事航空

      今年春夏的褲子,彩色的更好看!

      教育要聞

      兩會代表委員:建議減少中小學學科數量、取消中考、將性教育列為中小學必修課……

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      轉頭就暈的耳石癥,能開車上班嗎?

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版