![]()
作者介紹:本文第一作者黃小虎同學,目前是香港大學的三年級在讀博士生,導師是韓鍇教授。黃小虎的研究方向是以視頻為中心的領域,包括音視頻生成、視頻理解以及視頻識別。
視頻 - 音頻聯合生成的研究近期在開源與閉源社區都備受關注,其中,如何生成音視頻對齊的內容是研究的重點。
近日,來自香港大學和字節跳動的研究團隊提出了一種簡單有效的框架 ——JoVA,它支持視頻和音頻的 Token 在一個 Transformer 的注意力模塊中直接進行跨模態交互。為了解決人物說話時的 “口型 - 語音同步” 問題,JoVA 引入了一個基于面部關鍵點檢測的嘴部區域特定損失 (Mouth-area specific loss)。
實驗表明,JoVA 只采用了約 190 萬條訓練數據,便在口型同步準確率、語音質量和整體生成保真度上,達到了先進水平。
![]()
- 項目主頁: https://visual-ai.github.io/jova/
- 論文地址:https://arxiv.org/abs/2512.13677
一、研究背景與動機
目前的開源解決方案通常分為兩大類別:一類是 “級聯式”,即先生成視頻再配音,或者先生成語音再驅動視頻生成,這種方式在一定程度上會導致音頻和畫面的割裂;另一類是 “端到端的聯合生成”,試圖同時輸出視頻和音頻。
如下圖 a, 現有的端到端方法(如 OVi 和 Universe 等),為了實現雙模態對齊,需要在自注意力層 (self-attention) 之外,額外設計融合模塊或跨注意力層 (Cross-attention)。這不僅破壞了 Transformer 架構的簡潔性,還可能阻礙進一步的數據和模態擴展。
相比之下,JoVA 采用了更加簡潔的設計(如圖 b),直接使用聯合自注意力層 (joint self-attention) 進行兩種模態特征的融合與對齊。它同時承擔了單模態內的建模以及跨模態的融合任務,無需引入任何新的模塊。
![]()
二、方法設計
1. 架構描述
JoVA 采用 Waver 作為基礎模型。為了實現音頻生成,JoVA 首先通過復制預訓練視頻主干網絡 (Backbone) 的參數來初始化音頻擴散模型。在特征提取方面,采用了 MMAudio VAE 將原始音頻轉換為聲譜圖潛在表示 (Latent Representation)。
音頻分支的訓練沿用了與視頻分支相同的流匹配 (Flow Matching) 目標函數。在預訓練階段,視頻和音頻模態是獨立訓練的;而在后續階段,兩者被統一整合進同一個架構中進行并行處理。此外,對于視頻生成,模型支持參考圖像 (Reference Image) 作為條件輸入。該圖像經由視頻 VAE 編碼后,在通道維度上與噪聲視頻潛特征進行拼接。
![]()
2. 音頻 - 視頻 - 文本聯合自注意力層
為了實現模態間的融合,JoVA 在 Transformer 塊內部采用聯合自注意力機制(Joint Self-Attention)。具體而言,視頻 Token、音頻 Token 以及對應的文本 Token 被拼接在一起,輸入到共享的自注意力層中進行處理。這種設計允許不同模態的 Token 在每一層都進行直接的信息交換,既保留了各自的預訓練知識,又實現了特征融合。為了確保視頻與音頻在時間維度上的精確同步,模型采用了源自 MMAudio 的時間對齊旋轉位置編碼(Temporal-aligned RoPE),在時間維度上同步了兩種模態的位置編碼。
3. 潛空間嘴部區域感知監督(Mouth-Aware Supervision)
為了解決人像生成中的唇形同步問題,JoVA 引入了一種針對嘴部區域的增強監督策略。該過程包含三個步驟:
1. 區域定位:首先在原始視頻幀上進行面部關鍵點檢測,計算出覆蓋嘴部區域的像素級邊界框。
2. 潛空間映射:將像素空間的邊界框映射到 VAE 的潛空間。這包括空間上的縮放(除以空間下采樣因子 s)和時間上的滑動窗口聚合(根據時間下采樣因子 t 合并窗口內的邊界框),以精確定位潛特征中的嘴部區域。
3. 加權損失:在訓練目標函數中引入了專門的嘴部損失項。該損失僅對視頻潛特征中的嘴部掩碼區域計算流匹配損失,并通過權重系數進行調節。最終的總損失函數由視頻損失、音頻損失和嘴部區域損失共同構成,從而在不增加推理階段架構復雜度的前提下,強制模型學習細粒度的唇形 - 語音對齊。
![]()
如下圖,我們可以發現,這種映射方式可以很好地在潛空間定位到嘴部區域:
![]()
三、訓練數據集構建
作者構建了包含三個部分的訓練數據集:Text2Audio(環境音)、Text2Video-Audio(自然場景視聽對)以及 Text2Avatar-Speech(數字人 / 說話人視頻),總共約 1.9M 的訓練樣本。數據標注采用了一套自動化流水線:使用 Tarsier2 生成視頻描述,Audio-flamingo3 生成音頻描述,并利用 Whisper 進行自動語音識別(ASR)以獲取語音文本。
在實施細節上,采用兩階段訓練策略:先進行語音單模態獨立訓練(80K 步),再進行聯合視聽訓練(50K 步),并在推理時使用了分類器無關引導(Classifier-Free Guidance)以提升生成質量。
![]()
四、實驗結果
1. SOTA 方法對比
在 UniAvatar-Bench(作者精選的 100 個樣本)和 Verse-Bench(600 個多樣化樣本)兩個基準上進行了評估。對比對象包括兩類:一是使用真實音頻驅動的視頻生成模型(如 Wan-S2V, Fantasy-Talking),二是聯合視聽生成模型(如 Universe-1, OVI)。
UniAvatar-Bench 表現:JoVA 在整體性能上表現最佳。
- 唇形同步(LSE-C):得分為 6.64,不僅優于聯合生成模型 OVI (6.41) 和 Universe-1 (1.62),甚至超過了使用真實音頻驅動的 Wan-S2V (6.43),證明了嘴部監督策略的有效性。
- 語音與音頻質量:在文本轉語音準確性上,JoVA 取得了最低的詞錯誤率(WER 0.18);在音頻生成指標(FD, KL, CE, CU, PQ)上均取得最佳分數。
- 視頻質量:在動態程度(MS 0.98)和美學評分(AS 0.47)上均領先。雖然身份一致性(ID 0.78)低于音頻驅動模型,但在聯合生成任務中處于合理范圍。
![]()
Verse-Bench 表現:JoVA 展現了在多樣化場景下的魯棒性。
- 語音準確性:WER 低至 0.11,驗證了其穩健的語音合成能力。
- 視聽對齊:LSE-C 得分為 6.51,略低于 OVI (6.61) 但遠高于 Universe (1.62)。
- 綜合質量:在保持最高視頻動態(MS 0.80)和美學質量(AS 0.48)的同時,音頻生成的一致性(CS, CE)也達到了最優水平。
![]()
模型擴展性與效率分析
研究進一步對比了基于 Waver-1.6B(總參數量 3.2B)和 Waver-12B(總參數量 24B)主干網絡的 JoVA 模型性能:
- 小模型的高效性:僅使用 3.2B 參數和 1.9M 訓練數據的 JoVA 模型,其 LSE-C 得分達到 6.20,顯著優于參數量更大(7.1B)且訓練數據更多(6.4M)的 Universe-1 模型(LSE-C 1.62),并與 10.9B 參數的 OVI 模型具備競爭力。
- 大模型的性能上限:隨著參數量增加至 24B,JoVA 在各項指標上均達到最佳水平(LSE-C 提升至 6.64,WER 降至 0.18)。
![]()
2. 融合實驗對比
為了驗證各模塊的有效性,作者進行了多項消融實驗:
嘴部感知損失(Mouth-Aware Loss)的影響:
- 當權重為 0.0 時,模型無法學習細粒度的唇形對齊(LSE-C 僅為 1.39)。
- 增加權重至 5.0 時,LSE-C 顯著提升至 6.64,且未損害其他音頻或視頻質量指標。這表明針對嘴部區域的顯式監督對于實現精確同步至關重要。
![]()
時間對齊 RoPE 的影響:
- 采用時間對齊的 RoPE(視頻和音頻共享時間維度的位置編碼)相比未對齊版本,LSE-C 從 6.58 提升至 6.64。
- 盡管在音頻分布相似度(FD)上存在輕微折損(0.58 vs 0.69),但該設計顯著增強了幀級的時間對應關系,更利于人像視頻生成。
![]()
聯合自注意力 vs. 交叉注意力:
- 對比結果顯示,聯合自注意力(Joint Self-Attention) 機制在唇形同步(LSE-C 6.64)和語音準確性(WER 0.18)上均優于交叉注意力變體。
- 特別是帶線性適配層的交叉注意力方案表現最差(LSE-C 1.63)。這證實了在統一的注意力空間內直接處理多模態 Token,比通過獨立的交叉注意力模塊更能促進特征的有效對齊。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.