網易首頁 > 網易號 > 正文申請入駐

創(chuàng)智劉鵬飛、Sand.ai曹越,兩大AI青年學者團隊聯手開源音視頻模型

2026-03-23 14:14:15　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

開源多模態(tài)生成領域，迎來架構級的底層突破。

視頻生成已成為當前生成式 AI 最前沿的方向，但在音視頻聯合同步生成領域，開源界仍面臨三重局限：

音視頻不同步：視頻和音頻往往語義對齊精度不足。
架構設計復雜：現有方案要么將音頻視為從屬信號，要么通過復制骨干網絡來處理音頻，參數成本翻倍且推理優(yōu)化困難。
生成速度慢：現有的音視頻聯合生成模型往往因為模型架構設計復雜、難以充分優(yōu)化，從而導致生成速度較慢，難以滿足交互式場景的需求。

今日，由上海創(chuàng)智學院（SII）生成式人工智能研究實驗室（GAIR）Sand.ai聯合研發(fā)的daVinci-MagiHuman正式開源發(fā)布，打破了開源界的這三重局限。

作為演繹級人像音視頻的開源基座模型，daVinci-MagiHuman 以 150 億參數的單流 Transformer 為核心，實現了文本、視頻、音頻在統(tǒng)一骨干網絡下的聯合建模，徹底告別了跨注意力和模態(tài)專屬分支。

代碼倉庫：https://github.com/GAIR-NLP/daVinci-MagiHuman
模型權重：https://huggingface.co/GAIR/daVinci-MagiHuman
在線 Demo 體驗：https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

研發(fā)團隊介紹

這一成果由上海創(chuàng)智學院（SII）GAIR 實驗室與 Sand.ai 共同完成。

上海創(chuàng)智學院是由頂尖大學、頭部企業(yè)和科研機構聯合建設的新型人才培養(yǎng)機構；其 GAIR 實驗室由劉鵬飛博士領導，聚焦生成式人工智能的前沿研究，涵蓋多模態(tài)視頻基座模型、文本大模型預訓練及智能體構建等方向。在多模態(tài)世界模型方面，實驗室已展開了系統(tǒng)性探索：從開源首個原生無擴散的多模態(tài)模型 Anole，到提出以生成圖像進行思考的新范式 Thinking with Generated Images，再到面向實時交互場景的 LiveTalk，以及面向數字世界理解與模擬的數字基因工作，逐步構建起從多模態(tài)生成、視覺推理到實時交互的完整研究鏈條。近期，該實驗室已產出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。

Sand.ai 則是由馬爾獎得主曹越博士所創(chuàng)立，專注于開發(fā)視頻生成大模型，并以推動通用人工智能（AGI）為目標。先后發(fā)布全球首個自回歸視頻生成模型 Magi-1，以及主打「AI 演員」表現力的 GAGA-1 模型，在物理規(guī)則連貫性和原生音畫同步等領域都取得了突破性成果。

演繹級人像音視頻的開源基座模型

daVinci-MagiHuman 是音視頻聯合生成的開源基座模型。與許多依賴多流結構、跨注意力模塊或模態(tài)專用融合分支的方案不同，daVinci-MagiHuman 采用了更為簡潔的單流 Transformer 架構，以 150 億參數的統(tǒng)一骨干網絡聯合建模文本、視頻與音頻三種模態(tài)，徹底告別跨注意力和模態(tài)專屬分支。這一設計不僅降低了系統(tǒng)復雜度，也讓訓練與推理優(yōu)化更加直接、統(tǒng)一。

在能力上，daVinci-MagiHuman 尤其擅長以人物為中心的生成任務，能夠生成富有表現力的面部表情與自然語音，并實現精確的音視頻同步，覆蓋語音與口型協調、表情驅動、動作表現等場景。同時，模型具備較強的多語言泛化能力，支持中文（普通話與粵語）、英文、日文、韓文、德文、法文等多種語言的音視頻生成。

在推理效率方面，daVinci-MagiHuman 結合單流骨干網絡、隱空間超分辨率與 Turbo VAE 解碼器，在單張 H100 上僅需 2 秒即可生成 5 秒 256p 視頻。在與 LTX-2.3、Ovi 1.1 的全面對比中，daVinci-MagiHuman 在成對人工評測中取得了70.5%的綜合勝率，在客觀基準上同樣展現出領先表現。

核心技術揭秘：單流 Transformer 統(tǒng)管所有模態(tài)

為了解決上述挑戰(zhàn)，daVinci-MagiHuman 選擇了一條更直接的路線：把文本、視頻、音頻統(tǒng)一放入同一個單流 Transformer 去噪網絡中，以純自注意力完成聯合建模。在這一基礎上，模型進一步采用了幾項關鍵設計：

Sandwich 式主干網絡：在單流 Transformer 去噪網絡中，少數輸入層和輸出層保留模態(tài)相關參數化，主要的中間層主干網絡共享參數，在模態(tài)特化與深層融合之間取得平衡。
無顯式 timestep 條件注入：模型不再單獨引入 timestep 條件，而是直接從當前噪聲隱變量中推斷去噪狀態(tài)。
Attention-Head 門控：為了提升訓練時的數值穩(wěn)定性和提升 attention 的表達能力，研發(fā)團隊進一步在每個 attention head 的輸出引入了門控機制。
統(tǒng)一條件接口：文本、參考音頻、參考視覺條件等都通過統(tǒng)一接口進入同一主干網絡，而不是為不同任務單獨設計融合結構。

面向效率的四層優(yōu)化

除了去噪網絡本身的先進設計，daVinci-MagiHuman 還圍繞推理效率進行了系統(tǒng)級優(yōu)化。

1.隱空間超分

為了避免從頭直接生成高分辨率視頻帶來的巨大開銷，研發(fā)團隊采用兩階段流水線：底模先在較低分辨率生成音視頻隱變量，再通過隱空間超分對視頻結果進行細化。整個超分過程直接在隱空間（latent space) 中完成，通過三線性插值、重新加噪和少量額外去噪步驟完成高分辨率細化，效果更好的同時避免額外的 VAE decode/encode 開銷。

值得一提的是，這一階段雖然主要服務于視頻細化，但音頻隱變量也會繼續(xù)作為輸入進入超分模型，并與視頻一起在同一主干中聯合建模。這種設計在底模分辨率較低、口型細節(jié)容易偏差的情況下尤其重要，有助于保持更好的唇形同步效果。

2.Turbo VAE Decoder

在視頻編解碼階段，模型保留 Wan2.2 VAE 作為編碼器，但在推理中使用更輕量的 Turbo VAE 解碼器替換原始解碼器，以降低視頻解碼延遲。由于解碼位于底模生成和超分流水線的關鍵路徑上，這一優(yōu)化對整體推理速度非常重要。

3.全圖編譯優(yōu)化

研發(fā)團隊進一步將自研的全圖 PyTorch 編譯器 MagiCompiler 集成到推理棧中。通過跨層算子融合、減少分布式通信開銷等方式，它能夠進一步提升推理吞吐與執(zhí)行效率，并在 H100 上帶來了約 1.2 倍的加速。

4.模型蒸餾

研發(fā)團隊還使用 DMD-2 技術對去噪網絡進行蒸餾，從而實現了在推理階段僅去噪 8 步就可以獲得良好的音視頻生成效果。

性能實測：全面對標開源 SOTA

先看實測效果：

研發(fā)團隊針對 LTX-2.3、Ovi 和 MoVA 等最具代表性的開源模型進行了系統(tǒng)性測試。

主觀評測：人工盲評

研發(fā)團隊構建了 100 條樣本的內部評測數據集，覆蓋圖文生音視頻任務，由評審員從多個維度對各模型的生成結果進行盲評打分。

客觀評測：VideoScore2 基準和 TalkVid-Bench 對比

VideoScore2 主要用來評測視頻生成質量，其采用的指標包括視頻生成質量（Visual Quality)、視頻 - 文本一致性 (Text Alignment) 和物理一致性（Physical Consistency)。TalkVid-Bench 則主要用來衡量音頻生成質量，其指標主要用詞錯誤率（Word Error Rate, WER) 來衡量。表 2 展示了客觀指標的評測結果，daVinci-MagiHuman 在視覺質量、視頻 - 文本一致性都領先于 LTX2.3，在物理一致性上與 LTX2.3 大致相當，優(yōu)于 OVI 1.1。在音頻質量上，daVinci-MagiHuman 則遠優(yōu)于 LTX2.3 與 OVI 1.1。

結語與未來展望

此次 daVinci-MagiHuman 的模型棧完整開源，包括生成模型、超分模型以及推理代碼。這一發(fā)布有望能夠為開源社區(qū)提供一個更簡單、更可擴展、也更易于優(yōu)化的音視頻生成基礎系統(tǒng)，持續(xù)降低音畫同出大模型的開發(fā)與部署門檻，為 AI 社區(qū)貢獻真正 “開箱即用” 的性能紅利。

文中視頻鏈接：https://mp.weixin.qq.com/s/4t9H829uYt6QQOSK8oXlqg

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.