<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      創(chuàng)智劉鵬飛、Sand.ai曹越,兩大AI青年學者團隊聯手開源音視頻模型

      0
      分享至



      機器之心編輯部

      開源多模態(tài)生成領域,迎來架構級的底層突破。

      視頻生成已成為當前生成式 AI 最前沿的方向,但在音視頻聯合同步生成領域,開源界仍面臨三重局限:

      • 音視頻不同步:視頻和音頻往往語義對齊精度不足。
      • 架構設計復雜:現有方案要么將音頻視為從屬信號,要么通過復制骨干網絡來處理音頻,參數成本翻倍且推理優(yōu)化困難。
      • 生成速度慢:現有的音視頻聯合生成模型往往因為模型架構設計復雜、難以充分優(yōu)化,從而導致生成速度較慢,難以滿足交互式場景的需求。

      今日,由上海創(chuàng)智學院(SII)生成式人工智能研究實驗室(GAIR)Sand.ai聯合研發(fā)的daVinci-MagiHuman正式開源發(fā)布,打破了開源界的這三重局限。

      作為演繹級人像音視頻的開源基座模型,daVinci-MagiHuman 以 150 億參數的單流 Transformer 為核心,實現了文本、視頻、音頻在統(tǒng)一骨干網絡下的聯合建模,徹底告別了跨注意力和模態(tài)專屬分支。



      • 代碼倉庫:https://github.com/GAIR-NLP/daVinci-MagiHuman
      • 模型權重:https://huggingface.co/GAIR/daVinci-MagiHuman
      • 在線 Demo 體驗:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

      研發(fā)團隊介紹

      這一成果由上海創(chuàng)智學院(SII)GAIR 實驗室 與 Sand.ai 共同完成。

      上海創(chuàng)智學院是由頂尖大學、頭部企業(yè)和科研機構聯合建設的新型人才培養(yǎng)機構;其 GAIR 實驗室由劉鵬飛博士領導,聚焦生成式人工智能的前沿研究,涵蓋多模態(tài)視頻基座模型、文本大模型預訓練及智能體構建等方向。在多模態(tài)世界模型方面,實驗室已展開了系統(tǒng)性探索:從開源首個原生無擴散的多模態(tài)模型 Anole,到提出以生成圖像進行思考的新范式 Thinking with Generated Images,再到面向實時交互場景的 LiveTalk,以及面向數字世界理解與模擬的數字基因工作,逐步構建起從多模態(tài)生成、視覺推理到實時交互的完整研究鏈條。近期,該實驗室已產出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVinci-Dev 等一系列代表性工作。



      Sand.ai 則是由馬爾獎得主曹越博士所創(chuàng)立,專注于開發(fā)視頻生成大模型,并以推動通用人工智能(AGI)為目標。先后發(fā)布全球首個自回歸視頻生成模型 Magi-1,以及主打「AI 演員」表現力的 GAGA-1 模型,在物理規(guī)則連貫性和原生音畫同步等領域都取得了突破性成果。

      演繹級人像音視頻的開源基座模型

      daVinci-MagiHuman 是音視頻聯合生成的開源基座模型。與許多依賴多流結構、跨注意力模塊或模態(tài)專用融合分支的方案不同,daVinci-MagiHuman 采用了更為簡潔的單流 Transformer 架構,以 150 億參數的統(tǒng)一骨干網絡聯合建模文本、視頻與音頻三種模態(tài),徹底告別跨注意力和模態(tài)專屬分支。這一設計不僅降低了系統(tǒng)復雜度,也讓訓練與推理優(yōu)化更加直接、統(tǒng)一。

      在能力上,daVinci-MagiHuman 尤其擅長以人物為中心的生成任務,能夠生成富有表現力的面部表情與自然語音,并實現精確的音視頻同步,覆蓋語音與口型協調、表情驅動、動作表現等場景。同時,模型具備較強的多語言泛化能力,支持中文(普通話與粵語)、英文、日文、韓文、德文、法文等多種語言的音視頻生成。

      在推理效率方面,daVinci-MagiHuman 結合單流骨干網絡、隱空間超分辨率與 Turbo VAE 解碼器,在單張 H100 上僅需 2 秒即可生成 5 秒 256p 視頻。在與 LTX-2.3、Ovi 1.1 的全面對比中,daVinci-MagiHuman 在成對人工評測中取得了70.5%的綜合勝率,在客觀基準上同樣展現出領先表現。

      核心技術揭秘:單流 Transformer 統(tǒng)管所有模態(tài)



      為了解決上述挑戰(zhàn),daVinci-MagiHuman 選擇了一條更直接的路線:把文本、視頻、音頻統(tǒng)一放入同一個單流 Transformer 去噪網絡中,以純自注意力完成聯合建模。在這一基礎上,模型進一步采用了幾項關鍵設計:

      • Sandwich 式主干網絡:在單流 Transformer 去噪網絡中,少數輸入層和輸出層保留模態(tài)相關參數化,主要的中間層主干網絡共享參數,在模態(tài)特化與深層融合之間取得平衡。
      • 無顯式 timestep 條件注入:模型不再單獨引入 timestep 條件,而是直接從當前噪聲隱變量中推斷去噪狀態(tài)。
      • Attention-Head 門控:為了提升訓練時的數值穩(wěn)定性和提升 attention 的表達能力,研發(fā)團隊進一步在每個 attention head 的輸出引入了門控機制。
      • 統(tǒng)一條件接口:文本、參考音頻、參考視覺條件等都通過統(tǒng)一接口進入同一主干網絡,而不是為不同任務單獨設計融合結構。

      面向效率的四層優(yōu)化

      除了去噪網絡本身的先進設計,daVinci-MagiHuman 還圍繞推理效率進行了系統(tǒng)級優(yōu)化。

      1.隱空間超分

      為了避免從頭直接生成高分辨率視頻帶來的巨大開銷,研發(fā)團隊采用兩階段流水線:底模先在較低分辨率生成音視頻隱變量,再通過隱空間超分對視頻結果進行細化。整個超分過程直接在隱空間(latent space) 中完成,通過三線性插值、重新加噪和少量額外去噪步驟完成高分辨率細化,效果更好的同時避免額外的 VAE decode/encode 開銷。

      值得一提的是,這一階段雖然主要服務于視頻細化,但音頻隱變量也會繼續(xù)作為輸入進入超分模型,并與視頻一起在同一主干中聯合建模。這種設計在底模分辨率較低、口型細節(jié)容易偏差的情況下尤其重要,有助于保持更好的唇形同步效果。

      2.Turbo VAE Decoder

      在視頻編解碼階段,模型保留 Wan2.2 VAE 作為編碼器,但在推理中使用更輕量的 Turbo VAE 解碼器替換原始解碼器,以降低視頻解碼延遲。由于解碼位于底模生成和超分流水線的關鍵路徑上,這一優(yōu)化對整體推理速度非常重要。

      3.全圖編譯優(yōu)化

      研發(fā)團隊進一步將自研的全圖 PyTorch 編譯器 MagiCompiler 集成到推理棧中。通過跨層算子融合、減少分布式通信開銷等方式,它能夠進一步提升推理吞吐與執(zhí)行效率,并在 H100 上帶來了約 1.2 倍的加速。

      4.模型蒸餾

      研發(fā)團隊還使用 DMD-2 技術對去噪網絡進行蒸餾,從而實現了在推理階段僅去噪 8 步就可以獲得良好的音視頻生成效果。

      性能實測:全面對標開源 SOTA

      先看實測效果:













      研發(fā)團隊針對 LTX-2.3、Ovi 和 MoVA 等最具代表性的開源模型進行了系統(tǒng)性測試。

      主觀評測:人工盲評

      研發(fā)團隊構建了 100 條樣本的內部評測數據集,覆蓋圖文生音視頻任務,由評審員從多個維度對各模型的生成結果進行盲評打分。



      客觀評測:VideoScore2 基準和 TalkVid-Bench 對比

      VideoScore2 主要用來評測視頻生成質量,其采用的指標包括視頻生成質量(Visual Quality)、視頻 - 文本一致性 (Text Alignment) 和物理一致性(Physical Consistency)。TalkVid-Bench 則主要用來衡量音頻生成質量,其指標主要用詞錯誤率(Word Error Rate, WER) 來衡量。 表 2 展示了客觀指標的評測結果,daVinci-MagiHuman 在視覺質量、視頻 - 文本一致性都領先于 LTX2.3,在物理一致性上與 LTX2.3 大致相當,優(yōu)于 OVI 1.1。在音頻質量上,daVinci-MagiHuman 則遠優(yōu)于 LTX2.3 與 OVI 1.1。



      結語與未來展望

      此次 daVinci-MagiHuman 的模型棧完整開源,包括生成模型、超分模型以及推理代碼。這一發(fā)布有望能夠為開源社區(qū)提供一個更簡單、更可擴展、也更易于優(yōu)化的音視頻生成基礎系統(tǒng),持續(xù)降低音畫同出大模型的開發(fā)與部署門檻,為 AI 社區(qū)貢獻真正 “開箱即用” 的性能紅利。

      文中視頻鏈接:https://mp.weixin.qq.com/s/4t9H829uYt6QQOSK8oXlqg

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老人沒必要追求長壽,在六件事上,你就稀里糊涂地活著,你贊同嗎

      老人沒必要追求長壽,在六件事上,你就稀里糊涂地活著,你贊同嗎

      暖風吹過竹林
      2026-03-16 10:26:06
      “原價30元,現價1600元”,退市近兩年的頭孢遭瘋搶,是誰在炒作?

      “原價30元,現價1600元”,退市近兩年的頭孢遭瘋搶,是誰在炒作?

      閃電新聞
      2026-03-22 10:53:40
      外媒:大眾汽車CEO稱,德國汽車工業(yè)可以向中國嚴謹的工業(yè)規(guī)劃學習

      外媒:大眾汽車CEO稱,德國汽車工業(yè)可以向中國嚴謹的工業(yè)規(guī)劃學習

      環(huán)球網資訊
      2026-03-22 09:46:09
      貝克漢姆家大布:學歷顏值雙平平,卻娶到白富美嬌妻

      貝克漢姆家大布:學歷顏值雙平平,卻娶到白富美嬌妻

      述家娛記
      2026-03-21 14:23:38
      伊朗導彈發(fā)射前 士兵貼上:"謝謝西班牙首相"

      伊朗導彈發(fā)射前 士兵貼上:"謝謝西班牙首相"

      看看新聞Knews
      2026-03-23 13:57:01
      3-2、3-1奪冠,日本濱田一輝被打哭,中國小將翟家樂3-0登頂!

      3-2、3-1奪冠,日本濱田一輝被打哭,中國小將翟家樂3-0登頂!

      好乒乓
      2026-03-23 12:20:58
      左宗棠為什么一定要把陜西回民西遷?真實原因其實非常簡單!

      左宗棠為什么一定要把陜西回民西遷?真實原因其實非常簡單!

      凡人侃史
      2026-03-21 22:48:16
      官宣!湖人裁判報告出爐,NBA做出重大決定,東契奇真要小心了

      官宣!湖人裁判報告出爐,NBA做出重大決定,東契奇真要小心了

      世界體育圈
      2026-03-23 10:43:01
      上海男子愛上江西51歲老太,相差18歲戀愛九年不結婚

      上海男子愛上江西51歲老太,相差18歲戀愛九年不結婚

      浩舞纆畫
      2026-03-05 18:41:23
      央視怒批!“絕望的文盲”丟臉到國外,馮遠征的話終于有人信了

      央視怒批!“絕望的文盲”丟臉到國外,馮遠征的話終于有人信了

      人間無味啊
      2026-03-13 03:17:17
      有個漢字,中國人取名都不敢用這個字,說:誰用都會覺得羞恥

      有個漢字,中國人取名都不敢用這個字,說:誰用都會覺得羞恥

      長風文史
      2026-03-20 16:04:02
      真被默克爾說中了!俄烏沖突最大輸家已出現:不是俄羅斯不是美國

      真被默克爾說中了!俄烏沖突最大輸家已出現:不是俄羅斯不是美國

      阿鳧愛吐槽
      2026-03-22 23:16:37
      零容忍!CBA官宣重磅罰單,2隊共4人被罰,罰款22萬+停賽5場

      零容忍!CBA官宣重磅罰單,2隊共4人被罰,罰款22萬+停賽5場

      多特體育說
      2026-03-23 14:47:25
      等了10年,《寒戰(zhàn)》續(xù)集官宣!香港影帝大集合,還有《權游》男星

      等了10年,《寒戰(zhàn)》續(xù)集官宣!香港影帝大集合,還有《權游》男星

      頭號電影院
      2026-03-23 13:42:12
      今日最佳:民用C4

      今日最佳:民用C4

      差評XPIN
      2026-03-23 00:09:07
      電商之王,突發(fā)大裁員

      電商之王,突發(fā)大裁員

      品牌營銷報
      2026-03-23 09:37:30
      又不缺土地,為什么全世界只有中國,在瘋狂地修建高層住宅?

      又不缺土地,為什么全世界只有中國,在瘋狂地修建高層住宅?

      張黿鹵說體育
      2026-02-07 12:45:26
      本田“骨折價”,8.98萬元拿下SUV!

      本田“骨折價”,8.98萬元拿下SUV!

      手機評測室
      2026-03-23 11:49:21
      成都警方:網傳“崇州出了命案,遇害6人”等信息為謠言,依法對陳某某(女,18歲)予以行政處罰

      成都警方:網傳“崇州出了命案,遇害6人”等信息為謠言,依法對陳某某(女,18歲)予以行政處罰

      封面新聞
      2026-03-23 00:37:05
      高速跑長途才發(fā)現:特斯拉和比亞迪,壓根不是一種車

      高速跑長途才發(fā)現:特斯拉和比亞迪,壓根不是一種車

      趣味萌寵的日常
      2026-03-22 21:29:49
      2026-03-23 16:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12574文章數 142591關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      長在中國大陸的"日本人"慫恿臺出兵 幫美護航霍爾木茲

      頭條要聞

      長在中國大陸的"日本人"慫恿臺出兵 幫美護航霍爾木茲

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      滬指險守3800點 全市場超百股跌停

      汽車要聞

      嵐圖汽車香江鳴鑼 一場關于"國家隊"的突圍實驗

      態(tài)度原創(chuàng)

      教育
      數碼
      家居
      時尚
      軍事航空

      教育要聞

      青春期孩子,總是憤怒,無原由的憤怒

      數碼要聞

      DRAM價格飆升100% 國內“穩(wěn)定器”穩(wěn)住供應

      家居要聞

      智慧生活 奢享家居

      “這條裙子”才是今年春天的頂流,怎么搭都好看

      軍事要聞

      伊朗回應美方威脅:將在戰(zhàn)場上堅決對抗

      無障礙瀏覽 進入關懷版