作者|子川
來源|AI先鋒官
雖然這句話已經(jīng)說了N次了,但還是忍不住大聲喊出來:
阿里又開源啦!!!
![]()
這次開源的是一個(gè)非常好玩的音頻驅(qū)動(dòng)的視頻模型——Wan2.2-S2V。
到底有多好玩?
只需上傳一張圖片和一段音頻,就能生成一段表情自然、口型一致、肢體動(dòng)作協(xié)調(diào)的數(shù)字人視頻。
話不多說,先來一波展示。
一位女生聲情并茂地唱著粵語歌。
一群修女在教堂里唱贊美詩。
蔡徐坤著講著自己的冷笑話。
從視頻中,我們不難看出,Wan2.2-S2V不僅口型對(duì)得好,而且會(huì)增加一些身體的晃動(dòng),使其更加的自然。
據(jù)通義團(tuán)隊(duì)介紹,Wan2.2-S2在FID(視頻質(zhì)量)、EFID(表達(dá)真實(shí)性)、CSIM(身份一致性)等核心指標(biāo)中,在同類模型中取得了最好或接近最佳的性能。
![]()
深度體驗(yàn)過后,發(fā)現(xiàn)Wan2.2-S2確實(shí)是一個(gè)值得玩的模型。
比如我上傳一張女生圖片和鄧紫棋的光年之外的音頻,一段十分自然的數(shù)字人視頻就生成了。
先說優(yōu)點(diǎn),對(duì)口型這方面沒話說,口型一致,而且主要的是隨著聲音的起伏,身體也會(huì)跟著晃動(dòng),期間還有眨眼的動(dòng)作,使其看起來更加自然。
再來說缺點(diǎn),犯了許多數(shù)字人的老毛病,不夠自然,有些許的突兀感。
據(jù)介紹,除了真人外,Wan2.2-S2還支持卡通、動(dòng)物等多種類型圖片。
隨后我們也分別測(cè)試了一下。
上傳一張漫畫圖片,讓它上傳相應(yīng)的數(shù)字人視頻。
不過在上傳一張小貓咪的照片后,系統(tǒng)提示“未檢測(cè)到角色,請(qǐng)嘗試使用包含清晰的角色的圖片”。
經(jīng)過多次嘗試,都沒有成功識(shí)別動(dòng)物角色并生成數(shù)字人視頻。
![]()
后續(xù)還測(cè)試了水墨畫和卡通圖片這類題材, Wan2.2-S2 都是支持的,生成的效果還不賴。
為了進(jìn)一步探究Wan2.2-S2的極限,我們進(jìn)行了兩項(xiàng)難度更高的測(cè)試。上傳了一張側(cè)臉照片,看能不能精準(zhǔn)識(shí)別。
答案很明顯,即使是側(cè)臉圖依舊能精準(zhǔn)識(shí)別,生成口型一致的數(shù)字人視頻,
Wan2.2-S2的 人臉識(shí)別與關(guān)鍵點(diǎn)追蹤能力還是很抗打的。
不過缺點(diǎn)也很明顯,與正面照片生成的數(shù)字人相比,側(cè)臉數(shù)字人在整體自然度上略顯遜色,面部細(xì)節(jié)的表達(dá)不如正面圖那般生動(dòng)。
后續(xù)加大點(diǎn)難度,測(cè)試了首語速較快的音。
這次就有點(diǎn)翻車了,在高速的音頻輸入下,明顯感受到部分口型未能與聲音完美對(duì)齊,出現(xiàn)了延遲的現(xiàn)象。
目前,Wan2.2-S2已經(jīng)正式開源,大家可以 在Github、HuggingFace和魔搭社區(qū)下載模型,通過阿里云百煉調(diào)用API,或在通義萬相官網(wǎng)直接體驗(yàn)。
感興趣的小伙伴可以去試玩一下。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
![]()
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.