作者|子川
來源|AI先鋒官
國內首個支持角色扮演的視頻生成模型,它終于來了。
近日,阿里正式發布了新一代通義萬相2.6系列模型,此次的更新規模非常大。
據介紹,通義萬相2.6是目前"全球功能最完整"的視頻生成模型。
在視頻創作上,萬相2.6不僅有文生視頻、圖生視頻,還有多音頻驅動生視頻能力,同時還引入了音畫同步、多鏡頭敘事等能力。
先來看此次升級的亮點,角色扮演。
簡單來說,就是給AI一個參考視頻,AI不僅學會了視頻里人物長相,還學會了他的動作、表情,甚至音色。
然后你使用提示詞控制這個虛擬人物去演一個全新的故事。
我們使用官方的角色跑了幾個案例,大家看一下效果到底如何。
提示詞:@溫柔女 站在一個餡餅攤旁,在賣餡餅,在大聲說我的餡餅很好吃,并邀請路人去購買
提示詞:@溫柔女 一個女生在雪地里翩翩起舞
提示詞:@溫柔女 用英文自我介紹
可以明顯的感受到,視頻中的角色和音色都是一致的,口型匹配也較為準確,不過有時候細節處理的不夠自然,看起來會有些許的AI感。
但這些問題都是能忍受的范圍,畢竟AI視頻生成需要抽卡是常有的事。
這里大家可能會疑惑,那對比Sora2 的效果如何呢?
對了給大家一個直觀的對比,下面我們就目前市面唯二支持角色扮演的產品:Sora2和通義萬相2.6來實測對比一番。
讓他們分別唱一首英文Rap。
這個前后的對比還是非常大的,先說Sora2,依舊充滿驚艷感,多鏡頭的切換很自然,發音、語速都很流暢,缺點則是有些畫面對口型不是很完美。
通義萬相2.6則有點翻車了,在口型對齊、語速控制與畫面連貫性方面確實要比Sora 2差一點。
換一個,再讓它們進行彈吉他。
有一說一,Sora 2 的聲畫同步幾乎做到了“樂隊現場”級別,右手掃弦和發出的聲音嚴絲合縫。
而通義萬相2.6中人物彈奏的聲音和動作明顯不對,有點穿幫了。
再來一個,讓他們用中文介紹廣州。
依舊是Sora 2更勝一籌,可以明顯感受到通義萬相 2.6感覺聲音和畫面不是在同一層面上。
整體體驗下來,其實結論已經很清晰了。
Sora 2 不愧是目前效果最好的視頻生成工具,依然是目前視頻生成領域的天花板級。
不管是唱 Rap、彈吉他,還是中文講解城市,聲畫統一、節奏控制、多鏡頭調度都明顯更成熟,很多時候已經接近“可直接商用”的水準。
反觀通義萬相 2.6則更像是功能跑通了,體驗還沒跟上。
口型、動作、聲音三者之間經常出現各說各的,一旦涉及音樂、節奏或連續表演,短板就會被迅速放大。
文生視頻、圖生視頻、多音頻驅動、角色扮演這些能力能一次性集成到同一個體系里,本身就說明底層技術已經跑通了。
只是在當前階段,它更偏向“工程完成度優先”,而不是“體驗極致優先”。
與 Sora 2 的差距確實存在,而且差得也不算小,但這種差距并不是路線錯誤,而是時間與積累的問題。
口型、聲畫同步、節奏感這些能力,本質上都是需要長期打磨的“細活”,通義萬相 2.6 現在可能還不是那個讓人驚呼的產品,但它已經站在了正確的賽道上,期待它下一次的迭代~
目前 可直接在萬相官網體驗萬相2.6,企業用戶還能通過阿里云百煉調用模型API,感興趣的可以去試玩一番!
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.