作者|子川
來源|AI先鋒官
國內(nèi)首個支持角色扮演的視頻生成模型,它終于來了。
近日,阿里正式發(fā)布了新一代通義萬相2.6系列模型,此次的更新規(guī)模非常大。
據(jù)介紹,通義萬相2.6是目前"全球功能最完整"的視頻生成模型。
在視頻創(chuàng)作上,萬相2.6不僅有文生視頻、圖生視頻,還有多音頻驅(qū)動生視頻能力,同時還引入了音畫同步、多鏡頭敘事等能力。
先來看此次升級的亮點,角色扮演。
簡單來說,就是給AI一個參考視頻,AI不僅學(xué)會了視頻里人物長相,還學(xué)會了他的動作、表情,甚至音色。
然后你使用提示詞控制這個虛擬人物去演一個全新的故事。
我們使用官方的角色跑了幾個案例,大家看一下效果到底如何。
提示詞:@溫柔女 站在一個餡餅攤旁,在賣餡餅,在大聲說我的餡餅很好吃,并邀請路人去購買
提示詞:@溫柔女 一個女生在雪地里翩翩起舞
提示詞:@溫柔女 用英文自我介紹
可以明顯的感受到,視頻中的角色和音色都是一致的,口型匹配也較為準確,不過有時候細節(jié)處理的不夠自然,看起來會有些許的AI感。
但這些問題都是能忍受的范圍,畢竟AI視頻生成需要抽卡是常有的事。
這里大家可能會疑惑,那對比Sora2 的效果如何呢?
對了給大家一個直觀的對比,下面我們就目前市面唯二支持角色扮演的產(chǎn)品:Sora2和通義萬相2.6來實測對比一番。
讓他們分別唱一首英文Rap。
這個前后的對比還是非常大的,先說Sora2,依舊充滿驚艷感,多鏡頭的切換很自然,發(fā)音、語速都很流暢,缺點則是有些畫面對口型不是很完美。
通義萬相2.6則有點翻車了,在口型對齊、語速控制與畫面連貫性方面確實要比Sora 2差一點。
換一個,再讓它們進行彈吉他。
有一說一,Sora 2 的聲畫同步幾乎做到了“樂隊現(xiàn)場”級別,右手掃弦和發(fā)出的聲音嚴絲合縫。
而通義萬相2.6中人物彈奏的聲音和動作明顯不對,有點穿幫了。
再來一個,讓他們用中文介紹廣州。
依舊是Sora 2更勝一籌,可以明顯感受到通義萬相 2.6感覺聲音和畫面不是在同一層面上。
整體體驗下來,其實結(jié)論已經(jīng)很清晰了。
Sora 2 不愧是目前效果最好的視頻生成工具,依然是目前視頻生成領(lǐng)域的天花板級。
不管是唱 Rap、彈吉他,還是中文講解城市,聲畫統(tǒng)一、節(jié)奏控制、多鏡頭調(diào)度都明顯更成熟,很多時候已經(jīng)接近“可直接商用”的水準。
反觀通義萬相 2.6則更像是功能跑通了,體驗還沒跟上。
口型、動作、聲音三者之間經(jīng)常出現(xiàn)各說各的,一旦涉及音樂、節(jié)奏或連續(xù)表演,短板就會被迅速放大。
文生視頻、圖生視頻、多音頻驅(qū)動、角色扮演這些能力能一次性集成到同一個體系里,本身就說明底層技術(shù)已經(jīng)跑通了。
只是在當前階段,它更偏向“工程完成度優(yōu)先”,而不是“體驗極致優(yōu)先”。
與 Sora 2 的差距確實存在,而且差得也不算小,但這種差距并不是路線錯誤,而是時間與積累的問題。
口型、聲畫同步、節(jié)奏感這些能力,本質(zhì)上都是需要長期打磨的“細活”,通義萬相 2.6 現(xiàn)在可能還不是那個讓人驚呼的產(chǎn)品,但它已經(jīng)站在了正確的賽道上,期待它下一次的迭代~
目前 可直接在萬相官網(wǎng)體驗萬相2.6,企業(yè)用戶還能通過阿里云百煉調(diào)用模型API,感興趣的可以去試玩一番!
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.