今天是火山Force原動力大會,我在現場。
![]()
這次他們也掏了很多有意思的新貨出來,但我覺得最炸的,還是他們的新視頻模型,Seedance 1.5 Pro。
因為這次的更新,真的做到了影視級別的音畫同步,而且中文能力和方言能力是目前所有模型里的獨一檔。
![]()
語音生成能力這點在他們的技術報告里也有體現。
左邊是視頻生成能力,右邊是語音生成能力。綠色的就是Seedance新模型,在語音生成這一塊可以說是遙遙領先。。。
![]()
模型昨天已經上線了,可以直接在豆包,即夢或者火山方舟上玩起來。
豆包是在視頻生成或者照片動起來這一欄里選1.5 Pro模型。
![]()
即夢是在生成視頻里選3.5 Pro,也是基于Seedance 1.5 Pro的能力。
目前3.5 Pro支持文生圖,單參考和首尾幀,智能多幀和主體參考還要再等等,不過現在這些其實已經很夠用了。
![]()
還有火山方舟,網址在此:https://exp.volcengine.com/ark/vision?launch=seedance
京劇玩法,名畫玩法什么的都可以在方舟上體驗。
![]()
API也在路上了,現在就可以預約。
Seedance 1.5 Pro的能力維度呢,我覺得可以分成這么幾大塊,復雜場景的音畫同步能力、中文和方言內容輸出能力、情感表現力。
我們一個一個說。
一.音畫同步
最基本也最重要的,就是主體說話時的唇形一致性,我們的第一個case也從這個測起。
提示詞:讓這個猴子在攝影棚里唱一段rap,猴子對著鏡頭說唱,鏡頭跟隨猴子的動作運鏡,雷鬼+tropical風格,渾厚黑人嗓音,從口哨聲引入,第二秒開始加入強節奏的鼓點,第三秒后加入有節奏感的rap詞,語速100BPM,同步配合鼓點:As Moko the monkey, skankin’ in the sun, Swingin’ through the palm trees, life’s just for fun,Big smile,no fear— One love from the jungle, yeah I’m right here!
如上,對口型對的很完美,呲著一口大白牙,非常引人矚目。
非要挑點什么問題的話就是,rap的節奏感還有進步的空間。。。
這里要說一個小小小技巧,如果想在這個視頻里說什么詞,一定要在提示詞里給模型規定好。
包括你想要的音效節奏啥的,也和它說清楚,總之別讓它太自由發揮,不然效果你懂的。
然后再看一個多人對話場景,提示詞如下:
![]()
一來一回總共四句對話,只要寫清楚對話內容和順序,就能準確地把臺詞分給每一個人。
唯一美中不足的是,它暫時還不理解罐頭笑聲是啥意思,當我想要在視頻結尾加一段罐頭笑聲的時候,它給我生成了真正的,罐頭。
無傷大雅。
![]()
除了對口型同步之外,Seedance 1.5 Pro還能做到多分鏡音畫同步。
而且因為它最高支持秒12秒的視頻生成,所以你甚至可以直接用參考圖+文生分鏡,roll一個小小的廣告短片。
這,是我給它的提示詞。
![]()
而這,是它給我的視頻,聲音效果和細節的準確性都非常在線,幾乎已經可以說是一個80%的成品了。
毫不夸張地說,能省下至少一半做片子的時間。
或者,也可以讓它直接完成一段12秒的劇情。
我讓瑞克和莫蒂倆人致敬了一把無間道的經典天臺片段。
提示詞長這樣:
人物聲音設定- Morty(左):聲音偏高、發顫,語速不穩,帶明顯猶豫與恐懼,氣息短,像硬擠出來的勇氣。 Rick(右):低沉沙啞,語速快而不耐煩,帶嘲諷,尾音下壓,充滿控制感。 Shot 1:中景 天臺。Morty僵直站立,直視Rick。 Morty: “I wanna be a good person.” Shot 2:特寫 Rick半側臉近景。 Rick(冷笑): “Oh yeah? go tell the cops, Morty.” Shot 3:快切 a 大全景:Rick舉起手槍 b 大特寫:槍口貼近Morty額頭,無臺詞。 Shot 4:大全景,Rick持槍抵住Morty頭頂,鏡頭環繞,風聲呼嘯。
整個過程中,無論是臺詞還是音效,匹配的都很恰到好處。
而且鏡頭切換和運鏡也有點東西,很酷。
二.中文和方言能力
第二個,就是中文和方言的輸出能力。
其實我測下來發現,1.5 Pro的多語言能力很拿得出手,英語日語韓語西語都能無障礙輸出。
具體效果可以看下面這個合集:毛利小五郎用各種語言,在線搶柯南臺詞,真相只有一個。
但我要重點說的還不是多語言能力,因為我覺得,中文和方言能力才是它最強的技能點。
在所有模型中,seedance 1.5pro的方言能力是斷檔的強。
它是我見過的第一個,說粵語說得有點韻味的模型。
即使還做不到最地道的程度,但氛圍感已經出來了。。。
除了粵語之外,四川話,上海話,東北話,臺灣腔,也都能自如切換。
所以,你就可以讓上海人和北京人用自己的方言吵架,也可以在東北話和臺灣腔之間無縫切換。
考慮到公眾號里最多只能放十條視頻,我依然是做了個方言合集,大家可以點進來感受一下。
怎么樣,是不是還挺有那味兒的。
說不同語言跟方言這里也有一個小技巧,就是,要給它原版語言或者方言的提示詞,比如英文版的真相只有一個就得跟它說,There’s only one truth,說粵語的話,就要這樣寫:呢個世界上有一種雀係冇腳嘅。
不會粵語也沒關系,直接和ChatGPT幫你翻譯就行,就像這樣。
![]()
三.情感表現力
Seedance 1.5 Pro這次還有一個大幅度提升的能力,就是情感表現力。
哪怕是同一句臺詞,規定不同的情境之后,也能說出完全不一樣的感覺。
提示詞非常簡單,就一句話。
![]()
這個表演合集,大家也可以品鑒一下。
我自己看這些表演的時候,有好幾個瞬間都感覺,我是不是正在看什么豪門真假千金的短劇片段。
因為它真的能演出來嘴角顫抖,一聲冷哼,皮笑肉不笑,眼睛嘰里咕嚕轉,倒吸一口涼氣,這些短劇中熟悉而微妙的細節。
而且聲線也會跟著不同的情緒變化,很有代入感。
就感覺,Seedance 1.5 Pro已經可以進軍短劇界了。。。
而且更強的是,哪怕我只是給它一句話,不加別的提示,它也能夠根據這句話的內容,給我配一段合適的表演,直接一條過。
![]()
就是,現實中的演員都沒這么省心好吧。。。
而且這個情感表現力不只是體現在臺詞上,而是包括配樂,音效,運鏡,各種能力和細節綜合起來,最終實現你想要的效果。
比如這個第一視角駕駛戰斗機的片段,所有的聲畫元素都綜合起來,就是一段效果非常豐富,非常有沉浸感的視頻。
之前要在剪輯軟件里倒騰一大通,現在一鍵直出。
沒什么可說的,Seedance NB。。。
這次會上,他們還提到了一個很有意思的能力,沒上線,但我非常期待,就是draft樣片。
什么意思呢,就是在成片之前,先給你一個較低分辨率的draft樣片,讓你可以鎖定這個畫面中的關鍵元素,等你修改完確認沒問題之后,它再幫你生成高清晰度的成片。
也就是,減少抽卡次數,精準鎖定效果,實在是一個對于錢包和時間都非常友好的功能。
快上吧孩子已經等不及了。。。
最后,來總結一下這次的Seedance 1.5 Pro更新。
雖然最近視頻模型集體從默片時代跨入有聲時代,可以說是前狼后虎,但在這種局面之下,我覺得,1.5 Pro依然很能打。
它的優勢,除了能夠滿足方言這種更加細粒度和個性化的需求之外,更重要的是,真正讓聲畫的結合做到了1+1大于2的效果。
我們都說,電影是聲畫的藝術。
這次的更新,就讓畫面,臺詞,音效,節奏,情緒,都能很好地融合在一個視頻里,輸出一個廣告級,甚至是影視級別的成品。
這意味著,生成出來的不再是只有畫面加上簡單音效的半成品,而是可以直接上剪輯臺的素材。
這對于AI視頻的工業化,是一個巨大的提升。
再往上一層,甚至對于AI視頻的創作方式和理念來說,也是一個巨大的提升。
以后的創作,就不再只是考慮畫面如何了,聲音也會一起納入考慮的范疇。
就會出現新的提示詞方式、新的視頻形態、新的制作流程,進而引發,新的生產力變革。
新的風暴已經出現。
而我真的,非常期待。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、水杉
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.