網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)字節(jié)Seedance 1.5 Pro，能直出方言的AI視頻也來了。

2025-12-18 12:36:57　來源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

今天是火山Force原動(dòng)力大會(huì)，我在現(xiàn)場(chǎng)。

這次他們也掏了很多有意思的新貨出來，但我覺得最炸的，還是他們的新視頻模型，Seedance 1.5 Pro。

因?yàn)檫@次的更新，真的做到了影視級(jí)別的音畫同步，而且中文能力和方言能力是目前所有模型里的獨(dú)一檔。

語音生成能力這點(diǎn)在他們的技術(shù)報(bào)告里也有體現(xiàn)。

左邊是視頻生成能力，右邊是語音生成能力。綠色的就是Seedance新模型，在語音生成這一塊可以說是遙遙領(lǐng)先。。。

模型昨天已經(jīng)上線了，可以直接在豆包，即夢(mèng)或者火山方舟上玩起來。

豆包是在視頻生成或者照片動(dòng)起來這一欄里選1.5 Pro模型。

即夢(mèng)是在生成視頻里選3.5 Pro，也是基于Seedance 1.5 Pro的能力。

目前3.5 Pro支持文生圖，單參考和首尾幀，智能多幀和主體參考還要再等等，不過現(xiàn)在這些其實(shí)已經(jīng)很夠用了。

還有火山方舟，網(wǎng)址在此：https://exp.volcengine.com/ark/vision?launch=seedance

京劇玩法，名畫玩法什么的都可以在方舟上體驗(yàn)。

API也在路上了，現(xiàn)在就可以預(yù)約。

Seedance 1.5 Pro的能力維度呢，我覺得可以分成這么幾大塊，復(fù)雜場(chǎng)景的音畫同步能力、中文和方言內(nèi)容輸出能力、情感表現(xiàn)力。

我們一個(gè)一個(gè)說。

一.音畫同步

最基本也最重要的，就是主體說話時(shí)的唇形一致性，我們的第一個(gè)case也從這個(gè)測(cè)起。

提示詞：讓這個(gè)猴子在攝影棚里唱一段rap，猴子對(duì)著鏡頭說唱，鏡頭跟隨猴子的動(dòng)作運(yùn)鏡，雷鬼+tropical風(fēng)格，渾厚黑人嗓音，從口哨聲引入，第二秒開始加入強(qiáng)節(jié)奏的鼓點(diǎn)，第三秒后加入有節(jié)奏感的rap詞，語速100BPM，同步配合鼓點(diǎn)：As Moko the monkey, skankin’ in the sun, Swingin’ through the palm trees, life’s just for fun,Big smile,no fear— One love from the jungle, yeah I’m right here!

如上，對(duì)口型對(duì)的很完美，呲著一口大白牙，非常引人矚目。

非要挑點(diǎn)什么問題的話就是，rap的節(jié)奏感還有進(jìn)步的空間。。。

這里要說一個(gè)小小小技巧，如果想在這個(gè)視頻里說什么詞，一定要在提示詞里給模型規(guī)定好。

包括你想要的音效節(jié)奏啥的，也和它說清楚，總之別讓它太自由發(fā)揮，不然效果你懂的。

然后再看一個(gè)多人對(duì)話場(chǎng)景，提示詞如下：

一來一回總共四句對(duì)話，只要寫清楚對(duì)話內(nèi)容和順序，就能準(zhǔn)確地把臺(tái)詞分給每一個(gè)人。

唯一美中不足的是，它暫時(shí)還不理解罐頭笑聲是啥意思，當(dāng)我想要在視頻結(jié)尾加一段罐頭笑聲的時(shí)候，它給我生成了真正的，罐頭。

無傷大雅。

除了對(duì)口型同步之外，Seedance 1.5 Pro還能做到多分鏡音畫同步。

而且因?yàn)樗罡咧С置?2秒的視頻生成，所以你甚至可以直接用參考圖+文生分鏡，roll一個(gè)小小的廣告短片。

這，是我給它的提示詞。

而這，是它給我的視頻，聲音效果和細(xì)節(jié)的準(zhǔn)確性都非常在線，幾乎已經(jīng)可以說是一個(gè)80%的成品了。

毫不夸張地說，能省下至少一半做片子的時(shí)間。

或者，也可以讓它直接完成一段12秒的劇情。

我讓瑞克和莫蒂倆人致敬了一把無間道的經(jīng)典天臺(tái)片段。

提示詞長(zhǎng)這樣：

人物聲音設(shè)定- Morty（左）：聲音偏高、發(fā)顫，語速不穩(wěn)，帶明顯猶豫與恐懼，氣息短，像硬擠出來的勇氣。 Rick（右）：低沉沙啞，語速快而不耐煩，帶嘲諷，尾音下壓，充滿控制感。 Shot 1：中景天臺(tái)。Morty僵直站立，直視Rick。 Morty： “I wanna be a good person.” Shot 2：特寫 Rick半側(cè)臉近景。 Rick（冷笑）： “Oh yeah? go tell the cops, Morty.” Shot 3：快切 a 大全景：Rick舉起手槍 b 大特寫：槍口貼近Morty額頭，無臺(tái)詞。 Shot 4：大全景，Rick持槍抵住Morty頭頂，鏡頭環(huán)繞，風(fēng)聲呼嘯。

整個(gè)過程中，無論是臺(tái)詞還是音效，匹配的都很恰到好處。

而且鏡頭切換和運(yùn)鏡也有點(diǎn)東西，很酷。

二.中文和方言能力

第二個(gè)，就是中文和方言的輸出能力。

其實(shí)我測(cè)下來發(fā)現(xiàn)，1.5 Pro的多語言能力很拿得出手，英語日語韓語西語都能無障礙輸出。

具體效果可以看下面這個(gè)合集：毛利小五郎用各種語言，在線搶柯南臺(tái)詞，真相只有一個(gè)。

但我要重點(diǎn)說的還不是多語言能力，因?yàn)槲矣X得，中文和方言能力才是它最強(qiáng)的技能點(diǎn)。

在所有模型中，seedance 1.5pro的方言能力是斷檔的強(qiáng)。

它是我見過的第一個(gè)，說粵語說得有點(diǎn)韻味的模型。

即使還做不到最地道的程度，但氛圍感已經(jīng)出來了。。。

除了粵語之外，四川話，上海話，東北話，臺(tái)灣腔，也都能自如切換。

所以，你就可以讓上海人和北京人用自己的方言吵架，也可以在東北話和臺(tái)灣腔之間無縫切換。

考慮到公眾號(hào)里最多只能放十條視頻，我依然是做了個(gè)方言合集，大家可以點(diǎn)進(jìn)來感受一下。

怎么樣，是不是還挺有那味兒的。

說不同語言跟方言這里也有一個(gè)小技巧，就是，要給它原版語言或者方言的提示詞，比如英文版的真相只有一個(gè)就得跟它說，There’s only one truth，說粵語的話，就要這樣寫：呢個(gè)世界上有一種雀?jìng)S冇腳嘅。

不會(huì)粵語也沒關(guān)系，直接和ChatGPT幫你翻譯就行，就像這樣。

三.情感表現(xiàn)力

Seedance 1.5 Pro這次還有一個(gè)大幅度提升的能力，就是情感表現(xiàn)力。

哪怕是同一句臺(tái)詞，規(guī)定不同的情境之后，也能說出完全不一樣的感覺。

提示詞非常簡(jiǎn)單，就一句話。

這個(gè)表演合集，大家也可以品鑒一下。

我自己看這些表演的時(shí)候，有好幾個(gè)瞬間都感覺，我是不是正在看什么豪門真假千金的短劇片段。

因?yàn)樗娴哪苎莩鰜碜旖穷澏叮宦暲浜撸ばθ獠恍Γ劬\里咕嚕轉(zhuǎn)，倒吸一口涼氣，這些短劇中熟悉而微妙的細(xì)節(jié)。

而且聲線也會(huì)跟著不同的情緒變化，很有代入感。

就感覺，Seedance 1.5 Pro已經(jīng)可以進(jìn)軍短劇界了。。。

而且更強(qiáng)的是，哪怕我只是給它一句話，不加別的提示，它也能夠根據(jù)這句話的內(nèi)容，給我配一段合適的表演，直接一條過。

就是，現(xiàn)實(shí)中的演員都沒這么省心好吧。。。

而且這個(gè)情感表現(xiàn)力不只是體現(xiàn)在臺(tái)詞上，而是包括配樂，音效，運(yùn)鏡，各種能力和細(xì)節(jié)綜合起來，最終實(shí)現(xiàn)你想要的效果。

比如這個(gè)第一視角駕駛戰(zhàn)斗機(jī)的片段，所有的聲畫元素都綜合起來，就是一段效果非常豐富，非常有沉浸感的視頻。

之前要在剪輯軟件里倒騰一大通，現(xiàn)在一鍵直出。

沒什么可說的，Seedance NB。。。

這次會(huì)上，他們還提到了一個(gè)很有意思的能力，沒上線，但我非常期待，就是draft樣片。

什么意思呢，就是在成片之前，先給你一個(gè)較低分辨率的draft樣片，讓你可以鎖定這個(gè)畫面中的關(guān)鍵元素，等你修改完確認(rèn)沒問題之后，它再幫你生成高清晰度的成片。

也就是，減少抽卡次數(shù)，精準(zhǔn)鎖定效果，實(shí)在是一個(gè)對(duì)于錢包和時(shí)間都非常友好的功能。

快上吧孩子已經(jīng)等不及了。。。

最后，來總結(jié)一下這次的Seedance 1.5 Pro更新。

雖然最近視頻模型集體從默片時(shí)代跨入有聲時(shí)代，可以說是前狼后虎，但在這種局面之下，我覺得，1.5 Pro依然很能打。

它的優(yōu)勢(shì)，除了能夠滿足方言這種更加細(xì)粒度和個(gè)性化的需求之外，更重要的是，真正讓聲畫的結(jié)合做到了1+1大于2的效果。

我們都說，電影是聲畫的藝術(shù)。

這次的更新，就讓畫面，臺(tái)詞，音效，節(jié)奏，情緒，都能很好地融合在一個(gè)視頻里，輸出一個(gè)廣告級(jí)，甚至是影視級(jí)別的成品。

這意味著，生成出來的不再是只有畫面加上簡(jiǎn)單音效的半成品，而是可以直接上剪輯臺(tái)的素材。

這對(duì)于AI視頻的工業(yè)化，是一個(gè)巨大的提升。

再往上一層，甚至對(duì)于AI視頻的創(chuàng)作方式和理念來說，也是一個(gè)巨大的提升。

以后的創(chuàng)作，就不再只是考慮畫面如何了，聲音也會(huì)一起納入考慮的范疇。

就會(huì)出現(xiàn)新的提示詞方式、新的視頻形態(tài)、新的制作流程，進(jìn)而引發(fā)，新的生產(chǎn)力變革。

新的風(fēng)暴已經(jīng)出現(xiàn)。

而我真的，非常期待。

以上，既然看到這里了，如果覺得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克、水杉

>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.