![]()
AI 視頻最近的玩法特別多,頗有上半年 AI 生圖火起來的那種感覺。
![]()
▲ 視頻來源:https://x.com/pabloprompt/status/2000706593579573301/
之前火過一遍的 AI 探班視頻,隨著模型能力的提升,現(xiàn)在又開始變成了社交媒體上的熱門玩法。
不過徹底摒棄了以往復(fù)雜的工作流,有更好用的模型,甚至是簡單幾句提示詞就能復(fù)刻,視頻里的同款真實(shí)感。
視頻生成模型的優(yōu)化,不斷地在降低,對(duì)我們?nèi)祟愄崾驹~工程的依賴,同時(shí)還帶來了更穩(wěn)定的一致性保持。
![]()
豆包最近更新了新一代的音視頻生成模型,豆包 Seedance 1.5 Pro,在音視頻的生成上也有了明顯的改善。現(xiàn)在它生成的視頻,支持中文、英文、日文、韓語、西班牙語等語種的不同聲韻,同時(shí)針對(duì)中文場景,還能生成四川話、粵語等方言。
不僅能說,而且還能模仿不同語言的口音。有聲視頻是 Seedance 1.5 Pro 的一大突破,在視頻生成本身,結(jié)合音頻的音畫同步,以及電影級(jí)的運(yùn)鏡兩項(xiàng)優(yōu)化,讓 AI 視頻看起來更真實(shí)、更細(xì)致。
目前該模型已上線豆包 APP,只需要打開豆包,點(diǎn)擊「照片動(dòng)起來」,選擇 1.5 Pro 模型,就能體驗(yàn)到 AI 生視頻的快樂。此外,在火山引擎體驗(yàn)中心、即夢(mèng) AI 也可以體驗(yàn)。
我們也提前測試了一波,Seedance 1.5 Pro 完全可以說,是現(xiàn)在手邊能拿起來直接用,能同時(shí)融合聲音,表現(xiàn)最好的視頻生成模型。
聽聽「臣妾做不到啊」的原音重現(xiàn)
《瘋狂動(dòng)物城 2 》上映之前,網(wǎng)友們對(duì)配音演員的選擇,有很大的爭議。現(xiàn)在 Seedance 1.5 Pro 的語音生成有多牛,我們可以看看之前網(wǎng)上很火的甄嬛傳和讓子彈飛,兩個(gè)視頻的配音,讓它來完成是什么樣。
從網(wǎng)上找了一張影視劇的截圖,然后丟給豆包,我們甚至什么提示詞都沒有輸入,它就能做到自動(dòng)識(shí)別視頻畫面,生成一段有感情的臺(tái)詞戲。
![]()
![]()
▲在豆包 App 內(nèi),使用「照片動(dòng)起來」,上傳首幀,生成視頻
皇后和張麻子都演得太像了,這和幾個(gè)月前的視頻生成模型,完全不是一個(gè) Level。 以前那些 AI 視頻,口型對(duì)不上,或者聲音有機(jī)械感的問題,現(xiàn)在都解決了。
但普通話對(duì)它來說都是基本操作,方言的表現(xiàn)才是 Seedance 1.5 Pro 打敗那些國外模型的獨(dú)門秘籍。就像 Sora 2 和 Google Veo 3.1 雖然在畫面生成上被認(rèn)為是行業(yè)領(lǐng)先,但如果把上面這兩張首幀圖片丟給它們。Sora 和 Veo 3 都理解不了甄嬛傳的經(jīng)典臺(tái)詞,和張麻子這流利的四川話口音。
全運(yùn)會(huì)剛結(jié)束,如果你也在廣州,一定忘不了「活力大灣區(qū),魅力新廣州」這句魔性的口號(hào)。我們生成了一張站在廣州塔前面的照片,然后在豆包「照片動(dòng)起來」里面輸入提示詞。
畫面里的這個(gè)男生正在面向鏡頭,向大家介紹他身后的廣州塔,他用粵語說「活力大灣區(qū),魅力新廣州,我身后面嗰個(gè)就系廣州塔喇!」
![]()
這個(gè)粵語水平怎么樣,比多鄰國里面的早茶四件套,蝦餃、腸粉、燒賣、豉汁排骨,聽著是不是要舒服一點(diǎn)。
而且,Seedance 1.5 Pro 有一個(gè)好處是「視聽一致性」,意思是它能根據(jù)畫面的內(nèi)容,理解視頻想要表達(dá)的故事,來自動(dòng)生成對(duì)應(yīng)的配音。
舉個(gè)例子,當(dāng)我們上傳了一張明顯是外國人的圖片時(shí),我們不輸入任何提示詞,它會(huì)自動(dòng)使用英文來配音,并且讓畫面里的角色,說合適的臺(tái)詞。
即便是在中餐廳面館里吃面的威爾·史密斯,Seedance 1.5 Pro 還是讓他自動(dòng)用英文來說話,而且這個(gè)吃面姿勢(shì)也完全對(duì)了。
![]()
同樣地,我們用它復(fù)刻了 AI 片場探班的視頻,直接上傳一張圖片給豆包,不輸入任何提示詞,它會(huì)自動(dòng)用中文來生成視頻,還配上了臺(tái)詞,「哇,跟阿凡達(dá)合影啦!」
![]()
當(dāng)我們重新生成時(shí),Seedance 1.5 Pro 還把照片里的男生識(shí)別成韓國人,然后生成了一段講韓語的視頻。不過,說實(shí)話,他確實(shí)是有點(diǎn)韓國歐巴的感覺。
![]()
豆包視頻生成還有一點(diǎn)特別好,是我們可以直接把生成的視頻,下載為動(dòng)圖保存在手機(jī)。配合現(xiàn)在模型更強(qiáng)大的多模態(tài)理解能力,以及能生成更真實(shí)的畫面,手機(jī)里那些靜態(tài)的圖片,讓它們「真實(shí)地」動(dòng)起來,然后發(fā)到微信朋友圈,可能真的會(huì)有人看不出來。
![]()
AI 巨人照加上無人機(jī)運(yùn)鏡,太酷啦
敘事是 Seedance 1.5 Pro 更新的一個(gè)關(guān)鍵詞,它的意思是這些 AI 視頻不只是單純的生成,而是有了一定的故事感,能夠?qū)σ磉_(dá)的內(nèi)容進(jìn)行理解,讓 AI 生成的視頻,更像是一個(gè)有血肉的作品。
一個(gè)好的視頻作品,燈光色彩、音效要出色。技術(shù)性的工作也少不了,運(yùn)鏡就是在音畫之外,不可忽視的鏡頭語言。
Seedance 1.5 Pro 在這次更新里,在長鏡頭跟隨、希區(qū)柯克變焦這些電影級(jí)運(yùn)鏡都有了大幅度的提升。
像是之前我們做的子彈時(shí)間,現(xiàn)在上傳一張圖片到豆包,調(diào)整一下提示詞,子彈時(shí)間特效也自由了。

▲提示詞:子彈時(shí)間效果。時(shí)間完全凍結(jié)。舞者懸浮在半空中,對(duì)抗重力。[定格畫面]:舞者、她的頭發(fā)和她的藍(lán)色裙子絕對(duì)靜止,就像時(shí)間凍結(jié)中的 3D 雕像。攝像機(jī)圍繞懸浮的舞者水平軌道運(yùn)行。背景建筑物改變透視(視差),而舞者保持鎖定在中心。頭發(fā)保持僵硬并指向上方,沒有飄動(dòng)。裙子布料是固體的并凍結(jié)保持不動(dòng)。 電影級(jí)照明,高質(zhì)量。
我們把同樣的照片交給 Veo 3.1 處理時(shí),它生成的子彈時(shí)間也很難做到保持角色一動(dòng)不動(dòng)。因?yàn)閷?duì)大多數(shù)視頻生成模型來說,識(shí)別到頭發(fā),就一定要飄動(dòng);看到裙邊也要擺動(dòng);所以精準(zhǔn)的運(yùn)鏡控制和調(diào)度,也是區(qū)分不同模型的一項(xiàng)重要能力。
還有這個(gè)前段時(shí)間很火的 AI 巨人照,現(xiàn)在我們也可以用超酷炫的無人機(jī)俯沖和穿越運(yùn)鏡,來凸顯視頻里的巨人。

▲提示詞:電影級(jí) FPV 無人機(jī)鏡頭,極致動(dòng)態(tài)運(yùn)鏡:從高空鳥瞰開始,無人機(jī)急速俯沖向一位坐在城市街道中央的巨人,紅磚建筑環(huán)繞兩側(cè)。巨人保持完全靜止的姿勢(shì),身體、頭部、四肢均不移動(dòng),如同雕塑般定格。無人機(jī)以特技飛行動(dòng)作環(huán)繞巨人靜止的身體——盤旋繞腿、從手臂下穿越、沿軀干螺旋上升,然后拉遠(yuǎn)展現(xiàn)巨人與微小車輛(紅色雙層巴士、黑色出租車)和行人的尺寸對(duì)比。超寫實(shí)合成。比例 16:9,時(shí)長 5s,模型 1.5 Pro。
從參考圖轉(zhuǎn)視頻,能更好的控制視頻的輸出效果。但 Seedance 1.5 Pro 的文生視頻能力也毫不遜色。
![]()
根據(jù)字節(jié)公開的 Seedance 1.5 pro,在內(nèi)部基準(zhǔn)測試 SeedVideoBench-1.5 的模型表現(xiàn)結(jié)果,顯示無論是 T2V 文生視頻,還是 I2V 首幀轉(zhuǎn)視頻,和可靈 2.6、Google Veo 3.1 等模型對(duì)比,Seedance 1.5 Pro 的表現(xiàn)都有一定優(yōu)勢(shì)。
尤其是在音頻生成和音畫同步上,Seedance 1.5 Pro 幾乎是碾壓性的存在。
我們嘗試讓瘋狂動(dòng)物城朱迪和哪吒一起,一個(gè)普通話,一個(gè)四川話,演了一出 10s 的小劇場。
![]()
▲提示詞:[0s-4s] 朱迪指著哪吒說(普通話,語速快,嚴(yán)肅): “那個(gè)小孩!站住!雙手抱頭!根據(jù)《動(dòng)物城交通法》,你剛才風(fēng)火輪超速了!” ? [5s-10s] 哪吒(四川話,翻白眼,語速慢,拖長音): “哎呀,莫挨老子!我是踩的風(fēng)火輪,又沒燒你的油。瓜娃子,管得寬!”
這個(gè)視頻的風(fēng)格和內(nèi)容,和我們平時(shí)看的動(dòng)畫片風(fēng)格真的很類似。當(dāng)義正辭嚴(yán)的兔朱迪警官,抓到哪吒的時(shí)候,那嚴(yán)肅的表情和語氣;還有哪吒用四川話說臺(tái)詞,也能對(duì)上嘴型。
APPSO 今年前前后后也測試了有十多款 AI 視頻生成的模型,我們?cè)谑褂玫倪^程中,發(fā)現(xiàn)很多以前的測試案例,放到現(xiàn)在已經(jīng)是 Out 了。
一開始是魯迅來了,都得讓他說兩句英文;能生成一個(gè) 5s 流暢播放的視頻,就謝天謝地。現(xiàn)在的模型,不僅支持中、英、日、韓等多語種,廣東話、四川話這些特色方言都能同步生成。
恍然間,AI 視頻的進(jìn)化,已經(jīng)從按年計(jì)算變成了按月計(jì)算。昨天的突破,今天就是及格線。
![]()
▲ Seedance 1.5 Pro 案例截圖|來源:字節(jié)跳動(dòng) Seed 官網(wǎng)
Seedance 1.5 Pro 這次更新,可能又會(huì)變成新的及格線。但至少現(xiàn)在我們看到了,有了音畫同步后更有感染力的視頻;多語種和方言的支持,也讓 AI 視頻更有「生活味」;專業(yè)的電影級(jí)運(yùn)鏡和智能理解能力,讓一些高難度的復(fù)雜場景,也有機(jī)會(huì)通過 AI 生成。
當(dāng)技術(shù)能夠理解畫面背后的故事,自動(dòng)匹配合適的語言和情緒,我們距離想象力和創(chuàng)作自由的時(shí)代,又近了一大步。
實(shí)現(xiàn)這一切需要什么? 一張圖片或者一句提示詞。
打開豆包 APP,上傳/輸入,生成,就這么簡單。每張照片都是待激活的故事,每次上傳都是創(chuàng)作的開始。
步驟越少,門檻越低,創(chuàng)作者越多,用 AI 視頻實(shí)現(xiàn)創(chuàng)意就該是這樣。
文章內(nèi)視頻可點(diǎn)擊該鏈接前往觀看:https://mp.weixin.qq.com/s/em_E90Q7AdydHsNwVkAMTQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.