![]()
智東西
作者 陳駿達(dá)
編輯 漠影
智東西12月18日?qǐng)?bào)道,近日,字節(jié)旗下的內(nèi)容創(chuàng)作Agent小云雀首發(fā)上線了字節(jié)的最新視頻模型Seedance 1.5 pro。這款模型最大的特點(diǎn),就是不再僅限于畫面生成,而是能夠更好地理解場(chǎng)景、同步生成聲音、還原動(dòng)作節(jié)奏,實(shí)現(xiàn)真正意義上的音畫同步,帶來更具沉浸感的視頻體驗(yàn)。
這兩天,我們?cè)谛≡迫钢袑?duì)Seedance 1.5 pro的能力進(jìn)行了體驗(yàn),在歷經(jīng)數(shù)十個(gè)視頻的深度使用后,我們也對(duì)新模型的特點(diǎn)有了更多的理解。
在小云雀里,Seedance 1.5 pro通過具體的創(chuàng)作功能對(duì)外開放。在交互層面,小云雀并未刻意強(qiáng)調(diào)模型技術(shù)細(xì)節(jié),而是以“沉浸式短片”等場(chǎng)景化入口來承載模型能力,這也延續(xù)了其一貫定位——“一句話做爆款視頻”,讓零基礎(chǔ)用戶也能低門檻上手的AI 視頻創(chuàng)作工具。
![]()
▲目前小云雀上線了App和Web端
據(jù)悉,小云雀很快會(huì)把最新模型用于 “智能生視頻” 和 “爆款視頻復(fù)刻”這兩個(gè)主要功能,通過模型硬實(shí)力的提升,進(jìn)一步降低創(chuàng)作門檻。
與市面上許多模型相比,Seedance 1.5 pro的音畫同步精度大幅提升,從人物口型到環(huán)境音,模型可以實(shí)現(xiàn)高精度的時(shí)序?qū)R,讓畫面和聲音完美契合,遠(yuǎn)離過去常見的“偽同步”問題。模型針對(duì)中文場(chǎng)景優(yōu)化,懂得說普通話,也能說四川話、粵語等方言。
此外,這款模型還有超強(qiáng)的指令遵循能力,無論是專業(yè)影視術(shù)語,還是多重約束條件,模型都能理解并準(zhǔn)確生成,降低了創(chuàng)作的隨機(jī)性,提高了成片率。
正是在這些功能的加持下,我們開展了系統(tǒng)實(shí)測(cè),從日常生活場(chǎng)景到高難度影視特效,小云雀+Seedance 1.5 pro的組合,真的讓“普通人也能拍大片”,不再是一句口號(hào)。
一、實(shí)現(xiàn)高精度音畫同步,還能流利說粵語、四川話
雖然目前不少視頻模型都支持音畫同步生成的類似功能,但更多停留在形式同步而非真實(shí)同步。
常見的翻車場(chǎng)景包括人物說話時(shí)聲音已出現(xiàn),但口型仍滯后半拍,還有一些場(chǎng)景里,環(huán)境音只是持續(xù)鋪底,與畫面動(dòng)作幾乎無關(guān)。這類“偽同步”本質(zhì)仍是音頻后置拼接,容易讓觀眾瞬間出戲,難以達(dá)到真實(shí)、沉浸的觀感。
那么,Seedance 1.5 pro在這方面的表現(xiàn)究竟如何?我們準(zhǔn)備了幾個(gè)高難度的提示詞。
第一段提示詞考察了口型、環(huán)境音和動(dòng)作音的準(zhǔn)確同步:
一名夜市攤主邊翻烤串邊大聲吆喝“孜然要不要多點(diǎn)?”,烤串翻面時(shí)發(fā)出“滋啦”聲,全程手、嘴、聲音嚴(yán)格同步,真實(shí)街頭風(fēng)格。
可以看到,視頻里的“滋啦聲”精準(zhǔn)出現(xiàn)在翻串瞬間,吆喝時(shí)嘴型也和說話內(nèi)容完全一致。這顯示出,Seedance 1.5 pro在音畫同步精度上表現(xiàn)可靠,能夠較好地實(shí)現(xiàn)多細(xì)節(jié)的時(shí)空對(duì)齊。
下面段提示詞是對(duì)“聲畫時(shí)序感”的專項(xiàng)測(cè)試,說白了就是考察AI懂不懂“事兒得一件一件發(fā)生”。我們?cè)O(shè)計(jì)了一個(gè)這樣的場(chǎng)景:
空曠工廠中,一枚油桶被子彈擊中,先有金屬穿孔聲,0.5秒后火焰噴出并爆炸,余音在空曠空間中回蕩。
Seedance 1.5 pro對(duì)上述提示詞做到了準(zhǔn)確還原,表明了模型已經(jīng)具備更高階的聲畫同步生成能力。
從前面的案例我們也能感受到,Seedance 1.5 pro可以準(zhǔn)確地遵循復(fù)雜的提示詞。其實(shí),在創(chuàng)作AI視頻時(shí),一大痛點(diǎn)就是生成效果的不穩(wěn)定。Seedance 1.5 pro的強(qiáng)指令遵循能力緩解了這一問題,極大降低用戶“抽卡”廢片率。
首先來試試涉及專業(yè)影視制作術(shù)語的提示詞,模型只有理解了這些術(shù)語,才能真正成為影視制作者的幫手。
鏡頭從俯拍緩慢下移,在人物抬頭瞬間切換為近景,人物右手抬起幅度不超過肩膀,光線從冷色逐漸轉(zhuǎn)為暖色,整體節(jié)奏克制、電影感。
這些術(shù)語并沒有難倒Seedance 1.5 pro,運(yùn)鏡要求得到了準(zhǔn)確的呈現(xiàn),不過,不知為何模型選擇將畫面處理提示詞中并未提及的動(dòng)漫風(fēng)格。
多重約束條件的加入,對(duì)模型的指令遵循能力提出了更高的要求。我們的提示詞如下:
一個(gè)緊張但不驚慌的年輕人,快步走但不奔跑,表情克制、呼吸略快,鏡頭輕微手持感但不晃。
模型生成的結(jié)果不僅同時(shí)滿足了提示詞里的要求,還配上了符合“緊張感”的背景音,呈現(xiàn)出很強(qiáng)的理解力和指令遵循。
最后,我們又給模型挖了個(gè)坑。下方提示詞是一個(gè)反向提示詞陷阱,考察模型能不能真正理解該做什么,不該做什么,并處理好看似相互沖突的限定詞之間的關(guān)系:
人物講話,情緒激動(dòng),但不要張大嘴,不要揮舞手臂,背景十分嘈雜,但人聲清晰。
單從生成效果來看,Seedance 1.5 pro的畫面真實(shí),音畫同步準(zhǔn)確,不過遺漏了提示詞里對(duì)“不要揮舞手臂”的限定,還原度可以打個(gè)8分。
值得注意的是,Seedance 1.5 pro還是一個(gè)更懂中文語境的模型。它專為中文語境深度調(diào)優(yōu),同時(shí)呈現(xiàn)中文發(fā)音的口型與面部微表情。
在此前燒烤攤的案例里,我們已經(jīng)看到Seedance 1.5 pro說普通話的能力,這一模型還支持了粵語、四川話等多種方言的生成,只要在提示詞里進(jìn)行限定即可。
下方畫面里,模型生成了一位四川大叔笑著說:“你莫慌嘛,這個(gè)事情好整得很。”可以看到,人物的嘴型自然,說話確實(shí)帶著特色的川味兒拖音。
Seedance 1.5 pro也可以說粵語:
整體看下來,Seedance 1.5 pro給人的感受是,很多過去容易翻車的細(xì)節(jié),開始變得可控了。音畫不同步、時(shí)序錯(cuò)亂、提示詞理解走偏,這些AI視頻里最影響觀感的問題,在這代模型里明顯收斂了不少。
雖然偶爾還是會(huì)出現(xiàn)小瑕疵,但已經(jīng)不再是那種“全靠運(yùn)氣”的狀態(tài)。也正因?yàn)榛A(chǔ)穩(wěn)定下來,Seedance 1.5 pro才開始顯露出更大的想象空間。
二、復(fù)刻爆火“切水果”特效,普通人也能一句話成片
如果說前一部分驗(yàn)證的是 Seedance 1.5 pro的“底層能力”,那這一部分,我們更關(guān)心一個(gè)現(xiàn)實(shí)問題:普通用戶拿它,能不能真的做出像樣的視頻?
我們把測(cè)試重點(diǎn)放在了小云雀廣受歡迎的兩項(xiàng)功能上——爆款視頻復(fù)刻和智能生視頻。這兩者的共同點(diǎn)在于:它們都試圖把專業(yè)創(chuàng)作能力,壓縮到“一句話輸入”的門檻內(nèi)。
先說爆款視頻復(fù)刻。這一功能的使用方式很簡(jiǎn)單:丟進(jìn)一個(gè)視頻鏈接或文件,補(bǔ)充一句簡(jiǎn)單描述,模型就會(huì)生成一條結(jié)構(gòu)、節(jié)奏、風(fēng)格高度接近的新視頻。
我們選了一條典型的短視頻平臺(tái)爆款A(yù)I視頻作為樣本——切水果。這類視頻幾乎可以算是AI短視頻里的“經(jīng)典母題”:畫面極簡(jiǎn),背景干凈,主體始終居中,鋒利的刀具落下,水果被整齊切開,伴隨清脆、解壓的聲音節(jié)奏。
![]()
它對(duì)劇情幾乎沒有要求,卻對(duì)節(jié)奏、手感、聲音同步和視覺爽點(diǎn)極其敏感,是檢驗(yàn)視頻模型理解畫面能力的絕佳素材。
我們將這條爆款視頻的鏈接直接輸入小云雀,只在提示詞中加了一句非常簡(jiǎn)單的要求:“復(fù)刻視頻的整體節(jié)奏和爽感結(jié)構(gòu),水果種類和切法可以變化。”
AI生成的視頻在畫面層面并沒有照抄原作:水果換成了草莓,刀具形態(tài)略有變化,切開的方式也并非完全一致。但最關(guān)鍵的“爽點(diǎn)”被完整保留了下來,聲音精準(zhǔn)匹配了視覺動(dòng)作,帶來的解壓感與原視頻高度相似。
我們還可以用這一功能來復(fù)刻一些影視作品里的經(jīng)典名場(chǎng)面。在下方這個(gè)視頻里,我們上傳了2015年電影《夏洛特?zé)馈返慕?jīng)典網(wǎng)絡(luò)梗“馬東梅”,但要求把主角換成幾只狗。
小云雀很好地還原了原作中的情緒,背景的生活化氣息也和原場(chǎng)景很匹配。兩只小狗的形象也選得十分符合“人設(shè)”,尤其是哈巴狗慵懶的樣子,和原作里大爺?shù)臍赓|(zhì)很貼切。
為了確認(rèn)爆款視頻復(fù)刻究竟是在抄作業(yè),還是真的理解畫面,我們進(jìn)行了這樣的測(cè)試:輸入的是一條美食視頻的畫面,但要求生成內(nèi)容改成汽車的介紹,并借鑒拍攝手法。如果模型只是機(jī)械地模仿畫面結(jié)構(gòu),這一步基本必翻車。
但實(shí)際生成結(jié)果卻出乎意料,模型懂得把原本用于刺激味覺的慢鏡頭特寫和多種運(yùn)鏡手法,使用到對(duì)車輛細(xì)節(jié)的拍攝過程中。這說明模型已經(jīng)開始理解爆款視頻背后的通用公式,而不是停留在表層模仿。
爆款復(fù)刻解決的是“站在成功案例肩膀上再創(chuàng)作”,而智能生視頻更像是在嘗試一件更激進(jìn)的事:讓用戶從零開始,只用一句話就拿到一條完整的視頻成片。這次升級(jí)后,小云雀首次支持一次性生成三到五分鐘的完整視頻,不需要分段生成、也不需要用戶再做復(fù)雜拼接。
我們首先測(cè)試的是一句話 Vlog。提示詞非常簡(jiǎn)單,只描述了“普通人下班后的城市夜晚,真實(shí)、不精致、有生活氣息”。
生成視頻時(shí),小云雀會(huì)和用戶確認(rèn)基本信息,比如時(shí)長(zhǎng)、比例等等,我們只要簡(jiǎn)單點(diǎn)擊就可以完成設(shè)置和生成小云雀能夠理解用戶意圖,更新相關(guān)信息,然后進(jìn)行劇本和畫面的生成。
![]()
等待大約5分鐘后,模型就打造出了如下Vlog。可以看到,無論是配樂還是畫面都符合我們的主題。畫面中有些細(xì)節(jié)還是出現(xiàn)了不符合現(xiàn)實(shí)的錯(cuò)誤,但對(duì)于一個(gè)一句話生成的視頻而言,這已經(jīng)做得不錯(cuò)了。
接下來是更偏商業(yè)的廣告短片測(cè)試。我們要求生成一條30秒左右的無線耳機(jī)廣告,核心賣點(diǎn)是降噪和通勤場(chǎng)景。小云雀打造的通勤場(chǎng)景畫面真實(shí),也突出了產(chǎn)品的關(guān)鍵賣點(diǎn)。
如果對(duì)于個(gè)別鏡頭的生成效果不滿意,我們可以在分鏡編輯功能里描述自己的要求,讓AI重新生成、替換畫面。
![]()
最后,我們把難度拉到敘事層面,嘗試生成一段偏電影感的短篇故事,只給出一個(gè)模糊主題——關(guān)于離開與回頭。
小云雀同樣能自主厘清所需的畫面和旁白,在不同的拍攝角度、畫面內(nèi)容間自主切換,最后生成一段具有連貫敘事邏輯的畫面。
綜合這一輪測(cè)試來看,小云雀和Seedance 1.5 pro 的搭配,并不只是畫質(zhì)提升或風(fēng)格更穩(wěn)定,而是讓“拍一條像樣的視頻”這件事,變得不再完全依賴專業(yè)技能。
結(jié)語:視頻創(chuàng)作普惠化時(shí)代已來
小云雀+Seedance 1.5 pro的組合,成功地將模型能力落地到實(shí)際使用場(chǎng)景,讓視頻創(chuàng)作不再依賴專業(yè)技能或復(fù)雜操作,讓更多普通用戶也能輕松創(chuàng)作出視覺和聽覺都令人滿意的作品。不僅讓“小白拍大片”從口號(hào)變?yōu)楝F(xiàn)實(shí),也為視頻生成的發(fā)展提供了一種新的思路:更懂創(chuàng)作者意圖,更貼近真實(shí)場(chǎng)景,更易于上手和應(yīng)用。
未來,隨著更多功能和場(chǎng)景的拓展,這套組合有望成為創(chuàng)作者手中不可或缺的工具,推動(dòng)視頻創(chuàng)作的進(jìn)一步普惠化。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.