出品|網(wǎng)易科技《態(tài)度》欄目
作者|漢雨棣
編輯|丁廣勝
2026年2月,隨著字節(jié)跳動(dòng)旗下即夢(mèng)AI(Jimeng AI)正式全量上線新一代視頻生成模型Seedance 2.0,國(guó)內(nèi)AI視頻賽道再次迎來(lái)了“地震級(jí)”的更新。
如果說(shuō)去年的Sora和PixelDance開(kāi)啟了AI視頻的“默片時(shí)代”,那么Seedance 2.0的發(fā)布,標(biāo)志著行業(yè)正式跨入了“有聲電影”的紀(jì)元。
作為字節(jié)跳動(dòng)在多模態(tài)領(lǐng)域的最新成果,Seedance 2.0憑借其獨(dú)創(chuàng)的音畫(huà)同步生成技術(shù),迅速在中文互聯(lián)網(wǎng)引發(fā)了一場(chǎng)關(guān)于“AI創(chuàng)作奇點(diǎn)”的輿論熱潮。
測(cè)評(píng)博主們對(duì)Seedance的測(cè)評(píng)主要集中在這幾點(diǎn):
1、復(fù)雜的運(yùn)鏡指令
2、音畫(huà)同步生成
3、動(dòng)作一致性。
國(guó)內(nèi)權(quán)威視頻制作博主“影視颶風(fēng)”在實(shí)測(cè)后指出,不同于以往AI模型只能生成單一視角的固定鏡頭,Seedance 2.0能夠理解復(fù)雜的運(yùn)鏡指令。在測(cè)試中,模型成功執(zhí)行了從特寫拉至全景、環(huán)繞拍攝等高難度動(dòng)作,且在鏡頭運(yùn)動(dòng)過(guò)程中,主體人物與背景的物理一致性保持得相當(dāng)出色。這種“指哪打哪”的操控感,被評(píng)價(jià)為打破了AI視頻“隨機(jī)抽卡”的魔咒,讓創(chuàng)作者從單純的“提示詞輸入者”晉升為擁有調(diào)度權(quán)的“導(dǎo)演”。

圖為蜜雪冰城大戰(zhàn)外企咖啡店,圖源 @影視颶風(fēng)
有評(píng)論稱,該模型在生成視頻時(shí)可同步生成匹配的音效和配樂(lè),并支持角色口型同步和情緒匹配。
也有評(píng)論表示,Seedance 2.0最具顛覆性的突破,在于其攻克了AI視頻生成領(lǐng)域長(zhǎng)期存在的“動(dòng)作一致性”難題,實(shí)現(xiàn)了對(duì)復(fù)雜連續(xù)動(dòng)作指令的精準(zhǔn)跟隨。
從行業(yè)競(jìng)爭(zhēng)的維度來(lái)看,Seedance 2.0的發(fā)布也被資本市場(chǎng)視為一個(gè)重要的信號(hào)。開(kāi)源證券在最新的研報(bào)中將其稱為AI影視的“奇點(diǎn)時(shí)刻”。與此同時(shí),《每日經(jīng)濟(jì)新聞》等媒體的實(shí)測(cè)數(shù)據(jù)顯示,在同等2K畫(huà)質(zhì)下,Seedance 2.0的生成速度相比快手可靈(Kling)等競(jìng)品提升了約30%。
東方證券分析師認(rèn)為Seedance 2.0降低了專業(yè)視頻制作的門檻,讓普通用戶也能像操作儀表盤一樣控制光影、聲音和動(dòng)作,這將極大推動(dòng)B端廣告與C端個(gè)人創(chuàng)作市場(chǎng)的雙重?cái)U(kuò)容。
網(wǎng)易科技實(shí)測(cè):
首先,我們先進(jìn)行了一段廣告宣傳片級(jí)別的畫(huà)面測(cè)試,我們選取了一個(gè) 玩梗幽默 + 視覺(jué)反差風(fēng)格的小片。以下為提示詞:
鏡頭1:靈魂拷問(wèn)
畫(huà)面:快速推進(jìn)特寫,鏡頭懟臉拍男生(參考圖2),他正對(duì)著電腦一臉認(rèn)真,背景是全粉辦公室。
音效:“咻” 的一聲快速推進(jìn)音效,配合鍵盤敲擊聲驟停。
旁白(女聲,犀利調(diào)侃):
“Eassy,說(shuō)吧,你想找個(gè)什么樣的女朋友?”
鏡頭2:極限二選一
畫(huà)面:
先切到左側(cè)粉裙女生(參考圖3),鏡頭定格,彈出文字標(biāo)簽:「事事隨你」,配軟萌 BGM。
再切到右側(cè)黑西裝女生(參考圖3),鏡頭定格,彈出文字標(biāo)簽:「很有主見(jiàn)」,BGM 瞬間切換成酷颯電子音。
鏡頭拉遠(yuǎn),男生從畫(huà)面上方 “啪嗒” 落下,坐在兩人中間(參考圖4),雙手一攤,一臉 “我是誰(shuí)我在哪” 的迷茫,開(kāi)始瘋狂撓頭。
可以看出,人物的情感和整體基調(diào)把握準(zhǔn)確,展示得很鮮明。且不同場(chǎng)景之間可以做到絲滑的銜接,AI感并不明顯。
隨后,我們對(duì)于聲音和畫(huà)面的銜接進(jìn)行了測(cè)試。我設(shè)置了一個(gè)王家衛(wèi)風(fēng)格的電影場(chǎng)景,主要驗(yàn)證多景別切換下,雨聲環(huán)境音的連續(xù)性和空間感變化,并且測(cè)試在嘈雜雨聲背景下,人物低語(yǔ)對(duì)白的清晰度與口型(側(cè)臉)同步。
以下是我的提示詞:
畫(huà)面描述 :王家衛(wèi)電影風(fēng)格,極強(qiáng)的復(fù)古膠片顆粒感,高飽和度,色彩以昏黃、墨綠和深紅為主。夜晚濕漉漉的香港老弄堂,霓虹燈牌在積水中拉出長(zhǎng)長(zhǎng)的倒影。
鏡頭序列:
【全景 】:鏡頭靜止。一條悠長(zhǎng)、狹窄且空無(wú)一人的雨巷,大雨如注。一個(gè)渺小的身影(女主)撐著透明傘緩緩走入畫(huà)面深處。
【跟拍中景】:鏡頭跟隨女主背影移動(dòng)。她身穿華麗的墨綠色花卉旗袍,腰肢搖曳。重點(diǎn)展示透明雨傘上瘋狂跳動(dòng)的雨珠,以及周圍環(huán)境的濕潤(rùn)感。
【特寫】:鏡頭聚焦在她穿著精致高跟鞋的雙腳上。一只腳踏入積水坑,濺起的水花在慢動(dòng)作中炸開(kāi),映照著霓虹光影。
【中近景】:她在一家昏暗的云吞面攤前停下腳步,身體微微側(cè)轉(zhuǎn),露出精致憂郁的側(cè)臉。雨水順著傘沿滴落。
聲音/音頻描述:
整體環(huán)境音: 持續(xù)不斷的、密集的暴雨聲(嘩啦啦),帶有明顯的空間包裹感。對(duì)話在【中近景·側(cè)臉】鏡頭時(shí):一個(gè)低沉、富有磁性的男性聲音從畫(huà)面外(右側(cè)暗處)傳來(lái),聲音不大,夾雜在雨聲中:“還不想回去?”
女主微微低頭,嘴唇輕啟,發(fā)出極輕柔、略帶嘆息的女聲(粵語(yǔ)):“不知道去哪。”
我們可以看出,Seedance2.0對(duì)于雨聲的處理基本實(shí)現(xiàn)了仿真效果,雨聲環(huán)境音在深巷中呈現(xiàn)出遠(yuǎn)聲,在近處呈現(xiàn)出打在雨傘上的“實(shí)體聲音”。高跟鞋敲擊地面、激起雨水的音效也完成了模仿。
在最后的場(chǎng)景中,人物低語(yǔ)對(duì)白的清晰度與口型(側(cè)臉)同步。王家衛(wèi)導(dǎo)演鮮明的風(fēng)格化與“氛圍感”,在畫(huà)面中得到了呈現(xiàn)。
但是也可以看到,這場(chǎng)戲的不同景別之間轉(zhuǎn)換依然不夠絲滑,從女主背影過(guò)渡到高跟鞋特寫的轉(zhuǎn)場(chǎng),仍然趕超沒(méi)有人類導(dǎo)演引以為傲的「運(yùn)鏡」能力。
最后,我們用一段指令,直接實(shí)現(xiàn)了對(duì)于敘事小說(shuō)級(jí)別的測(cè)試。我用即夢(mèng)模擬了一段《史密斯夫婦》的原劇本。以下是我的提示詞:
鏡號(hào)01:
畫(huà)面描述: 電影質(zhì)感,低照度燭光晚餐。一張精致的紅木餐桌,桌上擺著銀質(zhì)餐具和高腳杯。一位穿著白色襯衫的男士(類似布拉德·皮特側(cè)影),正拿著餐刀切牛排。他的手肘看似不經(jīng)意地向外一拐,重重地撞向桌邊一瓶開(kāi)封的紅酒瓶。酒瓶失去平衡,開(kāi)始傾斜墜落。
聲音描述 : 極度安靜的房間底噪。刀叉切割瓷盤的刺耳“滋滋”聲。突然一聲沉悶的撞擊聲(手肘碰到玻璃瓶),緊接著是瓶底摩擦桌面的“格拉”聲,聲音突然中斷(瓶子離桌)。
鏡號(hào)02:
畫(huà)面描述: 極具張力的特寫鏡頭。紅酒瓶在半空中翻轉(zhuǎn)下落,深紅色的酒液在瓶頸處激蕩,差點(diǎn)灑出。突然,一只纖細(xì)但有力的女性手臂(穿著黑色晚禮服)從畫(huà)面右側(cè)極速伸入,帶著強(qiáng)烈的動(dòng)態(tài)模糊。在瓶子落地前的最后一毫秒,她的手穩(wěn)穩(wěn)抓住了瓶身。
聲音描述: 仿佛時(shí)間靜止的低頻“嗡——”聲。紅酒在瓶子里激蕩的液體聲。緊接著是一聲極快的、銳利的破風(fēng)聲“嗖!”,與手伸出的動(dòng)作完全同步。
鏡號(hào)03:
景別: 雙人過(guò)肩鏡頭
畫(huà)面描述: 鏡頭恢復(fù)正常速度。女士面無(wú)表情,眼神冷酷,動(dòng)作輕柔地將紅酒瓶重新放回桌面上。她抬眼看了一下對(duì)面,整理了一下頭發(fā)。對(duì)面的男士手里拿著叉子停在半空,表情從驚訝轉(zhuǎn)為玩味的微笑。
聲音描述: 厚重的玻璃瓶底觸碰實(shí)木桌面的“咚”一聲悶響,非常有質(zhì)感。片刻沉默后,男士用低沉、富有磁性的聲音說(shuō):“Nice catch.”。
但在這場(chǎng)戲中,最大的問(wèn)題是在特寫鏡頭中,女士抓酒的手臂出現(xiàn)了兩次,這是AI 目前還沒(méi)有進(jìn)化掉的BUG,也是最明顯的紕漏。
此外,酒作為液體的流向正常,沒(méi)有出現(xiàn)“反重力”等違背物理學(xué)常識(shí)的情況;女主抓酒時(shí)的風(fēng)聲也非常還原。
盡管每秒的鏡頭都可以還原劇本,但整體而言,這種“質(zhì)感”并不能與原片相比。
在傳統(tǒng)模式下,一個(gè)簡(jiǎn)單的“雨夜”鏡頭需要燈光布景、攝影調(diào)度、現(xiàn)場(chǎng)收音以及后期的擬音(Foley)合成,成本高昂且周期漫長(zhǎng)。而 Seedance 2.0憑借“音畫(huà)一體”的生成能力,將這一復(fù)雜的工業(yè)協(xié)作鏈條壓縮為一次簡(jiǎn)單的“提示詞交互”。這意味著,影視制作的邊際成本正在趨近于零。
對(duì)于行業(yè)而言,這種沖擊是結(jié)構(gòu)性的:初級(jí)概念設(shè)計(jì)、分鏡繪制以及基礎(chǔ)音效師的生存空間將被大幅擠壓;而創(chuàng)作的門檻被徹底倒置——未來(lái)的核心競(jìng)爭(zhēng)力將不再是操作攝影機(jī)或調(diào)音臺(tái)的技術(shù)壁壘,而是“審美決策力”與“敘事想象力”。
然而,在一片贊譽(yù)聲中,我們也必須客觀審視Seedance 2.0當(dāng)前存在的局限性。經(jīng)過(guò)我們的測(cè)評(píng),畫(huà)面仍然會(huì)出現(xiàn)一些閃回、重復(fù)等低級(jí)錯(cuò)誤,也有部分用戶反饋,在極少數(shù)情況下,生成的背景音中會(huì)出現(xiàn)與畫(huà)面無(wú)關(guān)的雜音或模糊人聲,這種“幻覺(jué)”現(xiàn)象雖然出現(xiàn)頻率不高,但也提醒我們?cè)谏虡I(yè)交付時(shí)必須進(jìn)行嚴(yán)格的人工審核。
同時(shí),由于音畫(huà)同步計(jì)算對(duì)算力要求極高,目前普通用戶在高峰期生成視頻往往面臨較長(zhǎng)的排隊(duì)時(shí)間,且積分消耗是舊版模型的兩倍以上,這對(duì)于高頻使用的企業(yè)用戶來(lái)說(shuō),是一筆需要考量的成本賬。
