網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

網(wǎng)易智能實(shí)測(cè)：用爆火的即夢(mèng)Seedance2.0拍王家衛(wèi)和《史密斯夫婦》

2026-02-09 16:47:22　來(lái)源: 網(wǎng)易智能

北京舉報(bào)

分享至

出品|網(wǎng)易科技《態(tài)度》欄目

作者|漢雨棣

編輯|丁廣勝

2026年2月，隨著字節(jié)跳動(dòng)旗下即夢(mèng)AI（Jimeng AI）正式全量上線新一代視頻生成模型Seedance 2.0，國(guó)內(nèi)AI視頻賽道再次迎來(lái)了“地震級(jí)”的更新。

如果說(shuō)去年的Sora和PixelDance開(kāi)啟了AI視頻的“默片時(shí)代”，那么Seedance 2.0的發(fā)布，標(biāo)志著行業(yè)正式跨入了“有聲電影”的紀(jì)元。

作為字節(jié)跳動(dòng)在多模態(tài)領(lǐng)域的最新成果，Seedance 2.0憑借其獨(dú)創(chuàng)的音畫(huà)同步生成技術(shù)，迅速在中文互聯(lián)網(wǎng)引發(fā)了一場(chǎng)關(guān)于“AI創(chuàng)作奇點(diǎn)”的輿論熱潮。

測(cè)評(píng)博主們對(duì)Seedance的測(cè)評(píng)主要集中在這幾點(diǎn)：

1、復(fù)雜的運(yùn)鏡指令

2、音畫(huà)同步生成

3、動(dòng)作一致性。

國(guó)內(nèi)權(quán)威視頻制作博主“影視颶風(fēng)”在實(shí)測(cè)后指出，不同于以往AI模型只能生成單一視角的固定鏡頭，Seedance 2.0能夠理解復(fù)雜的運(yùn)鏡指令。在測(cè)試中，模型成功執(zhí)行了從特寫拉至全景、環(huán)繞拍攝等高難度動(dòng)作，且在鏡頭運(yùn)動(dòng)過(guò)程中，主體人物與背景的物理一致性保持得相當(dāng)出色。這種“指哪打哪”的操控感，被評(píng)價(jià)為打破了AI視頻“隨機(jī)抽卡”的魔咒，讓創(chuàng)作者從單純的“提示詞輸入者”晉升為擁有調(diào)度權(quán)的“導(dǎo)演”。

圖為蜜雪冰城大戰(zhàn)外企咖啡店，圖源 @影視颶風(fēng)

有評(píng)論稱，該模型在生成視頻時(shí)可同步生成匹配的音效和配樂(lè)，并支持角色口型同步和情緒匹配。

也有評(píng)論表示，Seedance 2.0最具顛覆性的突破，在于其攻克了AI視頻生成領(lǐng)域長(zhǎng)期存在的“動(dòng)作一致性”難題，實(shí)現(xiàn)了對(duì)復(fù)雜連續(xù)動(dòng)作指令的精準(zhǔn)跟隨。

從行業(yè)競(jìng)爭(zhēng)的維度來(lái)看，Seedance 2.0的發(fā)布也被資本市場(chǎng)視為一個(gè)重要的信號(hào)。開(kāi)源證券在最新的研報(bào)中將其稱為AI影視的“奇點(diǎn)時(shí)刻”。與此同時(shí)，《每日經(jīng)濟(jì)新聞》等媒體的實(shí)測(cè)數(shù)據(jù)顯示，在同等2K畫(huà)質(zhì)下，Seedance 2.0的生成速度相比快手可靈（Kling）等競(jìng)品提升了約30%。

東方證券分析師認(rèn)為Seedance 2.0降低了專業(yè)視頻制作的門檻，讓普通用戶也能像操作儀表盤一樣控制光影、聲音和動(dòng)作，這將極大推動(dòng)B端廣告與C端個(gè)人創(chuàng)作市場(chǎng)的雙重?cái)U(kuò)容。

網(wǎng)易科技實(shí)測(cè)：

首先，我們先進(jìn)行了一段廣告宣傳片級(jí)別的畫(huà)面測(cè)試，我們選取了一個(gè) 玩梗幽默 + 視覺(jué)反差風(fēng)格的小片。以下為提示詞：

鏡頭1：靈魂拷問(wèn)

畫(huà)面：快速推進(jìn)特寫，鏡頭懟臉拍男生（參考圖2），他正對(duì)著電腦一臉認(rèn)真，背景是全粉辦公室。

音效：“咻” 的一聲快速推進(jìn)音效，配合鍵盤敲擊聲驟停。

旁白（女聲，犀利調(diào)侃）：

“Eassy，說(shuō)吧，你想找個(gè)什么樣的女朋友？”

鏡頭2：極限二選一

畫(huà)面：

先切到左側(cè)粉裙女生（參考圖3），鏡頭定格，彈出文字標(biāo)簽：「事事隨你」，配軟萌 BGM。

再切到右側(cè)黑西裝女生（參考圖3），鏡頭定格，彈出文字標(biāo)簽：「很有主見(jiàn)」，BGM 瞬間切換成酷颯電子音。

鏡頭拉遠(yuǎn)，男生從畫(huà)面上方 “啪嗒” 落下，坐在兩人中間（參考圖4），雙手一攤，一臉 “我是誰(shuí)我在哪” 的迷茫，開(kāi)始瘋狂撓頭。

即夢(mèng)版廣告（來(lái)源：網(wǎng)易智能）

可以看出，人物的情感和整體基調(diào)把握準(zhǔn)確，展示得很鮮明。且不同場(chǎng)景之間可以做到絲滑的銜接,AI感并不明顯。

隨后，我們對(duì)于聲音和畫(huà)面的銜接進(jìn)行了測(cè)試。我設(shè)置了一個(gè)王家衛(wèi)風(fēng)格的電影場(chǎng)景，主要驗(yàn)證多景別切換下，雨聲環(huán)境音的連續(xù)性和空間感變化，并且測(cè)試在嘈雜雨聲背景下，人物低語(yǔ)對(duì)白的清晰度與口型（側(cè)臉）同步。

以下是我的提示詞:

畫(huà)面描述：王家衛(wèi)電影風(fēng)格，極強(qiáng)的復(fù)古膠片顆粒感，高飽和度，色彩以昏黃、墨綠和深紅為主。夜晚濕漉漉的香港老弄堂，霓虹燈牌在積水中拉出長(zhǎng)長(zhǎng)的倒影。

鏡頭序列：

【全景】：鏡頭靜止。一條悠長(zhǎng)、狹窄且空無(wú)一人的雨巷，大雨如注。一個(gè)渺小的身影（女主）撐著透明傘緩緩走入畫(huà)面深處。

【跟拍中景】：鏡頭跟隨女主背影移動(dòng)。她身穿華麗的墨綠色花卉旗袍，腰肢搖曳。重點(diǎn)展示透明雨傘上瘋狂跳動(dòng)的雨珠，以及周圍環(huán)境的濕潤(rùn)感。

【特寫】：鏡頭聚焦在她穿著精致高跟鞋的雙腳上。一只腳踏入積水坑，濺起的水花在慢動(dòng)作中炸開(kāi)，映照著霓虹光影。

【中近景】：她在一家昏暗的云吞面攤前停下腳步，身體微微側(cè)轉(zhuǎn)，露出精致憂郁的側(cè)臉。雨水順著傘沿滴落。

聲音/音頻描述：

整體環(huán)境音：持續(xù)不斷的、密集的暴雨聲（嘩啦啦），帶有明顯的空間包裹感。對(duì)話在【中近景·側(cè)臉】鏡頭時(shí)：一個(gè)低沉、富有磁性的男性聲音從畫(huà)面外（右側(cè)暗處）傳來(lái)，聲音不大，夾雜在雨聲中：“還不想回去？”

女主微微低頭，嘴唇輕啟，發(fā)出極輕柔、略帶嘆息的女聲（粵語(yǔ)）：“不知道去哪。”

即夢(mèng)版王家衛(wèi) （來(lái)源：網(wǎng)易智能）

我們可以看出，Seedance2.0對(duì)于雨聲的處理基本實(shí)現(xiàn)了仿真效果，雨聲環(huán)境音在深巷中呈現(xiàn)出遠(yuǎn)聲，在近處呈現(xiàn)出打在雨傘上的“實(shí)體聲音”。高跟鞋敲擊地面、激起雨水的音效也完成了模仿。

在最后的場(chǎng)景中，人物低語(yǔ)對(duì)白的清晰度與口型（側(cè)臉）同步。王家衛(wèi)導(dǎo)演鮮明的風(fēng)格化與“氛圍感”，在畫(huà)面中得到了呈現(xiàn)。

但是也可以看到，這場(chǎng)戲的不同景別之間轉(zhuǎn)換依然不夠絲滑，從女主背影過(guò)渡到高跟鞋特寫的轉(zhuǎn)場(chǎng)，仍然趕超沒(méi)有人類導(dǎo)演引以為傲的「運(yùn)鏡」能力。

最后，我們用一段指令，直接實(shí)現(xiàn)了對(duì)于敘事小說(shuō)級(jí)別的測(cè)試。我用即夢(mèng)模擬了一段《史密斯夫婦》的原劇本。以下是我的提示詞：

鏡號(hào)01：

畫(huà)面描述：電影質(zhì)感，低照度燭光晚餐。一張精致的紅木餐桌，桌上擺著銀質(zhì)餐具和高腳杯。一位穿著白色襯衫的男士（類似布拉德·皮特側(cè)影），正拿著餐刀切牛排。他的手肘看似不經(jīng)意地向外一拐，重重地撞向桌邊一瓶開(kāi)封的紅酒瓶。酒瓶失去平衡，開(kāi)始傾斜墜落。

聲音描述：極度安靜的房間底噪。刀叉切割瓷盤的刺耳“滋滋”聲。突然一聲沉悶的撞擊聲（手肘碰到玻璃瓶），緊接著是瓶底摩擦桌面的“格拉”聲，聲音突然中斷（瓶子離桌）。

鏡號(hào)02：

畫(huà)面描述：極具張力的特寫鏡頭。紅酒瓶在半空中翻轉(zhuǎn)下落，深紅色的酒液在瓶頸處激蕩，差點(diǎn)灑出。突然，一只纖細(xì)但有力的女性手臂（穿著黑色晚禮服）從畫(huà)面右側(cè)極速伸入，帶著強(qiáng)烈的動(dòng)態(tài)模糊。在瓶子落地前的最后一毫秒，她的手穩(wěn)穩(wěn)抓住了瓶身。

聲音描述：仿佛時(shí)間靜止的低頻“嗡——”聲。紅酒在瓶子里激蕩的液體聲。緊接著是一聲極快的、銳利的破風(fēng)聲“嗖！”，與手伸出的動(dòng)作完全同步。

鏡號(hào)03：

景別：雙人過(guò)肩鏡頭

畫(huà)面描述：鏡頭恢復(fù)正常速度。女士面無(wú)表情，眼神冷酷，動(dòng)作輕柔地將紅酒瓶重新放回桌面上。她抬眼看了一下對(duì)面，整理了一下頭發(fā)。對(duì)面的男士手里拿著叉子停在半空，表情從驚訝轉(zhuǎn)為玩味的微笑。

聲音描述：厚重的玻璃瓶底觸碰實(shí)木桌面的“咚”一聲悶響，非常有質(zhì)感。片刻沉默后，男士用低沉、富有磁性的聲音說(shuō)：“Nice catch.”。

視頻3 （來(lái)源：網(wǎng)易智能）

但在這場(chǎng)戲中，最大的問(wèn)題是在特寫鏡頭中，女士抓酒的手臂出現(xiàn)了兩次，這是AI 目前還沒(méi)有進(jìn)化掉的BUG，也是最明顯的紕漏。

此外，酒作為液體的流向正常，沒(méi)有出現(xiàn)“反重力”等違背物理學(xué)常識(shí)的情況；女主抓酒時(shí)的風(fēng)聲也非常還原。

盡管每秒的鏡頭都可以還原劇本，但整體而言，這種“質(zhì)感”并不能與原片相比。

在傳統(tǒng)模式下，一個(gè)簡(jiǎn)單的“雨夜”鏡頭需要燈光布景、攝影調(diào)度、現(xiàn)場(chǎng)收音以及后期的擬音（Foley）合成，成本高昂且周期漫長(zhǎng)。而 Seedance 2.0憑借“音畫(huà)一體”的生成能力，將這一復(fù)雜的工業(yè)協(xié)作鏈條壓縮為一次簡(jiǎn)單的“提示詞交互”。這意味著，影視制作的邊際成本正在趨近于零。

對(duì)于行業(yè)而言，這種沖擊是結(jié)構(gòu)性的：初級(jí)概念設(shè)計(jì)、分鏡繪制以及基礎(chǔ)音效師的生存空間將被大幅擠壓；而創(chuàng)作的門檻被徹底倒置——未來(lái)的核心競(jìng)爭(zhēng)力將不再是操作攝影機(jī)或調(diào)音臺(tái)的技術(shù)壁壘，而是“審美決策力”與“敘事想象力”。

然而，在一片贊譽(yù)聲中，我們也必須客觀審視Seedance 2.0當(dāng)前存在的局限性。經(jīng)過(guò)我們的測(cè)評(píng)，畫(huà)面仍然會(huì)出現(xiàn)一些閃回、重復(fù)等低級(jí)錯(cuò)誤，也有部分用戶反饋，在極少數(shù)情況下，生成的背景音中會(huì)出現(xiàn)與畫(huà)面無(wú)關(guān)的雜音或模糊人聲，這種“幻覺(jué)”現(xiàn)象雖然出現(xiàn)頻率不高，但也提醒我們?cè)谏虡I(yè)交付時(shí)必須進(jìn)行嚴(yán)格的人工審核。

同時(shí)，由于音畫(huà)同步計(jì)算對(duì)算力要求極高，目前普通用戶在高峰期生成視頻往往面臨較長(zhǎng)的排隊(duì)時(shí)間，且積分消耗是舊版模型的兩倍以上，這對(duì)于高頻使用的企業(yè)用戶來(lái)說(shuō)，是一筆需要考量的成本賬。