網易首頁 > 網易科技 > 網易科技 > 正文

網易智能實測：用爆火的即夢Seedance2.0拍王家衛和《史密斯夫婦》

2026-02-09 16:47:22　來源: 網易智能

北京舉報

分享至

出品|網易科技《態度》欄目

作者|漢雨棣

編輯|丁廣勝

2026年2月，隨著字節跳動旗下即夢 AI（Jimeng AI）正式全量上線新一代視頻生成模型Seedance 2.0，國內AI視頻賽道再次迎來了“地震級”的更新。

如果說去年的Sora和PixelDance開啟了AI視頻的“默片時代”，那么Seedance 2.0的發布，標志著行業正式跨入了“有聲電影”的紀元。

作為字節跳動在多模態領域的最新成果，Seedance 2.0憑借其獨創的音畫同步生成技術，迅速在中文互聯網引發了一場關于“AI創作奇點”的輿論熱潮。

測評博主們對Seedance的測評主要集中在這幾點：

1、復雜的運鏡指令

2、音畫同步生成

3、動作一致性。

國內權威視頻制作博主“影視颶風”在實測后指出，不同于以往AI模型只能生成單一視角的固定鏡頭，Seedance 2.0能夠理解復雜的運鏡指令。在測試中，模型成功執行了從特寫拉至全景、環繞拍攝等高難度動作，且在鏡頭運動過程中，主體人物與背景的物理一致性保持得相當出色。這種“指哪打哪”的操控感，被評價為打破了AI視頻“隨機抽卡”的魔咒，讓創作者從單純的“提示詞輸入者”晉升為擁有調度權的“導演”。

圖為蜜雪冰城大戰外企咖啡店，圖源 @影視颶風

有評論稱，該模型在生成視頻時可同步生成匹配的音效和配樂，并支持角色口型同步和情緒匹配。

也有評論表示，Seedance 2.0最具顛覆性的突破，在于其攻克了AI視頻生成領域長期存在的“動作一致性”難題，實現了對復雜連續動作指令的精準跟隨。

從行業競爭的維度來看，Seedance 2.0的發布也被資本市場視為一個重要的信號。開源證券在最新的研報中將其稱為AI影視的“奇點時刻”。與此同時，《每日經濟新聞》等媒體的實測數據顯示，在同等2K畫質下，Seedance 2.0的生成速度相比快手可靈（Kling）等競品提升了約30%。

東方證券分析師認為Seedance 2.0降低了專業視頻制作的門檻，讓普通用戶也能像操作儀表盤一樣控制光影、聲音和動作，這將極大推動B端廣告與C端個人創作市場的雙重擴容。

網易科技實測：

首先，我們先進行了一段廣告宣傳片級別的畫面測試，我們選取了一個玩梗幽默 + 視覺反差風格的小片。以下為提示詞：

鏡頭1：靈魂拷問

畫面：快速推進特寫，鏡頭懟臉拍男生（參考圖2），他正對著電腦一臉認真，背景是全粉辦公室。

音效：“咻” 的一聲快速推進音效，配合鍵盤敲擊聲驟停。

旁白（女聲，犀利調侃）：

“Eassy，說吧，你想找個什么樣的女朋友？”

鏡頭2：極限二選一

畫面：

先切到左側粉裙女生（參考圖3），鏡頭定格，彈出文字標簽：「事事隨你」，配軟萌 BGM。

再切到右側黑西裝女生（參考圖3），鏡頭定格，彈出文字標簽：「很有主見」，BGM 瞬間切換成酷颯電子音。

鏡頭拉遠，男生從畫面上方 “啪嗒” 落下，坐在兩人中間（參考圖4），雙手一攤，一臉 “我是誰我在哪” 的迷茫，開始瘋狂撓頭。

即夢版廣告（來源：網易智能）

可以看出，人物的情感和整體基調把握準確，展示得很鮮明。且不同場景之間可以做到絲滑的銜接,AI感并不明顯。

隨后，我們對于聲音和畫面的銜接進行了測試。我設置了一個王家衛風格的電影場景，主要驗證多景別切換下，雨聲環境音的連續性和空間感變化，并且測試在嘈雜雨聲背景下，人物低語對白的清晰度與口型（側臉）同步。

以下是我的提示詞:

畫面描述：王家衛電影風格，極強的復古膠片顆粒感，高飽和度，色彩以昏黃、墨綠和深紅為主。夜晚濕漉漉的香港老弄堂，霓虹燈牌在積水中拉出長長的倒影。

鏡頭序列：

【全景】：鏡頭靜止。一條悠長、狹窄且空無一人的雨巷，大雨如注。一個渺小的身影（女主）撐著透明傘緩緩走入畫面深處。

【跟拍中景】：鏡頭跟隨女主背影移動。她身穿華麗的墨綠色花卉旗袍，腰肢搖曳。重點展示透明雨傘上瘋狂跳動的雨珠，以及周圍環境的濕潤感。

【特寫】：鏡頭聚焦在她穿著精致高跟鞋的雙腳上。一只腳踏入積水坑，濺起的水花在慢動作中炸開，映照著霓虹光影。

【中近景】：她在一家昏暗的云吞面攤前停下腳步，身體微微側轉，露出精致憂郁的側臉。雨水順著傘沿滴落。

聲音/音頻描述：

整體環境音：持續不斷的、密集的暴雨聲（嘩啦啦），帶有明顯的空間包裹感。對話在【中近景·側臉】鏡頭時：一個低沉、富有磁性的男性聲音從畫面外（右側暗處）傳來，聲音不大，夾雜在雨聲中：“還不想回去？”

女主微微低頭，嘴唇輕啟，發出極輕柔、略帶嘆息的女聲（粵語）：“不知道去哪。”

即夢版王家衛（來源：網易智能）

我們可以看出，Seedance2.0對于雨聲的處理基本實現了仿真效果，雨聲環境音在深巷中呈現出遠聲，在近處呈現出打在雨傘上的“實體聲音”。高跟鞋敲擊地面、激起雨水的音效也完成了模仿。

在最后的場景中，人物低語對白的清晰度與口型（側臉）同步。王家衛導演鮮明的風格化與“氛圍感”，在畫面中得到了呈現。

但是也可以看到，這場戲的不同景別之間轉換依然不夠絲滑，從女主背影過渡到高跟鞋特寫的轉場，仍然趕超沒有人類導演引以為傲的「運鏡」能力。

最后，我們用一段指令，直接實現了對于敘事小說級別的測試。我用即夢模擬了一段《史密斯夫婦》的原劇本。以下是我的提示詞：

鏡號01：

畫面描述：電影質感，低照度燭光晚餐。一張精致的紅木餐桌，桌上擺著銀質餐具和高腳杯。一位穿著白色襯衫的男士（類似布拉德·皮特側影），正拿著餐刀切牛排。他的手肘看似不經意地向外一拐，重重地撞向桌邊一瓶開封的紅酒瓶。酒瓶失去平衡，開始傾斜墜落。

聲音描述：極度安靜的房間底噪。刀叉切割瓷盤的刺耳“滋滋”聲。突然一聲沉悶的撞擊聲（手肘碰到玻璃瓶），緊接著是瓶底摩擦桌面的“格拉”聲，聲音突然中斷（瓶子離桌）。

鏡號02：

畫面描述：極具張力的特寫鏡頭。紅酒瓶在半空中翻轉下落，深紅色的酒液在瓶頸處激蕩，差點灑出。突然，一只纖細但有力的女性手臂（穿著黑色晚禮服）從畫面右側極速伸入，帶著強烈的動態模糊。在瓶子落地前的最后一毫秒，她的手穩穩抓住了瓶身。

聲音描述：仿佛時間靜止的低頻“嗡——”聲。紅酒在瓶子里激蕩的液體聲。緊接著是一聲極快的、銳利的破風聲“嗖！”，與手伸出的動作完全同步。

鏡號03：

景別：雙人過肩鏡頭

畫面描述：鏡頭恢復正常速度。女士面無表情，眼神冷酷，動作輕柔地將紅酒瓶重新放回桌面上。她抬眼看了一下對面，整理了一下頭發。對面的男士手里拿著叉子停在半空，表情從驚訝轉為玩味的微笑。

聲音描述：厚重的玻璃瓶底觸碰實木桌面的“咚”一聲悶響，非常有質感。片刻沉默后，男士用低沉、富有磁性的聲音說：“Nice catch.”。

視頻3 （來源：網易智能）

但在這場戲中，最大的問題是在特寫鏡頭中，女士抓酒的手臂出現了兩次，這是AI 目前還沒有進化掉的BUG，也是最明顯的紕漏。

此外，酒作為液體的流向正常，沒有出現“反重力”等違背物理學常識的情況；女主抓酒時的風聲也非常還原。

盡管每秒的鏡頭都可以還原劇本，但整體而言，這種“質感”并不能與原片相比。

在傳統模式下，一個簡單的“雨夜”鏡頭需要燈光布景、攝影調度、現場收音以及后期的擬音（Foley）合成，成本高昂且周期漫長。而 Seedance 2.0憑借“音畫一體”的生成能力，將這一復雜的工業協作鏈條壓縮為一次簡單的“提示詞交互”。這意味著，影視制作的邊際成本正在趨近于零。

對于行業而言，這種沖擊是結構性的：初級概念設計、分鏡繪制以及基礎音效師的生存空間將被大幅擠壓；而創作的門檻被徹底倒置——未來的核心競爭力將不再是操作攝影機或調音臺的技術壁壘，而是“審美決策力”與“敘事想象力”。

然而，在一片贊譽聲中，我們也必須客觀審視Seedance 2.0當前存在的局限性。經過我們的測評，畫面仍然會出現一些閃回、重復等低級錯誤，也有部分用戶反饋，在極少數情況下，生成的背景音中會出現與畫面無關的雜音或模糊人聲，這種“幻覺”現象雖然出現頻率不高，但也提醒我們在商業交付時必須進行嚴格的人工審核。

同時，由于音畫同步計算對算力要求極高，目前普通用戶在高峰期生成視頻往往面臨較長的排隊時間，且積分消耗是舊版模型的兩倍以上，這對于高頻使用的企業用戶來說，是一筆需要考量的成本賬。