出品|網易科技《態度》欄目
作者|漢雨棣
編輯|丁廣勝
2026年2月,隨著字節跳動旗下即夢AI(Jimeng AI)正式全量上線新一代視頻生成模型Seedance 2.0,國內AI視頻賽道再次迎來了“地震級”的更新。
如果說去年的Sora和PixelDance開啟了AI視頻的“默片時代”,那么Seedance 2.0的發布,標志著行業正式跨入了“有聲電影”的紀元。
作為字節跳動在多模態領域的最新成果,Seedance 2.0憑借其獨創的音畫同步生成技術,迅速在中文互聯網引發了一場關于“AI創作奇點”的輿論熱潮。
測評博主們對Seedance的測評主要集中在這幾點:
1、復雜的運鏡指令
2、音畫同步生成
3、動作一致性。
國內權威視頻制作博主“影視颶風”在實測后指出,不同于以往AI模型只能生成單一視角的固定鏡頭,Seedance 2.0能夠理解復雜的運鏡指令。在測試中,模型成功執行了從特寫拉至全景、環繞拍攝等高難度動作,且在鏡頭運動過程中,主體人物與背景的物理一致性保持得相當出色。這種“指哪打哪”的操控感,被評價為打破了AI視頻“隨機抽卡”的魔咒,讓創作者從單純的“提示詞輸入者”晉升為擁有調度權的“導演”。

圖為蜜雪冰城大戰外企咖啡店,圖源 @影視颶風
有評論稱,該模型在生成視頻時可同步生成匹配的音效和配樂,并支持角色口型同步和情緒匹配。
也有評論表示,Seedance 2.0最具顛覆性的突破,在于其攻克了AI視頻生成領域長期存在的“動作一致性”難題,實現了對復雜連續動作指令的精準跟隨。
從行業競爭的維度來看,Seedance 2.0的發布也被資本市場視為一個重要的信號。開源證券在最新的研報中將其稱為AI影視的“奇點時刻”。與此同時,《每日經濟新聞》等媒體的實測數據顯示,在同等2K畫質下,Seedance 2.0的生成速度相比快手可靈(Kling)等競品提升了約30%。
東方證券分析師認為Seedance 2.0降低了專業視頻制作的門檻,讓普通用戶也能像操作儀表盤一樣控制光影、聲音和動作,這將極大推動B端廣告與C端個人創作市場的雙重擴容。
網易科技實測:
首先,我們先進行了一段廣告宣傳片級別的畫面測試,我們選取了一個 玩梗幽默 + 視覺反差風格的小片。以下為提示詞:
鏡頭1:靈魂拷問
畫面:快速推進特寫,鏡頭懟臉拍男生(參考圖2),他正對著電腦一臉認真,背景是全粉辦公室。
音效:“咻” 的一聲快速推進音效,配合鍵盤敲擊聲驟停。
旁白(女聲,犀利調侃):
“Eassy,說吧,你想找個什么樣的女朋友?”
鏡頭2:極限二選一
畫面:
先切到左側粉裙女生(參考圖3),鏡頭定格,彈出文字標簽:「事事隨你」,配軟萌 BGM。
再切到右側黑西裝女生(參考圖3),鏡頭定格,彈出文字標簽:「很有主見」,BGM 瞬間切換成酷颯電子音。
鏡頭拉遠,男生從畫面上方 “啪嗒” 落下,坐在兩人中間(參考圖4),雙手一攤,一臉 “我是誰我在哪” 的迷茫,開始瘋狂撓頭。
可以看出,人物的情感和整體基調把握準確,展示得很鮮明。且不同場景之間可以做到絲滑的銜接,AI感并不明顯。
隨后,我們對于聲音和畫面的銜接進行了測試。我設置了一個王家衛風格的電影場景,主要驗證多景別切換下,雨聲環境音的連續性和空間感變化,并且測試在嘈雜雨聲背景下,人物低語對白的清晰度與口型(側臉)同步。
以下是我的提示詞:
畫面描述 :王家衛電影風格,極強的復古膠片顆粒感,高飽和度,色彩以昏黃、墨綠和深紅為主。夜晚濕漉漉的香港老弄堂,霓虹燈牌在積水中拉出長長的倒影。
鏡頭序列:
【全景 】:鏡頭靜止。一條悠長、狹窄且空無一人的雨巷,大雨如注。一個渺小的身影(女主)撐著透明傘緩緩走入畫面深處。
【跟拍中景】:鏡頭跟隨女主背影移動。她身穿華麗的墨綠色花卉旗袍,腰肢搖曳。重點展示透明雨傘上瘋狂跳動的雨珠,以及周圍環境的濕潤感。
【特寫】:鏡頭聚焦在她穿著精致高跟鞋的雙腳上。一只腳踏入積水坑,濺起的水花在慢動作中炸開,映照著霓虹光影。
【中近景】:她在一家昏暗的云吞面攤前停下腳步,身體微微側轉,露出精致憂郁的側臉。雨水順著傘沿滴落。
聲音/音頻描述:
整體環境音: 持續不斷的、密集的暴雨聲(嘩啦啦),帶有明顯的空間包裹感。對話在【中近景·側臉】鏡頭時:一個低沉、富有磁性的男性聲音從畫面外(右側暗處)傳來,聲音不大,夾雜在雨聲中:“還不想回去?”
女主微微低頭,嘴唇輕啟,發出極輕柔、略帶嘆息的女聲(粵語):“不知道去哪。”
我們可以看出,Seedance2.0對于雨聲的處理基本實現了仿真效果,雨聲環境音在深巷中呈現出遠聲,在近處呈現出打在雨傘上的“實體聲音”。高跟鞋敲擊地面、激起雨水的音效也完成了模仿。
在最后的場景中,人物低語對白的清晰度與口型(側臉)同步。王家衛導演鮮明的風格化與“氛圍感”,在畫面中得到了呈現。
但是也可以看到,這場戲的不同景別之間轉換依然不夠絲滑,從女主背影過渡到高跟鞋特寫的轉場,仍然趕超沒有人類導演引以為傲的「運鏡」能力。
最后,我們用一段指令,直接實現了對于敘事小說級別的測試。我用即夢模擬了一段《史密斯夫婦》的原劇本。以下是我的提示詞:
鏡號01:
畫面描述: 電影質感,低照度燭光晚餐。一張精致的紅木餐桌,桌上擺著銀質餐具和高腳杯。一位穿著白色襯衫的男士(類似布拉德·皮特側影),正拿著餐刀切牛排。他的手肘看似不經意地向外一拐,重重地撞向桌邊一瓶開封的紅酒瓶。酒瓶失去平衡,開始傾斜墜落。
聲音描述 : 極度安靜的房間底噪。刀叉切割瓷盤的刺耳“滋滋”聲。突然一聲沉悶的撞擊聲(手肘碰到玻璃瓶),緊接著是瓶底摩擦桌面的“格拉”聲,聲音突然中斷(瓶子離桌)。
鏡號02:
畫面描述: 極具張力的特寫鏡頭。紅酒瓶在半空中翻轉下落,深紅色的酒液在瓶頸處激蕩,差點灑出。突然,一只纖細但有力的女性手臂(穿著黑色晚禮服)從畫面右側極速伸入,帶著強烈的動態模糊。在瓶子落地前的最后一毫秒,她的手穩穩抓住了瓶身。
聲音描述: 仿佛時間靜止的低頻“嗡——”聲。紅酒在瓶子里激蕩的液體聲。緊接著是一聲極快的、銳利的破風聲“嗖!”,與手伸出的動作完全同步。
鏡號03:
景別: 雙人過肩鏡頭
畫面描述: 鏡頭恢復正常速度。女士面無表情,眼神冷酷,動作輕柔地將紅酒瓶重新放回桌面上。她抬眼看了一下對面,整理了一下頭發。對面的男士手里拿著叉子停在半空,表情從驚訝轉為玩味的微笑。
聲音描述: 厚重的玻璃瓶底觸碰實木桌面的“咚”一聲悶響,非常有質感。片刻沉默后,男士用低沉、富有磁性的聲音說:“Nice catch.”。
但在這場戲中,最大的問題是在特寫鏡頭中,女士抓酒的手臂出現了兩次,這是AI 目前還沒有進化掉的BUG,也是最明顯的紕漏。
此外,酒作為液體的流向正常,沒有出現“反重力”等違背物理學常識的情況;女主抓酒時的風聲也非常還原。
盡管每秒的鏡頭都可以還原劇本,但整體而言,這種“質感”并不能與原片相比。
在傳統模式下,一個簡單的“雨夜”鏡頭需要燈光布景、攝影調度、現場收音以及后期的擬音(Foley)合成,成本高昂且周期漫長。而 Seedance 2.0憑借“音畫一體”的生成能力,將這一復雜的工業協作鏈條壓縮為一次簡單的“提示詞交互”。這意味著,影視制作的邊際成本正在趨近于零。
對于行業而言,這種沖擊是結構性的:初級概念設計、分鏡繪制以及基礎音效師的生存空間將被大幅擠壓;而創作的門檻被徹底倒置——未來的核心競爭力將不再是操作攝影機或調音臺的技術壁壘,而是“審美決策力”與“敘事想象力”。
然而,在一片贊譽聲中,我們也必須客觀審視Seedance 2.0當前存在的局限性。經過我們的測評,畫面仍然會出現一些閃回、重復等低級錯誤,也有部分用戶反饋,在極少數情況下,生成的背景音中會出現與畫面無關的雜音或模糊人聲,這種“幻覺”現象雖然出現頻率不高,但也提醒我們在商業交付時必須進行嚴格的人工審核。
同時,由于音畫同步計算對算力要求極高,目前普通用戶在高峰期生成視頻往往面臨較長的排隊時間,且積分消耗是舊版模型的兩倍以上,這對于高頻使用的企業用戶來說,是一筆需要考量的成本賬。
