網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

海外創(chuàng)作者實(shí)測(cè)Seedance2.0：這些秒殺Sora，那些短板讓人頭疼

2026-02-27 18:44:03　來(lái)源: 極客電影

北京舉報(bào)

分享至

遙遙領(lǐng)先不假，但不夠完美也是真的

文 | cookie

編輯 | 羊羊

目前全世界最好的AI視頻大模型是哪家？

不吹不黑，即便是在海外，很多人的答案也在近期迅速改成了Seedance 2.0。

兩周前，曾獲奧斯卡最佳動(dòng)畫(huà)短片提名的愛(ài)爾蘭電影人盧埃里·羅賓森僅用了兩行提示詞，就讓Seedance 2.0生成了那段在互聯(lián)網(wǎng)上瘋狂傳播的“湯姆·克魯斯大戰(zhàn)布拉德·皮特”AI視頻，效果之逼真讓整個(gè)好萊塢神經(jīng)緊繃、如臨大敵。

《死侍與金剛狼》的編劇雷特·瑞斯看過(guò)這段視頻后，在社交媒體上發(fā)出悲觀的感嘆：

我不想這么說(shuō)，但我們（電影人）恐怕真的要完蛋了。

Seedance 2.0生成的AI視頻讓好萊塢著名編劇大喊：我們要完蛋了

因?yàn)楣δ苤鴮?shí)強(qiáng)大，Seedance 2.0最近在全球互聯(lián)網(wǎng)掀起了一股AI創(chuàng)作的熱潮，短期內(nèi)大量電影級(jí)的AI視頻橫空出世。

作為觀看者，每個(gè)人都在感嘆AI技術(shù)的迭代速度實(shí)在驚人；而作為Seedance 2.0的使用者，他們是如何評(píng)價(jià)這款產(chǎn)品的，更值得我們關(guān)注。

如果說(shuō)當(dāng)初Sora的出現(xiàn)，讓世界看到了AI“無(wú)中生有”的魔力，那么Seedance 2.0則將討論的焦點(diǎn)，從“能生成什么”拉回到了“如何精確地生成我想要的”。

Seedance 2.0通過(guò)一個(gè)強(qiáng)大的多維參考系統(tǒng)，將模糊的創(chuàng)意轉(zhuǎn)化為AI可執(zhí)行的精確指令。而且在角色一致性、原生音畫(huà)同步、自動(dòng)鏡頭切換等方面取得了驚人的進(jìn)步。

當(dāng)然，除了分析Seedance 2.0優(yōu)點(diǎn)、特點(diǎn)，使用者們也不可避免地談到了它的短板，而這些需要改進(jìn)的“短板”可能就是未來(lái)AI視頻大模型的發(fā)展方向。

AI的進(jìn)化之路還遠(yuǎn)遠(yuǎn)看不到終點(diǎn)，甚至有沒(méi)有終點(diǎn)都要打個(gè)問(wèn)號(hào)。

而每次有Seedance 2.0這樣驚人的產(chǎn)品問(wèn)世，我們的緊迫感恐怕都要增加好幾分。學(xué)習(xí)，真的永無(wú)止境。

01 告別隨機(jī)生成，精準(zhǔn)拿捏你的創(chuàng)作思路：

Seedance 2.0的核心競(jìng)爭(zhēng)力，并非單一技術(shù)的點(diǎn)狀突破，而是一套以“導(dǎo)演意圖”為中心、協(xié)同工作的架構(gòu)設(shè)計(jì)。創(chuàng)作者終于有機(jī)會(huì)從“祈禱AI能聽(tīng)懂”的被動(dòng)角色，轉(zhuǎn)變?yōu)槭治湛刂婆_(tái)的導(dǎo)演。

具體來(lái)說(shuō)，Seedance 2.0的過(guò)人之處，首先體現(xiàn)在其統(tǒng)一的多模態(tài)音視頻聯(lián)合生成架構(gòu)。

與傳統(tǒng)模型單一的“文本到視頻”路徑不同，Seedance 2.0能同時(shí)理解并融合文字、圖片、視頻、音頻四種模態(tài)的輸入。這意味著，你可以用文字描述故事，用圖片定義角色和風(fēng)格，用視頻指定運(yùn)鏡，用音頻驅(qū)動(dòng)節(jié)奏和口型。

Seedance 2.0能同時(shí)理解并融合文字、圖片、視頻、音頻四種模態(tài)的輸入

這個(gè)架構(gòu)的核心是“導(dǎo)演模式”，它通過(guò)一個(gè)強(qiáng)大的多維參考系統(tǒng)，將模糊的創(chuàng)意轉(zhuǎn)化為AI可執(zhí)行的精確指令。

例如，Seedance 2.0允許用戶同時(shí)上傳多達(dá)9張圖片、3段視頻和3段音頻，構(gòu)建一個(gè)豐富的“素材庫(kù)”。

更妙的是，它引入了一種類(lèi)似編程中“@”符號(hào)的引用系統(tǒng)，通過(guò)在提示詞中使用@Image1、@Video1等標(biāo)簽，創(chuàng)作者可以精確地將指令與特定素材綁定。

例如，“讓@Image1中的角色跳@Video1中的舞蹈”，這種結(jié)構(gòu)化的指令遠(yuǎn)比冗長(zhǎng)的自然語(yǔ)言描述更高效、更無(wú)歧義。

更進(jìn)一步，創(chuàng)作者可以調(diào)整每個(gè)參考素材的“影響權(quán)重”。例如，你可以將角色圖片的權(quán)重調(diào)高以確保面部高度保真，同時(shí)將運(yùn)動(dòng)參考視頻的權(quán)重調(diào)低，允許AI在遵循大體動(dòng)作的同時(shí)進(jìn)行更平滑的創(chuàng)意發(fā)揮。

Seedance 2.0 在指令遵循、運(yùn)動(dòng)質(zhì)量、畫(huà)面美感、音頻表現(xiàn)等各個(gè)維度都處于行業(yè)領(lǐng)先地位

穩(wěn)定、同步、智能——在Seedance 2.0強(qiáng)大的多模態(tài)音視頻聯(lián)合生成架構(gòu)之下，幾項(xiàng)關(guān)鍵技術(shù)也得以突破，共同解決了AI視頻創(chuàng)作中的核心痛點(diǎn)。

鏡頭隨意切，角色模樣服飾都不變

以往模型在鏡頭切換后，角色“換臉”或服裝細(xì)節(jié)改變的問(wèn)題屢見(jiàn)不鮮。Seedance 2.0通過(guò)允許用戶上傳角色的多角度參考圖（如正面、側(cè)面、四分之三臉），在模型內(nèi)部構(gòu)建了一個(gè)更穩(wěn)定的3D幾何表征。

這使得角色在進(jìn)行轉(zhuǎn)身、光影變化等動(dòng)態(tài)過(guò)程時(shí)，其核心面部特征和服飾細(xì)節(jié)得以保持高度一致，為生成多鏡頭序列提供了堅(jiān)實(shí)的技術(shù)保障。

音畫(huà)精準(zhǔn)匹配，甚至能憑照片還原人聲

音畫(huà)不同步是AI視頻的另一大頑疾。Seedance 2.0利用其底層的Seed 2.0大模型，通過(guò)一種被稱(chēng)為“雙分支擴(kuò)散變換器”的架構(gòu)，實(shí)現(xiàn)了原生視頻與音頻（包括對(duì)白、音效、環(huán)境聲）在同一生成過(guò)程中的精確同步。

其最令人驚嘆的一點(diǎn)是，模型甚至可以僅憑一張靜態(tài)的面部照片，重建出高度模仿該人物音色和語(yǔ)氣的語(yǔ)音。雖然該功能因潛在倫理和法律風(fēng)險(xiǎn)被緊急暫停，但它展示了模型在理解生物特征與聲音關(guān)聯(lián)方面的驚人深度。

同時(shí)，音頻波形可以直接驅(qū)動(dòng)角色面部動(dòng)畫(huà)，實(shí)現(xiàn)高度逼真的口型匹配，讓數(shù)字角色的表演不再“貌合神離”。

自動(dòng)鏡頭切換，小白也能做出電影感

Seedance 2.0內(nèi)置了一個(gè)“敘事規(guī)劃器”，它能像導(dǎo)演一樣思考。當(dāng)你給出一個(gè)故事梗概，它能自動(dòng)將其分解為專(zhuān)業(yè)的鏡頭序列（如遠(yuǎn)景-中景-特寫(xiě)），并在切換過(guò)程中保持角色和風(fēng)格的統(tǒng)一。

即使是不懂分鏡的普通用戶，也能生成具有電影感的蒙太奇片段，極大地降低了視頻敘事的門(mén)檻。

02 光鮮之下的技術(shù)瓶頸

盡管Seedance 2.0在可控性上邁出了一大步，但從技術(shù)層面審視，它距離完美的“世界模擬器”仍有顯著差距。與Sora 2和Google Veo 3.1等競(jìng)品相比，Seedance 2.0也并非在所有方面都遙遙領(lǐng)先。

復(fù)雜物理效果，模擬畫(huà)面仍欠真實(shí)

當(dāng)前的AI視頻模型，其對(duì)物理世界的理解仍停留在“模式匹配”而非“第一性原理”的層面。這導(dǎo)致在處理復(fù)雜或不常見(jiàn)的物理交互時(shí)，模型會(huì)暴露出短板。

例如，雖然Seedance 2.0生成的簡(jiǎn)單的水花飛濺效果尚可，但對(duì)于更復(fù)雜的液體流動(dòng)、布料在高速運(yùn)動(dòng)下的褶皺與拉伸、毛發(fā)的精細(xì)飄動(dòng)等，它的模擬結(jié)果仍顯生硬，缺乏真實(shí)感。

在處理多個(gè)物體碰撞、堆疊或精細(xì)操作時(shí)，Seedance 2.0偶爾會(huì)出現(xiàn)穿模、懸浮或不自然的加速等“AI怪癖”，它對(duì)物體間的空間關(guān)系和力學(xué)傳遞的理解仍有很大提升空間。

長(zhǎng)視頻創(chuàng)作，細(xì)節(jié)易漂移、內(nèi)容難連貫

雖然Seedance 2.0在單次生成的十幾秒內(nèi)保持了較好的連貫性，但將時(shí)間尺度拉長(zhǎng)，問(wèn)題便開(kāi)始浮現(xiàn)。目前所有視頻模型都面臨著“記憶衰減”的挑戰(zhàn)。

在一個(gè)長(zhǎng)達(dá)數(shù)分鐘的敘事視頻中，如何確保角色行為的前后動(dòng)機(jī)一致、場(chǎng)景中的物體狀態(tài)保持連續(xù)，這對(duì)模型的長(zhǎng)時(shí)程記憶能力提出了極高要求。目前，這類(lèi)視頻仍需依賴人工剪輯和分段生成來(lái)保證效果。

另外，在一些用戶生成的視頻中可以觀察到，即使是Seedance 2.0，在視頻后半段也可能出現(xiàn)細(xì)微的“紋理漂移”或“閃爍”現(xiàn)象，尤其是在精細(xì)的圖案、文字或背景元素上。

上文提到的AI短片《Apex》中，車(chē)輛碰撞的角度和車(chē)窗碎裂的方式顯然對(duì)不上，車(chē)上的文字也疑似亂碼

寫(xiě)實(shí)內(nèi)容生成，真實(shí)感不及競(jìng)品

對(duì)比Sora 2和Veo 3.1兩大競(jìng)品，Seedance 2.0在多個(gè)維度上展現(xiàn)出差異化優(yōu)勢(shì)，同時(shí)也暴露出一些劣勢(shì)。

Sora和Veo追求的是“模擬一個(gè)真實(shí)的世界”，而Seedance 2.0追求的是“構(gòu)建一個(gè)可控的片場(chǎng)”。對(duì)于需要快速產(chǎn)出、對(duì)真實(shí)感要求極高的短內(nèi)容，Veo 3.1的原生音畫(huà)同步可能是更優(yōu)選。但對(duì)于需要精細(xì)控制角色表演、鏡頭語(yǔ)言和藝術(shù)風(fēng)格的專(zhuān)業(yè)創(chuàng)作者，Seedance 2.0提供的“導(dǎo)演模式”無(wú)疑更具吸引力。

當(dāng)脫離參考、僅憑文本生成純寫(xiě)實(shí)內(nèi)容時(shí)，Seedance 2.0生成的人物真實(shí)感和光影細(xì)節(jié)的精細(xì)度有時(shí)會(huì)不及兩家競(jìng)品。這可能源于雙方在模型架構(gòu)和訓(xùn)練數(shù)據(jù)側(cè)重上的不同設(shè)計(jì)哲學(xué)。

03 “世界模型”是終極進(jìn)化方向？

通過(guò)分析Seedance 2.0所展現(xiàn)出的優(yōu)勢(shì)與不足，我們已經(jīng)可以在一定程度上勾勒出AI視頻模型下一階段的演進(jìn)藍(lán)圖。未來(lái)的競(jìng)爭(zhēng)，或?qū)⒉辉賰H僅是生成更清晰、更逼真的畫(huà)面，而是構(gòu)建一個(gè)更懂物理、更懂?dāng)⑹碌?strong>“世界模型”。

在AI領(lǐng)域，“世界模型”是一個(gè)經(jīng)常被提及的概念。

簡(jiǎn)單來(lái)說(shuō)，世界模型 = 讓 AI 在腦子里“模擬整個(gè)世界”。它不是簡(jiǎn)單的“看圖、生成視頻”，而是讓 AI 學(xué)會(huì)世界有什么物體、物體之間怎么互動(dòng)、物理規(guī)則是什么、事情會(huì)怎么發(fā)展，然后在內(nèi)部構(gòu)建一個(gè)虛擬的、可推理的世界。

“世界模型”可能是AI視頻大模型的終極進(jìn)化方向

下一代視頻模型的核心突破，將是其“世界模型”的深度和廣度。這要求模型具備更強(qiáng)的因果推理能力，實(shí)現(xiàn)基于統(tǒng)一物理邏輯的全局一致性。

例如，當(dāng)提示詞描述“一陣風(fēng)吹過(guò)”，模型不僅應(yīng)生成樹(shù)葉搖擺的畫(huà)面，更應(yīng)能推理出這陣風(fēng)會(huì)如何影響遠(yuǎn)處的旗幟、人物的頭發(fā)以及水面的波紋。這種基于統(tǒng)一物理邏輯的全局一致性，將是實(shí)現(xiàn)AI視頻真正沉浸感的關(guān)鍵。

就像游戲引擎一樣，先構(gòu)建一個(gè)虛擬世界，然后在這個(gè)世界中“運(yùn)行”一個(gè)事件，并用虛擬攝像機(jī)“拍攝”下來(lái)。在這個(gè)范式下，所有的物理交互、光影變化、角色行為都將是自洽且符合邏輯的。

而且，隨著Apple Vision Pro等空間計(jì)算設(shè)備的普及，未來(lái)的AI視頻模型，其輸出或?qū)⒉辉倬窒抻谝粋€(gè)平面的“畫(huà)框”，而可能是一個(gè)完整的、可供用戶進(jìn)入和探索的3D場(chǎng)景。

隨著空間計(jì)算設(shè)備的普及，未來(lái)的AI視頻模型很可能進(jìn)行3D場(chǎng)景的探索

創(chuàng)作者或許可以直接在3D空間中布置虛擬攝像機(jī)，規(guī)劃其運(yùn)動(dòng)軌跡，而AI則負(fù)責(zé)實(shí)時(shí)渲染出該視角下的視頻流。Seedance 2.0的“導(dǎo)演模式”可以看作是這一方向的早期雛形。

總而言之，Seedance 2.0的出現(xiàn)，是一個(gè)重要的行業(yè)風(fēng)向標(biāo)——在AI視頻的下半場(chǎng)，單純的生成能力不再是唯一的王牌，“可控性”和“可預(yù)測(cè)性”將成為衡量一個(gè)模型是否具備工業(yè)化潛力的核心標(biāo)準(zhǔn)。

對(duì)于創(chuàng)作者而言，技術(shù)正從一個(gè)難以駕馭的“創(chuàng)意伙伴”，轉(zhuǎn)變?yōu)橐粋€(gè)真正得心應(yīng)手的“創(chuàng)作工具”，好的創(chuàng)意只會(huì)獲得更大的發(fā)揮空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.