![]()
Web3天空之城|城主
寫在前面:
本文是一個完整指南, 告訴你如何以一人之力, 使用即夢Seedance2.0 去制作一部完整AI故事長片.
城主私認為, 這是目前最簡單也是最強大的AI視頻生成流程.
即夢Seedance2.0和一人電影時代的到來
即夢Seedance 2.0的熱度顯然已經出圈. 最好的證明是體現在昨天大A股票, 所有影視娛樂相關公司股價大漲.
記得上次因為AI推動大A股票大漲, 還是DeepSeek橫空出世的時候. 這也從一個側面說明了字節的Seedance新模型的影響力之大.
雖然城主對這個上漲邏輯不是特別理解 -- 在城主眼里, AI視頻生成能力越強大, 傳統的影視制作公司就面臨著更大的危機. 當然, 對普通網民而言, 這個反應也算是正確.- AI視頻生成能力或許可以降低傳統影視制作的成本, 所以相關公司的估值也許應該漲.
但, 如果視頻AI已經強大到一個人就可以制作出完整電影, 那么成公司建制的團隊恐怕就沒有優勢可言了.
這一天, 已經提前到來了.
城主這里寫一個完整的教程, 使用以下這個實際例子大家講解, 如何輕易的使用即夢Seedance2.0模型, 不分鏡, 無須剪輯(簡單拼接生成結果即可), 去持續生成長時間的視頻故事 , 如果你的積分足夠, 是的, 你可以生成完整長度的一部電影.
以下這個3分鐘的視頻完全使用即夢2.0制作完成, 沒有經過分鏡, 沒有剪輯, 只是簡單拼接, 聲音和視頻一次生成, 沒有廢片.
(注, 關于Lovart平臺封號不退款事件, 在本城公號文章有詳細闡述, 有興趣的同學可以自行查看)
這里要解釋一下, 為什么城主強調"不分鏡, 無剪輯", 這其實正是即夢Seedance2.0模型的最大突破: 自動分鏡和多鏡頭剪輯合成輸出.
這兩點對于其他視頻模型, 是碾壓式, 顛覆性的打擊. 也是因為這兩點, 讓很多專業視頻博主在測試過程中"透心涼" - 飯碗要被顛覆了, 這滋味可不太好受.
我們都知道這一天會來,但沒想過這一天來得這么快.
在講解制作流程之前, 城主先展開說一下這兩點為什么讓所有專業博主和團隊感到可怕. (不關心的讀者可以直接跳過, 看看后面的完整制作指南部分)
過去的視頻生成模型, 無論是首尾幀生成,或者參考生成, 基本上就是單個鏡頭, 而這些鏡頭基本上只有畫面; 至于可以配音甚至配上對話的視頻, 只有最近幾個月更新的寥寥幾個模型, 才勉強能支持.
對于專業視頻從業者而言, 一個單獨鏡頭的完美生成固然很好, 但這僅僅是視頻制作里一個小部分而已, 就好像拍出了一個好鏡頭, 這只是一個基本單元, 如何把這些鏡頭序列按照視聽語言正確的拍攝下來, 然后使用專業的剪輯手法整合在一起, 并且進行完美的配音和音效制作, 再加上配樂等工作, 最后才能輸出一個專業級別的片子 - 而不是一個簡短的素人短視頻。
從一個鏡頭到一個完整的成片, 這條路要走很久.
更不用說, 使用AI視頻生成模型的時候, 如何生成符合要求的鏡頭序列就有很大的學問, 鏡頭不是隨便生成都可以拼接在一起的, 視聽語言有嚴格的約束. 所以在傳統影視團隊里, 有專業的分鏡導演/分鏡師把故事對話腳本拆解為分鏡頭表, 然后拍攝制作的鏡頭, 有專業的剪輯師來負責后期合成.
所以在目前的AI視頻團隊里有"抽卡師"這個說法, 因為通常而言, AI視頻流程都通過鏡頭首幀去生成一個鏡頭視頻, 那么這個首幀是否符合預期, 是否能匹配上下鏡頭的視聽語言(人物位置, 動作, 背景, 等等), 這個鏡頭首幀圖就決定了一切, 特別重要, 一般來說圖像生成模型可能無法一次生成完美的圖像, 需要多次嘗試, 謂之"抽卡"
所以, 這也是為什么Sora出來的時候有如此轟動效應. 因為它有幾個重大的突破, 無需首幀圖, 輸出結果是一個多鏡頭的合成視頻, 同時給視頻配上了聲音(對話, 環境音), 一步到位 , 輸出可以直接發社交媒體, 病毒傳播杠杠的. 而對于長視頻制作來說, 它的自動參考和多鏡頭整合可以省卻大量的制作時間.
但Sora遠不是完美, 首先他完全不允許引用真人參考, 同時在城主的測試中, Sora分鏡經常得到一些不滿足要求的別扭結果, 仍然需要抽卡, 然后, Sora在快節奏剪輯以及打斗場面的表現還是一言難盡.
總之, sora是一個有所突破, 缺點也很明顯的模型.
所以在此之前, Sora被且僅被大量用于鏡頭表現要求相對較低的AI動畫制作里.
現在即夢Seedance 2.0橫空出世了. 我們再次看看它解決了什么.
1 完美的分鏡頭合成輸出: 即夢的15秒輸出的分鏡質量相當之高, 在城主的使用經驗來看, 完全符合視聽語言, 基本都是一次Pass, 抽卡就是偶爾的需求.
2 首度突破的快節奏剪輯和連續打斗: 這是AI模型第一次讓快節奏/動作"武戲"鏡頭進入影視級的實用階段 (且不說是否完美, 但AI輸出的打斗分鏡已經完勝絕大多數的人類了...)
3 即夢模型的良好傳統: 聲音和視頻的同步輸出, 完美的對話口型匹配和豐富的人物表情 (這點其他模型甚至都沒法和即夢1.5 pk), 完美解決影視"文戲"鏡頭
關于第三點, 如果現在的視頻生成模型還不能同步匹配對話聲音, 那就是直接不可用了. 大模型的迭代競爭就是如此殘酷.
這里順帶點評一下, 目前Seedance2.0暫停真人圖片參考, 城主是100%贊成的, 這里有個大問題, 就是使用名人肖像生成病毒短視頻, 即夢2出來的這一兩天, 成龍大戰xxx, 周星馳惡搞xxx的視頻已經開始泛濫, 一張照片加一句話就可以生成, 門檻實在沒有, 而名人本身的流量效應直接導致了必然的結果. 之前在B站上大量通過sora生成的科比流量小視頻也是同一個情況, 在巨大的流量利益面前, 這個結果是顯而易見的.
希望Seedance 加上名人肖像檢測后 , 早日常規開放真人圖像參考, 畢竟缺少了這個功能, Seedance基本是自斷一臂, 實用性也大打折扣.
(注: 2/11早上最新測試, Seedance2.0已經放開了真人素材參考的約束, 不知道是否是針對高級會員的灰度)
而至于有些網友所說, AI模型生成的視頻可以被用來做網絡欺詐, 城主認為這不僅是Seedance2.0的問題, 而是AI能力的一個普遍副作用. Seedance2.0之前的各個視頻生成模型已經有足夠的能力做這個事情.
完整指南: 使用Seedance2.0 制作長篇敘事視頻, 不分鏡, 無剪輯
好了, 前面都是背景, 文章到這里似乎才進入正題.
即夢Seedance2.0 這么強了, 以什么方式, 才能多快好省的最快速度制作出影視級別的長視頻呢?
文章給出的這個3分鐘生成視頻故事, 剔除掉等待生成的時間, 城主真正花的時間在1小時內, 包括了腳本準備和生成后編輯得到完整結果.
如何以這樣的速度來持續生成長篇視頻呢?
要利用Seedance2.0的強大能力制作電影長度視頻, 我們只需解決以下幾個問題
? 不出分鏡頭表, 只用包含場景和對話描述的腳本持續生成
? 保持不同生成視頻之間的場景信息和人物信息同步
? 保持人物音色的跨視頻同步
前面城主已經頗費了筆墨來解釋, 為什么在此前所有的AI視頻生產流程中, 必須的又是最痛苦的過程是把故事腳本拆解成專業分鏡頭表, 再去抽卡得到符合要求的分鏡頭首幀圖, 然后進行基于首幀生成視頻的這個過程.
如果要按照方式來制作長視頻, 且不說非專業的同學是否能判斷分鏡頭表的質量, 是否能得到符合要求的首幀圖... 按這個方式, 我們其實又回到了老的AI視頻生成制作流程.
感謝即夢Seeadacen2.0, 我們現在能力跳過這最費神耗時的一步.
以本文分享的" <瘋狂動物城> 番外|Lovart封號不退款事件" 這個視頻為例子, 城主把公眾號原文輸入了gemini pro ( 是的, 城主推薦使用這個目前世界上最強大的LLM模型), 讓它基于公眾號文章改寫為一個分場景對話腳本, prompt隨便寫都可以, 城主這樣寫:
"把以上這個文稿拆解為口語對話的雙人視頻, 使用瘋狂動物城的兔子和狐貍組合, 設計多個場景"
直接得到類似如下的簡單分場景對話腳本:
-兔警官:受害者,情緒激動。
-老狐貍:行業百曉生,穿著花襯衫或西裝,戴墨鏡。
第1場:辦公室
【場景】:兔警官的辦公桌,堆滿了文件,兔警官正對著計算器抓狂。
(鏡頭:特寫計算器歸零的聲音,然后拉開,兔警官把一張賬單拍在桌子上)
兔警官(崩潰):
老狐貍!出大事了!我遇到刺客了!
我的錢包被“收割”了!4000塊錢,只活了10天!
老狐貍(坐在旁邊轉筆,漫不經心):
喲,這么大的怨氣?
4000塊?你這是買了多少根胡蘿卜?
兔警官(舉起手機展示Lovart界面):
什么胡蘿卜!是Lovart!
我想著做視頻要算力,他們廣告說“Pro年費會員”、“無限生成”。
我一咬牙,充了近4000塊人民幣!
結果呢?1月7號充值,1月17號號就封了!
老狐貍(推眼鏡):
10天4000塊?這日均消費,你是住在服務器里了嗎?
讓我猜猜,理由是……“你吃太多了”?
第2場:回憶殺(電腦桌前)
【場景】:昏暗的房間,只有電腦屏幕的光照在兔警官臉上。
(鏡頭:黑白濾鏡或回憶邊框。兔警官盯著屏幕,一臉震驚)
兔警官(獨白):
我當時就收到了一封信。
(畫中畫:彈出一封郵件截圖,紅色圓圈圈出 "Account Farming")
兔警官(對著屏幕喊)
"Account Farming"?批量養號?!
老狐貍你評評理,我為了干活,真金白銀買的頂級會員,我就這一個號,我沒事去“養號”干嘛?
我又不是你們狐貍,長了800個心眼子!
....(以下略)
在以前, 在拿到這個分場景對話腳本后, 我們要去分鏡和做鏡頭首幀圖... 而現在, 讓我們忘記這一切, 直接使用場景對話腳本生成!
你唯一要做的, 是估計15秒大概說多少字, 做多少動作.
第一個鏡頭, 城主直接填入即夢2.0的prompt如下:
![]()
讀者可以對比前面的分場景對話腳本, 城主直接估算了對話的長度, 把對話腳本第一段貼到了即夢2.0的prompt對話框上, 前面加上一句"迪士尼 <瘋狂動物城> 的場景風格和人物風格 "
(注, 當prompt給出的對話文本超出正常人說話的15秒速度, 但還在合理范圍內時, 即夢2.0會自動加快說話速度去匹配, 這也是一個很智能能的地方)
這里要討論一個細節, 對于每一個場景, 是否要提供場景圖參考呢? 可以這樣做,但從最高效率的角度考慮, 你甚至不需要提供場景圖, 只需要提供場景的詳細描述, 讓即夢2.0發揮就可以了.
因為, 你提供的場景圖, 說不定還沒有Seedance2.0自己發揮的好...
另外一個細節是, 因為模型已經有了瘋狂動物城兔警官和狐貍的信息, 所以城主就不給出角色圖了, 對于原創角色, 需要再上傳對應的角色圖, 然后在人物后加上@參考, 即在prompt里類似"兔警官@圖1: 受害者...." 這樣 , 不再贅敘.
使用以上的文本, 城主一次性得到了片子的前15秒, 多分鏡, 多人對話, 表情, 動作, 一步到位.
在即夢2.0之前, 要做出這15秒, 耗費的時間精力基本上要x20吧, 從調整分鏡頭表, 生成首幀, 逐個鏡頭生成, 確認對話語音, 剪輯....
現在這一切都省了, 一鍵點擊完事..
那么, 繼續.
2 保持不同生成視頻之間的場景信息和人物信息同步
![]()
如以上, 第二段15秒也是很簡單的把后續對話文本復制黏貼到prompt輸入框.
但是! 有個最重要的細節:
如果同一個場景的后續時間段還是純文本生成, 毫無疑問會出現場景一致性問題 (假設人物一直提供了角色圖參考, 保證一致性)
如何保持多視頻之間的一致性, 這是AI長視頻制作最關鍵也最難的一步沒有之一.
而即夢Seedance2.0的參考能力把這個折磨了所有創作者太久的關鍵難點直接打平了..
在Seedance2.0里, 我們只需要使用一個超簡單的方法解決一致性問題: 把上一個同場景上一個15秒里的場景畫面截取, 包含人物位置和場景信息, 傳入當前prompt作為參考圖, 如上面截圖所示, 城主使用了"場景參考 @圖片1 @圖片2", 這兩張截圖就來自前15秒的兩個截圖:
![]()
為什么是兩張呢, 因為在這個場景里, 用兩張圖才能完整覆蓋整個場景, 同時完美包含人物和場景關系.
城主試過只傳入第一張圖, 因為缺少狐貍背后的場景, 生成視頻質量非常好,人物表情超級棒, 就是背景不一致, 非常可惜只有放棄了, -- 這是非常明顯的, 模型并不知道狐貍人物背后應該是什么場景, 除非你告訴他.
所以, 再總結一次, 解決問題的方法是 "把前序同一個場景里包含人物和環境的截圖(多張以完整覆蓋場景信息) 傳給下個15秒生成, 作為參考圖"
就這么一個簡單的操作, 在城主實際使用中, 即夢Seedance2.0就可以確保整個場景和人物位置關系, 甚至到人物服裝細節的一致性了...
在Seedance2.0之前, 沒有任何模型可以這么輕易而精準的解決這個難題.
這就是連續生成保持一致性所需的唯一技巧. 按照這個簡單的操作, 只要你的積分足夠, 你可以使用你或者ai創作的分場景對話腳本, 無限生成長時間, 包含豐富的人物對話動作表演的長篇故事視頻.
城主用這個方法, 一氣呵成生成了3分鐘的完整視頻, 基本一次生成沒有廢片. (只有一次是說話語音沒有完全匹配上文字, 這似乎是目前會偶發的 )
所有一次輸出的這些片段, 直接拼在一起, 不剪輯, 直接成片.
Seedance2.0 強得可怕. 這話可能有點審美疲勞了.
在Seedance2.0 之前, 即便城主這里有一套自行設計搭建的從故事到分鏡再到視頻生成的完整自動流程, 要做出這么3分鐘, 耗時至少數倍以上, 如果分鏡不順利, 十倍以上時間也很正常.
而手搓黨? 那就更不可想象了.
這就是先進生產工具導致的生產力革命. 中學課本誠不我欺.
3 保持人物音色的跨視頻同步
最后補完一個小但重要的問題, 人物音色這個問題看似小, 但如果不同鏡頭片段里, 同一個人物說話音色不一致, 這視頻是拿不出手的.
在即夢Seedance2.0里, 這個問題也很容易解決: 上傳一個聲音文件作為參考, 告訴即夢指定角色使用指定音色. 即在prompt開頭加上 "xx角色說話使用@聲音文件1 這個聲音," 即可.
經過城主驗證, 即夢Seedance2.0可以明確遵循指定音色生成指定人物對話.
如果城主沒記錯, 在Seedance2.0之前, 其他模型即使支持畫面聲音同時生成, 也沒有任何一個在生成視頻聲音時可以指定聲音音色.
這里再補充一個小技巧, 我們也可以先不指定音色, 在后期再統一人物音色, 也不麻煩.
這里和大家簡單說明使用剪映的音色修改功能.
在剪映里, 點選一個要改音色的視頻(如果這個視頻有多人對話 需要切成需要修改音色的單獨人聲)
在默認UI右上角可以選擇 "音頻- 換音色"
第一次使用時, 先把希望變更的音色的聲音克隆進去, 即點選"點擊克隆"
![]()
導入一個聲音文件, 然后做個命名, 即可. 有兩個聲音模型, 一種是模仿語氣的模型, 一種是基礎模型,可以自己試聽評測選擇, 然后給音色一個名字.
然后在主界面確認選取了需要修改音色的視頻, 點擊要修改的音色, 應用, 完事.
![]()
所以這個教程到此就結束了.
再回顧一下, 我們不需要考慮分鏡, 使用Seedance2.0 直接分段傳入場景對話腳本, 一氣呵成生成長自動分鏡的長視頻, 然后直接拼接起來. 基本上, 受限的只是你的積分額度.
當然了, 我們精益求精, 細節可以繼續注意, 比如一個長篇故事里, 如果一個場景在后面一段時間后再次繼續出現, 那就把此前該場景的截圖傳進去, 保持一致性.
又比如, 如果希望視頻畫面總體是什么風格, 可以在開頭直接寫 比如 "宮崎駿電影風格", 或者"王家衛攝影風格 ", 或者直接類似城主上面的例子, 直接給一個具體電影作為參考.
或者針對特定的場面, 你加上一些鏡頭描述, 比如要求俯拍, 正面拍, 特寫...
主打一個隨性所欲. 城主的實操感覺是, 遵循以上大框架, prompt的細節無論你怎么寫, 基本上Seedance給出的結果都不會差的...
后記
其實城此刻心情有些復雜.
Seedance2.0的出現, 第一次推翻了過去的"分鏡腳本-鏡頭首幀生成-AI視頻鏡頭生成-剪輯合成" 的AI視頻工作流, 把長AI視頻的生成門檻拉低到了史無前例的低.
一方面, 這是創作的平權, 從現在開始, 基本你只需要會講故事(甚至不需要會講故事, 讓AI去講...), 使用以上簡單操作, 就可以得到影視級別的視頻長內容.
另一方面, 那整個影視行業的未來是什么, 影視創作的門檻是什么呢?
城主認為已經沒有門檻了. 很遺憾, AI會推翻這個傳統工業的流程.
個人電影時代已來. 這一天來得比城主想象的要快得多.
歷史的洪流不可阻擋, 擁抱吧~~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.