最近的AI視頻模型,幾乎都能做音畫同步了。
給它一段臺詞,人物開口說話,嘴型能對上,背景里還有環境聲,連語氣都能帶點情緒。
以前的制作流程都是先把畫面生成出來,然后再用語音合成模型合成配音,做音樂,最后再對口型和剪輯成片。
AI視頻自己就能搞定聲音的話,語音合成是不是可以被優化了?問題是現在的AI視頻是片段式的生成,一次性支持生成 15 秒,在展現一段比較長的戲時,受到時長限制,整個表演的情緒是斷掉的,也比較容易銜接不上。
我做了一個年初二拜年被七大姑八大姨催婚的經典片段來對比看看,
這段視頻里,AI視頻是分段做出來的,有的片段要在十幾秒的內容里塞入大量的對話,這會導致AI說話語速超快,偶爾也會因為時長不夠,導致話沒說完就被切斷的情況。仔細聽AI出的音色,在不同的片段中,其實還是會有些不太一樣。
但如果我們轉個思路,用音頻來驅動畫面生成的話,就不會出現這種情況了。
在成熟的AI視頻短片的制作角度上來看,對于對話片段或者是以語言表達為主的畫面,可以先生成音頻,直到產出比較滿意的情緒,然后再使用這段音頻去驅動同等時長的人物說話鏡頭。
![]()
像Minimax最近推出了新版本Speech-2.8。
minimaxi.com/audio
這個版本跟之前不太一樣的地方就是,新增了在一整段音頻中添加不同的情緒、可以在句子中間,詞組之間增加停頓,可以直接在括號里面加入一些語氣詞(比如輕笑、吸鼻子、清嗓子等等)等功能。
![]()
就上面圖中這個提示語,我們先來聽聽效果,
從整個音頻的這一段話中,能夠感覺到情緒是從開心到難過,到有點釋然,再到有一點點難過的轉變過程。這個放到AI視頻里,可能就是需要抽卡了。
MiniMax Speech-2.8現在可以在句子中間加入吸氣、嘆氣等換氣方式。這種模擬真人說話的細節非常靈活,可以根據我們自己的需求,把這些語氣加入進去。
我又嘗試了一下更明顯的情緒轉變,像是講一個冷笑話的感覺,從原本恐懼的情緒突然轉變為開心的情緒,講述自己實際上看到的并不是恐怖的東西,這有一種突然放松的感覺。
![]()
我們能加入的這些非語言性的語氣詞,其實就是在輔助情緒的表達,讓整個 AI 生成的語音更加符合人受驚嚇時的本能,讓整段聲音表演的情緒轉化更自然。
或者我們在給一些影片進行風格化的旁白配音的時候,也可以使用 MiniMax。
以前用AI生成語音,其實很難做到自然的換氣。你會發現 AI 往往會一口氣說出很長的一段話,讓人有一種喘不上氣的感覺。但在 MiniMax Speech-2.8 里,是可以在一句話的中間加入「正常換氣」這個語氣詞。
![]()
甚至現在還有一些更有意思的東西。比如在語氣詞里加入哼唱,我們在制作一些比較調皮、可愛的角色時,可以在他說話的前面加上一段哼唱,這樣表現出來的效果就會更加生動。
而且我這里發現了一個小tips,如果你想要它連續哼唱出來一段旋律,可以連續多添加幾個「哼唱」的語氣詞,將這些語氣詞疊在一起,它就可以輸出一段用你選中的音色哼唱出來的旋律,聽起來更活潑。
![]()
或者,在表達某些感受的時候,其實也可以用上這些語氣詞。就比如說在表達很疼、很痛的時候,可以用這個「嘶嘶聲」。這能很好地表現出人物被碰到傷口時那種撕拉的疼痛感,非常有現場感。而且我發現只要你疊的語氣詞數量越多,它呈現的語氣程度就會越重,越明顯。
![]()
而且 MiniMax 已經內置了非常豐富的音色選擇,適配非常多的角色。但如果你覺得這些預設音色都不太適合自己的角色,還可以用提示語自己設計一個專屬音色。
![]()
然后返回語音合成頁面,寫好你在這個語音中需要的文本,以及上面我們介紹過的那些語氣詞和情緒。最后在右面選擇你剛剛生成的音色,就能得到一段完全自定義的音頻了。
![]()
后續你還可以一直使用這個音色進行持續不斷的生成,相當于自己創建了一個聲優角色。
而且現在還是進去就有10000積分可以直接用,已經夠生成很多很多音頻片段了。
這一圈體驗下來,我已經想好什么時候用音畫同步,什么時候用語音參考生成視頻了。
AI視頻模型的音畫同出,解決的是效率問題,它讓普通人也能快速產出基本完整的視聽內容。
但MiniMax Speech-2.8解決的是完成度的問題。
對于成熟的漫劇,短劇,甚至電影制作來說,
畫面和聲音,通常都需要被分開打磨。
你需要一個獨立的配音棚,去保證所有角色音色的統一,去補錄那些不夠完美的表演,去為一個關鍵鏡頭,反復調整演員說話的口氣和節奏。
這就是我們平時在看影視劇的時候會發現,
除了拍攝影視劇的總導演之外,
實際上經常會有一個聲效導演的職位,
他的職責就是去把控整部影片的聲音問題,
讓影片的聲效在配合高質量畫面的同時,也能夠給大家帶來聽覺上的沖擊。
所以即便是有了演員的現場錄音,但可能因為表演時的情緒或者是口音問題,還是會讓演員在后期對自己的表演進行重新配音。
MiniMax Audio讓我們也可以低成本即可實現專業配音效果,
按照我們的想法去調整音色,語速,語氣詞,
讓一句話中擁有不同的情感層次。
畢竟,讓畫面擁有生命力的,是表演。
而讓表演擁有靈魂的,
往往是聲音。
@ 作者 / 卡爾 & 阿湯
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.