
自從 AI 出現以后,我刷視頻,老被那種“ AI 配音”的科普號整出戲。發音字正腔圓,但情緒語調聽起來像白開水似的,聽著耳朵都起繭子。
所以我對 AI 語音這個東西,一直保持保守態度。
雖然錄視頻時,我經常因為語音 NG,但真的被傷過太多次。市面上哪些號稱"媲美真人"的 AI 語音,就像喝了假酒的 Siri 一樣,每次聽都覺得差一口氣,太沒活人感了。
上周,我看到 MiniMax 最新升級到了最新的 2.8 語音模型,據介紹,這貨已經進化到人耳難辨的程度。
![]()
MiniMax 的 AI 配音
第一次打開 MiniMax 的語音生成界面還是挺簡潔的。
![]()
同時,它還分成語音合成與音樂創作兩個選項。(音樂創作不是我們今天的主題,想我測評這個模塊的小伙伴,可以在評論區留言告訴我)
中間是一個大文本框,只要輸入文本,調節好自己喜歡的參數,就能生成音頻,整體簡單方便。
可以看到,MiniMax 很貼心地給了新聞播報、說書、影視配音三個最主要的應用場景。
下面是模型的選擇,最新的就是 2.8 的模型,分為兩個,一個是 hd,一個是turbo(一個主打情緒渲染,一個主打生成速度)。
最底下還有一個音色庫,里面擺放了官方調設好的音色,老狐我雖然沒有細數,但是鼠標一路滑下去,數量已經是非常客觀了。

無論是御姐音、少年音、大叔音還是蘿莉音,甚至是日中韓、法語、西班牙語都能選擇,基本能覆蓋日常使用了。
整體給我的第一印象,操作很簡單,不到一分鐘就能生成一段不錯的語音,這效率讓我流下了羨慕(嫉妒)的淚水。
(老狐我之前因為音色不滿意,一段視頻 NG 了幾十次,拍了差不多一整天...)
![]()
當然,這樣傻瓜式的操作能不能做出好語音?我們來點硬核的。
![]()
AI 也有語言天賦!
既然是測試,那就要有章法。
根據 MiniMax 自己宣傳,目前是支持 40 多種語言,而且每種語言還配備不同的音色。
那我就要來先測試一下,邏輯很簡單,從國內到國外,從常規到變態。
簡單的來看,我先測試了個普通話,隨手選了個御姐音試試效果。
沒想到...
天啊!現在連 AI 配音都能做得這么逼真,這么欲的嗎??
這一開頭就給了我驚喜。
那事不宜遲,接下來開始測粵語,畢竟我生活在廣州嘛。
粵語這玩意兒,很多 AI 都翻車。聲調復雜,用詞特殊,還經常夾雜英文——這可是香港人的日常操作。
我挑了鐘嘉欣的名場面——"cheap man"。這段臺詞可是經典中的經典,情緒要到位,粵語要正宗,還要夾雜英文。
![]()
出來的結果竟然還不錯。
有著地道的港式粵語味道,夾雜著英文單詞的語感,完全不像AI生成的。
雖然整體上還是有點僵硬,但確實像哪個香港妹子在念臺詞,整體能達到以假亂真的效果,它竟然差點騙過我的耳朵??
粵語這一關,過了。
粵語測完我準備上點難度,把外語測上。
這里我選了《教父》里的兩個經典名場面。
![]()
教父那種沙啞低沉、緩緩道來卻字字千鈞的感覺,并不容易配好,所以我特意選了一個中老年男聲音色。
雖然嗓音是那種略帶沙啞的中老年聲線,但吐字清晰,但就是這種"不完美",反而讓整個人物立體起來了,真的有點教父內味了。
在這里,我再說一個有意思的。
測完粵語和英語,我突然發現一個好玩的功能:它居然支持口音模仿。
而且里面竟然還有印度口音!連阿三的口音也能模仿嗎??
我懷著半信半疑的心態,試了一下印度口音的英語。還是剛才那段教父的臺詞,但這次加了印度口音標簽。
音頻出來的那一刻——我直接笑了。
味道太對了。那種濃濃的"印度阿三"味道蹭蹭就上來了。卷舌音、獨特的節奏感,簡直神還原。
我甚至腦補出了一個印度大叔穿著西裝、戴著墨鏡、用教父的語氣說話的畫面。
這波,我是服氣的。
![]()
AI 配音還有情感語調?
到這里,多語言能力算是測完了,整體效果確實不錯,但這只是基礎。
配音演員厲害的地方在哪里?不是多語言的念字,而是情緒,語調。
同一句話,同樣的文字,開心、憤怒、悲傷說出來完全是三種表現,AI如果做不到這一點,就會瞬間出戲。
而這次 MiniMax 的 2.8 新 AI 語音模型,就是可以在輸入的文字里面,插入各種標簽。
![]()
例如說情緒標簽,停頓標簽,還有語氣詞標簽,這個作用在AI語音里面可以說是質變!
各種組合,能讓生成出來的語音,有更多的情緒語調感覺。
來實測一下效果。
我先是把剛才鐘嘉欣的 Cheap man 臺詞重新生成了一遍,但這次加了"生氣"和"厭惡"的情緒標簽。
![]()
效果真的不一樣了,加上情緒之后,那種懟人的名場面一下子就出來了。就連"cheap man"這種情緒化的詞,她都說出了那種不屑、嫌棄的感覺。
就像你真的被人氣到了,然后忍不住罵了一句"cheap man"——那種又氣又看不起的感覺,真的非常到位。
我又試了一下教父的場景。
教父說話最大的特點是什么?不急不慢,每一句話都要停頓,每一個字都有分量。
我按著原場景,把話語做了一些停頓,讓他在關鍵的地方停下來。
![]()
一下子,感覺就來了。
那種緩緩道來、字字珠璣的感覺,真的讓人肅然起敬。如果閉上眼睛聽,你真的會以為是一個老者在跟你說話。
我還自己嘗試的時候,還發現了一點有意思的東西。
例如說,假如我連續加上好幾個“哼唱”的預期標簽上去,
![]()
它并不會機械地重復一個哼唱的音符,而是智能地連成一段輕哼,然后才開始說我給的臺詞。
整個配音顯得角色非常可愛。
整體測試下來,作為一個科技博主,能看到,國產 AI 模型在語音生成上,對于情感細節的把控、對多語種的完美支持,確實走在了行業前列。
這一點讓我由衷地感到驕傲。
但另一方面,我也開始為配音老師們捏把汗。
當一個模型能通過文字,捏造出任意聲音時,那就注定階級比較低,還只會念稿的工作岌岌可危。
不過所幸的是,技術永遠是工具,現階段,可以看出來,MiniMax 的語音模型依然提升空間,例如在情緒上,依然還未能完全模仿到位。
而且,即使AI能模擬出 99% 的完美聲音,但決定聲音此刻是哭是笑,依然掌握在人類手中。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.