網易首頁 > 網易號 > 正文申請入駐

讓 AI 視頻學會配音，學術界花了十年｜Vidu Q3 發布的背后

2026-02-03 23:22:44　來源: 賽博禪心

北京舉報

分享至

先看這個，一起背背單詞，Ambition，俺必勝

俺必勝 = Ambition

prompt

趣味單詞助記視頻，中國古代戰爭大片風格（類似《三國演義》），千軍萬馬的戰場，陰沉的天空，戰旗飄揚

一位身穿重甲、滿臉胡渣的將軍緩緩拔出寶劍，舉劍指天，眼神狂熱，嘶吼：「俺！必！勝！！」

天空一道閃電劈下，畫面驟暗。黑幕中金色火焰字體燃燒而出：AMBITION，下方浮現中文「雄心」。渾厚男聲旁白同步朗讀：「Ambition，雄心」

Vidu 剛剛發布了 Q3，支持上了聲畫同出、文字渲染、自動切鏡，

官網在這：https://www.vidu.cn/

開發者平臺在這：https://platform.vidu.cn/

而諧音記單詞，也是把 Vidu Q3 的能力全用上了，再來一個

拍死它 = Pest

prompt

趣味單詞助記視頻，4K高清美食紀錄片風格，極度清晰的微距鏡頭，明亮的米其林餐廳后廚 ，古典音樂舒緩

蒼蠅嗡嗡聲漸近，音樂戛然而止，蒼蠅飛入畫面降落在食物最頂端，大廚舉起巴掌，用中文大吼：「拍死它！」 手掌即將拍下瞬間，畫面定格震動

紅色印章風格猛然蓋上：PEST，下方顯示中文「害蟲」

清脆女聲同步朗讀：「Pest，害蟲」

Vidu Q3 是生數科技 1 月 30 日發布的視頻生成模型，全球首個支持 16 秒音視頻直出

在 Artificial Analysis 最新榜單中，Vidu Q3 排名中國第一，全球第二，超過 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2

AA text to video 榜單：2月3日截圖拍短劇視角

以前用 AI 做短劇的流程是這樣的：生成畫面，配音，配音效，剪輯

Q3 把這幾步合成一步：一次生成出視頻 + 對話 + 音效 + 背景音樂，口型自動對上

讓我們先來看看這個搞砸了的廚師

搞砸了的廚師

prompt


Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
Baker (whispering dramatically): “Today… I achieve perfection.”
He leans even closer, nose nearly touching the glass.
“Golden edges. Soft center...”
Baker: “Wait—”
(beat)
“Did I… forget the chocolate chips?”
Cut to side view — coworker pops into frame, chewing casually.
Coworker (mouth full): “Nope. You forgot the sugar.”
Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
pixar style acting and timing

Pixar 風格，烤箱內視角，兩個人一來一回的對話，表情、節奏、喜劇 timing 全在里面

一次生成，裝下一個完整的戲劇沖突

再看這個父子棒球場的案例，4 個鏡頭自動切換

父子棒球場

prompt

Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

全景、中景、特寫、雙人鏡頭，一段提示詞搞定

圖生音視頻

不只文生視頻，圖生也能聲畫同出

上傳一張圖，寫上提示詞，完整視頻就有了，嘴型對得上，語氣也對，還有運鏡

比如，讓我們先看看下面的這個

所給到的參考圖，就是下面這個

臺詞、動作、特效、運鏡、配樂，一次出完

說到配樂...沒錯，Vidu 是支持讓人物唱出來的，比如下面這個，把非洲老哥的照片丟進去，讓他 Rap....

就真特么成了

還可以玩點更花里胡哨的，比如：多張分鏡圖輸入，一段完整視頻輸出，就像下面這個一樣

下面這個就是成品

分鏡變視頻

prompt


節奏：由慢到快；
1. [極特寫] 黑色背景中，大塊可可豆被金屬磨盤碾碎，粉塵飛舞。
2. [慢動作特寫] 濃稠的黑巧克力漿像絲綢一樣倒入攪拌碗。
3. [特寫] 攪拌器高速旋轉，帶起巧克力漩渦。
4. [中景加速] 蛋糕在烤箱中快速膨脹（Time-lapse 延時攝影感）。
5. [特寫] 剛出爐的蛋糕表面撒上一層細密的糖粉。
6. [極特寫] 銀色勺子挖開蛋糕，內部熱氣騰騰的巧克力巖漿流出，填滿畫面。```

我覺得，最牛逼的還是這個，Q3 還支持中、英、日三語對話。同一段內容，換個語言標簽就能出不同語種版本

然后...人物的神態，真的就分別像中國人、美國人、日本人

特么的絕了...要知道，說不同語言的時候，面部肌肉到動作是不一樣的，這里竟然能仿到很真

吃或不吃，三語版

prompt

中文：少女保持姿勢不變，略帶疑惑地對著鏡頭說：吃，或者不吃。這是個很嚴肅的問題

英文：The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

日文：少女は同じ姿勢のまま、少し困惑した様子でカメラを見つめ、「食べるか、食べないか。これは非常に深刻な問題です」と言った

文字渲染

Q3 可以在視頻中生成精準的中、英、日文字，不會變形

prompt


水下第一視角，魚眼鏡頭，陽光從水面斜斜射下，一道道光柱在幽藍水體中漂浮。五彩斑斕的魚群從四周聚攏，在正前方排成一排，銀光閃爍地拼出漂浮的字母：“DEEP BLUE”。字母輕輕晃動，仿佛懸在水中發光。下方的珊瑚泛著熒光，沙地上焦散光影在流動中扭曲。

還記得開頭的「諧音記單詞」么？這是相同的原因：畫面里的 AMBITION 和 PEST 都是模型直接渲染出來的

聲畫同出

視頻生成模型能配音這件事，學術界研究了快十年

2016 年 MIT 做了個實驗：給模型看敲擊不同材質物體的視頻，讓它預測敲擊聲音。這是視覺引導音頻生成的起點

2017 年牛津 VGG 團隊提出了一個任務：給一段視頻和一段音頻，判斷它們是不是來自同一來源。聽起來簡單，但這個自監督目標成了后續大量研究的基礎

2020 年，擴散模型開始崛起。DDPM 提出通過逐步去噪從隨機噪聲生成高質量圖像，這個框架很快被擴展到音頻領域

2022 年 12 月，MM-Diffusion 論文發布，學術界第一個聯合音視頻擴散框架。核心思路是讓音頻和視頻分支共享去噪過程，同時保持各自的特征提取。這篇論文證明了一件事：音視頻可以在同一個擴散過程中同時生成，效果比先生成視頻再配音頻的級聯方法更好

但學術模型有個問題：只能生成 4 秒、256×256 分辨率的短視頻。商業產品追求高分辨率和長時長，音頻生成暫時擱置

2025 年 5 月，Google Veo 3 發布，首個商用原生音視頻模型。Google 把數百萬小時的配對音視頻數據和擴散 Transformer 架構結合，學術和工業之間的鴻溝被跨越

然后各家快速跟進：

時間

模型

時長

Google Veo 3

8 秒

Gaga-1

10 秒

OpenAI Sora 2

15 秒

快手 Kling 2.6

10 秒

字節 Seedance 1.5 Pro

12 秒

Runway Gen-4.5

10 秒

生數 Vidu Q3

16 秒

補充說明 OpenAI 在啟用 StoryBoard 的時候，視頻可以最長 25 秒，不過那屬于工程優化，暫時不算在這個列表里

9 個月，原生音頻從突破性創新變成競爭標配。Q3 的 16 秒是目前最長的單次生成時長

技術路線上有兩種：聯合生成，或者級聯生成

聯合生成：跑一次，音頻視頻同時出來，二者共享潛空間，完美時間對齊，但計算成本高

級聯生成：跑兩次，先出視頻，再出音頻，可以用單模態最好的模型，但可能產生微妙的不對齊

現在的競爭焦點是：單次生成時長、對話質量、多語言支持、唇形同步準確度、多人場景處理能力

最后

收束下全文，這次 Vidu 發布了 Q3，支持文生視頻、圖生視頻，最長 16 秒，聲畫同出，為劇而生

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.