網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

這個真人版《火影》竟然是AI做的，來自中國AI視頻新王者Vidu Q3

2026-01-30 19:37:51　來源: 量子位

北京舉報

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號 QbitAI

開年第一個月，國產(chǎn)AI真的是卷沒邊兒了。

這不，AI視頻生成圈又新鮮出爐了個大的——

全球首個支持一口氣生成16秒音視頻直出的AI！

然后啊，我反手就做一個真人版《火影忍者》第四次忍界大戰(zhàn)的名場面，請欣賞：

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

如何？是不是從畫面到臺詞再到音效，都有原版日漫的那個味道了？

而制作這部真人劇背后的模型，正是生數(shù)科技新鮮出爐的Vidu Q3。

在體驗一番下來，最大的感受就是全自動：

視頻和音頻是一次性一鍋出的
運鏡和轉(zhuǎn)場是自由切換一步到位的
文字和圖片都能生成音視頻的
清晰度是支持1080P的（生成后可提升至4K）
敘事能力是完整的、文字渲染是精準的

在語言上，這次Vidu Q3還同時支持中文、英文和日文等多種。

有點意思，著實有點意思。

而且Vidu Q3這次的實力也是得到了國際權(quán)威AI基準測試機構(gòu)Artificial Analysis的認證。

在最新的榜單中，Vidu Q3 排名中國第一，全球第二；與之同臺競技的選手包括馬斯克xAI Grok，超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2。

如此好玩的新AI，老規(guī)矩，一波深度實測，走起~

拍劇嗎？一張圖就夠了

首先在操作上，我們在圖生視頻頁面中，需要先選擇“Vidu Q3”這個模型，可以一口氣出1-4個視頻。

在上傳首幀圖片、輸入對應(yīng)提示詞后，我們還可以選擇生成視頻的秒數(shù)，從1秒到16秒都可以。

接下來，我們用圖生音視頻的方式，一次性生成一段主播連麥對話的視頻，首幀和Prompt如下：

請欣賞效果：

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

有一說一，冷不丁一看，還真像是從真實連麥視頻錄像中截出來的一段惡搞片段。

不僅一次性16秒的音視頻可以直出，而且臺詞和演繹的效果吻合Prompt的要求。

更讓人意外的是，Vidu Q3似乎是識別到了直播場景，在Prompt沒有提示的情況下，自動讓彈幕動了起來。

用類似的方式，我們再來玩?zhèn)€有意思的。

假設(shè)有個短劇的場景是這樣：一位年輕女性正在綜藝節(jié)目當導(dǎo)師，點評參賽選手的演技，需要犀利且憤怒的銳評。

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

嗯，這個演技，臺詞的憤怒和表情是恰到好處地對上了；不說是AI，都可以拿去以假亂真了。

看完現(xiàn)代憤怒的短劇，接下來，我們再來嘗試一下苦情的古裝電視劇。

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

AI的演技依舊是相當?shù)轿唬毠?jié)的是，像風聲、抽泣聲，還有抬手、摸臉的音效，都是AI在理解場景后自己補上去的，細節(jié)可謂是拉滿了。

最后，我上一下難度，測試一下Vidu Q3在16秒內(nèi)一次性轉(zhuǎn)場、換鏡頭的絲滑程度。

首幀圖片和Prompt如下：

稍等片刻后，我們就得到了這樣的結(jié)果：

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

同樣是有點小驚喜，Vidu Q3在穩(wěn)穩(wěn)按照Prompt換場之后，自行補加了背景的閃電，以及仰視惡龍的角度等細節(jié)。

由此可見，現(xiàn)在Vidu Q3，不論是視覺效果亦或是理解意圖的能力，都已經(jīng)是幾乎可以達到“為劇而生”的程度。

為劇而生，一句話也能直出高清音視頻

除了圖生音視頻之外，Vidu Q3其實用只用自然語言也能做到相似的效果。

同樣是支持1-16秒的時長，在文生音視頻的界面中，還多出了寬高比的選項，包含16:9、9:16、1:1、4:3和3:4五個比例。

這一次，我們以3D皮克斯風格，只用Prompt的方式生成英文動畫片，涵蓋鏡頭切換：

皮克斯3d動畫風格。
分鏡一（中景/側(cè)面視角）：溫暖明亮的背景中，傳來衣物摩擦的沙沙聲，右側(cè)成年人緩緩蹲下，與左側(cè)小男孩平視。他溫和地說：“I know you’re disappointed, buddy. I really am sorry.”手勢略微比劃，鏡頭側(cè)拍捕捉著兩人之間微妙的距離感。
分鏡二（大人視角/小男孩特寫）：鏡頭轉(zhuǎn)到成年人身后，對準小男孩的臉。他眼神低垂，嘴角微微下撇，肩膀無力地聳著。背景音樂漸弱，只聽見他一聲極輕的、壓抑的吸鼻子聲。鏡頭緩緩?fù)平尘叭峄瑢⑹c無奈的情緒張力拉滿。

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

嗯，整個劇情都是穩(wěn)穩(wěn)地按照Prompt指示來展開。

3D皮克斯能拿捏，國產(chǎn)修仙動漫定然也是可以直接復(fù)用，類似的分鏡，我們只需稍加修改一下場景和臺詞即可：

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

由此可見，不同風格短劇、漫劇、影視劇的“遷移學習”、批量生產(chǎn)，在Vidu Q3這里是行得通的。

除此之外，Vidu Q3的文生音視頻還有個好玩且實用的用法——渲染文字。

因為畫面中的文字（建筑、背景等）渲染得好，才能省去后期二次加工所帶來的麻煩，真正做到一次性出片。

實測的Prompt可以是這樣的：

伴隨著緊張的電子鼓點，《黑客帝國》風格的“0”和“1”數(shù)字鋪滿屏幕，瞬間形成“Vidu”的字樣。細節(jié)豐富，質(zhì)感飽滿，極具視覺沖擊力。

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

芭提雅的沙灘邊上，面向大海，陽光明媚，背景音樂輕快。海上的天空有一個直升機拉著橫幅飛過。橫幅上有“快來玩Vidu”的字樣。

視頻地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

總而言之，不同比例、不同風格，不論是人物、場景亦或是文字素材，Vidu Q3幾乎是能夠到影視作品的門檻了。

進擊的AI視頻生成

最后，讓我們跳出具體的案例，把目光投向整個行業(yè)的時間軸。

自從AI視頻生成走進大眾視線以來，毫不夸張地說，它每次的進化都給人帶來不小的驚喜；這種震撼感，或許在某種程度上源于一種歷史的壓縮。

回看人類電影史，從盧米埃爾兄弟1895年放映《火車進站》（默片），到1927年第一部有聲電影問世，人類整整走了32年。

而在AI視頻生成領(lǐng)域，從Sora引爆“默片時代”的視覺震撼，到業(yè)界有聲視頻直出，這段路程僅用了不到9個月。

在Sora 2之前，視頻生成模型的競爭維度，主要還停留在畫面的物理一致性、光影質(zhì)感以及運動幅度上。

那時候的AI視頻，就像是一個畫面精美但失語的啞巴，聲音往往需要后期單獨配音或通過其他工具對口型，割裂感在所難免。

但音視頻直出的出現(xiàn)，標志著競爭維度的升維：從單一的視覺生成，進化到了音視頻原生的多模態(tài)融合。

它證明了在統(tǒng)一的模型架構(gòu)下，AI不僅能理解物理世界的運動規(guī)律，還能理解聲音與畫面之間微妙的時序關(guān)聯(lián)。這種腦補能力，已經(jīng)從單純的生成畫面，進化到了導(dǎo)戲。

而Vidu Q3的出現(xiàn)，讓這種能力得到了更好地延伸：更長、更穩(wěn)、更連貫。

尤其是它在16秒時長內(nèi)能做到一鏡到底，可以說是讓AI真正具備了完整的敘事能力的短片雛形。

當音視頻對齊不再是難題，當多語言表達變得輕而易舉，我們有理由相信，AI視頻生成的下一個“啊哈 Moment”，或許比我們想象中來得還要快。

畢竟在AI的世界里，一天真的能當一年用。

最后，附上一點小福利：

量子位邀請碼 LZW2，登陸Vidu.cn注冊，即送500積分，快來體驗Vidu Q3最新功能！

Vidu Q3體驗地址：
https://www.vidu.cn

Vidu API地址：
https://platform.vidu.cn

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.