金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
開年第一個月,國產(chǎn)AI真的是卷沒邊兒了。
這不,AI視頻生成圈又新鮮出爐了個大的——
全球首個支持一口氣生成16秒音視頻直出的AI!
然后啊,我反手就做一個真人版《火影忍者》第四次忍界大戰(zhàn)的名場面,請欣賞:
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
如何?是不是從畫面到臺詞再到音效,都有原版日漫的那個味道了?
而制作這部真人劇背后的模型,正是生數(shù)科技新鮮出爐的Vidu Q3。
在體驗一番下來,最大的感受就是全自動:
- 視頻和音頻是一次性一鍋出的
- 運鏡和轉(zhuǎn)場是自由切換一步到位的
- 文字和圖片都能生成音視頻的
- 清晰度是支持1080P的(生成后可提升至4K)
- 敘事能力是完整的、文字渲染是精準的
在語言上,這次Vidu Q3還同時支持中文、英文和日文等多種。
有點意思,著實有點意思。
而且Vidu Q3這次的實力也是得到了國際權(quán)威AI基準測試機構(gòu)Artificial Analysis的認證。
在最新的榜單中,Vidu Q3 排名中國第一,全球第二;與之同臺競技的選手包括馬斯克xAI Grok,超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2。
![]()
如此好玩的新AI,老規(guī)矩,一波深度實測,走起~
拍劇嗎?一張圖就夠了
首先在操作上,我們在圖生視頻頁面中,需要先選擇“Vidu Q3”這個模型,可以一口氣出1-4個視頻。
![]()
在上傳首幀圖片、輸入對應(yīng)提示詞后,我們還可以選擇生成視頻的秒數(shù),從1秒到16秒都可以。
![]()
接下來,我們用圖生音視頻的方式,一次性生成一段主播連麥對話的視頻,首幀和Prompt如下:
![]()
請欣賞效果:
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
有一說一,冷不丁一看,還真像是從真實連麥視頻錄像中截出來的一段惡搞片段。
不僅一次性16秒的音視頻可以直出,而且臺詞和演繹的效果吻合Prompt的要求。
更讓人意外的是,Vidu Q3似乎是識別到了直播場景,在Prompt沒有提示的情況下,自動讓彈幕動了起來。
用類似的方式,我們再來玩?zhèn)€有意思的。
假設(shè)有個短劇的場景是這樣:一位年輕女性正在綜藝節(jié)目當導(dǎo)師,點評參賽選手的演技,需要犀利且憤怒的銳評。
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
嗯,這個演技,臺詞的憤怒和表情是恰到好處地對上了;不說是AI,都可以拿去以假亂真了。
看完現(xiàn)代憤怒的短劇,接下來,我們再來嘗試一下苦情的古裝電視劇。
![]()
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
AI的演技依舊是相當?shù)轿唬毠?jié)的是,像風聲、抽泣聲,還有抬手、摸臉的音效,都是AI在理解場景后自己補上去的,細節(jié)可謂是拉滿了。
最后,我上一下難度,測試一下Vidu Q3在16秒內(nèi)一次性轉(zhuǎn)場、換鏡頭的絲滑程度。
首幀圖片和Prompt如下:
![]()
稍等片刻后,我們就得到了這樣的結(jié)果:
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
同樣是有點小驚喜,Vidu Q3在穩(wěn)穩(wěn)按照Prompt換場之后,自行補加了背景的閃電,以及仰視惡龍的角度等細節(jié)。
由此可見,現(xiàn)在Vidu Q3,不論是視覺效果亦或是理解意圖的能力,都已經(jīng)是幾乎可以達到“為劇而生”的程度。
為劇而生,一句話也能直出高清音視頻
除了圖生音視頻之外,Vidu Q3其實用只用自然語言也能做到相似的效果。
同樣是支持1-16秒的時長,在文生音視頻的界面中,還多出了寬高比的選項,包含16:9、9:16、1:1、4:3和3:4五個比例。
這一次,我們以3D皮克斯風格,只用Prompt的方式生成英文動畫片,涵蓋鏡頭切換:
- 皮克斯3d動畫風格。
- 分鏡一(中景/側(cè)面視角):溫暖明亮的背景中,傳來衣物摩擦的沙沙聲,右側(cè)成年人緩緩蹲下,與左側(cè)小男孩平視。他溫和地說:“I know you’re disappointed, buddy. I really am sorry.”手勢略微比劃,鏡頭側(cè)拍捕捉著兩人之間微妙的距離感。
- 分鏡二(大人視角/小男孩特寫):鏡頭轉(zhuǎn)到成年人身后,對準小男孩的臉。他眼神低垂,嘴角微微下撇,肩膀無力地聳著。背景音樂漸弱,只聽見他一聲極輕的、壓抑的吸鼻子聲。鏡頭緩緩?fù)平尘叭峄瑢⑹c無奈的情緒張力拉滿。
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
嗯,整個劇情都是穩(wěn)穩(wěn)地按照Prompt指示來展開。
3D皮克斯能拿捏,國產(chǎn)修仙動漫定然也是可以直接復(fù)用,類似的分鏡,我們只需稍加修改一下場景和臺詞即可:
![]()
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
由此可見,不同風格短劇、漫劇、影視劇的“遷移學習”、批量生產(chǎn),在Vidu Q3這里是行得通的。
除此之外,Vidu Q3的文生音視頻還有個好玩且實用的用法——渲染文字。
因為畫面中的文字(建筑、背景等)渲染得好,才能省去后期二次加工所帶來的麻煩,真正做到一次性出片。
實測的Prompt可以是這樣的:
- 伴隨著緊張的電子鼓點,《黑客帝國》風格的“0”和“1”數(shù)字鋪滿屏幕,瞬間形成“Vidu”的字樣。細節(jié)豐富,質(zhì)感飽滿,極具視覺沖擊力。
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
- 芭提雅的沙灘邊上,面向大海,陽光明媚,背景音樂輕快。海上的天空有一個直升機拉著橫幅飛過。橫幅上有“快來玩Vidu”的字樣。
![]()
視頻地址:https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA
總而言之,不同比例、不同風格,不論是人物、場景亦或是文字素材,Vidu Q3幾乎是能夠到影視作品的門檻了。
進擊的AI視頻生成
最后,讓我們跳出具體的案例,把目光投向整個行業(yè)的時間軸。
自從AI視頻生成走進大眾視線以來,毫不夸張地說,它每次的進化都給人帶來不小的驚喜;這種震撼感,或許在某種程度上源于一種歷史的壓縮。
回看人類電影史,從盧米埃爾兄弟1895年放映《火車進站》(默片),到1927年第一部有聲電影問世,人類整整走了32年。
而在AI視頻生成領(lǐng)域,從Sora引爆“默片時代”的視覺震撼,到業(yè)界有聲視頻直出,這段路程僅用了不到9個月。
在Sora 2之前,視頻生成模型的競爭維度,主要還停留在畫面的物理一致性、光影質(zhì)感以及運動幅度上。
那時候的AI視頻,就像是一個畫面精美但失語的啞巴,聲音往往需要后期單獨配音或通過其他工具對口型,割裂感在所難免。
但音視頻直出的出現(xiàn),標志著競爭維度的升維:從單一的視覺生成,進化到了音視頻原生的多模態(tài)融合。
它證明了在統(tǒng)一的模型架構(gòu)下,AI不僅能理解物理世界的運動規(guī)律,還能理解聲音與畫面之間微妙的時序關(guān)聯(lián)。這種腦補能力,已經(jīng)從單純的生成畫面,進化到了導(dǎo)戲。
而Vidu Q3的出現(xiàn),讓這種能力得到了更好地延伸:更長、更穩(wěn)、更連貫。
尤其是它在16秒時長內(nèi)能做到一鏡到底,可以說是讓AI真正具備了完整的敘事能力的短片雛形。
當音視頻對齊不再是難題,當多語言表達變得輕而易舉,我們有理由相信,AI視頻生成的下一個“啊哈 Moment”,或許比我們想象中來得還要快。
畢竟在AI的世界里,一天真的能當一年用。
最后,附上一點小福利:
量子位邀請碼 LZW2,登陸Vidu.cn注冊,即送500積分,快來體驗Vidu Q3最新功能!
Vidu Q3體驗地址:
https://www.vidu.cn
Vidu API地址:
https://platform.vidu.cn
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.