昨天,Vidu Q2的多圖參考生視頻上線了。
測了幾個小時以后,先說結論,確實是多圖參考生視頻的王。
也是一種,做AI視頻工作流的,新范式。
我花了一個下午的時間做了一個小短片,完全用的多圖參考生視頻,沒有用傳統的生圖-圖生視頻的工作流,基本上沒roll多少次,就實現了這樣的效果。
很酷,很有意思。
說實話,自從Veo3、可靈2.5、Sora2以后,我自己,越來越不喜歡用圖生視頻了。
最開始的時候,23年,我那個預告片總共肝了693張圖片,185個鏡頭,最終選出來60個鏡頭。
![]()
那個時候,其實是沒辦法的辦法,先生圖,再用圖生視頻的方式,對于流程還是挺蛋疼的,需要你強行來回跳轉不同的產品。
而且圖片本身,很多時候是個靜幀,會影響很多動態的發揮,如果不是為了一致性,很多時候,我真的喜歡用文生視頻去做。
后來,去年11月,Vidu第一次上線了多圖參考生視頻,可以用幾張圖,就能保持人物、物品、場景一致性,開啟了多參黨的時代。
那個時候,我也寫過Vidu。
比如當時,隨手拍了我非常喜歡的Dimoo,之前的熊貓款的三視圖。然后扔到Vidu里。
![]()
然后不到1分鐘,一段Dimoo在森林里的視頻就做完了。

不過這個效果,其實已經是Vidu去年基模還是1.5的時候的效果了,對甚至連Q這個開頭前綴都沒有。
而現在,在經歷了Vidu 1.5、Vidu 2.0、Vidu Q1之后,新的Vidu Q2,確實給多圖參考,帶來了一些以前達到不了的效果。
而圖生視頻這個工作流,就好像曾經的SD一樣,可能確實會越來越被我,封印在歷史的塵埃里了。
今天,我是一個光榮的多參黨。
我覺得這次的Q2和多參升級,可以體現在3個方面:
大幅進化的一致性,更強的表演能力,以及更棒的多風格表現力。
一個一個來說。
一. 一致性
參考生視頻的,我們很多時候最看重的,就是一致性,
三個月前,Vidu Q1的多參生圖其實已經很強了,但是遇到超多主體的情況還是會歇菜。
而這次,Q2更新以后,就牛逼了很多。
比如,讓文藝復興的新三杰和舊三杰同框出現。
![]()
這是Q2的效果,鏡頭依次出現六個畫家,每個人的特征都基本保留,實現了這個挑戰。

而如果你返回去,看Q1的話,會發現還是會失敗的。
比如會出現人物不全,或者人物突然從地里鉆出來的情況。

用多圖參考生視頻也特別簡單,就是把你的圖片都傳上去之后,直接按@鍵,@任何人和任何物品,超級簡單,比Sora2的那個@還要絲滑,因為Sora2只能@人物,但是沒法@物品或者場景。
![]()
這是6個人的,再來看一下主體+物品的case。
比如讓范德彪穿著草裙在沙灘上曬太陽。
![]()
然后就得到了一個曬到七成熟的德彪。

再讓川普先從冰箱里拿出來一罐百事可樂,再拿出來一瓶可口可樂。
![]()
生成出來的結果,川普、百事可樂和可口可樂,都保持了原狀。

特別是百事上的字,也保持的非常好。
還有一個,我覺得很有趣的case,也是一個之前沒玩過的玩法,就是你可以通過多主體,讓主人公實現變身。
提示詞是這樣的:
![]()
最驚喜的是,鏡子里和鏡子外的變化非常同步,這個是真的是有點東西的。

還有一個玩法,就是人物不變,場景變化。
提示詞也非常簡單:
![]()
在一致性上,表現的非常完美。

二. 情緒表演
表演這一塊,也是Q2的重頭戲。
拿我喜歡的演員基里安墨菲來舉例,我從他演過的英劇《浴血黑幫》里找了幾張圖,做了一個叫Tommy的主體。
![]()
這個主體其實也是多圖的的升級功能。
![]()
就是比如一個角色,我們為了它更穩定,就可能要傳三張不同角度的圖上去,而傳統的做法,就是寫男人靠在XX地方,讓AI視頻自己去腦補,哦這三張圖片是這個男人啊。后續的復用上,也不好管理。
現在,你可以用主體的方式,命名,然后,直接@它就完事了,還能保存成主體庫,后續隨便用,很方便。
這些小細節,Vidu做的確實是蠻好的。
我們在看看上面那個Prompt和主體跑出來的效果。

瞬間,得到了這個非常細膩的表演。
基里安的眼睛是真的有戲啊,把脆弱感展現的淋漓盡致。
相比之下Q1的演技就完全沒開竅,就是眼睛轉了幾下,你也看不出到底要表達什么情緒。
末了嘴里還變出一根煙。。。
你也不知道它到底在干啥。

再來看一有趣的case。
就是你只是給它一個規定情境,沒有很詳細的提示詞,Vidu Q2也能完成一段很優質的表演。
比如下面這個。
提示詞真的非常簡單,就是一個情境,用的主體是德尼羅老爺子。
![]()
出來的效果,就很有故事感,除了白發人送黑發人的悲傷和無奈,年長者努力控制情緒的克制,還能看出絲絲的不甘和恨意,似乎想給孩子復仇,很好品。

而如果說,Vidu Q2的真人表演已經很不錯了,那么二次元領域的表演更是Vidu的拿手好戲。
畢竟,動漫,很多時候,都是Vidu的代名詞之一。
先來一個經典的日劇跑段落。
![]()
出來的效果真的很有那味兒,可以直接配一首《你的名字》了。
讓我想起那年夕陽下的奔跑,那是我逝去的青春。。。

除了這種大開大合的表演情緒,做小表情也很有活人感。
比如下面這個情侶吵架的case。
![]()
表情和動作都很自然,真的有點像某一部番的片段了。

在測試情緒的過程中,我還發現,Vidu非常懂動漫中常見的情緒表現手法。
比如下面這個case,它會通過眉眼邊上的線條抽動、瞳孔驟然縮小、眼白布滿紅血絲,來展現一個人極致恐懼的情緒。
但說實話,大部分情況下我都不會給這么細的提示詞。
我在這一段,只規定了三個點,男人極度驚恐的表情,半明半暗的光影,和推鏡頭的運動。
![]()
而Q2能憑借自身的技法積累,在我的提示詞框架里面完善細節,最后得到一個,有表現力的效果。

我只能說,他們動漫的效果,是真的強啊。
再比如下面的這個case。
![]()
提示詞非常簡單,但Vidu就能做的很對味兒。
仔細一看,秘訣原來是,Vidu把女孩眼睛里面的高光給去掉了。。。
有高光,看起來就比較清澈,沒有高光,就很陰。
真的非常細節。。。

三.多風格表現力
剛才那一趴大家也看到了,Vidu Q2做出來的動漫視頻效果很出挑。
所以這一趴,我做了更多不同動畫風格的case,讓大家感受一下,Vidu的動畫風格表現力。
真的,Vidu無愧于AI視頻動漫之王的稱號。
后面這些,我就不放截圖了,但是和生成方法和前面還是一樣的。都是貼上參考圖,或者貼上主體,然后寫提示詞,生成視頻。
先從最日常的泡面番風格開始。

熱血戰斗番,亦正亦邪的反派既視感,一時間幻視了不少角色。

還有追求音樂夢想的美少女,在空蕩的禮堂里獨自練習。
超典型360度環繞運鏡。

或者更加風格化一點,比如下面這些。




不要忘了,這些都是用Vidu Q2的多參考生視頻生出來的。
所以,不僅有超棒的角色一致性,還有特別棒的風格一致性。
還有一個更酷的,就是我測下來發現,Q2真的很適合生成一些中二動漫場面,因為它的運鏡和特效,給的真的太足了。
比如下面這個男人舞劍的case。
鏡頭拉近拉遠再拉近,還有揮劍形成的狂風,效果直接拉滿了。

再比如這個打斗。
刀光劍影,飛檐走壁,人物和鏡頭的運動都很豐富,也只抽了兩次卡。

Vidu Q2這次的參考生視頻,確實要比之前的質量好太多了。
超多主體同框一致性的穩定,以及Q2基模所帶來的效果提升。
再加上參考生視頻能帶來更牛逼的運鏡和自然的表演。
確實,是多參黨的勝利,也是新的工作流范式,進化的前夜。
最后,再來說說大家最關心的價格問題。
![]()
以標準版月度會員為例,59元800積分,20積分就能生成一條8s視頻,折合下來1.475元/條,約0.184元/s。
幾乎就是現在最便宜的AI視頻模型之一了。
整體來說,這次Vidu Q2的多參還是讓我很驚喜的。
而且他們也上了APP,跟Sora2那樣的交互,也能玩合拍,不過是用多參做的,也挺有意思的,感興趣的可以去玩玩。
![]()
我也還是很相信,多圖參考生視頻,是未來的共識。
Vidu,未來可期。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.