網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

可千萬(wàn)不要小看谷歌Veo3.1的能力

2025-10-20 09:17:03　來(lái)源: 蒼何

湖北舉報(bào)

分享至

這是蒼何的第 443 篇原創(chuàng)！

大家好，我是激情四射的蒼何。

15 號(hào)谷歌帶著他們的最新最強(qiáng)視頻生成模型 Veo 3.1 震撼來(lái)襲。

當(dāng)時(shí)我人在高鐵上，又興奮，又難受。

難受的是，除了一言難盡的網(wǎng)絡(luò)，還有在外面飄了幾天，人有點(diǎn)麻了。

不過(guò)沒(méi)關(guān)系，經(jīng)過(guò)幾天細(xì)致的測(cè)試體驗(yàn)，我覺(jué)得是時(shí)候拿出來(lái)給大家分享了。

Lovart 也第一時(shí)間支持了 Veo 3.1，我也是在 Lovart 上做的測(cè)試，可別浪費(fèi)了我剛續(xù)的會(huì)員，哈哈哈。

PS：雖然普通用戶(hù) 20 號(hào)前也能免費(fèi)體驗(yàn) Veo 3.1，地址：https://www.lovart.ai

先說(shuō)下我的感受吧：

Veo3.1 支持首尾幀、多圖參考視頻和視頻延長(zhǎng)，以及帶音效，指令遵循好，能精準(zhǔn)控制運(yùn)鏡，清晰度較高，特別適合營(yíng)銷(xiāo)廣告制作、產(chǎn)品視頻等要求較高場(chǎng)景。

同時(shí)可以通過(guò) JSON Prompt 來(lái)精準(zhǔn)控制風(fēng)格和細(xì)節(jié)場(chǎng)景轉(zhuǎn)換，我在下文中的 case 也會(huì)直接給出這套提示詞。

雖說(shuō)Veo3.1 晚上風(fēng)評(píng)褒貶不一，可能是大家太期待能有什么顛覆 Sora2 的東西出來(lái)。

但谷歌這次對(duì)的起 0.1 的更新，在某些方面是能勝過(guò) Sora2 的。所以可千萬(wàn)不要小看谷歌 Veo3.1 的能力。

廢話(huà)不多說(shuō)，我們直接進(jìn)入 case。

首尾幀生成視頻

這并不是什么新奇的能力，國(guó)產(chǎn)視頻大模型很早就已經(jīng)支持了，只不過(guò)Veo3.1 的首尾幀生成的視頻是帶有音效的，在畫(huà)質(zhì)上也表現(xiàn)很不錯(cuò)。

比如，我利用首尾幀功能制作房子從草圖到成型建筑物的過(guò)程。

相關(guān)提示詞如下：

生成一個(gè)過(guò)渡視頻。展示藍(lán)圖（圖1）‘拔地而起’，線(xiàn)條逐漸立體化，填充材質(zhì)和光影，最終變?yōu)閷?xiě)實(shí)的建筑（圖2）。這個(gè)過(guò)程應(yīng)該像一個(gè)快速的建造延時(shí)過(guò)程。

最終出來(lái)的視頻我覺(jué)得還是很不錯(cuò)的，施工的音效也是自帶出來(lái)了。

首尾幀這個(gè)功能配合 Lovart 的無(wú)限畫(huà)布，很絲滑，我可以把圖片拖進(jìn)畫(huà)布，然后連線(xiàn)直接 Chat，就能方便生成好了。

多參考圖生成視頻

Veo3.1 可以用多張參考圖片生成視頻，我測(cè)了幾個(gè) case，都還挺不錯(cuò)。

case 1：兒童簡(jiǎn)筆畫(huà)

先來(lái)個(gè)簡(jiǎn)單的，上傳一張參考圖，配合一段提示詞，看 Veo3.1 的能力表現(xiàn)。

首先我在 Lovart 中用 Seedream 4 生成一張兒童手繪簡(jiǎn)筆畫(huà)圖片。

提示詞：生成小朋友的簡(jiǎn)筆畫(huà)，畫(huà)中一個(gè)人物簡(jiǎn)筆畫(huà)和一個(gè)太陽(yáng)。

然后輸入用 Veo 3.1 生成視頻，提示詞如下：

讓這張兒童畫(huà)（參考圖1）動(dòng)起來(lái)，保持其蠟筆畫(huà)的風(fēng)格。畫(huà)中的小人對(duì)著太陽(yáng)揮手。太陽(yáng)也微笑著閃爍光芒。 請(qǐng)配上一個(gè)孩子清脆的笑聲和一段歡快的尤克里里音樂(lè)。

相同提示詞給到 Sora 2，效果如下：

明顯能感受到 Veo3.1 的效果更好，Sora 2 生成的太陽(yáng)和人物都沒(méi)展示全，而且音樂(lè)也完全不對(duì)。

所以指令遵循上 Veo 3.1 有更好的表現(xiàn)。

case 2：咖啡機(jī)廣告

接下來(lái)，我用 3 張參考圖上點(diǎn)難度。

Veo 3.1 生成效果如下：

這個(gè)視頻的提示詞也比較簡(jiǎn)單：

提示詞：生成一個(gè)8秒的廣告。鏡頭從咖啡機(jī)（來(lái)自圖像1）開(kāi)始，它正在工作。然后鏡頭切換到咖啡倒入杯中（參考圖2）。最后是產(chǎn)品全景在廚房（參考圖3）中。畫(huà)外音（沉穩(wěn)男聲）：‘清晨，從一杯完美的咖啡開(kāi)始’。需要有咖啡機(jī)煮咖啡的‘咕嚕’聲和咖啡倒入杯中的聲音

基于這個(gè)效果，我還做了多個(gè)短的片段視頻，然后連成了一個(gè) 23 s 的汽車(chē)從草稿圖到不同場(chǎng)景下展現(xiàn)的視頻。

視頻沒(méi)有任何處理，全是由 Veo 3.1 生成，然后我做了拼接。

我先是在 Lovart 中生成參考圖圖片。然后基于多張參考圖片再生成視頻。

然后在 Lovart 中輸入：截取這個(gè)視頻的尾幀，生成一張圖片給我

就得到視頻尾幀圖片，然后輸入提示詞得到新的延續(xù)場(chǎng)景視頻：

提示詞：圖1中的車(chē)輛沖上沙漠的山丘高地之后騰空而起，慢鏡頭播放騰空而起的瞬間，車(chē)輪帶起了砂石，最后汽車(chē)穩(wěn)穩(wěn)落地停在了沙灘上，配上加速的轟鳴聲和輪胎碾壓沙礫的聲音。

按照同樣的方法，可以生成連續(xù)的多段視頻，做拼接就好了。

講真，這樣連續(xù)的視頻也能通過(guò)這個(gè)方法直出啦，賊方便。

廣告創(chuàng)意視頻

看到 EHuanglu 老哥利用 JSON Prompt 的方式指揮 Veo 3.1 生成創(chuàng)意廣告視頻，效果賊給力。

仿照著我輸入如下 JSON Prompt：

提示詞（英文版） { "product_name": "Coca-Cola", "product_type": "Original Taste Soft Drink", "description": "A stream of vibrant red liquid pours down, creating a spectacular explosion of ice-cold carbonated bubbles and dramatic condensation that instantly forms the iconic Contour bottle.", "style": "Cinematic, high-speed macro VFX shot, hyper-realistic, vivid red and icy white color palette.", "camera": "Dynamic pour close-up → Intense bubble and mist collision → Bottle snaps into focus with shimmering condensation.", "location": "Dark, moody background with a subtle, warm red glow emanating from below.", "aperture": "Crisp, deeply focused, ultra-refreshing.", "elements": "Red soda liquid, perfect ice cubes, bursting carbonation bubbles, cold mist and condensation.", "powerful": "The Coca-Cola bottle appears with a dramatic, misty pop sound effect, covered in perfect, icy droplets." } 提示詞（中文版） { "product_name": "可口可樂(lè) (Coca-Cola)", "product_type": "原味汽水/軟飲料", "description": "一股充滿(mǎn)活力的紅色液體傾瀉而下，形成壯觀的冰冷氣泡爆炸和強(qiáng)烈的冷凝水霧，瞬間凝結(jié)成標(biāo)志性的弧形瓶。", "style": "電影級(jí)、高速微距特效（VFX）鏡頭，超現(xiàn)實(shí)主義，鮮紅色和冰白色調(diào)。", "camera": "動(dòng)態(tài)傾倒特寫(xiě) → 劇烈的氣泡和水霧碰撞 → 瓶身帶著閃爍的冷凝水清晰出現(xiàn)。", "location": "黑暗、富有情緒感的背景，下方散發(fā)出微妙的、溫暖的紅色光芒。", "aperture": "清晰、深焦、超級(jí)清爽。", "elements": "紅色蘇打液體、完美的冰塊、爆裂的碳酸氣泡、冷霧和冷凝水。", "powerful": "可口可樂(lè)瓶在戲劇性的、帶有水霧的“嘭”聲效中出現(xiàn)，瓶身覆蓋著完美、冰冷的液滴。" }

這樣可以精準(zhǔn)控制視頻生成片段和運(yùn)鏡。

街頭采訪(fǎng)

這個(gè)視頻的牛逼之處在于，被采訪(fǎng)者將作為下一個(gè)采訪(fǎng)的人，絲滑形成了過(guò)度。

全程只有一個(gè)這個(gè)提示詞：

提示詞（英文版） { "product_name": "Street Pulse", "product_type": "Street Interview / Vox Pop", "description": "A charismatic host with a microphone dives into a bustling city crowd, engaging random people with one compelling question.", "style": "Candid, authentic, dynamic, urban, fast-paced editing", "camera": "Handheld follow-cam on host → Quick zoom to interviewee's face → Wide shot establishing the location → Rapid cuts between diverse reactions.", "location": "Busy city sidewalk, public park, or plaza with heavy foot traffic.", "aperture": "Spontaneous, curious, engaging, real.", "elements": "Host, microphone, diverse pedestrians, city background (traffic, buildings), on-screen text (the question), genuine facial expressions.", "powerful": "A rapid montage of surprising, funny, and thoughtful answers, capturing the city's diverse heartbeat." } 提示詞（中文版） { "product_name": "街頭脈動(dòng) (Street Pulse)", "product_type": "街頭采訪(fǎng) / 民意調(diào)查", "description": "一位魅力十足的主持人拿著麥克風(fēng)，深入熙熙攘攘的城市人群，向隨機(jī)的路人提出一個(gè)引人入勝的問(wèn)題。", "style": "真實(shí)抓拍、不做作、動(dòng)感、都市風(fēng)格、快節(jié)奏剪輯", "camera": "手持?jǐn)z像機(jī)跟隨主持人 → 快速推近到受訪(fǎng)者的臉部 → 廣角鏡頭交代環(huán)境 → 在不同反應(yīng)之間快速切換。", "location": "人流量大的繁忙城市人行道、公園或廣場(chǎng)。", "aperture": "自發(fā)的，好奇的，引人入勝的，真實(shí)的。", "elements": "主持人，麥克風(fēng)，形形色色的路人，城市背景（交通、建筑），屏幕文字（顯示問(wèn)題），真實(shí)的面部表情。", "powerful": "一個(gè)集合了各種令人驚訝、有趣和深思熟慮的回答的快速剪輯蒙太奇，捕捉城市多元的心跳。" }

第一視角演講

注意一下人物面部表情和口型，可以說(shuō)非常自然。

動(dòng)畫(huà)隨機(jī)片段

之前玩 Sora 2 的時(shí)候，用這個(gè)提示詞生成的效果大家還有印象嗎？

提示詞：一個(gè)由各種蔬菜組成的搖滾樂(lè)隊(duì)，在一個(gè)燈光昏暗、煙霧繚繞的地下酒吧里激烈表演。主唱是一顆咆哮的卷心菜，吉他手是一根彈奏著電吉他的茄子，鼓手是兩個(gè)敲擊著小番茄的西蘭花。它們都有擬人化的表情和動(dòng)作，卷心菜在舞臺(tái)上狂野地甩頭，茄子在 solo 時(shí)飆出火花。觀眾是各種水果和廚房用具，它們都在瘋狂地?fù)u擺。

現(xiàn)在給到 Veo 3.1 出來(lái)是這個(gè)效果，聲音更能體現(xiàn)眼滾樂(lè)隊(duì)，但角色創(chuàng)意表現(xiàn)上不急 Sora 2。

其實(shí)我還做了不少的測(cè)試，但因?yàn)槲恼缕邢蓿荒苋慷挤懦鰜?lái)。

好了，今天的分享就到這里。

講真的，每次體驗(yàn)這些新模型，都有一種強(qiáng)烈的割裂感。一方面，技術(shù)的迭代速度快得讓人窒息，Sora 2 的熱度還沒(méi)過(guò)，Veo 3.1 就已經(jīng)帶著新能力殺了過(guò)來(lái)。我們仿佛被時(shí)代洪流推著走，生怕一不小心就掉隊(duì)了。

但另一方面，這又是一個(gè)無(wú)比幸福的時(shí)代。曾經(jīng)需要專(zhuān)業(yè)團(tuán)隊(duì)、高昂成本才能實(shí)現(xiàn)的創(chuàng)意，現(xiàn)在我們動(dòng)動(dòng)手指、敲幾行提示詞就能變?yōu)楝F(xiàn)實(shí)。

當(dāng)工具的進(jìn)化速度快到讓想象力都感到壓力時(shí)，我們唯一要擔(dān)心的，或許就是自己的創(chuàng)意還夠不夠用。

技術(shù)本身沒(méi)有終點(diǎn)，但創(chuàng)造力有。

希望我們都能在這場(chǎng) AI 的浪潮中，不僅僅是做一個(gè)旁觀者，更是成為一個(gè)弄潮兒。

也歡迎大家在評(píng)論區(qū)分享你的 AI 視頻作品和腦洞，我們一起交流！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.