![]()
作者 | 石瀨
編輯 | 張潔
最近,AI視頻圈卷出了一種“不管好萊塢死活的美”。
曾經(jīng)《愛樂之城》的遺憾結(jié)局讓無數(shù)人意難平,如今在AI的操刀下,這對戀人在巴黎塞納河畔再度重逢,向彼此深情許下承諾。
下面這段由可靈3.0生成的15秒視頻,人物表演、鏡頭運動、配音音效都是AI一鍵直出,成片質(zhì)量卻高得像是導(dǎo)演剪輯版意外流出。
通過綁定參考主體,在圖生視頻模式下,AI完美復(fù)刻了原班演員臉部細節(jié),提示詞要求“男人說英語、女人說法語”的對白演繹也相當(dāng)自然、銜接絲滑。
可靈3.0系列模型已于近期全球上線,包括可靈視頻3.0、可靈視頻3.0 Omni及可靈圖片3.0、可靈圖片3.0 Omni模型,形成了一個“All-in-One”的多模態(tài)輸入與輸出視頻模型體系。目前,該模型系列已面向可靈會員全量上線。
簡單來說,可靈3.0全家桶解決了以往AI視頻創(chuàng)作流程繁瑣、工具割裂的痛點。如今創(chuàng)作者得以在同一個平臺上,自由使用文字、圖片、聲音與視頻作為輸入,直接生成音畫同步、質(zhì)感接近實拍的高質(zhì)量成片。在寫實風(fēng)格方面,可靈依然延續(xù)了其一貫的優(yōu)勢。
并且這基于的不是產(chǎn)品層的工作流搭建,而是模型能力的根本進化。依托更強的多模態(tài)理解與生成能力,可靈3.0正推動AI視頻技術(shù)從單純的“生成畫面”,邁入“理解創(chuàng)作”的新階段,從而更好地服務(wù)專業(yè)創(chuàng)作需求。
作為“AI導(dǎo)演”的可靈,不僅解決了長期困擾行業(yè)的“一致性”難題,更讓AI開始具備直接用于商業(yè)交付的潛力。
從卷參數(shù)、卷畫質(zhì),到卷“懂業(yè)務(wù)、真干活”,可靈3.0是否真的能打?
考慮到這段時間,網(wǎng)上流傳的可靈3.0測評已經(jīng)不少了,這次,“AI新榜”邀請了Bob二黑、Jade Wu、Jean、希希叔叔等4位來自游戲、廣告、影視等行業(yè)的頭部AIGC創(chuàng)作者,他們兼具資深從業(yè)者和AI先行者的雙重視角,這種跨界身份讓他們能夠帶著各自行業(yè)最真實的痛點,對可靈3.0進行了一場更全面的終極實戰(zhàn)壓力測試。
劃重點以下是他們圍繞可靈3.0實戰(zhàn)能力拋出的三個“靈魂拷問”:
針對創(chuàng)意生產(chǎn)中AI生成內(nèi)容的隨機性,如角色換臉、產(chǎn)品變形等導(dǎo)致無法商業(yè)交付的核心痛點,可靈3.0通過主體參考功能,是否真的能基于圖片或視頻鎖定主體,建立長期可復(fù)用的“數(shù)字資產(chǎn)庫”? 針對游戲、電影等行業(yè)前期創(chuàng)意溝通難、試錯成本高的難題,可靈3.0原生15秒長視頻生成與物理規(guī)律模擬能力,是否能輸出連貫且符合邏輯的動態(tài)片段,替代傳統(tǒng)靜態(tài)分鏡和昂貴實拍,讓“動態(tài)預(yù)演”成為項目立項標配? 針對AI視頻長期以來音畫割裂、缺乏視聽邏輯的問題,基于可靈3.0原生音畫同步與智能分鏡功能,AI能否輸出音畫同步、理解鏡頭調(diào)度的視頻畫面,真正具備導(dǎo)演一樣的敘事與情感表達能力?
![]()
從“開盲盒”到資產(chǎn)庫,
AI視頻走向精準可控
在專業(yè)內(nèi)容生產(chǎn)、尤其是對品牌辨識度要求極高的廣告領(lǐng)域,AI視頻的隨機性一直是核心痛點。對于一線從業(yè)者來說,產(chǎn)品Logo變形、主角在不同鏡頭間的“換臉”,都讓AI生成的視頻無法通過甲方驗收、難以投入實際商業(yè)應(yīng)用。
資深廣告從業(yè)者@Bob二黑向我們透露:“當(dāng)前在廣告視覺制作的全流程中,AI的價值雖然日益凸顯,能在前期快速產(chǎn)出接近成品的樣稿,但行業(yè)普遍受限于AI廣告中的鏡頭跳脫感和產(chǎn)品一致性難以保證,容易出現(xiàn)‘轉(zhuǎn)一圈產(chǎn)品就變了’或‘走著走著角色認不出’的情況。”
為了考驗可靈3.0能否應(yīng)對廣告工業(yè)對產(chǎn)品/角色一致性的嚴苛標準,@Bob二黑 一上來就給AI上了強度,讓它挑戰(zhàn)目前單價最高的廣告品類:汽車廣告。
在實測中,他使用可靈3.0生成了兩條測試樣片。模型不僅在多個分鏡中確保車身結(jié)構(gòu)外觀高度一致,甚至還展現(xiàn)出了多鏡頭調(diào)度能力。AI僅根據(jù)文本描述,就自動完成了從車身外觀到內(nèi)飾展示的絲滑轉(zhuǎn)場,全程沒有任何畫面和人物崩壞。
![]()
![]()
“不僅是汽車,在化妝品、香水及鞋類的測試中,結(jié)果同樣令人驚喜。”@Bob二黑總結(jié)道,“無論是在不同角度的旋轉(zhuǎn)展示,還是主體在自由變化時的細節(jié)復(fù)現(xiàn),可靈3.0都展現(xiàn)出了高度的穩(wěn)定性。并且它能理解我對視頻氛圍和風(fēng)格的文字描述,這證明在解決高難度商業(yè)拍攝的一致性問題上,可靈3.0已經(jīng)能交出令人滿意的答卷。”
這種一致性突破,也已經(jīng)開始撼動傳統(tǒng)CG類的復(fù)雜視效。@Bob二黑 指出,可靈3.0目前生成的視頻質(zhì)量,很大程度上已經(jīng)可以替代部分流程化的CG動畫特效。隨著模型主體進一步穩(wěn)定,AI將從時間和成本上,直接“碾壓”傳統(tǒng)流程化制作。
以下面這條運動鞋測試為例,通過圖生視頻功能,可靈3.0精準模擬了鞋體觸底反彈的物理反饋,直觀展示了其彈跳能力和輕便特性。這種讓物體按照指令運動的動態(tài)控制力,@Bob二黑 認為是此次模型迭代的一大亮點。
在人物一致性方面,曾經(jīng)需要復(fù)雜后期合成的效果,現(xiàn)在僅通過“文生視頻”就能直接達成。例如,讓同一個角色在辦公室、圖書館、街道等不同場景中自然行走,甚至通過提示詞精準控制服裝替換,而角色面部特征始終保持不變。
![]()
@Bob二黑 直言,這種對人物一致性的強大控制,同樣適用于多角色與寵物拍攝。“模型能穩(wěn)定復(fù)現(xiàn)指定角色的特征,在不同場景與景別下保持高度一致性,并能呈現(xiàn)人物情緒。這意味著我們可以提前為客戶鎖定品牌代言人或模特形象,快速生成不同情境的廣告Demo,為品牌定調(diào)提供扎實的視覺支撐。”
依托底層模型,可靈3.0還推出了主體參考、主體資源庫等功能,支持在圖生視頻的基礎(chǔ)上添加多圖主體/視頻主體,創(chuàng)作者可以輸入圖片或視頻來鎖定特定的角色、產(chǎn)品或場景。
深耕寫實短片創(chuàng)作的@希希叔叔,為此在可靈平臺上組建了一個屬于自己的“數(shù)字劇組”。他打了一個形象的比方:在傳統(tǒng)影視制作中,組建班底、選定演員、搭建場景是開機前的第一步,可靈3.0的主體資源庫扮演了同樣的角色。
創(chuàng)作者可以將設(shè)計好的角色、搭建的場景、準備好的道具,統(tǒng)統(tǒng)存入這個“數(shù)字劇組”。
人物主體可以以圖片或者視頻的方式錄入:
![]()
人物主體可以加入音色,建立一鍵音畫同出且重復(fù)使用的角色:
![]()
在他看來,“可靈Omni模型就像一個永不疲倦、記憶力超群的頂級演員,隨時待命,保證了作品從頭到尾的統(tǒng)一與品質(zhì)。”這種“記憶力”源于Omni模型強大的多模態(tài)理解能力,當(dāng)它與主體資源庫相結(jié)合時,AI不僅解決了單次生成的一致性問題,更讓多鏡頭、長序列的敘事創(chuàng)作成為可能。
從開盲盒式的隨機生成,到可復(fù)用資產(chǎn)庫的建立,這一轉(zhuǎn)變大大推動AI視頻在品牌營銷、影視制作等長線商業(yè)項目中的實際應(yīng)用與落地。
![]()
從“后期工具”到“前期預(yù)演”,
AI重塑傳統(tǒng)內(nèi)容制作流程
在傳統(tǒng)制作流程中,最繁瑣也最容易產(chǎn)生偏差的環(huán)節(jié)往往在前期。無論是大型游戲立項還是影視項目籌備,創(chuàng)作者常常受困于“視覺想象無法即時可視化”的難題。
為了溝通一個創(chuàng)意或畫面構(gòu)想,團隊往往只能依賴昂貴的實拍測試、或需要動畫師花半天時間繪制動態(tài)氛圍板(Mood Board)。這不僅導(dǎo)致試錯成本高昂,創(chuàng)意也因執(zhí)行恐懼而變得縮手縮腳。
“AI正從靈感玩具蛻變?yōu)檎嬲芸s短開發(fā)周期的生產(chǎn)力工具。”資深3A游戲數(shù)字藝術(shù)設(shè)計師 、獨立游戲制作人@Jade Wu如此評價可靈3.0系列模型。
他針對游戲開發(fā)中的核心痛點,對可靈3.0進行了一次全流程壓力測試。測試結(jié)果讓他重新審視了AI在3A及高品質(zhì)游戲立項預(yù)演中的位置。
在實測中,@Jade Wu 利用可靈3.0模型,僅用一張常見的廢土風(fēng)格圖片,就生成了一段具有電影感、且符合現(xiàn)實物理邏輯的15秒動態(tài)鏡頭。“對于立項匯報來說,這種‘所見即所得’的視覺沖擊力是靜態(tài)圖無法比擬的。”
下面這段利用可靈3.0 Omni+智能分鏡生成的廢土風(fēng)格戰(zhàn)斗片段,讓@Jade Wu 意識到這不僅僅是在生成視頻,而是AI在替設(shè)計師做動態(tài)預(yù)演。他表示,僅這一環(huán)節(jié),AI就能為游戲項目節(jié)約數(shù)月的前期CG制作周期和高昂的外包成本。
更讓他興奮的是,可靈3.0 Omni模型還具備理解3D灰模結(jié)構(gòu)的能力,能夠在保留原幾何結(jié)構(gòu)和透視的前提下,將被攝物體“貼圖化”和“光影化”。“這意味著,LD( 關(guān)卡設(shè)計師)在驗證玩法時,無需等待美術(shù)排期,就能自行產(chǎn)出接近最終畫質(zhì)的演示視頻。這是工業(yè)化管線中‘策劃-美術(shù)’協(xié)同效率的一次巨大飛躍。”他說。
![]()
Jade Wu上傳的巖石材質(zhì)與角色參考圖
在更具藝術(shù)追求和專業(yè)門檻的電影領(lǐng)域,AI的應(yīng)用價值同樣延伸到了至關(guān)重要的創(chuàng)作前期。
北京電影學(xué)院導(dǎo)演系研究生、影視創(chuàng)作者@Jean經(jīng)過多輪測試后認為,AI已經(jīng)具備“坐進”影視籌備前期會議的能力。
她的判斷標準相當(dāng)明確:“從電影前期制作的真實需求出發(fā),關(guān)鍵不在于AI能做出多炫酷的特效,而是它能否理解并實現(xiàn)電影級的影調(diào)控制、空間構(gòu)建和情緒敘事。”
對她而言,影視籌備期最痛苦的,莫過于腦海中具體的畫面無法被準確傳達。導(dǎo)演很難僅憑語言向攝影指導(dǎo)和美術(shù)指導(dǎo)描述某種特定的光影氛圍,傳統(tǒng)方法往往要做大量靜態(tài)氛圍板和參考圖拉片。整個過程不僅低效,且高度依賴抽象的描述和想象。
這次實測中,@Jean 發(fā)現(xiàn)借助可靈3.0 Omni模型,她可以直接以動態(tài)預(yù)覽的形式,快速生成并驗證復(fù)雜場景(如高難度的車內(nèi)戲調(diào)度)的執(zhí)行可能性,從而清晰地向攝影組和美術(shù)組傳達創(chuàng)作構(gòu)想。
@Jean 表示下面這條視頻讓她和攝影指導(dǎo)在屏幕前沉默地看了三遍,因為AI給出的結(jié)果已經(jīng)不再是一個“大概的樣子”,而是一個可以直接用于燈光測試參考、美術(shù)置景質(zhì)感參考和初期調(diào)色方向參考的動態(tài)樣本。
具體測試上,@Jean 只用到了一張類似《海邊的曼徹斯特》 冷峻藍灰色調(diào)的圖片作為圖生視頻的“影調(diào)錨點”,結(jié)合細化到秒的自定義分鏡指令,便生成了這條視頻。
“AI把一個原本依賴大量抽象描述和想象溝通的過程,變成了一個可以直觀觀看、反復(fù)推敲、精確調(diào)整的具象化過程。”
在她看來,可靈3.0生成的畫面已經(jīng)可以直接作為燈光、美術(shù)和初期調(diào)色方向的動態(tài)參考。“我們節(jié)省了原本需要租車、布燈、灑水車、拍測試片才能完成的初版視覺探索,直接把討論推進到了‘如何實現(xiàn)并優(yōu)化這個效果’的層面。”她補充說。
無論是游戲立項還是電影籌備,可靈3.0支持原生15秒視頻生成,并大幅強化了對光影、重力、碰撞等物理規(guī)律的真實模擬。
這種“長時長+高保真”的輸出,使得其生成結(jié)果不再是幾秒的動態(tài)圖,而是可以替代傳統(tǒng)靜態(tài)分鏡板,直接產(chǎn)出一段連貫的、有起承轉(zhuǎn)合的動態(tài)預(yù)演。
對于3A游戲、電影制作等投入巨大的創(chuàng)意項目來說,AI不僅將前期“創(chuàng)意可視化”提升到了新階段,更在實際執(zhí)行層面節(jié)省了大量人力物力。
![]()
從工具到全能創(chuàng)作助手,
當(dāng)AI開始像導(dǎo)演一樣思考
AI視頻以往只能生成幾秒動態(tài)畫面,雖然偶爾能帶來視覺驚喜,但本質(zhì)上缺乏內(nèi)在視聽邏輯和情感深度。為此創(chuàng)作者不得不大量“抽卡”,AI視頻工具更像是“將靜態(tài)圖片轉(zhuǎn)變成動態(tài)畫面”的素材生成器。
可靈3.0的進化,標志著AI不再只是死板地生成畫面,而是開始理解視聽語言的底層邏輯。
在寫實短片創(chuàng)作中,@希希叔叔 敏銳地捕捉到了這種質(zhì)變。以往的AI視頻,人物說話往往需要后期單獨對口型,導(dǎo)致面部肌肉僵硬,缺乏真實感。而在可靈3.0的實測中,他認為“AI演員不僅能夠根據(jù)提示詞做出相應(yīng)的動作,更能理解臺詞本身的語境和情感,做到‘聲臺形表’的統(tǒng)一”。
例如下面這段測試案例,就做到了動作+對白+運鏡同時響應(yīng),尤其在對第一人稱視角的還原、動作邏輯與劇情語氣的匹配上,都呈現(xiàn)出接近真實拍攝的表現(xiàn)力。
根據(jù)提示詞生成準確的方言和語氣也不在話下:
除了單演員,多角色場景的場面調(diào)度,@希希叔叔 也給出了很高的評價:“可靈3.0能夠精準實現(xiàn)多角色之間的場面調(diào)度,對復(fù)雜運鏡指令響應(yīng)準確,角色間的互動也不再是割裂的個體表演,而是像真實劇組一樣配合默契、流暢自然。”
通過可靈3.0自定義分鏡功能,他生成了以下兩場節(jié)奏截然不同的打戲,一場是一氣呵成的一鏡到底,另一場則通過多鏡頭剪接營造緊張對峙感,并且都是只抽了一次卡的效果。
一鏡到底版本
多鏡頭剪接版本
對于@Jean 來說,則更看重AI能否通過鏡頭語言進行空間構(gòu)建和情緒敘事。
在她的實測案例中,無論是營造低飽和度的陰郁氛圍,還是構(gòu)建一段極具情緒張力的城市公路駕駛長鏡頭,AI都表現(xiàn)出了極高的審美自覺。
例如,下面這段可靈3.0 Omni輸出的一段后視鏡車內(nèi)戲,@Jean 用到了自定義分鏡、角色綁定等功能,輸出的成片中AI不再是機械地呈現(xiàn)“開車”這個動作,而是通過光影變化、人物表演,精準捕捉并呈現(xiàn)創(chuàng)作者想要表達的敘事節(jié)奏和畫面情緒。
“可靈3.0 Omni展現(xiàn)出了下一代創(chuàng)作工具的核心能力,不再是生成奇觀,而是深度理解并模擬現(xiàn)實世界的物理規(guī)則、光影邏輯和情感韻律。對于像我們這樣追求現(xiàn)實主義表達、同時又在與預(yù)算和時間賽跑的創(chuàng)作團隊而言,這種能力,正在從一個‘有趣的選項’,變成一個不可或缺的流程組件。”@Jean 評價道。
從場面調(diào)度到情緒敘事,可靈3.0通過原生音畫同出與強大的語義理解能力,模型能精準執(zhí)行復(fù)雜的運鏡指令,并在生成畫面的同時賦予其匹配的對白和環(huán)境音效。這讓AI具備了像導(dǎo)演一樣掌控分鏡與敘事節(jié)奏的可能。
以上4位行業(yè)資深人士的一手實測,直觀展現(xiàn)了AI視頻最新迭代的“硬核交付力”,無論是確保商業(yè)交付的主體/畫面一致性、構(gòu)建高效的前期動態(tài)預(yù)演,還是實現(xiàn)電影級的敘事與調(diào)度,AI正在打破影視、游戲、廣告等行業(yè)的專業(yè)壁壘。
可靈AI取得的商業(yè)化成效,為這一趨勢提供了有力的現(xiàn)實佐證。截至目前,其全球累計用戶已破6000萬,生成的視頻量級達到6億,超過3萬家企業(yè)通過API集成可靈,2025年12月其單月收入突破2000萬美元,對應(yīng)ARR(年化收入)達2.4億美元。
這組數(shù)字背后,是成千上萬的企業(yè)和創(chuàng)作者在用行動投票。在影視、短劇、游戲等內(nèi)容領(lǐng)域,AI的大規(guī)模落地應(yīng)用即將迎來爆發(fā)。
隨著AI漫劇、AI真人短劇等內(nèi)容形態(tài)不斷破圈并得到市場驗證,AI技術(shù)正快速迭代,并向敘事更復(fù)雜、工業(yè)標準更高的長視頻制作領(lǐng)域深度滲透。
對創(chuàng)作者而言,眼前已不再是“要不要用AI”的問題,而是“誰用得更好”的競賽。
「AI新榜交流群」進群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進群,歡迎玩家們來群里交流,一起探索見證AI的進化。
歡迎分享、點贊、推薦
一起研究AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.