![]()
AI應(yīng)用風(fēng)向標(biāo)(公眾號:ZhidxcomAI)
作者|江宇
編輯|漠影
智東西12月3日報道,近日,可靈AI視頻上線了全新的O1模型,把參考生視頻、文生視頻、圖生視頻、視頻編輯、動作遷移等能力收進(jìn)了同一個統(tǒng)一多模態(tài)模型里。
我們嘗試的第一件事,就是拿它來拍一支“瘋狂動物城番外”。
整套流程從“在可靈里重建尼克和朱迪”,到搭建警局場景、編輯視頻、最后讓朱迪跳了一段像素風(fēng)網(wǎng)絡(luò)神曲,中間遇到的每一個細(xì)節(jié)問題,都還很典型的:既能看到統(tǒng)一多模態(tài)的便利,也能看到現(xiàn)在AI視頻在精細(xì)編輯上的邊界。
不妨先來看看最終成片,具體過程我們稍后拆解。
一、在可靈O1里重建尼克和朱迪
進(jìn)入可靈AI主頁,左側(cè)工具欄最上方就是可靈O1的新模式,在同一個對話框里就可以選擇圖片生成或視頻生成。在生成區(qū)的下方,有一個“參考”模塊,分為“圖片”和“主體”兩種方式。
![]()
同時,主體既可以調(diào)用主體庫,也支持自建,而官方主體庫的覆蓋范圍比我預(yù)想得要豐富。
![]()
人物欄里,直接給了魯迅和林黛玉的影視形象,動物則有這兩年在網(wǎng)上很火的安卓貓、水豚、香蕉貓等。繼續(xù)翻,主體還延伸到了道具、服飾、場景和特效,基本把一支視頻里會需要用到的主要元素,都整理成了可復(fù)用的素材。
我這次的主角不是官方主體,而是自建的尼克和朱迪。在“我的主體”里,我上傳了兩位的圖片,分別新建了兩個主體。
可靈O1有一個專門用來保證角色一致性的設(shè)計:主體必須由多張圖片共同構(gòu)建。
創(chuàng)建時,系統(tǒng)會要求用戶至少提供一張主參考圖和一張其他視角圖,希望用戶把角色的正側(cè)面、近景遠(yuǎn)景都喂進(jìn)去。我給尼克上傳了4張圖,其中1張是主參考,其余是不同視角。
![]()
標(biāo)簽部分我選擇了“動物”,然后在主體描述欄點了一下“智能描述”,系統(tǒng)自動生成了一小段關(guān)于“狐尼克”的文字說明,補(bǔ)充了毛色、服飾等細(xì)節(jié)。
![]()
隨后我用同樣的方式給朱迪建了一個主體。
![]()
這一步做完之后,等于是在可靈O1里“重建”了影視版狐尼克和朱迪,后面無論是圖還是視頻,都可以直接調(diào)用這兩個主體,保證角色的基礎(chǔ)風(fēng)格統(tǒng)一。
二、從圖片到開場鏡頭,搭出瘋狂動物城夜班警局
有了主體之后,我先用圖片O1模式試了一輪靜態(tài)圖,讓尼克和朱迪先“落地”到典型場景里,我選的場景是動物城的警局辦公室。
![]()
警局的第一張效果非常理想:尼克和朱迪的角色一致性很好,比例、服飾和神態(tài)都在預(yù)期之內(nèi),場景畫風(fēng)也統(tǒng)一在動畫電影版的“瘋狂動物城”世界觀之中。
![]()
問題出在第二張圖上。在這張圖里,警局背景里出現(xiàn)了很多“長得像朱迪的警員”,背景人物的臉和朱迪近似度過高,畫面里出現(xiàn)了一排幾乎同款的兔子臉,視覺上有點詭異。
此外,尼克后方的一張辦公桌上,兩臺電腦緊貼擺放在一起,也不大符合日常使用場景,看起來像“復(fù)制粘貼”出來的。
![]()
我們嘗試使用局部重繪功能,把背景里部分警官替換成其他小動物形象,希望能打破“同臉軍團(tuán)”的違和感。
![]()
▲局部重繪后的效果
但在這種細(xì)節(jié)程度的編輯下,模型還是很難精準(zhǔn)地對某一個角色做局部替換。
在靜態(tài)圖大致跑通之后,我們決定用第一張警局圖片作為故事開場的基調(diào):先用O1生成一個夜晚的瘋狂動物城城市遠(yuǎn)景鏡頭,再拉近到警局門口,最后落到尼克和朱迪同框出現(xiàn),組成一個完整的視頻開場片段。
這條視頻在整體故事感上完成度很高:夜景街道、警局門口、內(nèi)部辦公室和主角同框的邏輯是對得上的。但細(xì)節(jié)層面,依然能看到一些“不對勁”的地方。比如部分警員的電腦是面朝觀眾擺放,而不是面朝警員自己。
另外,在警局背景中,有個別角色的臉直接變成了一團(tuán)“亂碼”,輪廓在,但五官細(xì)節(jié)糊成了一塊。
三、從畫面到聲音,用“智能音效”為動物城配上BGM
在視頻生成完成后,可靈O1的進(jìn)度條下方會出現(xiàn)兩個附加功能,一個是對口型,一個是音效。
![]()
對口型功能有一個前提條件:需要畫面中存在穩(wěn)定、持續(xù)可見的人臉,而且這個人臉要始終保持在畫幅之內(nèi)。
這個設(shè)定更適合真人、寫實風(fēng)格的片子,而我們這支瘋狂動物城的風(fēng)格偏動畫和多角色,所以這次沒有體驗對口型這一功能。
音效功能則是這次體驗里一個比較“驚喜”的點。我們只是在視頻生成完成后點擊了“音效”按鈕,就進(jìn)入了一個新的界面。
![]()
這一塊的交互邏輯有點像“AI版音效素材庫和智能擬音師”:一方面你可以直接在多種推薦風(fēng)格中選擇自己喜歡的音效基調(diào);另一方面,可靈會先分析視頻內(nèi)容,自動生成一段“音效創(chuàng)意描述”的指令。
![]()
智能音效的優(yōu)勢,則在于它能和畫面產(chǎn)生一些“預(yù)判式的配合”。
比如在這條警局開場視頻里,有一個明顯的開門動作,音效會主動把金屬門被推開的聲音放進(jìn)去,和畫面同步,加上遠(yuǎn)處的環(huán)境聲,整體的空間感比單純的BGM要完整得多。
從這個階段開始,畫面和聲音才真正拼成了一段“完整的開場鏡頭”。
四、用“嘴改視頻”,在警局門口加一塊胡蘿卜飲料廣告牌
有了一個可用的開場畫面之后,我開始嘗試O1“擅長的編輯操作”,用自然語言去調(diào)鏡頭、改細(xì)節(jié)。
先是增加元素。我們給模型下的指令是:在瘋狂動物城警局門口添加一塊電子廣告牌,播放胡蘿卜飲料的廣告。
![]()
視頻生成后,廣告牌本身融入得比較自然,亮度、位置和整體畫風(fēng)都對得上,確實像警局門口墻面的一部分。
但如果只看畫面,很難一下子認(rèn)出這是“胡蘿卜飲料”,胡蘿卜元素本身的視覺特征表現(xiàn)得不夠清晰,更像是一塊普通飲料廣告燈牌。
然后是刪改元素。我在同一段警局畫面里,嘗試讓模型“只保留尼克和朱迪,刪掉其他路人和警員”。最終的結(jié)果是:確實刪掉了大部分背景角色,但系統(tǒng)還是保留了一位靠近主角團(tuán)最近的警員。
可靈O1目前還沒有掌握逐幀、逐人可控的能力。
再往下,我們嘗試對鏡頭本身做一些調(diào)整。
街景部分,我們把鏡頭拉得更遠(yuǎn)一些,變成可以俯瞰整個動物城的全景,遠(yuǎn)處有不同種類的小動物在城市里活動。警局內(nèi)部,則要求更多一些近景和特寫,把尼克、朱迪和辦公區(qū)域的細(xì)節(jié)交代得更清楚。
在這些指令下,O1可以按照“遠(yuǎn)景、近景”的邏輯重新生成鏡頭。同時,我們也會發(fā)現(xiàn)一個明顯的問題:鏡頭之間的切換節(jié)奏和元素添加偏“死板”,鏡頭并不流暢,也沒有初版視頻的活靈活現(xiàn)。
五、讓朱迪跳舞,再把她變成像素游戲角色
在場景和細(xì)節(jié)編輯之后,我們開始嘗試可靈O1的動作參考能力:用一段網(wǎng)絡(luò)舞蹈視頻,驅(qū)動尼克和朱迪跳舞。
這次我們選了一段很火的網(wǎng)絡(luò)舞蹈,把它作為動作參考,希望讓尼克和朱迪兩人同步跳同一支舞。
實際體驗下來,目前O1在多主體同步動作上還沒有完全放開:經(jīng)過幾輪調(diào)參和不同指令嘗試,我們始終只能穩(wěn)定地生成“朱迪獨(dú)舞”的版本,沒辦法讓尼克和朱迪兩個人在同一畫面中,完成整支舞蹈。
但在單主體的表現(xiàn)上,這一條舞蹈的效果可以用“幾乎完美”來形容:動作復(fù)刻的節(jié)奏、幅度和重心變化都高度貼合參考視頻,朱迪的形象在大幅運(yùn)動中也保持了很好的穩(wěn)定性,沒有出現(xiàn)明顯的臉部崩壞或身體扭曲,耳朵、尾巴這類擬人動物的特征在動作里也被自然保留了下來。
在這個基礎(chǔ)上,我們又給這支舞蹈上了一道“風(fēng)格濾鏡”,把整段視頻重繪成像素游戲風(fēng)。
這一次,可靈O1也比較順利地完成了任務(wù)。
如果把前面的警局夜景、辦公室開場和這支像素風(fēng)舞蹈拼在一起,就已經(jīng)是一支很完整的“瘋狂動物城番外小短片”了。
這次圍繞瘋狂動物城的完整體驗下來,我對可靈O1的直觀感受是:它把原來散落在不同工具里的事情,組合成了一條相對順暢的工作流。
從主頁點進(jìn)O1開始,建主體、調(diào)圖、文生視頻、參考視頻、用嘴改畫面、加音效、做動作遷移、改風(fēng)格,一路下來基本都在同一個對話界面里完成。
對創(chuàng)作者來說,這種“一應(yīng)俱全”的狀態(tài),意味著試錯成本被顯著壓低了,你可以沿著同一個故事線往前推,不用頻繁切換不同產(chǎn)品和插件。
但同樣明顯的是,只要講到具體鏡頭和具體元素,可靈O1目前還沒到“想什么就一定能還原什么”的程度。在這些細(xì)節(jié)上,它更多是在給出一個可用的草稿,而不是直接替代專業(yè)后期。
朝這個方向繼續(xù)迭代下去,當(dāng)角色一致性、局部編輯和鏡頭邏輯再繼續(xù)精進(jìn),或許有望實現(xiàn):從一句話到一支能直接上線的短片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.