昨晚,AI視頻領域,終于來了一點新東西。
可靈,掏出了一個全新的多模態(tài)視頻大模型,可靈 O1 。
![]()
彈窗上,居然顯示連發(fā)5天,后面除了可靈O1,還有新貨。
而這也是第一次, 在AI視頻領域,有人把參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容修改、風格重繪、鏡頭延展等等多種能力,融合到了這個大一統(tǒng)的可靈 O1 模型之中。
而我,也做了一個小片子,來給大家展示一下,它的能力。
可以說,這就是AI視頻領域的Nona Banana。
目前,已經(jīng)正式上線,所有的人也都可以玩到。
![]()
作為可靈超創(chuàng),我在上周其實就已經(jīng)拿到了內(nèi)測資格,在體驗了幾天,花了2萬多積分,做了2個小片子以后,說實話,很多的玩法讓我很驚喜。
所以,我也想來跟大家,真實的聊一聊,我對可靈 O1 的評價。
話不多說,正式開始。
首先,可靈官網(wǎng)在此:
https://app.klingai.com/
進入首頁之后,你看到這兩帶顏色且明顯長的跟其他的icon不一樣畫風的,就是可靈O1。
![]()
點進去以后,可以看到網(wǎng)址上,寫的是Omni。
可靈O1的這個O,就是Omni的縮寫,跟GPT-4o的那個o意思一致,這單詞來自拉丁語前綴,意思就是“all,所有、一切”。
基本現(xiàn)在大模型圈已經(jīng)有了一個心照不宣的默契,就是誰在名字里加個 Omni,基本就是在對外說。
我是一個多模態(tài)大一統(tǒng)的基座模型。
進去以后,就可以看到這么一個界面。
![]()
可以上傳圖片和視頻,也可以用主體。
主體不是一個新東西,這個功能你可以理解為一個預設。
![]()
把一個人物或者物品的多角度圖傳上去,然后封裝成一個主體,更便于調(diào)用。
頂上那一圈功能,是對可靈O1的一個快捷模板,比如參考生視頻,就是傳幾張圖,更加確保一致性的情況下,生成視頻。
![]()
而這次的兩個新東西,分別是指令變化和視頻參考。
這也是可靈O1這次我覺得的,重中之重。
以前的可靈,是完全沒有辦法,對視頻進行編輯或參考的,但是這次,終于可以了,這也是我為什么想說,這是AI視頻領域的Nano Banana的原因。
雖然這還是第一版,還有部分局限性,但是這也是第一次,我們用嘴改視頻,終于也成為了可能。
我列幾個我自己覺得還是比較有趣的玩法。
讓大家看看它的能力。
一. 視頻中增加和刪除內(nèi)容
第一個,當然逃不開的就是,對視頻內(nèi)容進行增刪。
任意增加內(nèi)容,或者刪除內(nèi)容。
以前要在視頻里多加一個東西,比如桌子上多一杯奶茶,天空多一架飛機,街道多一輛車,這種事真的究極費勁。
隨便一小段,就能干掉一個后期師一天,真的,特別費人,巨浪費時間。
特別是一些綜藝,比如某個藝人塌房的時候,那摳人摳的。。。簡直是噩夢。
而在視頻多模態(tài)模型的加持下,這個傳統(tǒng)需要巨大人力修改的視頻模態(tài),成本被拉到了極低。
現(xiàn)在,只要會說話,會描述,就可以增加或刪除視頻里的內(nèi)容。
比如。
經(jīng)典電影《馬達加斯加的企鵝》里面的那三只企鵝,沒穿衣服,實在是有點不文雅。
那我們一句話,就可以給中間的Skipper,穿上一個西裝,戴上墨鏡。
![]()
就能讓它得到一個很不錯的效果,更像老大。
這次在參數(shù)上,有一個比較新的點也可以說下,就是時長自由,3~10s內(nèi)的視頻,都可以自由生成。
![]()
再比如,我自己生成了一個歌劇女郎。

為了給她增加一些神秘感,我就給她添了一個面罩。

既然可以增加,那刪除肯定也是完全沒有問題。
比如我隨手拍了一個公司里面的鏡頭。
![]()
然后,直接,一句話消除。
![]()
真的,所有的人,就全都沒了,就跟滅霸打了響指一樣。

比如哆啦A夢里面的這個鏡頭。

直接一句話,讓小夫在這個畫面中消失。

你真的,完全感受不到小夫的存在過。
可憐的小夫。。。
所以啊,很多分手了的視頻,也其實可以,用可靈 O1 處理處理。。。
你懂的。。。
二. 修改視頻中的特定內(nèi)容
第二個,也很好玩。
上面我們看了增加和刪除,而現(xiàn)在,你也可以只改視頻里的某一個部分 。
比如。
不改人,只改衣服顏色,不改構(gòu)圖,只把夏天改成冬天,一鍵變雪景,不改鏡頭運動,只把樓下那條路,變成開裂的地表等等等等。
比如,我拍了一下我們公司附近的一個很大的空地。

我們可以,直接用可靈 O1 ,打個響指,讓這個地方,一鍵地表開裂。

還有,讓我坤哥手上的籃球,變成足球。
還有,一個模特走秀,我們希望她換頭發(fā),換衣服等等,也可以一句話直接修改。
![]()
百變女神有木有。
不止可以變化場景和物體,還可以,讓修改視頻的天氣。
![]()
讓人物和場景完美融合。
整體效果還不錯,不過還是會有一些不足。
比如精細控制不夠,坤哥足球那個case大幅運動偶爾會崩穿幫一下,但是如果你的場景不是電影級的畫面,就是短視頻這種,再揚長避短一下,我真的覺得已經(jīng)非常夠用了。
三. 把視頻扣成綠幕
這個玩法也挺特別的,就是是一個看起來很傳統(tǒng),但實際非常有用的能力。
把一個現(xiàn)有視頻,自動扣成綠幕素材。
以前我們要做虛擬演播廳、虛擬背景、特效合成等等,第一步一定是拍綠幕。
因為只有綠幕才能最方便的幫你去后期疊加各種特效效果,最方便的進行合成。
一些不需要那么精細的場景,我們其實就可以直接用可靈 O1 來做了。
但是對于一些傳統(tǒng)的要求極高的影像內(nèi)容,AI可能暫時能力還達不到,那扣出主體,把背景變成綠幕,后期用別的視頻合成進去,其實是更好的方案。
以前傳統(tǒng)流程如果前期沒有搭綠幕,而是后期來扣,那真的麻煩到爆炸,而現(xiàn)在,借助可靈 O1 ,你可以理解成,它用自己的視頻理解+分割能力,幫你自動做了一次綠幕摳像。
比如這個史迪仔,在太空中漂浮的場景,我們只想保留史迪仔,然后希望把背景變成綠幕。
就可以直接說:
把視頻改為綠幕,保留畫面中毛茸茸的史迪仔。
然后你就能得到,一個摳完的視頻。
又比如,把這個鹿的背景摳成綠幕。


效果相當不錯。
四. 參考視頻動作
除了對視頻本身進行編輯之外,你還可以,把視頻作為參考本身,用一個現(xiàn)有視頻,去驅(qū)動另一個角色的視頻動作。
就是大家經(jīng)常能看到的動作遷移,現(xiàn)在用可靈 O1 ,已經(jīng)可以進行的非常好了。
簡單說,就是,比如你有一個角色跳舞的視頻A,還有有一個角色或者插畫人物B,用可靈O1,就可以讓B按照A的動作,跳一模一樣的舞。
比如原跳舞視頻是這個。
很魔性很抽象。
現(xiàn)在,我們給他一個瘋狂動物城里面的尼克,讓他也來跳這個舞。
![]()
只需要特別簡單的一句,把視頻中的角色,替換成尼克。
就可以得到一個動作遷移非常的好的尼克跳舞視頻。
這類功能,在之前的一些AI視頻產(chǎn)品里也以零散的功能出現(xiàn),但可靈 O1 這次,直接集成進了自己的多模態(tài)模型里,而且效果非常棒。
可以非常便捷的,替代以前的動作捕捉了。
而且不止可以遷移動作,人物的表演能力,也可以非常棒的遷移過來。
比如把尼古拉斯凱奇,直接替換成,尼古拉斯趙四。
還有把AI視頻里的白發(fā)老人,換成風騷律師的主角Jimmy。

效果非常的穩(wěn)定。
五. 更改視頻風格
改視頻風格,應該是大家最容易理解的,也是AI視頻第一次出現(xiàn)的時候,最流行的玩法。
也就是,在不改變視頻內(nèi)容的前提下,直接換一整套風格。
比如把現(xiàn)實拍攝的視頻,改成手繪動畫,或者把城市夜景變成賽博朋克等等。
還是用我最開始拍的空地,我們直接把他變成,全部變成像素化,包括手,地面,遠處的建筑和天空。

又或者,把我的實拍視頻,加上蒙克那張經(jīng)典的吶喊。
![]()
然后,就變成了一個非常具有視覺沖擊力的風格。

這個玩法,我特別喜歡。
除了上面這些比較主線的能力,還有一堆零零碎碎的,擁有模型世界知識的玩法。
比如直接根據(jù)一個鏡頭,生成下一個鏡頭。
例如這個車。

扔到可靈O1里面。
![]()
然后就會得到這樣一個,展現(xiàn)極致速度感的視頻。

比如把這個鏡頭,切換成另一個視角。

就可以得到一個特寫。

等等等等。
通過以上的案例,其實你就能大概的看出來,可靈 O1 的能力了。
這篇文章的所有視頻案例,本來,就準備到此結(jié)束了。
但是,而我和好基友@溫維斯 ,在晚上聊天的時候,又有了一個新的靈感,所以,決定。
![]()
通宵,跟他工作室的小伙伴們,再一起,搓一個,新的片子。
于是,有了這個新鮮的,《我的神奇“靈”力》。
如果一定要用一個詞來描述這個小片子的話,那應該就是:
靈光一現(xiàn)。
希望大家喜歡。
可靈O1,是AI視頻領域,第一個真正意義上的大一統(tǒng)模型。
當然,因為是初期,模型還做不到完美。比如在多主體識別、畫面質(zhì)量的呈現(xiàn)上還能做得更好。
但,這是前往更牛逼的多模態(tài)模型的,必經(jīng)之路。
現(xiàn)在的Nano Banana Pro強到飛起,也是從當年的Nano Banana一代,逐漸進化而來的。
就像2024年6月6號,我們看可靈1.0的時候。
也許幾年之后回頭看今天,可靈O1只是一個新時代的開始,就像我們用現(xiàn)在的眼光,來看可靈1.0那樣。
但如果某一天,我們真的有那種,所謂的給一句話,它就能幫你從策劃到拍片到剪輯全包的終極視頻 AI。
那它的族譜往上翻,我覺得肯定會寫著。
這里,曾經(jīng)有一個叫可靈O1的名字。
從這一代開始,我們第一次認認真真的。
把用嘴改視頻。
當成了一件理所當然的事。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、水杉、Chiyo
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.