可能每個(gè)搞AI視頻大模型的人心里都有一個(gè)三體夢(mèng)。
不久前,可靈AI召開2.0升級(jí)發(fā)布會(huì)。快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤上臺(tái)就講了一個(gè)故事。
![]()
大概在一年前,在公司內(nèi)部看可靈第一個(gè)DIT模型產(chǎn)出結(jié)果的時(shí)候,他就想,自己什么時(shí)候能用AI把心目中的《三體》做出來?
蓋坤一開始就知道,整個(gè)視頻生成技術(shù)是一個(gè)長跑,他們距離心目中的還有很遠(yuǎn)。他們也知道,這個(gè)賽道將會(huì)激烈。
因此,可靈AI發(fā)布后就進(jìn)入了奪命狂奔的模式。在過去的10個(gè)月里,可靈AI已經(jīng)經(jīng)歷了20多次產(chǎn)品迭代。
在發(fā)布會(huì)當(dāng)天,蓋坤展示了可圖2.0、可靈AI2.0和多模態(tài)編輯功能,從數(shù)據(jù)測試來看,都遠(yuǎn)超目前海外TOP級(jí)別同類產(chǎn)品。
技術(shù)能力只是可靈AI的殺手锏之一。
在當(dāng)天的發(fā)布會(huì)上,我們還看到了大量的AI視頻超級(jí)創(chuàng)作者。汗青Talk、陳坤、宋東恒、樓濟(jì)銘、森海熒光、Danny造夢(mèng)、異類Outliers……
可以說,可靈擁有整個(gè)AI視頻領(lǐng)域最龐大的內(nèi)容創(chuàng)造群體。這些超級(jí)創(chuàng)作者是AI視頻內(nèi)容社區(qū)的星星之火,也是燈塔。
可靈AI也在通過各種運(yùn)營方式,跟各種企業(yè),以及影視大會(huì)合作,給到超級(jí)AI創(chuàng)作者們更多曝光機(jī)會(huì),激發(fā)他們的創(chuàng)作潛能。
大家距離“三體”夢(mèng)越來越近了。
可靈AI月活用戶增長25倍
作為全球第一款公開可用的DIT架構(gòu)視頻生成大模型,可靈AI從一誕生就是先進(jìn)創(chuàng)意生產(chǎn)力平臺(tái)的代表。
盡管在可靈AI之后,國內(nèi)外也出現(xiàn)了不少AI視頻模型,但不管是產(chǎn)品迭代、用戶體驗(yàn)、商業(yè)化等方面,可靈AI都持續(xù)斷層式領(lǐng)先。
![]()
根據(jù)公司2024年財(cái)報(bào)中提到的數(shù)據(jù),截止2025年2月,可靈AI的商業(yè)化收入已經(jīng)超過1億元。
在過去10個(gè)月里,可靈AI在模型效果方面始終保持在行業(yè)的第一梯隊(duì)。從Artificial Analysis的評(píng)測榜單上可以看到,可靈AI和谷歌旗下的Voe2,在圖生視頻和文生視頻上分別占據(jù)Top1。
今年1月份,可靈APP在8個(gè)國家和地區(qū)包括智利阿根廷等,都榮獲了蘋果IOS下載榜單第一名;同時(shí)在包括美國等29個(gè)國家和地區(qū),榮獲了圖像和視頻榜單的第一。
在這些榜單背后,是可靈AI收獲的無數(shù)AIGC創(chuàng)作者的熱情。
從1.0版本發(fā)布至今,可靈AI用戶已經(jīng)超過2200萬用戶,月活用戶數(shù)增長了25倍。據(jù)統(tǒng)計(jì),這些用戶在可靈AI的平臺(tái)上發(fā)布了1.08億的視頻和3.44億張圖片。
除了個(gè)人用戶以外,目前有超過15000名開發(fā)者在使用可靈AI的API。這些開發(fā)者已經(jīng)累計(jì)生成了1200萬個(gè)的圖像和4000萬個(gè)的視頻。
可靈AI狂奔一年后,回到它誕生的初心,一個(gè)問題便油然而生:現(xiàn)在的視頻生成技術(shù)可以讓每個(gè)創(chuàng)作者講好自己的故事了嗎?
還遠(yuǎn)遠(yuǎn)不夠。
那么,創(chuàng)作者在使用行業(yè)頂級(jí)AI視頻生成工具時(shí),一般會(huì)遇到什么問題?
這是個(gè)各家AI視頻生成工具都需要面臨的共性問題。
第一個(gè)問題是,語義分析能力在部分情況下不夠。
語意分析能力不夠,妨礙了創(chuàng)作者們用文字能夠很精準(zhǔn)的表達(dá)控制自己的輸出結(jié)果,讓自己的創(chuàng)意大打折扣,我們其實(shí)需要一個(gè)語義分析能力更強(qiáng)的視頻生成大模型。
第二類碰到的常見的問題是,動(dòng)態(tài)質(zhì)量的問題。
這里包括大家所常說的運(yùn)動(dòng)過快,或者運(yùn)動(dòng)不符合物理規(guī)律。
用戶需要一個(gè)動(dòng)態(tài)能力更好的視頻生成模型,還需要一個(gè)真實(shí)性更強(qiáng),美感更好的視頻生成模型。
蓋坤在現(xiàn)場展示了一些AI視頻生成中遇到問題的案例。比如,美感不夠,鏡頭不夠,不真實(shí)等等。
這些問題,都是創(chuàng)作者和開發(fā)合作伙伴在視頻創(chuàng)作中遇到的共性問題,大家迫切需要一個(gè)更強(qiáng)大的視頻生成模型能夠在語義遵循、畫面質(zhì)量、動(dòng)態(tài)質(zhì)量、真實(shí)度和美感上都比現(xiàn)在的行業(yè)水平有一個(gè)大幅提升。
為了進(jìn)一步解決這些問題,可靈AI升級(jí)到2.0版本。蓋坤稱之為,世界上最強(qiáng)大的視覺生成模型。它來了。
可靈AI2.0更懂常識(shí)和審美
現(xiàn)場,蓋坤用一段視頻介紹了一下可靈和可圖2.0模型。緊接著,他用數(shù)據(jù)進(jìn)一步說明可圖2.0模型的能力。
現(xiàn)場測評(píng)展示中可以看到,與世界上頂級(jí)的圖片模型MidjourneyV7相比,可圖2.0勝負(fù)比達(dá)到300%以上,而對(duì)比近期非常火的REVE模型,勝負(fù)比達(dá)到193%,對(duì)比FLUX1.1[pro]勝負(fù)比已經(jīng)達(dá)到152%。如果兩款產(chǎn)品的對(duì)比數(shù)據(jù)如果是100%說明,說明一樣好。
這說明,可圖2.0現(xiàn)在是行業(yè)領(lǐng)先的專業(yè)圖象模型。
第二個(gè)重磅發(fā)布的是可靈2.0文生視頻模型。
蓋坤也選擇了兩個(gè)全球頂級(jí)視頻模型進(jìn)行對(duì)標(biāo),一個(gè)是與可靈AI1.0并列的Veo2,另一個(gè)是OPenAI旗下的Sora。
通過數(shù)據(jù)測評(píng),可靈2.0文生視頻模型對(duì)比Veo2在綜合勝負(fù)比上達(dá)到了205%,對(duì)比Sora達(dá)到了327%。
![]()
第三個(gè)重磅發(fā)布的是可靈2.0圖生視頻模型。
對(duì)比Veo2,以及海外剛發(fā)布的Gen-4,可靈2.0圖生視頻的總和勝負(fù)比都達(dá)到180%左右。這意味著在圖生視頻上,可靈AI依舊持續(xù)領(lǐng)先。
有了好用且功能強(qiáng)大的AI工具,下一步就是教會(huì)用戶如何用。解決這個(gè)問題,需要打通關(guān)鍵的一步:人如何與AI進(jìn)行最基礎(chǔ)的文字溝通。
說白了,就是提示詞。
你會(huì)發(fā)現(xiàn),目前,使用AI圖片和視頻工具比較熟練的用戶輕清一色對(duì)“語言描述”有著強(qiáng)大的駕馭能力。描述越精準(zhǔn),越細(xì)致,AI產(chǎn)出的圖片和視頻就更接近創(chuàng)作者的想象。
然而,遺憾地是,不是所有人都有這種文字功底和能力。這就讓創(chuàng)作者在提示詞階段拉開了巨大差距。
其實(shí),我們很難用文字把影像信息完美的描述出來。因?yàn)槲淖肿鳛槿巳ッ枋鲎约合胂裰械氖澜绲拿浇槭遣煌昝赖摹?/p>
那怎么辦呢?
我們需要定義一個(gè)新的語言,一個(gè)人和AI交互的新的語言,能夠讓我們的想像能夠被AI完全感知到,能夠讓你的想像成真。
如何定義?
可靈定義了一種新的語言叫做MVL(Multi-modal Visual Language),多模態(tài)視覺語言。
MVL里面有兩類非常關(guān)鍵的元素,第一類是TXT(Pure Text,語義骨架),第二類稱為MMW(Multi-modal-document as a Word,多模態(tài)描述子),把多模態(tài)信息引入進(jìn)來,當(dāng)成一個(gè)單詞,能夠嵌入到我們的骨架里面,共同描述你想像的世界。
這是一種非常直觀,因?yàn)槟軌蛴萌祟惖恼Z言描述,同時(shí)用多模態(tài)信息做線路,能夠大幅度擴(kuò)展描述的精準(zhǔn)性,能夠更完美的描述人腦海中的想像。
基于MVL的思想,可靈第一個(gè)產(chǎn)品,多模態(tài)編輯正式發(fā)布。這意味著,未來一定不只有圖片和視頻兩個(gè)模態(tài),今后還會(huì)拓展更多模態(tài)的輸入。
可靈AI的超級(jí)創(chuàng)作者們
可靈AI一直是AI視頻領(lǐng)域的領(lǐng)頭羊。這也吸引了大量超級(jí)AI視頻創(chuàng)作者聚集在可靈的社群中。
![]()
最早,快手短劇聯(lián)合快手可靈AI大模型、創(chuàng)作者“閑人一坤”導(dǎo)演陳坤,共同推出取材自《山海經(jīng)》、完全由AI制作的奇幻微短劇《山海奇鏡之劈波斬浪》。
《山海奇鏡》通過AI技術(shù),在對(duì)水神共工、火神祝融,神獸鯤、鵬、蠃魚、九嬰、鮫人的影像化塑造都稱得上震撼。
更關(guān)鍵的是,這部AI短劇實(shí)現(xiàn)了人物皮膚紋理、微表情動(dòng)態(tài)的精細(xì)化處理、人物肌肉動(dòng)態(tài)處理合乎物理規(guī)律的一致性等,如上圖行舟眼神中的恐懼、下圖水爺?shù)难凵褡兓?xì)節(jié)等,都讓AI影像更加真實(shí)可感。
后來,快手宣布正式啟動(dòng)“可靈AI”導(dǎo)演共創(chuàng)計(jì)劃。李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等9位知名導(dǎo)演,將依托可靈AI的技術(shù)能力,制作出品9部AIGC電影短片。據(jù)悉,9部短片將全部由可靈AI進(jìn)行視頻生成,電影導(dǎo)演完全依托視頻生成大模型,群體深度參與電影級(jí)內(nèi)容創(chuàng)作。
就在今年春節(jié)之前,可靈AI又上線了AI劇集《新世界加載中》。這部短劇的總導(dǎo)演,異類Outliers的創(chuàng)始人陳翔宇也參加了可靈AI2.0的發(fā)布會(huì)。
陳翔宇表示,《新世界加載中》從劇本創(chuàng)作到內(nèi)容發(fā)行歷時(shí)一年的時(shí)間,歷經(jīng)一次完整的關(guān)于AI影像的工業(yè)化創(chuàng)作流程。
“可靈AI是一個(gè)能夠穩(wěn)定的大規(guī)模嵌入劇集當(dāng)中的視頻生成大模型。在《桃源》這個(gè)系列中,我們能看到,可靈AI在本土故事的塑造和中國元素的表達(dá)上面都是有非常強(qiáng)大的優(yōu)勢(shì)的,是克制精準(zhǔn)的影視級(jí)表達(dá)。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.