網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

圍獵AI超級(jí)創(chuàng)作人，10個(gè)月迭代20個(gè)版本，可靈AI的奪命狂奔

2025-04-21 22:07:31　來源: AI新光年

北京舉報(bào)

分享至

可能每個(gè)搞AI視頻大模型的人心里都有一個(gè)三體夢(mèng)。

不久前，可靈AI召開2.0升級(jí)發(fā)布會(huì)。快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤上臺(tái)就講了一個(gè)故事。

大概在一年前，在公司內(nèi)部看可靈第一個(gè)DIT模型產(chǎn)出結(jié)果的時(shí)候，他就想，自己什么時(shí)候能用AI把心目中的《三體》做出來？

蓋坤一開始就知道，整個(gè)視頻生成技術(shù)是一個(gè)長跑，他們距離心目中的還有很遠(yuǎn)。他們也知道，這個(gè)賽道將會(huì)激烈。

因此，可靈AI發(fā)布后就進(jìn)入了奪命狂奔的模式。在過去的10個(gè)月里，可靈AI已經(jīng)經(jīng)歷了20多次產(chǎn)品迭代。

在發(fā)布會(huì)當(dāng)天，蓋坤展示了可圖2.0、可靈AI2.0和多模態(tài)編輯功能，從數(shù)據(jù)測試來看，都遠(yuǎn)超目前海外TOP級(jí)別同類產(chǎn)品。

技術(shù)能力只是可靈AI的殺手锏之一。

在當(dāng)天的發(fā)布會(huì)上，我們還看到了大量的AI視頻超級(jí)創(chuàng)作者。汗青Talk、陳坤、宋東恒、樓濟(jì)銘、森海熒光、Danny造夢(mèng)、異類Outliers……

可以說，可靈擁有整個(gè)AI視頻領(lǐng)域最龐大的內(nèi)容創(chuàng)造群體。這些超級(jí)創(chuàng)作者是AI視頻內(nèi)容社區(qū)的星星之火，也是燈塔。

可靈AI也在通過各種運(yùn)營方式，跟各種企業(yè)，以及影視大會(huì)合作，給到超級(jí)AI創(chuàng)作者們更多曝光機(jī)會(huì)，激發(fā)他們的創(chuàng)作潛能。

大家距離“三體”夢(mèng)越來越近了。

可靈AI月活用戶增長25倍

作為全球第一款公開可用的DIT架構(gòu)視頻生成大模型，可靈AI從一誕生就是先進(jìn)創(chuàng)意生產(chǎn)力平臺(tái)的代表。

盡管在可靈AI之后，國內(nèi)外也出現(xiàn)了不少AI視頻模型，但不管是產(chǎn)品迭代、用戶體驗(yàn)、商業(yè)化等方面，可靈AI都持續(xù)斷層式領(lǐng)先。

根據(jù)公司2024年財(cái)報(bào)中提到的數(shù)據(jù)，截止2025年2月，可靈AI的商業(yè)化收入已經(jīng)超過1億元。

在過去10個(gè)月里，可靈AI在模型效果方面始終保持在行業(yè)的第一梯隊(duì)。從Artificial Analysis的評(píng)測榜單上可以看到，可靈AI和谷歌旗下的Voe2，在圖生視頻和文生視頻上分別占據(jù)Top1。

今年1月份，可靈APP在8個(gè)國家和地區(qū)包括智利阿根廷等，都榮獲了蘋果IOS下載榜單第一名；同時(shí)在包括美國等29個(gè)國家和地區(qū)，榮獲了圖像和視頻榜單的第一。

在這些榜單背后，是可靈AI收獲的無數(shù)AIGC創(chuàng)作者的熱情。

從1.0版本發(fā)布至今，可靈AI用戶已經(jīng)超過2200萬用戶，月活用戶數(shù)增長了25倍。據(jù)統(tǒng)計(jì)，這些用戶在可靈AI的平臺(tái)上發(fā)布了1.08億的視頻和3.44億張圖片。

除了個(gè)人用戶以外，目前有超過15000名開發(fā)者在使用可靈AI的API。這些開發(fā)者已經(jīng)累計(jì)生成了1200萬個(gè)的圖像和4000萬個(gè)的視頻。

可靈AI狂奔一年后，回到它誕生的初心，一個(gè)問題便油然而生：現(xiàn)在的視頻生成技術(shù)可以讓每個(gè)創(chuàng)作者講好自己的故事了嗎？

還遠(yuǎn)遠(yuǎn)不夠。

那么，創(chuàng)作者在使用行業(yè)頂級(jí)AI視頻生成工具時(shí)，一般會(huì)遇到什么問題？

這是個(gè)各家AI視頻生成工具都需要面臨的共性問題。

第一個(gè)問題是，語義分析能力在部分情況下不夠。

語意分析能力不夠，妨礙了創(chuàng)作者們用文字能夠很精準(zhǔn)的表達(dá)控制自己的輸出結(jié)果，讓自己的創(chuàng)意大打折扣，我們其實(shí)需要一個(gè)語義分析能力更強(qiáng)的視頻生成大模型。

第二類碰到的常見的問題是，動(dòng)態(tài)質(zhì)量的問題。

這里包括大家所常說的運(yùn)動(dòng)過快，或者運(yùn)動(dòng)不符合物理規(guī)律。

用戶需要一個(gè)動(dòng)態(tài)能力更好的視頻生成模型，還需要一個(gè)真實(shí)性更強(qiáng)，美感更好的視頻生成模型。

蓋坤在現(xiàn)場展示了一些AI視頻生成中遇到問題的案例。比如，美感不夠，鏡頭不夠，不真實(shí)等等。

這些問題，都是創(chuàng)作者和開發(fā)合作伙伴在視頻創(chuàng)作中遇到的共性問題，大家迫切需要一個(gè)更強(qiáng)大的視頻生成模型能夠在語義遵循、畫面質(zhì)量、動(dòng)態(tài)質(zhì)量、真實(shí)度和美感上都比現(xiàn)在的行業(yè)水平有一個(gè)大幅提升。

為了進(jìn)一步解決這些問題，可靈AI升級(jí)到2.0版本。蓋坤稱之為，世界上最強(qiáng)大的視覺生成模型。它來了。

可靈AI2.0更懂常識(shí)和審美

現(xiàn)場，蓋坤用一段視頻介紹了一下可靈和可圖2.0模型。緊接著，他用數(shù)據(jù)進(jìn)一步說明可圖2.0模型的能力。

現(xiàn)場測評(píng)展示中可以看到，與世界上頂級(jí)的圖片模型MidjourneyV7相比，可圖2.0勝負(fù)比達(dá)到300%以上，而對(duì)比近期非常火的REVE模型，勝負(fù)比達(dá)到193%，對(duì)比FLUX1.1[pro]勝負(fù)比已經(jīng)達(dá)到152%。如果兩款產(chǎn)品的對(duì)比數(shù)據(jù)如果是100%說明，說明一樣好。

這說明，可圖2.0現(xiàn)在是行業(yè)領(lǐng)先的專業(yè)圖象模型。

第二個(gè)重磅發(fā)布的是可靈2.0文生視頻模型。

蓋坤也選擇了兩個(gè)全球頂級(jí)視頻模型進(jìn)行對(duì)標(biāo)，一個(gè)是與可靈AI1.0并列的Veo2，另一個(gè)是OPenAI旗下的Sora。

通過數(shù)據(jù)測評(píng)，可靈2.0文生視頻模型對(duì)比Veo2在綜合勝負(fù)比上達(dá)到了205%，對(duì)比Sora達(dá)到了327%。

第三個(gè)重磅發(fā)布的是可靈2.0圖生視頻模型。

對(duì)比Veo2，以及海外剛發(fā)布的Gen-4，可靈2.0圖生視頻的總和勝負(fù)比都達(dá)到180%左右。這意味著在圖生視頻上，可靈AI依舊持續(xù)領(lǐng)先。

有了好用且功能強(qiáng)大的AI工具，下一步就是教會(huì)用戶如何用。解決這個(gè)問題，需要打通關(guān)鍵的一步：人如何與AI進(jìn)行最基礎(chǔ)的文字溝通。

說白了，就是提示詞。

你會(huì)發(fā)現(xiàn)，目前，使用AI圖片和視頻工具比較熟練的用戶輕清一色對(duì)“語言描述”有著強(qiáng)大的駕馭能力。描述越精準(zhǔn)，越細(xì)致，AI產(chǎn)出的圖片和視頻就更接近創(chuàng)作者的想象。

然而，遺憾地是，不是所有人都有這種文字功底和能力。這就讓創(chuàng)作者在提示詞階段拉開了巨大差距。

其實(shí)，我們很難用文字把影像信息完美的描述出來。因?yàn)槲淖肿鳛槿巳ッ枋鲎约合胂裰械氖澜绲拿浇槭遣煌昝赖摹?/p>

那怎么辦呢？

我們需要定義一個(gè)新的語言，一個(gè)人和AI交互的新的語言，能夠讓我們的想像能夠被AI完全感知到，能夠讓你的想像成真。

如何定義？

可靈定義了一種新的語言叫做MVL（Multi-modal Visual Language），多模態(tài)視覺語言。

MVL里面有兩類非常關(guān)鍵的元素，第一類是TXT（Pure Text，語義骨架），第二類稱為MMW（Multi-modal-document as a Word，多模態(tài)描述子），把多模態(tài)信息引入進(jìn)來，當(dāng)成一個(gè)單詞，能夠嵌入到我們的骨架里面，共同描述你想像的世界。

這是一種非常直觀，因?yàn)槟軌蛴萌祟惖恼Z言描述，同時(shí)用多模態(tài)信息做線路，能夠大幅度擴(kuò)展描述的精準(zhǔn)性，能夠更完美的描述人腦海中的想像。

基于MVL的思想，可靈第一個(gè)產(chǎn)品，多模態(tài)編輯正式發(fā)布。這意味著，未來一定不只有圖片和視頻兩個(gè)模態(tài)，今后還會(huì)拓展更多模態(tài)的輸入。

可靈AI的超級(jí)創(chuàng)作者們

可靈AI一直是AI視頻領(lǐng)域的領(lǐng)頭羊。這也吸引了大量超級(jí)AI視頻創(chuàng)作者聚集在可靈的社群中。

最早，快手短劇聯(lián)合快手可靈AI大模型、創(chuàng)作者“閑人一坤”導(dǎo)演陳坤，共同推出取材自《山海經(jīng)》、完全由AI制作的奇幻微短劇《山海奇鏡之劈波斬浪》。

《山海奇鏡》通過AI技術(shù)，在對(duì)水神共工、火神祝融，神獸鯤、鵬、蠃魚、九嬰、鮫人的影像化塑造都稱得上震撼。

更關(guān)鍵的是，這部AI短劇實(shí)現(xiàn)了人物皮膚紋理、微表情動(dòng)態(tài)的精細(xì)化處理、人物肌肉動(dòng)態(tài)處理合乎物理規(guī)律的一致性等，如上圖行舟眼神中的恐懼、下圖水爺?shù)难凵褡兓?xì)節(jié)等，都讓AI影像更加真實(shí)可感。

后來，快手宣布正式啟動(dòng)“可靈AI”導(dǎo)演共創(chuàng)計(jì)劃。李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等9位知名導(dǎo)演，將依托可靈AI的技術(shù)能力，制作出品9部AIGC電影短片。據(jù)悉，9部短片將全部由可靈AI進(jìn)行視頻生成，電影導(dǎo)演完全依托視頻生成大模型，群體深度參與電影級(jí)內(nèi)容創(chuàng)作。

就在今年春節(jié)之前，可靈AI又上線了AI劇集《新世界加載中》。這部短劇的總導(dǎo)演，異類Outliers的創(chuàng)始人陳翔宇也參加了可靈AI2.0的發(fā)布會(huì)。

陳翔宇表示，《新世界加載中》從劇本創(chuàng)作到內(nèi)容發(fā)行歷時(shí)一年的時(shí)間，歷經(jīng)一次完整的關(guān)于AI影像的工業(yè)化創(chuàng)作流程。

“可靈AI是一個(gè)能夠穩(wěn)定的大規(guī)模嵌入劇集當(dāng)中的視頻生成大模型。在《桃源》這個(gè)系列中，我們能看到，可靈AI在本土故事的塑造和中國元素的表達(dá)上面都是有非常強(qiáng)大的優(yōu)勢(shì)的，是克制精準(zhǔn)的影視級(jí)表達(dá)。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.