快手最近發(fā)布了2024年第三季報:總營收同比增長11.4%至311億,日活也到了4億的一個里程碑。無論是用戶數(shù)據(jù)還是營收利潤數(shù)據(jù),這都是一個穩(wěn)字當(dāng)頭的財報。不過,相比單純的財務(wù)數(shù)字,我最關(guān)心的是快手在AI 大模型領(lǐng)域的動作。CEO程一笑在業(yè)績電話會中用非常大的篇幅介紹了可靈AI的最新進(jìn)展:月活超150萬,單月流水也超過了千萬人民幣。
在即將寫這篇文章的時候,我點(diǎn)開了由可靈AI提供深度技術(shù)支持的國內(nèi)首部AIGC原創(chuàng)奇幻微短劇《山海奇鏡之劈波斬浪》,并在自己的手機(jī)上看了好幾遍。
看完之后,我感到嘆服,作為星芒短劇暑期檔的精選劇集,《山海奇鏡之劈波斬浪》在5集的篇幅里,利用可靈AI對奇幻的上古傳說進(jìn)行了一次美好的賽博復(fù)現(xiàn)。同時,其正片5集播放量超過5200萬,全網(wǎng)話題曝光量超4.3億,同時還登上全平臺熱搜21個。
我也不由的開始思考一個問題——就連視頻生成(至少是技術(shù)層面)都被人類初步實(shí)現(xiàn)了,那么,作為這個星球上唯一的智慧物種的我們,發(fā)展的未來方向是什么?是更深層次的創(chuàng)意思考能力呢?抑或是掌握和AI協(xié)同創(chuàng)作,得到“力量倍增器”的能力呢?
但至少就可靈AI而言,我認(rèn)為它能夠給世界帶來更多的美好,也給快手帶來更強(qiáng)的商業(yè)競爭力,更有可能會改變視頻制作行業(yè)的工作流程。
——導(dǎo)語
01
視頻大模型,卷的是什么?
2024年11月20日發(fā)布的快手季度財報中,視覺生成大模型可靈AI備受矚目,在業(yè)績發(fā)布當(dāng)晚的電話會議中,也成為機(jī)構(gòu)投資人最關(guān)心的幾個話題之一。
為什么會這樣?
還是要從全球大模型的角逐中找到認(rèn)知。
事實(shí)上,從Sora問世到可靈AI出現(xiàn)的這個時間段里,視頻大模型儼然有向軍備競賽發(fā)展的趨勢。
可靈剛剛發(fā)布,初創(chuàng)企業(yè)Luma 就不甘示弱,推出最新視頻模型 Dream Machine,這款號稱“造夢機(jī)器”的模型迅速面向公眾開放測試。其官方放出的一系列樣片水準(zhǔn)相當(dāng)之高,而網(wǎng)上也出現(xiàn)了不少網(wǎng)友使用“造夢機(jī)器”生成的視頻,雖然沒有達(dá)到官方樣片的程度,但也有可圈可點(diǎn)的地方。
![]()
Runway緊趕慢趕還是放出了醞釀了半年的全新版本 Gen-3 Alpha,確實(shí)也顯出了不凡的底蘊(yùn)。
接下來,視頻生成賽道就爆火了,比如,阿里達(dá)摩院官宣了“尋光視頻創(chuàng)作平臺”、字節(jié)宣布即夢 AI 開始探索“生成式影劇”、美圖 MOKI 盯上 AI 短片創(chuàng)作……
但是,和很多視頻生成模型在發(fā)布時爆火,但隨即就被發(fā)現(xiàn)各種“幼稚病”所不同。快手近期驕傲的宣布了一組數(shù)據(jù)——可靈AI已有超過500萬用戶,累計生成5100萬個視頻和超過1.5億張圖。
![]()
在AI應(yīng)用落地的時代,只有這種實(shí)實(shí)在在的應(yīng)用數(shù)據(jù),才能說明一個模型的用戶價值和真實(shí)水平。
那可靈的厲害之處是什么?
簡單一句話就是——可靈AI不僅是當(dāng)下少有的用戶真實(shí)可用的視頻大模型,其生產(chǎn)的內(nèi)容也能達(dá)到真實(shí)影像級,還能模擬物理世界特性,并有更高的控制性。
里面有兩個關(guān)鍵詞,第一個是“用戶真實(shí)可用”,這句話很重要。
可靈AI自6月推出面向公眾開放內(nèi)測,7月就陸續(xù)向國內(nèi)和海外的用戶推出會員付費(fèi)體系,近日又推出了App,對于全球的很多向往視頻大模型技術(shù)的發(fā)燒友來說,可靈或許就是他們首個開箱測試的視頻生成大模型。
雖然在可靈推出之前,Sora已經(jīng)火到一塌糊涂,但Sora一直沒有面向C端開放。且有真正的專業(yè)人士的評價稱——盡管 Sora 非常酷,但生成過程仍難以控制,主角的一致性難以保證,需要大量人工后期編輯才能達(dá)到最佳效果。
換句話說,Sora還做不到完整意義上的“用戶可用”,因?yàn)檫@里的“用戶”是消費(fèi)級用戶,也就是普通人。
反過來理解就是,如果一個視頻大模型很酷,但它不能用,且仍然需要專業(yè)人士的能力進(jìn)行大量人工后期編輯,那對普通人的意義就很小。
就拿我自己做例子,我是一個資深的文字內(nèi)容創(chuàng)作者。如果我對一個語言大模型的評價是“需要大量后期人工編輯”,那潛臺詞就是“普通人不會覺得好用”。
而可靈雖然不能說一步到位、毫無瑕疵,但做到了“用戶可用”,這就超過了絕大多數(shù)競品。
另一個理解可靈的關(guān)鍵詞是“真實(shí)影像級”,這就很可怕了。
真實(shí)影像級,就是我們拍攝真實(shí)存在的物理世界才能產(chǎn)生的影像,換句話說,它不能是動畫或特效,也不能夸張和失真,要達(dá)到與物理世界一致。
目前,連吃面條這種坑死所有AI視頻產(chǎn)品的case,可靈都能完美的呈現(xiàn)。做一些復(fù)雜的動作或者細(xì)膩的表情,也都沒啥問題。
而這個高度,把絕大多數(shù)目前的視頻生成大模型給擋在了外面。
現(xiàn)在,可靈已經(jīng)是達(dá)到世界水準(zhǔn)的現(xiàn)象級視頻大模型,就連很少點(diǎn)評中國互聯(lián)網(wǎng)的“鋼鐵俠”埃隆·馬斯克在看到可靈創(chuàng)作出的作品時,都說了一句:“AI娛樂產(chǎn)業(yè)正在發(fā)生飛速變化”。
![]()
快手主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤曾根據(jù)可靈AI的迭代速度做出預(yù)測,樂觀估計,預(yù)計1年左右視頻生成大模型就能達(dá)到個人制作影視劇的成熟度。
最近,快手還介紹了一項(xiàng)可靈AI導(dǎo)演共創(chuàng)計劃。李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等9位知名導(dǎo)演,將依托可靈AI的技術(shù)能力,制作出品9部AIGC電影短片。
換句話說,如果可靈能夠成為真正意義上的知名導(dǎo)演的創(chuàng)作工具,哪怕僅僅是輔助,那也意味著人類在生成式影像技術(shù)上的一次歷史性突破。
02
并非一蹴而就
可靈到底是如何變得這么強(qiáng)大的呢?
蓋坤有一個很合理的解釋,他說:“最好的選擇就是依托快手現(xiàn)有的業(yè)務(wù),對現(xiàn)有的業(yè)務(wù)升級,能夠在現(xiàn)有業(yè)務(wù)里面形成研發(fā)投入的正循環(huán),這樣才能讓快手AI真正有穿越市場周期的能力,能夠在長跑中取勝。”
簡單的解釋就是,可靈的進(jìn)步,是快手的用戶在真實(shí)中使用、反饋、改進(jìn)、提升這樣一個閉環(huán)所循環(huán)推動的。
6月發(fā)布后,可靈已經(jīng)進(jìn)行了10次升級。
時長上,在行業(yè)里普遍還在卷5秒、10秒的視頻生成時,可靈就已經(jīng)推出最長可以延伸到3分鐘的產(chǎn)品。這也意味著,可靈的生成時長,已經(jīng)覆蓋了所有的短視頻和部分的中視頻,而中視頻的起步時長是1分鐘,這意味著它對于創(chuàng)作者已經(jīng)有了重大的實(shí)質(zhì)性價值提升。
9月,可靈還升級了基座模型,新的可靈1.5模型,在畫質(zhì)質(zhì)量、動態(tài)質(zhì)量、美學(xué)表現(xiàn)、運(yùn)動合理性以及語義理解等方面均有顯著提升。
為了進(jìn)一步提高畫面控制力,可靈AI還先后內(nèi)測推出了“運(yùn)動筆刷”、“對口型”、“人臉模型”等功能。
![]()
這里要解釋一下何為“運(yùn)動筆刷”。“運(yùn)動筆刷”的主要功能,是支持為圖片中的元素(人或物體等)指定運(yùn)動軌跡,用戶只需將圖片中需要控制運(yùn)動方向的部分勾勒出來,然后畫一個示意運(yùn)動方向箭頭,就可實(shí)現(xiàn)精準(zhǔn)運(yùn)動控制。
可以說,這個功能的提供,某種程度上是可靈從“可玩”到“可用”的分水嶺。
對于大多數(shù)只能生成幾秒或十?dāng)?shù)秒的視頻模型來說,用戶主要是體驗(yàn)性的,說的直接一點(diǎn)就是追求“好玩”。比如,你生成一個少女撫摸熊貓的視頻,只要大體達(dá)到預(yù)期,你就不太會有精細(xì)調(diào)整的需求。而運(yùn)動筆刷的存在,意味著用戶可以精細(xì)的修正生成結(jié)果——這也意味著,只有進(jìn)階用戶,或者直接把可靈作為視頻生產(chǎn)力的用戶,才有這種對高級控制功能的需求。
而這一切,僅僅發(fā)生在3個月時間里。它不僅反映了可靈的快速進(jìn)步,也反映了這條賽道上的硝煙彌漫和你追我趕。
03
可靈的意義和行業(yè)的未來
可靈為什么能夠在這么短的時間里趕超行業(yè)標(biāo)桿Sora,同時又不斷的自我進(jìn)化呢?
我認(rèn)為可以理解為,它是“兩個生態(tài)”合力發(fā)揮作用的結(jié)果。這兩個生態(tài),分別是快手的技術(shù)生態(tài)和應(yīng)用生態(tài)。
先說技術(shù)生態(tài),這里就不可避免的提及作為視頻大模型中的開創(chuàng)之作的Sora。
行業(yè)里有一句這樣的評價:Sora相當(dāng)于是openAI集齊七龍珠之后的融合產(chǎn)物”。
這句話的意思其實(shí)很深,它其實(shí)是在告訴讀者,視頻生成大模型并不是憑空崛起的,它是LLM大模型(大語言模型)競爭的延伸和發(fā)展。
一方面,所謂的文生圖、文生視頻,都需要模型能“聽懂人話”,用專業(yè)一點(diǎn)的話說就是“依賴文本語義去牽引和約束生成的內(nèi)容”,所以好的大語言模型是可靈成功的一個重要的基礎(chǔ)。
這也證明了,快手先后發(fā)布的1750億參數(shù)規(guī)模的通用大語言模型“快意”和文生圖大模型產(chǎn)品“可圖”,都是“可靈”一鳴驚人的技術(shù)基石。
另一方面,視頻生成的技術(shù)路線,也早有提出,如Google video多模態(tài)開源模型,以及李飛飛的一些早期論文,都多次提到了視頻生成的技術(shù)路線。
但還有一句話是——技術(shù)路線早有人提出,但視頻模型的真正考驗(yàn)是工程化。
這意味著,快手強(qiáng)大的基礎(chǔ)模型能力、快手擁有的資源和生態(tài),以及快手AI研發(fā)人員驚人的工程能力,才是最后支持“可靈”崛起的三根支柱。
蓋坤的解釋則更深入,他指出,可靈是四個AI能力模塊的集成,分別是編解碼模塊、SPT視頻建模模塊、語義理解模塊、視頻理解模塊,而且“它們都比GPT要復(fù)雜”。
所以,一個結(jié)論就是,正是基于快手濃厚的技術(shù)文化和生態(tài),才能基于已有的能力,創(chuàng)造出可靈這種在原理上并不陌生,但是在工程上難度極高的產(chǎn)品。
而另一個生態(tài),就是快手所擁有的應(yīng)用生態(tài)——中國頭部的短視頻直播平臺。
和很多新興的AI應(yīng)用急于“找場景”不同,快手的內(nèi)容社區(qū)屬性,是大模型具體應(yīng)用誕生后,最好的檢驗(yàn)場景。創(chuàng)作者依托AI完成的無數(shù)創(chuàng)意作品,也形成了一條高價值的內(nèi)容賽道。
在今天,視頻特別是短視頻已經(jīng)證明了自己在方方面面的影響力,也正在從短視頻出發(fā)改變了內(nèi)容娛樂、文化創(chuàng)作、電商、本地生活服務(wù)等各個傳統(tǒng)互聯(lián)網(wǎng)賽道的競爭方式。但一個始終是瓶頸的問題是,今天,高水平的短視頻、中視頻制作仍然很依賴作者的專業(yè)度,也極大的提高了視頻創(chuàng)作的試錯成本,使得一些有志于視頻賽道(比如我)但又沒有視頻創(chuàng)作技術(shù)的人裹足不前。
而正如摩根斯坦利評價的那樣——可靈AI的成功,將有望使快手的用戶規(guī)模和活躍度進(jìn)一步提升,從而長期影響快手在電商和商業(yè)化等領(lǐng)域的貨幣化潛力。
事實(shí)上,一直以來,快手都非常重視AI大模型技術(shù)和現(xiàn)有業(yè)務(wù)的結(jié)合,借助AI大模型提高現(xiàn)有業(yè)務(wù)的效率,展現(xiàn)出充分的應(yīng)用價值,提升商業(yè)潛力,從而形成投入研發(fā)和商業(yè)變現(xiàn)的正循環(huán)。
以快意語言大模型的應(yīng)用為例,在商業(yè)場景里,基于快手大模型構(gòu)建的數(shù)字人腳本創(chuàng)意生成、數(shù)字人渲染生成、數(shù)字人實(shí)時互動等全流程AIGC服務(wù),可助力商業(yè)化廣告主低成本生成高品質(zhì)的視頻和直播內(nèi)容。
在內(nèi)容的理解和推薦方面,快手通過大語言模型、多模態(tài)大模型等技術(shù),已經(jīng)可以準(zhǔn)確高效地理解視頻內(nèi)容和用戶興趣,而將這些標(biāo)簽應(yīng)用在推薦、搜索、廣告、垂類運(yùn)營、生態(tài)分析、內(nèi)容安全等各種場景中,也可以全面的提升全站運(yùn)營效率。
在內(nèi)容生產(chǎn)及互動方面,據(jù)財報,三季度快手AIGC營銷素材日均消耗超2000萬,而互動助手AI小快也融入了包括奧運(yùn)競猜、用戶私信和評論區(qū)互動等更多場景,MAU峰值突破1800萬。
在這兩天的世界互聯(lián)網(wǎng)大會上,快手聯(lián)合創(chuàng)始人楊遠(yuǎn)熙是這樣解釋AI的意義的——AI與大模型不僅僅是工具,更是對企業(yè)發(fā)展引擎的迭代,重塑內(nèi)容與商業(yè)、供給與需求、用戶與社區(qū)的交互關(guān)系,創(chuàng)造出新業(yè)態(tài)、新場景和新模式,不斷釋放數(shù)字經(jīng)濟(jì)發(fā)展的新動能。
快手已經(jīng)為AI領(lǐng)域的應(yīng)用和產(chǎn)品創(chuàng)新建立了強(qiáng)有力的基礎(chǔ)設(shè)施支撐和“工具箱”,形成了新質(zhì)生產(chǎn)力平臺。
作為“核心技術(shù)攻關(guān)”的代表成果,可靈AI一方面進(jìn)一步降低了視頻內(nèi)容制作的門檻,讓更多普通人可以通過短視頻直播獲得收入。另一方面,人與AI的協(xié)作將大幅度革新視頻內(nèi)容的生產(chǎn)方式,并幫助越來越多的專業(yè)人士節(jié)省時間,個人創(chuàng)作影視劇的時代即將到來。
就像開頭提到的那樣,至少就可靈而言,我認(rèn)為它也許會給快手乃至中國的優(yōu)質(zhì)消費(fèi)級內(nèi)容產(chǎn)業(yè)巨大的變化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.