文 | kiki
8月的一個(gè)普通夜晚,即便是在凌晨,快手可靈的官方創(chuàng)作者交流群里,討論聲依舊不減。
“美女、萌寵和科幻”。一位創(chuàng)作者這樣分享自己的AI視頻流量密碼。“求大神的提示詞,來(lái)一個(gè)”“怎么賺錢?求帶?”類似的聲音不在少數(shù)。
這一發(fā)生在可靈社群里的討論,恰好反映了時(shí)下AI最熱門賽道的現(xiàn)狀——AI視頻的火熱。
自今年6月起,國(guó)內(nèi)AI視頻的迭代速度似乎進(jìn)入了一個(gè)「大爆炸期」。6月,快手可靈、Runway、Luma AI等產(chǎn)品全面對(duì)外開放;7月,商湯推出最新AI視頻模型 Vimi,愛(ài)詩(shī)科技發(fā)布PixVerse V2,生數(shù)科技Vidu大模型開放使用,智譜AI在官宣AI生成視頻模型清影(Ying)正式上線的同時(shí),還順便開源了自家的視頻生成模型CogVideoX-2B......
在國(guó)內(nèi)競(jìng)逐AI視頻的玩家中,也鮮明地分為兩派:第一類是大廠派,典型是快手與字節(jié)跳動(dòng);第二類是AI大模型創(chuàng)企,如智譜AI、愛(ài)詩(shī)科技、生數(shù)科技、MewXAI(藝映AI)、右腦科技(Vega AI)等,據(jù)「硅基研究室」不完全統(tǒng)計(jì),目前國(guó)內(nèi)涉足AI視頻領(lǐng)域的選手有近20家,行業(yè)整體呈現(xiàn)加速迭代的趨勢(shì)。
據(jù)東吳證券的測(cè)算,中國(guó)AI視頻生成的行業(yè)潛在空間為947~5858億元,在中性假設(shè)下(AI滲透率=15%)為3178億元,其中C端、B端市場(chǎng)空間分別為 2673億元、505億元。
不過(guò),行業(yè)熱鬧與前景的B面,AI視頻還沒(méi)到「開香檳」的時(shí)刻。我們實(shí)測(cè)國(guó)內(nèi)7款的AI視頻產(chǎn)品后發(fā)現(xiàn)——能用的很多,但好用的很少,在玩家們激進(jìn)的商業(yè)化策略中,還遠(yuǎn)沒(méi)從「玩具」進(jìn)化到「生產(chǎn)力工具」。
1、「國(guó)產(chǎn)Sora」實(shí)測(cè):能用的很多,但好用的很少
層出不窮的大片demo,來(lái)自各界的贊美,讓國(guó)產(chǎn)AI視頻成為了時(shí)下最熱鬧的賽道,在Sora尚未開放時(shí),國(guó)內(nèi)的AI玩家似乎都在搶抓這一窗口期,把「對(duì)標(biāo)Sora」寫在了日程表上。
最激進(jìn)、最為耀眼的當(dāng)然要數(shù)快手的可靈,獵豹移動(dòng)董事長(zhǎng)傅盛甚至在體驗(yàn)過(guò)后表示:“我覺(jué)得(可靈)也吊打了Sora,我認(rèn)為這個(gè)產(chǎn)品今天,在我能使用的范疇內(nèi)就是全世界第一的。”
事實(shí)果真如此嗎?熱鬧和喧囂之外,國(guó)產(chǎn)AI視頻產(chǎn)品真的已經(jīng)如此能打了嗎?為了探究這些問(wèn)題的答案,「硅基研究室」選取了國(guó)內(nèi)較為熱門的7款A(yù)I視頻產(chǎn)品進(jìn)行實(shí)際體驗(yàn),我們的發(fā)現(xiàn)是:能用的很多,但好用的依舊很少。
我們選取的7款產(chǎn)品分別為:快手的「可靈」、字節(jié)跳動(dòng)的「即夢(mèng)」、智譜AI的「清影」、愛(ài)詩(shī)科技的PixVerse V2、生數(shù)科技的Vidu、右腦科技的Vega AI以及MewXAI的藝映AI。
在實(shí)測(cè)標(biāo)準(zhǔn)上,我們將比較不同產(chǎn)品的三大能力,包括基礎(chǔ)能力、理解能力和生成能力,為了盡量保持客觀,大多數(shù)AI視頻鏡頭都需要多次抽卡,因此我們將使用統(tǒng)一的提示詞,展示一次性生成的結(jié)果,同時(shí)因?yàn)槠拢恼聝H展示部分視頻生成結(jié)果。
?基礎(chǔ)能力:產(chǎn)品主要的基礎(chǔ)功能比較
?理解能力:主要考察產(chǎn)品對(duì)簡(jiǎn)單和復(fù)雜提示詞的理解。
?生成能力:包括視頻生成速度和視頻畫面的穩(wěn)定性、一致性、準(zhǔn)確性與創(chuàng)造性。
以下為具體的實(shí)測(cè)結(jié)果圖——
![]()
場(chǎng)景一:簡(jiǎn)單提示詞+靜物定格畫面
在該場(chǎng)景下,我們選取了Sora發(fā)布時(shí)的一段提示詞:A stop motion animation of a flower growing out of the windowsill of a suburban house.(定格動(dòng)畫,郊區(qū)一所房子的窗臺(tái)上,長(zhǎng)出了一朵花)。聚焦在靜物場(chǎng)景下,上述產(chǎn)品的理解和生成能力。
綜合實(shí)測(cè)結(jié)果,在理解能力上,除了Vega AI外,大多數(shù)的AI視頻產(chǎn)品都包含了我們給出的提示詞要素:定格動(dòng)畫、郊區(qū)、房子和花。
但在視頻生成上,效果都不及預(yù)期。
首先在視頻生成速度上,一段4~6s的視頻,除了Vidu在40秒內(nèi)生成外,大多數(shù)的視頻生成用時(shí)均在一分鐘以上,PixVerse V2用時(shí)2分鐘(5s),可靈用了5分鐘(5s)、即夢(mèng)用了2分11秒(6s),藝映AI用了12分鐘(4s),而智譜清影和Vega AI都是我們?cè)诨ㄥX加速后,才縮短了生成時(shí)間。
其次,在生成能力上,實(shí)測(cè)結(jié)果顯示,在穩(wěn)定性、一致性、準(zhǔn)確性和創(chuàng)造性上,國(guó)產(chǎn)AI視頻產(chǎn)品都需要很長(zhǎng)的路要走。根據(jù)實(shí)測(cè)結(jié)果,在「場(chǎng)景一」下,我們認(rèn)為即夢(mèng)、藝映AI和PixVerse V2的表現(xiàn)更優(yōu)。
在畫面的穩(wěn)定性和一致性上,即夢(mèng)的表現(xiàn)最為穩(wěn)定,對(duì)定格動(dòng)畫的理解也更準(zhǔn)確。藝映AI是幾個(gè)視頻里唯一選擇俯視視角的,同時(shí)也生成了陽(yáng)光等新元素,畫面相對(duì)完整。PixVerse V2雖然定格動(dòng)畫感不是很強(qiáng),但畫面穩(wěn)定性、一致性都表現(xiàn)的不錯(cuò),而且光線和氛圍感都十分自然。
但很多AI視頻都在可控性和準(zhǔn)確性上出現(xiàn)了問(wèn)題。比如,可靈對(duì)定格動(dòng)畫的理解明顯不夠,畫面雖然寫實(shí)、風(fēng)格也較為統(tǒng)一,但少了一些美感。在湖面的一致性和穩(wěn)定上,智譜清影的表現(xiàn)都不盡如人意,后續(xù)出現(xiàn)了明顯的元素扭曲和卡頓。
盡管Vidu只用36秒就生成了所需視頻,但就畫面的呈現(xiàn)來(lái)看,是最七個(gè)產(chǎn)品中畫面精細(xì)度最不足的,同時(shí)從花的運(yùn)動(dòng)狀態(tài)來(lái)看,也是唯一一個(gè)出現(xiàn)了違背常識(shí)現(xiàn)象的。Vega AI是唯一一個(gè)用了「移鏡頭」的,但對(duì)定格動(dòng)畫的理解明顯不足。
場(chǎng)景二:復(fù)雜提示詞+人物特寫
在稍復(fù)雜的提示詞場(chǎng)景下,我們選取了人物特寫鏡頭來(lái)考驗(yàn)相關(guān)產(chǎn)品的相關(guān)能力。提示詞為:生成一段24歲年輕長(zhǎng)發(fā)女子的特寫鏡頭,她在一家咖啡店里陷入了沉思,思考著自己的未來(lái),因?yàn)楸瘋劬镉幸坏螠I滑下,她后來(lái)似乎想到了開心的事,露出了微笑。電影《天使愛(ài)美麗》風(fēng)格,以暖色調(diào)為主,畫面色彩生動(dòng)。
從實(shí)測(cè)結(jié)果來(lái)看,對(duì)于提示詞中所包含的相關(guān)元素,國(guó)產(chǎn)Sora們的理解能力都還不錯(cuò),所生成的畫面風(fēng)格因各自底層模型能力也全然不同。
具體到生成能力上即夢(mèng)、可靈明顯更優(yōu),而其他的AI視頻選手都或多或少出現(xiàn)了問(wèn)題。
?即夢(mèng):即夢(mèng)用2分30秒時(shí)間生成了視頻,畫面氛圍感也不錯(cuò),甚至衍生出人物喝咖啡的情節(jié),畫面呈現(xiàn)也較為連貫。
?可靈:可靈生成上述視頻總計(jì)時(shí)間為6分種左右,風(fēng)格較為寫實(shí),表情細(xì)節(jié)的呈現(xiàn)也超出我們預(yù)期。
?智譜清影:清影依舊是「速度型」選手,1分鐘不到就生成了視頻,也是唯一一個(gè)展現(xiàn)人物側(cè)面視角的產(chǎn)品,但畫面主體的面部明顯出現(xiàn)了問(wèn)題(我們要的是淚水,不是這鑲在臉上的水晶)。
?PixVerse V2:用時(shí)1分58秒生成,PixVerse V2第一幀的表現(xiàn)還是不錯(cuò)的,人物面部的悲傷情緒也很好地表達(dá)了出來(lái),但越往后明顯畫面的一致性和準(zhǔn)確性上出現(xiàn)錯(cuò)誤,人物發(fā)絲甚至出現(xiàn)了透明的狀態(tài)。
? Vega AI:Vega AI用時(shí)3分半,但與我們要求的風(fēng)格暖色明顯不符,同時(shí)從人物主體的運(yùn)動(dòng)來(lái)看,畫面上的人物并沒(méi)有明顯變化。
場(chǎng)景三:簡(jiǎn)單提示詞+圖生視頻功能
最后一個(gè)場(chǎng)景,我們來(lái)試試「圖生視頻」功能,這也是目前創(chuàng)作者在使用AI視頻時(shí)為保持畫面一致性和穩(wěn)定性的常規(guī)操作。可靈不久前因?yàn)椤刚鐙烛T摩托」火爆全網(wǎng),這次我們不妨就讓胖橘(皇上)來(lái)吃漢堡。
我們投喂給AI視頻產(chǎn)品一張圖,提示詞描述為:皇上吃漢堡。
因?yàn)槠颍覀兇颂幉徽故舅幸曨l結(jié)果,只說(shuō)結(jié)論。首先從「吃漢堡」這個(gè)細(xì)節(jié)來(lái)看,做到完全呈現(xiàn)的只有智譜清影和藝映AI,即夢(mèng)只有人物咀嚼的動(dòng)作,PixVerse V2只出現(xiàn)了一只手,可靈則直接什么也沒(méi)出現(xiàn)。再者,從畫面的生成能力來(lái)看,上述視頻的生成效果都不太自然,比如可靈出現(xiàn)的手、清影的漢堡都出現(xiàn)了明顯的扭曲和畸變。
2、大廠VS創(chuàng)企:不同的姿態(tài),相同的挑戰(zhàn)
客觀來(lái)說(shuō),Sora發(fā)布為國(guó)產(chǎn)AI視頻玩家提供了更多的參照體系,在技術(shù)、應(yīng)用以及商業(yè)化上方面,都有明顯的迭代與升級(jí)。
在技術(shù)層面,據(jù)業(yè)內(nèi)的觀點(diǎn),Sora的出現(xiàn)驗(yàn)證了DiT架構(gòu)在視頻生成方面的可行性,通過(guò)使用Transformer替換U-Net架構(gòu),并在潛在空間訓(xùn)練,展現(xiàn)出了更好地訓(xùn)練效率和生成效果。而國(guó)內(nèi)廠商沿著這一技術(shù)路線,在包括模型的生成時(shí)長(zhǎng)、視覺(jué)效果上的分辨率、幀率、運(yùn)鏡以及風(fēng)格上都有明顯進(jìn)步,與Sora的差距也在縮短。
在應(yīng)用層面,目前多數(shù)AI視頻產(chǎn)品已面向C端開放,且在使用門檻較低,適用于新手,同時(shí),特別是快手、即夢(mèng)等產(chǎn)品已應(yīng)用于短劇創(chuàng)作,在場(chǎng)景的落地速度上比預(yù)期要快。
在商業(yè)化上,國(guó)內(nèi)熱門AI視頻產(chǎn)品大多都進(jìn)行了商業(yè)化的探索,其中可靈、即夢(mèng)、Pixverse、Vidu、藝映AI等推出了付費(fèi)會(huì)員制,依靠訂閱模式解鎖相關(guān)進(jìn)階功能,智譜清影和Vega AI則推出視頻加速包,按次收費(fèi)。本質(zhì)上模式還是沿用兩種模式,C端按照生成量定價(jià),B端靠出售API。
![]()
部分AI視頻產(chǎn)品C端收費(fèi)模式 圖源:Vega AI、智譜清影
不過(guò),細(xì)細(xì)拆解此輪AI視頻的爆發(fā),大廠和創(chuàng)企呈現(xiàn)出兩類明顯的姿態(tài)——大廠激進(jìn),創(chuàng)企卻較為冷靜。特別是「一月三次升級(jí)」的快手可靈,更是把大力出奇跡寫在了臺(tái)面上。反觀創(chuàng)企,倒是顯得格外冷靜。以智譜清影為例,在上線后,產(chǎn)品基本功能并未做快速迭代,在商業(yè)化上也呈現(xiàn)出謹(jǐn)慎的態(tài)度。
而之所以此輪AI視頻呈現(xiàn)出「大廠引領(lǐng)」的表現(xiàn),有兩點(diǎn)主要原因:一是,視頻場(chǎng)景復(fù)雜,極為依賴算力和數(shù)據(jù)資源,而這本身就是抖、快的優(yōu)勢(shì)所在。二是,從戰(zhàn)略意圖來(lái)看,抖、快之所以高度重視AI視頻產(chǎn)品,不僅是為了創(chuàng)收,更多的考慮是爭(zhēng)奪用戶流量。
而創(chuàng)業(yè)者的冷靜也在情理之中。「捏Ta」創(chuàng)始人胡修涵就曾提到,在AI視頻崛起時(shí),也曾考慮提供視頻功能,但考慮到視頻效率和成功率的問(wèn)題,將視頻放進(jìn)產(chǎn)品,實(shí)際對(duì)用戶留存沒(méi)有太大的用處。“視頻是一個(gè)很強(qiáng)的表達(dá)模態(tài),但我們的用戶還是更愿意去生圖。”考慮到實(shí)際投入產(chǎn)出比,創(chuàng)企難免會(huì)轉(zhuǎn)變態(tài)度。
盡管有著不同的姿態(tài),但擺在國(guó)產(chǎn)Sora面前的挑戰(zhàn)都是類似的。
首先,在用戶層,「硅基研究室」觀察,目前大多數(shù)的AI視頻產(chǎn)品所采取的是「大C小B」的戰(zhàn)略。也就是說(shuō),現(xiàn)階段AI視頻產(chǎn)品主攻的并非是專業(yè)級(jí)創(chuàng)業(yè)者,而是一些能迅速掌握簡(jiǎn)單功能的入門級(jí)用戶,包括視頻運(yùn)營(yíng)、新媒體運(yùn)營(yíng)或KOL等用戶,此類用戶往往沒(méi)有專業(yè)工具的包袱,因此產(chǎn)品使用的遷移成本更低。
但這也有明顯的阻礙。此類人群既是內(nèi)容的創(chuàng)作者,也是內(nèi)容的消費(fèi)者,愿意嘗鮮,容易付費(fèi),但也具備不穩(wěn)定性。一位AI產(chǎn)品經(jīng)理告訴「硅基研究室」,此類便內(nèi)容工具型產(chǎn)品除了早期要為用戶創(chuàng)造「Wow moment」外,依賴對(duì)用戶需求的快速反饋和內(nèi)容生態(tài)的建立。
其次,在商業(yè)化層面,目前就生成成本來(lái)看,從目前Sora尚未全量開放來(lái)看,視頻模型/產(chǎn)品依舊面臨著成本關(guān)。智譜AI CEO就曾說(shuō)過(guò),清影目前也只是一個(gè)階段性產(chǎn)品,清影更多也還是通過(guò)API付費(fèi),他們?cè)谒伎嫉氖牵骸霸趺窗岩曨l生成算力成本降下來(lái)、響應(yīng)速度提升上去、讓所有人可以用。”
![]()
快手可靈創(chuàng)作者群討論體驗(yàn)問(wèn)題 圖源:可靈社群截圖
可以肯定的是,現(xiàn)階段,無(wú)論是技術(shù)、用戶,抑或是商業(yè)化上,國(guó)產(chǎn)AI視頻產(chǎn)品還遠(yuǎn)沒(méi)到開香檳的時(shí)刻,各家廠商都還在探索,對(duì)齊模型能力與產(chǎn)品,做持續(xù)的優(yōu)化。視頻本身是一個(gè)強(qiáng)模態(tài),未來(lái)內(nèi)容平臺(tái)的跨模態(tài)也成為行業(yè)共識(shí),但在產(chǎn)品早期,不如先尊重產(chǎn)品常識(shí)——如何優(yōu)化用戶體驗(yàn),圍繞視頻工作流的某一個(gè)場(chǎng)景做深做專,實(shí)現(xiàn)真正降本增效,這或許是無(wú)數(shù)的技術(shù)變化中,提高AI視頻滲透率的一個(gè)不變鐵律。
參考資料:
東吳證券:《國(guó)產(chǎn) AI 視頻大模型應(yīng)用落地先行,行業(yè)空間、降本幅度、競(jìng)爭(zhēng)格局探討》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.