網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)七款“國(guó)產(chǎn)Sora”，恕我直言……

2024-08-16 11:34:49　來(lái)源: 硅基研究室

江蘇舉報(bào)

分享至

文 | kiki

8月的一個(gè)普通夜晚，即便是在凌晨，快手可靈的官方創(chuàng)作者交流群里，討論聲依舊不減。

“美女、萌寵和科幻”。一位創(chuàng)作者這樣分享自己的AI視頻流量密碼。“求大神的提示詞，來(lái)一個(gè)”“怎么賺錢？求帶？”類似的聲音不在少數(shù)。

這一發(fā)生在可靈社群里的討論，恰好反映了時(shí)下AI最熱門賽道的現(xiàn)狀——AI視頻的火熱。

自今年6月起，國(guó)內(nèi)AI視頻的迭代速度似乎進(jìn)入了一個(gè)「大爆炸期」。6月，快手可靈、Runway、Luma AI等產(chǎn)品全面對(duì)外開放；7月，商湯推出最新AI視頻模型 Vimi，愛(ài)詩(shī)科技發(fā)布PixVerse V2，生數(shù)科技Vidu大模型開放使用，智譜AI在官宣AI生成視頻模型清影（Ying）正式上線的同時(shí)，還順便開源了自家的視頻生成模型CogVideoX-2B......

在國(guó)內(nèi)競(jìng)逐AI視頻的玩家中，也鮮明地分為兩派：第一類是大廠派，典型是快手與字節(jié)跳動(dòng)；第二類是AI大模型創(chuàng)企，如智譜AI、愛(ài)詩(shī)科技、生數(shù)科技、MewXAI（藝映AI）、右腦科技（Vega AI）等，據(jù)「硅基研究室」不完全統(tǒng)計(jì)，目前國(guó)內(nèi)涉足AI視頻領(lǐng)域的選手有近20家，行業(yè)整體呈現(xiàn)加速迭代的趨勢(shì)。

據(jù)東吳證券的測(cè)算，中國(guó)AI視頻生成的行業(yè)潛在空間為947~5858億元，在中性假設(shè)下（AI滲透率=15%）為3178億元，其中C端、B端市場(chǎng)空間分別為 2673億元、505億元。

不過(guò)，行業(yè)熱鬧與前景的B面，AI視頻還沒(méi)到「開香檳」的時(shí)刻。我們實(shí)測(cè)國(guó)內(nèi)7款的AI視頻產(chǎn)品后發(fā)現(xiàn)——能用的很多，但好用的很少，在玩家們激進(jìn)的商業(yè)化策略中，還遠(yuǎn)沒(méi)從「玩具」進(jìn)化到「生產(chǎn)力工具」。

1、「國(guó)產(chǎn)Sora」實(shí)測(cè)：能用的很多，但好用的很少

層出不窮的大片demo，來(lái)自各界的贊美，讓國(guó)產(chǎn)AI視頻成為了時(shí)下最熱鬧的賽道，在Sora尚未開放時(shí)，國(guó)內(nèi)的AI玩家似乎都在搶抓這一窗口期，把「對(duì)標(biāo)Sora」寫在了日程表上。

最激進(jìn)、最為耀眼的當(dāng)然要數(shù)快手的可靈，獵豹移動(dòng)董事長(zhǎng)傅盛甚至在體驗(yàn)過(guò)后表示：“我覺(jué)得（可靈）也吊打了Sora，我認(rèn)為這個(gè)產(chǎn)品今天，在我能使用的范疇內(nèi)就是全世界第一的。”

事實(shí)果真如此嗎？熱鬧和喧囂之外，國(guó)產(chǎn)AI視頻產(chǎn)品真的已經(jīng)如此能打了嗎？為了探究這些問(wèn)題的答案，「硅基研究室」選取了國(guó)內(nèi)較為熱門的7款A(yù)I視頻產(chǎn)品進(jìn)行實(shí)際體驗(yàn)，我們的發(fā)現(xiàn)是：能用的很多，但好用的依舊很少。

我們選取的7款產(chǎn)品分別為：快手的「可靈」、字節(jié)跳動(dòng)的「即夢(mèng)」、智譜AI的「清影」、愛(ài)詩(shī)科技的PixVerse V2、生數(shù)科技的Vidu、右腦科技的Vega AI以及MewXAI的藝映AI。

在實(shí)測(cè)標(biāo)準(zhǔn)上，我們將比較不同產(chǎn)品的三大能力，包括基礎(chǔ)能力、理解能力和生成能力，為了盡量保持客觀，大多數(shù)AI視頻鏡頭都需要多次抽卡，因此我們將使用統(tǒng)一的提示詞，展示一次性生成的結(jié)果，同時(shí)因?yàn)槠拢恼聝H展示部分視頻生成結(jié)果。

?基礎(chǔ)能力：產(chǎn)品主要的基礎(chǔ)功能比較

?理解能力：主要考察產(chǎn)品對(duì)簡(jiǎn)單和復(fù)雜提示詞的理解。

?生成能力：包括視頻生成速度和視頻畫面的穩(wěn)定性、一致性、準(zhǔn)確性與創(chuàng)造性。

以下為具體的實(shí)測(cè)結(jié)果圖——

場(chǎng)景一：簡(jiǎn)單提示詞+靜物定格畫面

在該場(chǎng)景下，我們選取了Sora發(fā)布時(shí)的一段提示詞：A stop motion animation of a flower growing out of the windowsill of a suburban house.（定格動(dòng)畫，郊區(qū)一所房子的窗臺(tái)上，長(zhǎng)出了一朵花）。聚焦在靜物場(chǎng)景下，上述產(chǎn)品的理解和生成能力。

綜合實(shí)測(cè)結(jié)果，在理解能力上，除了Vega AI外，大多數(shù)的AI視頻產(chǎn)品都包含了我們給出的提示詞要素：定格動(dòng)畫、郊區(qū)、房子和花。

但在視頻生成上，效果都不及預(yù)期。

首先在視頻生成速度上，一段4～6s的視頻，除了Vidu在40秒內(nèi)生成外，大多數(shù)的視頻生成用時(shí)均在一分鐘以上，PixVerse V2用時(shí)2分鐘（5s），可靈用了5分鐘（5s）、即夢(mèng)用了2分11秒（6s），藝映AI用了12分鐘（4s），而智譜清影和Vega AI都是我們?cè)诨ㄥX加速后，才縮短了生成時(shí)間。

其次，在生成能力上，實(shí)測(cè)結(jié)果顯示，在穩(wěn)定性、一致性、準(zhǔn)確性和創(chuàng)造性上，國(guó)產(chǎn)AI視頻產(chǎn)品都需要很長(zhǎng)的路要走。根據(jù)實(shí)測(cè)結(jié)果，在「場(chǎng)景一」下，我們認(rèn)為即夢(mèng)、藝映AI和PixVerse V2的表現(xiàn)更優(yōu)。

在畫面的穩(wěn)定性和一致性上，即夢(mèng)的表現(xiàn)最為穩(wěn)定，對(duì)定格動(dòng)畫的理解也更準(zhǔn)確。藝映AI是幾個(gè)視頻里唯一選擇俯視視角的，同時(shí)也生成了陽(yáng)光等新元素，畫面相對(duì)完整。PixVerse V2雖然定格動(dòng)畫感不是很強(qiáng)，但畫面穩(wěn)定性、一致性都表現(xiàn)的不錯(cuò)，而且光線和氛圍感都十分自然。

但很多AI視頻都在可控性和準(zhǔn)確性上出現(xiàn)了問(wèn)題。比如，可靈對(duì)定格動(dòng)畫的理解明顯不夠，畫面雖然寫實(shí)、風(fēng)格也較為統(tǒng)一，但少了一些美感。在湖面的一致性和穩(wěn)定上，智譜清影的表現(xiàn)都不盡如人意，后續(xù)出現(xiàn)了明顯的元素扭曲和卡頓。

盡管Vidu只用36秒就生成了所需視頻，但就畫面的呈現(xiàn)來(lái)看，是最七個(gè)產(chǎn)品中畫面精細(xì)度最不足的，同時(shí)從花的運(yùn)動(dòng)狀態(tài)來(lái)看，也是唯一一個(gè)出現(xiàn)了違背常識(shí)現(xiàn)象的。Vega AI是唯一一個(gè)用了「移鏡頭」的，但對(duì)定格動(dòng)畫的理解明顯不足。

場(chǎng)景二：復(fù)雜提示詞+人物特寫

在稍復(fù)雜的提示詞場(chǎng)景下，我們選取了人物特寫鏡頭來(lái)考驗(yàn)相關(guān)產(chǎn)品的相關(guān)能力。提示詞為：生成一段24歲年輕長(zhǎng)發(fā)女子的特寫鏡頭，她在一家咖啡店里陷入了沉思，思考著自己的未來(lái)，因?yàn)楸瘋劬镉幸坏螠I滑下，她后來(lái)似乎想到了開心的事，露出了微笑。電影《天使愛(ài)美麗》風(fēng)格，以暖色調(diào)為主，畫面色彩生動(dòng)。

從實(shí)測(cè)結(jié)果來(lái)看，對(duì)于提示詞中所包含的相關(guān)元素，國(guó)產(chǎn)Sora們的理解能力都還不錯(cuò)，所生成的畫面風(fēng)格因各自底層模型能力也全然不同。

具體到生成能力上即夢(mèng)、可靈明顯更優(yōu)，而其他的AI視頻選手都或多或少出現(xiàn)了問(wèn)題。

?即夢(mèng)：即夢(mèng)用2分30秒時(shí)間生成了視頻，畫面氛圍感也不錯(cuò)，甚至衍生出人物喝咖啡的情節(jié)，畫面呈現(xiàn)也較為連貫。

?可靈：可靈生成上述視頻總計(jì)時(shí)間為6分種左右，風(fēng)格較為寫實(shí)，表情細(xì)節(jié)的呈現(xiàn)也超出我們預(yù)期。

?智譜清影：清影依舊是「速度型」選手，1分鐘不到就生成了視頻，也是唯一一個(gè)展現(xiàn)人物側(cè)面視角的產(chǎn)品，但畫面主體的面部明顯出現(xiàn)了問(wèn)題（我們要的是淚水，不是這鑲在臉上的水晶）。

?PixVerse V2：用時(shí)1分58秒生成，PixVerse V2第一幀的表現(xiàn)還是不錯(cuò)的，人物面部的悲傷情緒也很好地表達(dá)了出來(lái)，但越往后明顯畫面的一致性和準(zhǔn)確性上出現(xiàn)錯(cuò)誤，人物發(fā)絲甚至出現(xiàn)了透明的狀態(tài)。

? Vega AI：Vega AI用時(shí)3分半，但與我們要求的風(fēng)格暖色明顯不符，同時(shí)從人物主體的運(yùn)動(dòng)來(lái)看，畫面上的人物并沒(méi)有明顯變化。

場(chǎng)景三：簡(jiǎn)單提示詞+圖生視頻功能

最后一個(gè)場(chǎng)景，我們來(lái)試試「圖生視頻」功能，這也是目前創(chuàng)作者在使用AI視頻時(shí)為保持畫面一致性和穩(wěn)定性的常規(guī)操作。可靈不久前因?yàn)椤刚鐙烛T摩托」火爆全網(wǎng)，這次我們不妨就讓胖橘（皇上）來(lái)吃漢堡。

我們投喂給AI視頻產(chǎn)品一張圖，提示詞描述為：皇上吃漢堡。

因?yàn)槠颍覀兇颂幉徽故舅幸曨l結(jié)果，只說(shuō)結(jié)論。首先從「吃漢堡」這個(gè)細(xì)節(jié)來(lái)看，做到完全呈現(xiàn)的只有智譜清影和藝映AI，即夢(mèng)只有人物咀嚼的動(dòng)作，PixVerse V2只出現(xiàn)了一只手，可靈則直接什么也沒(méi)出現(xiàn)。再者，從畫面的生成能力來(lái)看，上述視頻的生成效果都不太自然，比如可靈出現(xiàn)的手、清影的漢堡都出現(xiàn)了明顯的扭曲和畸變。

2、大廠VS創(chuàng)企：不同的姿態(tài)，相同的挑戰(zhàn)

客觀來(lái)說(shuō)，Sora發(fā)布為國(guó)產(chǎn)AI視頻玩家提供了更多的參照體系，在技術(shù)、應(yīng)用以及商業(yè)化上方面，都有明顯的迭代與升級(jí)。

在技術(shù)層面，據(jù)業(yè)內(nèi)的觀點(diǎn)，Sora的出現(xiàn)驗(yàn)證了DiT架構(gòu)在視頻生成方面的可行性，通過(guò)使用Transformer替換U-Net架構(gòu)，并在潛在空間訓(xùn)練，展現(xiàn)出了更好地訓(xùn)練效率和生成效果。而國(guó)內(nèi)廠商沿著這一技術(shù)路線，在包括模型的生成時(shí)長(zhǎng)、視覺(jué)效果上的分辨率、幀率、運(yùn)鏡以及風(fēng)格上都有明顯進(jìn)步，與Sora的差距也在縮短。

在應(yīng)用層面，目前多數(shù)AI視頻產(chǎn)品已面向C端開放，且在使用門檻較低，適用于新手，同時(shí)，特別是快手、即夢(mèng)等產(chǎn)品已應(yīng)用于短劇創(chuàng)作，在場(chǎng)景的落地速度上比預(yù)期要快。

在商業(yè)化上，國(guó)內(nèi)熱門AI視頻產(chǎn)品大多都進(jìn)行了商業(yè)化的探索，其中可靈、即夢(mèng)、Pixverse、Vidu、藝映AI等推出了付費(fèi)會(huì)員制，依靠訂閱模式解鎖相關(guān)進(jìn)階功能，智譜清影和Vega AI則推出視頻加速包，按次收費(fèi)。本質(zhì)上模式還是沿用兩種模式，C端按照生成量定價(jià)，B端靠出售API。

部分AI視頻產(chǎn)品C端收費(fèi)模式圖源：Vega AI、智譜清影

不過(guò)，細(xì)細(xì)拆解此輪AI視頻的爆發(fā)，大廠和創(chuàng)企呈現(xiàn)出兩類明顯的姿態(tài)——大廠激進(jìn)，創(chuàng)企卻較為冷靜。特別是「一月三次升級(jí)」的快手可靈，更是把大力出奇跡寫在了臺(tái)面上。反觀創(chuàng)企，倒是顯得格外冷靜。以智譜清影為例，在上線后，產(chǎn)品基本功能并未做快速迭代，在商業(yè)化上也呈現(xiàn)出謹(jǐn)慎的態(tài)度。

而之所以此輪AI視頻呈現(xiàn)出「大廠引領(lǐng)」的表現(xiàn)，有兩點(diǎn)主要原因：一是，視頻場(chǎng)景復(fù)雜，極為依賴算力和數(shù)據(jù)資源，而這本身就是抖、快的優(yōu)勢(shì)所在。二是，從戰(zhàn)略意圖來(lái)看，抖、快之所以高度重視AI視頻產(chǎn)品，不僅是為了創(chuàng)收，更多的考慮是爭(zhēng)奪用戶流量。

而創(chuàng)業(yè)者的冷靜也在情理之中。「捏Ta」創(chuàng)始人胡修涵就曾提到，在AI視頻崛起時(shí)，也曾考慮提供視頻功能，但考慮到視頻效率和成功率的問(wèn)題，將視頻放進(jìn)產(chǎn)品，實(shí)際對(duì)用戶留存沒(méi)有太大的用處。“視頻是一個(gè)很強(qiáng)的表達(dá)模態(tài)，但我們的用戶還是更愿意去生圖。”考慮到實(shí)際投入產(chǎn)出比，創(chuàng)企難免會(huì)轉(zhuǎn)變態(tài)度。

盡管有著不同的姿態(tài)，但擺在國(guó)產(chǎn)Sora面前的挑戰(zhàn)都是類似的。

首先，在用戶層，「硅基研究室」觀察，目前大多數(shù)的AI視頻產(chǎn)品所采取的是「大C小B」的戰(zhàn)略。也就是說(shuō)，現(xiàn)階段AI視頻產(chǎn)品主攻的并非是專業(yè)級(jí)創(chuàng)業(yè)者，而是一些能迅速掌握簡(jiǎn)單功能的入門級(jí)用戶，包括視頻運(yùn)營(yíng)、新媒體運(yùn)營(yíng)或KOL等用戶，此類用戶往往沒(méi)有專業(yè)工具的包袱，因此產(chǎn)品使用的遷移成本更低。

但這也有明顯的阻礙。此類人群既是內(nèi)容的創(chuàng)作者，也是內(nèi)容的消費(fèi)者，愿意嘗鮮，容易付費(fèi)，但也具備不穩(wěn)定性。一位AI產(chǎn)品經(jīng)理告訴「硅基研究室」，此類便內(nèi)容工具型產(chǎn)品除了早期要為用戶創(chuàng)造「Wow moment」外，依賴對(duì)用戶需求的快速反饋和內(nèi)容生態(tài)的建立。

其次，在商業(yè)化層面，目前就生成成本來(lái)看，從目前Sora尚未全量開放來(lái)看，視頻模型/產(chǎn)品依舊面臨著成本關(guān)。智譜AI CEO就曾說(shuō)過(guò)，清影目前也只是一個(gè)階段性產(chǎn)品，清影更多也還是通過(guò)API付費(fèi)，他們?cè)谒伎嫉氖牵骸霸趺窗岩曨l生成算力成本降下來(lái)、響應(yīng)速度提升上去、讓所有人可以用。”

快手可靈創(chuàng)作者群討論體驗(yàn)問(wèn)題圖源：可靈社群截圖

可以肯定的是，現(xiàn)階段，無(wú)論是技術(shù)、用戶，抑或是商業(yè)化上，國(guó)產(chǎn)AI視頻產(chǎn)品還遠(yuǎn)沒(méi)到開香檳的時(shí)刻，各家廠商都還在探索，對(duì)齊模型能力與產(chǎn)品，做持續(xù)的優(yōu)化。視頻本身是一個(gè)強(qiáng)模態(tài)，未來(lái)內(nèi)容平臺(tái)的跨模態(tài)也成為行業(yè)共識(shí)，但在產(chǎn)品早期，不如先尊重產(chǎn)品常識(shí)——如何優(yōu)化用戶體驗(yàn)，圍繞視頻工作流的某一個(gè)場(chǎng)景做深做專，實(shí)現(xiàn)真正降本增效，這或許是無(wú)數(shù)的技術(shù)變化中，提高AI視頻滲透率的一個(gè)不變鐵律。

參考資料：

東吳證券：《國(guó)產(chǎn) AI 視頻大模型應(yīng)用落地先行，行業(yè)空間、降本幅度、競(jìng)爭(zhēng)格局探討》

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.