網易首頁 > 網易號 > 正文申請入駐

視頻大模型競爭升級，快手可靈AI的壁壘是什么？

2024-11-23 09:37:28　來源: 胡說成理

河南舉報

分享至

快手最近發布了2024年第三季報：總營收同比增長11.4%至311億，日活也到了4億的一個里程碑。無論是用戶數據還是營收利潤數據，這都是一個穩字當頭的財報。不過，相比單純的財務數字，我最關心的是快手在AI 大模型領域的動作。CEO程一笑在業績電話會中用非常大的篇幅介紹了可靈AI的最新進展：月活超150萬，單月流水也超過了千萬人民幣。

在即將寫這篇文章的時候，我點開了由可靈AI提供深度技術支持的國內首部AIGC原創奇幻微短劇《山海奇鏡之劈波斬浪》，并在自己的手機上看了好幾遍。

看完之后，我感到嘆服，作為星芒短劇暑期檔的精選劇集，《山海奇鏡之劈波斬浪》在5集的篇幅里，利用可靈AI對奇幻的上古傳說進行了一次美好的賽博復現。同時，其正片5集播放量超過5200萬，全網話題曝光量超4.3億，同時還登上全平臺熱搜21個。

我也不由的開始思考一個問題——就連視頻生成（至少是技術層面）都被人類初步實現了，那么，作為這個星球上唯一的智慧物種的我們，發展的未來方向是什么？是更深層次的創意思考能力呢？抑或是掌握和AI協同創作，得到“力量倍增器”的能力呢？

但至少就可靈AI而言，我認為它能夠給世界帶來更多的美好，也給快手帶來更強的商業競爭力，更有可能會改變視頻制作行業的工作流程。

——導語

視頻大模型，卷的是什么？

2024年11月20日發布的快手季度財報中，視覺生成大模型可靈AI備受矚目，在業績發布當晚的電話會議中，也成為機構投資人最關心的幾個話題之一。

為什么會這樣？

還是要從全球大模型的角逐中找到認知。

事實上，從Sora問世到可靈AI出現的這個時間段里，視頻大模型儼然有向軍備競賽發展的趨勢。

可靈剛剛發布，初創企業Luma 就不甘示弱，推出最新視頻模型 Dream Machine，這款號稱“造夢機器”的模型迅速面向公眾開放測試。其官方放出的一系列樣片水準相當之高，而網上也出現了不少網友使用“造夢機器”生成的視頻，雖然沒有達到官方樣片的程度，但也有可圈可點的地方。

Runway緊趕慢趕還是放出了醞釀了半年的全新版本 Gen-3 Alpha，確實也顯出了不凡的底蘊。

接下來，視頻生成賽道就爆火了，比如，阿里達摩院官宣了“尋光視頻創作平臺”、字節宣布即夢 AI 開始探索“生成式影劇”、美圖 MOKI 盯上 AI 短片創作……

但是，和很多視頻生成模型在發布時爆火，但隨即就被發現各種“幼稚病”所不同。快手近期驕傲的宣布了一組數據——可靈AI已有超過500萬用戶，累計生成5100萬個視頻和超過1.5億張圖。

在AI應用落地的時代，只有這種實實在在的應用數據，才能說明一個模型的用戶價值和真實水平。

那可靈的厲害之處是什么？

簡單一句話就是——可靈AI不僅是當下少有的用戶真實可用的視頻大模型，其生產的內容也能達到真實影像級，還能模擬物理世界特性，并有更高的控制性。

里面有兩個關鍵詞，第一個是“用戶真實可用”，這句話很重要。

可靈AI自6月推出面向公眾開放內測，7月就陸續向國內和海外的用戶推出會員付費體系，近日又推出了App，對于全球的很多向往視頻大模型技術的發燒友來說，可靈或許就是他們首個開箱測試的視頻生成大模型。

雖然在可靈推出之前，Sora已經火到一塌糊涂，但Sora一直沒有面向C端開放。且有真正的專業人士的評價稱——盡管 Sora 非常酷，但生成過程仍難以控制，主角的一致性難以保證，需要大量人工后期編輯才能達到最佳效果。

換句話說，Sora還做不到完整意義上的“用戶可用”，因為這里的“用戶”是消費級用戶，也就是普通人。

反過來理解就是，如果一個視頻大模型很酷，但它不能用，且仍然需要專業人士的能力進行大量人工后期編輯，那對普通人的意義就很小。

就拿我自己做例子，我是一個資深的文字內容創作者。如果我對一個語言大模型的評價是“需要大量后期人工編輯”，那潛臺詞就是“普通人不會覺得好用”。

而可靈雖然不能說一步到位、毫無瑕疵，但做到了“用戶可用”，這就超過了絕大多數競品。

另一個理解可靈的關鍵詞是“真實影像級”，這就很可怕了。

真實影像級，就是我們拍攝真實存在的物理世界才能產生的影像，換句話說，它不能是動畫或特效，也不能夸張和失真，要達到與物理世界一致。

目前，連吃面條這種坑死所有AI視頻產品的case，可靈都能完美的呈現。做一些復雜的動作或者細膩的表情，也都沒啥問題。

而這個高度，把絕大多數目前的視頻生成大模型給擋在了外面。

現在，可靈已經是達到世界水準的現象級視頻大模型，就連很少點評中國互聯網的“鋼鐵俠”埃隆·馬斯克在看到可靈創作出的作品時，都說了一句：“AI娛樂產業正在發生飛速變化”。

快手主站業務與社區科學線負責人蓋坤曾根據可靈AI的迭代速度做出預測，樂觀估計，預計1年左右視頻生成大模型就能達到個人制作影視劇的成熟度。

最近，快手還介紹了一項可靈AI導演共創計劃。李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等9位知名導演，將依托可靈AI的技術能力，制作出品9部AIGC電影短片。

換句話說，如果可靈能夠成為真正意義上的知名導演的創作工具，哪怕僅僅是輔助，那也意味著人類在生成式影像技術上的一次歷史性突破。

并非一蹴而就

可靈到底是如何變得這么強大的呢？

蓋坤有一個很合理的解釋，他說：“最好的選擇就是依托快手現有的業務，對現有的業務升級，能夠在現有業務里面形成研發投入的正循環，這樣才能讓快手AI真正有穿越市場周期的能力，能夠在長跑中取勝。”

簡單的解釋就是，可靈的進步，是快手的用戶在真實中使用、反饋、改進、提升這樣一個閉環所循環推動的。

6月發布后，可靈已經進行了10次升級。

時長上，在行業里普遍還在卷5秒、10秒的視頻生成時，可靈就已經推出最長可以延伸到3分鐘的產品。這也意味著，可靈的生成時長，已經覆蓋了所有的短視頻和部分的中視頻，而中視頻的起步時長是1分鐘，這意味著它對于創作者已經有了重大的實質性價值提升。

9月，可靈還升級了基座模型，新的可靈1.5模型，在畫質質量、動態質量、美學表現、運動合理性以及語義理解等方面均有顯著提升。

為了進一步提高畫面控制力，可靈AI還先后內測推出了“運動筆刷”、“對口型”、“人臉模型”等功能。

這里要解釋一下何為“運動筆刷”。“運動筆刷”的主要功能，是支持為圖片中的元素（人或物體等）指定運動軌跡，用戶只需將圖片中需要控制運動方向的部分勾勒出來，然后畫一個示意運動方向箭頭，就可實現精準運動控制。

可以說，這個功能的提供，某種程度上是可靈從“可玩”到“可用”的分水嶺。

對于大多數只能生成幾秒或十數秒的視頻模型來說，用戶主要是體驗性的，說的直接一點就是追求“好玩”。比如，你生成一個少女撫摸熊貓的視頻，只要大體達到預期，你就不太會有精細調整的需求。而運動筆刷的存在，意味著用戶可以精細的修正生成結果——這也意味著，只有進階用戶，或者直接把可靈作為視頻生產力的用戶，才有這種對高級控制功能的需求。

而這一切，僅僅發生在3個月時間里。它不僅反映了可靈的快速進步，也反映了這條賽道上的硝煙彌漫和你追我趕。

可靈的意義和行業的未來

可靈為什么能夠在這么短的時間里趕超行業標桿Sora，同時又不斷的自我進化呢？

我認為可以理解為，它是“兩個生態”合力發揮作用的結果。這兩個生態，分別是快手的技術生態和應用生態。

先說技術生態，這里就不可避免的提及作為視頻大模型中的開創之作的Sora。

行業里有一句這樣的評價：Sora相當于是openAI集齊七龍珠之后的融合產物”。

這句話的意思其實很深，它其實是在告訴讀者，視頻生成大模型并不是憑空崛起的，它是LLM大模型（大語言模型）競爭的延伸和發展。

一方面，所謂的文生圖、文生視頻，都需要模型能“聽懂人話”，用專業一點的話說就是“依賴文本語義去牽引和約束生成的內容”，所以好的大語言模型是可靈成功的一個重要的基礎。

這也證明了，快手先后發布的1750億參數規模的通用大語言模型“快意”和文生圖大模型產品“可圖”，都是“可靈”一鳴驚人的技術基石。

另一方面，視頻生成的技術路線，也早有提出，如Google video多模態開源模型，以及李飛飛的一些早期論文，都多次提到了視頻生成的技術路線。

但還有一句話是——技術路線早有人提出，但視頻模型的真正考驗是工程化。

這意味著，快手強大的基礎模型能力、快手擁有的資源和生態，以及快手AI研發人員驚人的工程能力，才是最后支持“可靈”崛起的三根支柱。

蓋坤的解釋則更深入，他指出，可靈是四個AI能力模塊的集成，分別是編解碼模塊、SPT視頻建模模塊、語義理解模塊、視頻理解模塊，而且“它們都比GPT要復雜”。

所以，一個結論就是，正是基于快手濃厚的技術文化和生態，才能基于已有的能力，創造出可靈這種在原理上并不陌生，但是在工程上難度極高的產品。

而另一個生態，就是快手所擁有的應用生態——中國頭部的短視頻直播平臺。

和很多新興的AI應用急于“找場景”不同，快手的內容社區屬性，是大模型具體應用誕生后，最好的檢驗場景。創作者依托AI完成的無數創意作品，也形成了一條高價值的內容賽道。

在今天，視頻特別是短視頻已經證明了自己在方方面面的影響力，也正在從短視頻出發改變了內容娛樂、文化創作、電商、本地生活服務等各個傳統互聯網賽道的競爭方式。但一個始終是瓶頸的問題是，今天，高水平的短視頻、中視頻制作仍然很依賴作者的專業度，也極大的提高了視頻創作的試錯成本，使得一些有志于視頻賽道（比如我）但又沒有視頻創作技術的人裹足不前。

而正如摩根斯坦利評價的那樣——可靈AI的成功，將有望使快手的用戶規模和活躍度進一步提升，從而長期影響快手在電商和商業化等領域的貨幣化潛力。

事實上，一直以來，快手都非常重視AI大模型技術和現有業務的結合，借助AI大模型提高現有業務的效率，展現出充分的應用價值，提升商業潛力，從而形成投入研發和商業變現的正循環。

以快意語言大模型的應用為例，在商業場景里，基于快手大模型構建的數字人腳本創意生成、數字人渲染生成、數字人實時互動等全流程AIGC服務，可助力商業化廣告主低成本生成高品質的視頻和直播內容。

在內容的理解和推薦方面，快手通過大語言模型、多模態大模型等技術，已經可以準確高效地理解視頻內容和用戶興趣，而將這些標簽應用在推薦、搜索、廣告、垂類運營、生態分析、內容安全等各種場景中，也可以全面的提升全站運營效率。

在內容生產及互動方面，據財報，三季度快手AIGC營銷素材日均消耗超2000萬，而互動助手AI小快也融入了包括奧運競猜、用戶私信和評論區互動等更多場景，MAU峰值突破1800萬。

在這兩天的世界互聯網大會上，快手聯合創始人楊遠熙是這樣解釋AI的意義的——AI與大模型不僅僅是工具，更是對企業發展引擎的迭代，重塑內容與商業、供給與需求、用戶與社區的交互關系，創造出新業態、新場景和新模式，不斷釋放數字經濟發展的新動能。

快手已經為AI領域的應用和產品創新建立了強有力的基礎設施支撐和“工具箱”，形成了新質生產力平臺。

作為“核心技術攻關”的代表成果，可靈AI一方面進一步降低了視頻內容制作的門檻，讓更多普通人可以通過短視頻直播獲得收入。另一方面，人與AI的協作將大幅度革新視頻內容的生產方式，并幫助越來越多的專業人士節省時間，個人創作影視劇的時代即將到來。

就像開頭提到的那樣，至少就可靈而言，我認為它也許會給快手乃至中國的優質消費級內容產業巨大的變化。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.