網易首頁 > 網易號 > 正文申請入駐

熱門賽道 | 文生視頻，科技賦能藝術新業態

2024-09-06 16:21:20　來源: 睿獸分析

北京舉報

分享至

行業定義

文生視頻（Text-to-Video）是一種利用人工智能技術將文字描述轉化為視頻內容的技術。與之前的文本生成圖像（文生圖）類似，文生視頻通過深度學習模型，理解和處理文本描述，然后根據這些描述生成動態的、連貫的視頻序列。這種技術的核心在于結合了自然語言處理（NLP）和計算機視覺（CV）領域的最新進展。

國外谷歌和微軟等“硅谷巨頭”很早就開始投入多模態視頻生成的研究。去年，谷歌發布了多模態大模型Gemini和視頻生成模型VideoPoet，從實際效果上展示了多模態生成視頻的巨大潛力。

而在國內，多模態技術的發展方向展現出了更多的可能性。不僅有百度這樣的技術積累深厚的大廠，還有大模型領域的獨角獸公司智譜，以及生數科技和智象未來等以多模態大模型為目標的創業公司。

在視頻生成模型領域，目前國內的創業公司大致可以分為兩類。一類公司，如愛詩科技、生數科技、Morph Studio和智象未來，專注于自主研發基礎大模型，致力于開發適用于多種通用場景的視頻生成工具。另一類公司則包括右腦科技、李白AI實驗室、毛線球科技、布爾向量和MewXAI。這一類公司數量較多，且更具產品化特點，專注于解決特定場景下的問題，更像是提供AIGC在線編輯的平臺。

在文生視頻技術迅速崛起的背景下，整個產業鏈逐漸形成，其上游、中游和下游環節各自扮演著不同的角色，共同推動著文生視頻技術的發展與應用。

在上游環節，數據和素材供應是重要基礎。數據提供商通過提供大規模、多樣化的數據集，為文生視頻模型的訓練提供原材料，而素材庫則為模型的生成提供了豐富的視覺元素。與此同時，AI公司專注于算法和模型的開發，致力于提升文生視頻的生成效果。云計算服務商和硬件供應商也在這一環節中發揮著重要作用，提供強大的計算能力和硬件支持，確保模型訓練和推理的高效進行。

進入中游，AI技術公司承擔了文生視頻模型訓練、調優和部署工作，確保模型能夠準確理解文本并生成高質量的視頻。平臺服務商則通過提供文生視頻生成平臺，使企業與個人用戶可以方便地使用。同時，垂直行業應用開發商根據不同領域的需求，開發出針對性的文生視頻解決方案，滿足影視制作、廣告創作、教育培訓等多樣化場景的需求。

在下游，視頻制作公司開始將文生視頻技術應用于實際內容創作中，借此制作廣告、電影等作品的效率得到了大幅提升。媒體平臺則通過廣泛的分發渠道，將這些生成的視頻內容傳播給更廣泛的受眾。對于營銷和廣告公司來說，文生視頻技術也為個性化廣告的創作帶來了新的可能。此外，企業客戶和個人用戶作為終端受眾，直接體驗并反饋文生視頻應用的效果，這些反饋不僅幫助技術的優化，也為整個產業鏈的健康發展提供了市場洞察。

文生視頻技術的應用場景非常廣泛，包括但不限于：

1.內容創作：幫助創作者快速生成視頻素材，用于電影、廣告或其他形式的數字內容。

2.游戲開發：生成游戲中的動態場景或角色動畫。

3.教育和培訓：制作教學視頻，展示復雜的概念或流程。

4.虛擬現實（VR）和增強現實（AR）：創建更為逼真的沉浸式體驗。

雖然技術目前還在持續發展中，生成的視頻質量和真實性可能目前也有待提升，但該項技術展現了巨大的潛力，尤其是在自動化內容生成和節省創作成本方面。

睿獸分析整理文生視頻近年來的融資情況，截止2024年9月，有57家未上市公司發生融資事件166起，參與機構達280多家。文生視頻近兩年技術落地加速，于2023年融資事件數與融資金額都達到歷年最高，其金額高達802.14億人民幣，而今年僅前8個月，融資事件數也達到25起之多。在融資輪次方面，文生視頻相關公司的融資輪次多處于早期階段。

相關企業

生數科技

北京生數科技有限公司成立于2023年3月，是一家產業級多模態大模型研發商，基于自研產業級多模態大模型，生數科技目前正面向圖像創作、3D資產創建等細分場景打造垂類應用，服務范圍覆蓋C、B兩端。

2022年，生數科技提出了全球首個融合Diffusion和Transformer架構的U-ViT模型，僅僅半年后便實現了重大突破，開源了基于這一融合架構的多模態擴散模型UniDiffuser，成功驗證了大規模訓練融合架構的可行性與其涌現能力。

2023年初，生數科技開源了基于Transformer架構的多模態擴散大模型UniDiffuser，這是首次在Diffusion Model（擴散模型）上應用U-ViT的Transformer架構，從而使得一個底層模型能夠高質量地完成文生圖、圖生文、圖文聯合生成、圖文改寫等多種生成任務。

2024年4月，生數科技聯合清華大學正式發布了國內首個全自研視頻大模型Vidu，該模型在性能上全面對標OpenAI的Sora，在國內外引發了廣泛關注并獲得高度認可。

2024年6月，生數科技完成數億元Pre-A+輪融資，此次融資由順禧基金與百度戰略投資部聯合領投，中關村科學城公司等跟投，啟明創投、卓源亞洲老股東持續加碼，華興資本擔任本輪融資的獨家財務顧問。同年3月，其完成Pre-A輪的數億元融資，由啟明創投領投，達泰資本、智譜AI、老股東BV百度風投和卓源亞洲跟投。該輪融資主要用于多模態基礎大模型的迭代研發、應用產品創新及市場拓展。去年8月，其完成了數千萬元天使+輪融資，該輪融資由錦秋基金獨家投資，資金主要用于算法研發、產品開發和團隊擴充。

愛詩科技

北京愛詩科技有限公司成立于2023年4月，其致力于打造一個聚焦AIGC的視覺多模態算法平臺，覆蓋視覺相關的各種垂直應用場景。該平臺能夠支持AIGC新內容，幫用戶解決內容生成、安全、版權、分發、商業化等幾乎全生命周期的各項問題。愛詩科技團隊成員來自清華、北大、中科院等頂級學府，曾任職于字節、快手、騰訊、微軟研究院等核心技術團隊。

2024年1月，愛詩科技正式推出了文生視頻產品 PixVerse 的網頁版，并迅速獲得了全球用戶的廣泛關注。PixVerse 通過其出色的表現，迅速建立了穩固的創作者生態系統。該產品頁面的月訪問量已突破百萬，并在2月份登頂全球AI產品榜（aicpb.com）的增速榜首。目前，PixVerse 的視頻生成總量已超過千萬次，被廣泛應用于影視、廣告、動漫等多個內容創作領域。愛詩科技始終以用戶需求為核心，持續優化產品功能和交互體驗。

2024年4月，愛詩科技正式推出了基于自研視頻大模型的 C2V（Character to Video 角色一致性）功能，并已在 PixVerse 網頁端上線。該功能通過精準提取人物特征，并將其深度融合到視頻生成模型中，使得 PixVerse 能夠鎖定角色，實現連續且可控的視頻生成。此功能初步解決了AI視頻創作中的一致性挑戰，為創作者提供了更加高效、靈活的工作流程。

2024年4月，愛詩科技完成A+輪過億元融資，由螞蟻集團領投。本輪融資將用于進一步迭代自研視頻生成大模型，并升級團隊，加快實現AI視頻生成技術的行業應用。今年3月，愛詩科技完成億級人民幣A輪融資，該輪融資由國內一線投資機構達晨財智領投，光源資本擔任獨家財務顧問。

RightBrain AI

北京右腦科技有限公司成立于2022年9月，是一家專注于研發AI圖像和視頻創作工具的初創公司，致力于將AIGC技術應用于圖像視頻領域，以AI賦能創作。

創始團隊成員均畢業于清北，是女媧、智源悟道等大模型核心成員，團隊擁有業內最前沿的圖像視頻生成大模型的研發和落地經驗。

目前，右腦科技創始團隊包括多模態預訓練模型女媧系列 NUWA、NUWA Infinity 的模型一作，智源悟道·文生圖模型、國畫模型核心貢獻者和前商湯視頻生成算法研究員，具備優秀的多模態、大模型技術能力，能通過模型技術持續優化，獲得長期突出優勢。

其中女媧（NUWA）是2021年推出的突出的多模態預訓練大模型，提供了高質量的文本到圖像、文本到視頻以及視頻預測等視覺生成能力，在 8 種跨模態合成模式下效果超過同期最好的 DALLE 等模型，成為當時多模態領域 SOTA。

目前，右腦科技是少數具備視頻生成算法研發能力的公司之一，面向創作者和視覺生成的巨大需求，公司未來將持續實現更高難度的技術攻克。

2023年6月，右腦科技宣布完成數千萬元天使輪融資，本輪投資方為光速光合和奇績創壇。此次融資資金將主要用于算法研發、產品開發和團隊擴充。2022年9月，其獲得奇績創壇的種子投資。

熱點訊息

2024年8月，MiniMax低調發布首款文生視頻模型

8月31日，MiniMax低調發布首款視頻生成大模型，同時發布一條由MiniMax大模型生成的2分鐘視頻《魔法硬幣》。值得注意的是，目前MiniMax并未公布模型的具體參數和技術要點。當天，其創始人閆俊杰在接受媒體群訪時表示，“我們確實在視頻模型生成方面取得很大的進展，根據內部評測以及跑分，我們比Runway的（生成視頻）效果更好。”據其透露，目前的視頻生成模型只是第一版，很快會有新版本，后續還會在數據、算法本身、使用細節等方面繼續迭代，現在只提供文生視頻。未來圖生視頻、文+圖生成視頻都會陸續出來。

2024年6月，潞晨Open-Sora開源大升級：單鏡頭16秒720p高清任意視頻一鍵生成

潞晨Open-Sora團隊在720p高清文生視頻質量和生成時長上實現了突破性進展，支持無縫產出任意風格的高質量短片，并且，該版本繼續全部開源，為開源社區帶來億點點震撼。自OpenAI Sora發布以來，業界對Sora的開放性期待值爆表，但現實卻是持續的等待游戲。潞晨 Open-Sora 的開源，為文生視頻的創新和發展注入了強勁的活力。訪問其的github地址，即可零門檻免費獲得模型權重和全套訓練代碼，這使用戶從被動的內容消費者轉變為積極的內容創造者。

2024年4月，全面對標Sora 生數科技聯合清華推出國內首個純自研視頻大模型

4月27日，在中關村論壇未來人工智能先鋒論壇上，生數科技聯合清華大學正式發布中國首個長時長、高一致性、高動態性視頻大模型Vidu。據悉，該模型采用Diffusion（擴散概率模型）與Transformer融合的架構U-ViT，支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。生數科技方面介紹，與Sora一致，Vidu能夠根據提供的文本描述直接生成長達16秒的高質量視頻。生數科技方面介紹，其核心技術U-ViT架構由團隊于2022年9月提出，早于Sora采用的DiT架構，是全球首個Diffusion（擴散概率模型）與Transformer融合的架構，完全由團隊自主研發。

2024年3月，中國首部文生視頻AI系列動畫片《千秋詩頌》英文版發布

3月10日，由中央廣播電視總臺打造的中國首部文生視頻AI系列動畫片《千秋詩頌》英文版在總臺CGTN正式上線發布，這是總臺利用AI技術賦能國際傳播的最新嘗試。《千秋詩頌》系列動畫片英文版同樣采用總臺最新AI技術譯制配音完成。總臺CGTN運用AI語言模型對中文腳本進行翻譯潤色，配音過程使用文生聲、聲線克隆、AI視頻處理等技術，出色還原了中文配音的音色和情感。

2024年2月，奧特曼再放大招！OpenAI發布首個文生視頻模型Sora

2月16日，全球人工智能模型領跑者OpenAI推出了一款能根據文字指令即時生成短視頻的模型，命名為Sora。此前在2023年轟轟烈烈的多模態AI模型競賽中，谷歌、Meta和初創公司Runway、Pika Labs都發布過類似的模型。但本次OpenAI展示的視頻仍然以高質量獲得關注。Sora能夠從文本說明中生成長達60秒的視頻，并能夠提供具有多個角色，特定類型的動作和詳細的背景細節的場景。Sora還能在一個生成的視頻中創建多個鏡頭，體現人物和視覺風格。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.