![]()
![]()
行業定義
文生視頻(Text-to-Video)是一種利用人工智能技術將文字描述轉化為視頻內容的技術。與之前的文本生成圖像(文生圖)類似,文生視頻通過深度學習模型,理解和處理文本描述,然后根據這些描述生成動態的、連貫的視頻序列。這種技術的核心在于結合了自然語言處理(NLP)和計算機視覺(CV)領域的最新進展。
國外谷歌和微軟等“硅谷巨頭”很早就開始投入多模態視頻生成的研究。去年,谷歌發布了多模態大模型Gemini和視頻生成模型VideoPoet,從實際效果上展示了多模態生成視頻的巨大潛力。
而在國內,多模態技術的發展方向展現出了更多的可能性。不僅有百度這樣的技術積累深厚的大廠,還有大模型領域的獨角獸公司智譜,以及生數科技和智象未來等以多模態大模型為目標的創業公司。
在視頻生成模型領域,目前國內的創業公司大致可以分為兩類。一類公司,如愛詩科技、生數科技、Morph Studio和智象未來,專注于自主研發基礎大模型,致力于開發適用于多種通用場景的視頻生成工具。另一類公司則包括右腦科技、李白AI實驗室、毛線球科技、布爾向量和MewXAI。這一類公司數量較多,且更具產品化特點,專注于解決特定場景下的問題,更像是提供AIGC在線編輯的平臺。
在文生視頻技術迅速崛起的背景下,整個產業鏈逐漸形成,其上游、中游和下游環節各自扮演著不同的角色,共同推動著文生視頻技術的發展與應用。
在上游環節,數據和素材供應是重要基礎。數據提供商通過提供大規模、多樣化的數據集,為文生視頻模型的訓練提供原材料,而素材庫則為模型的生成提供了豐富的視覺元素。與此同時,AI公司專注于算法和模型的開發,致力于提升文生視頻的生成效果。云計算服務商和硬件供應商也在這一環節中發揮著重要作用,提供強大的計算能力和硬件支持,確保模型訓練和推理的高效進行。
進入中游,AI技術公司承擔了文生視頻模型訓練、調優和部署工作,確保模型能夠準確理解文本并生成高質量的視頻。平臺服務商則通過提供文生視頻生成平臺,使企業與個人用戶可以方便地使用。同時,垂直行業應用開發商根據不同領域的需求,開發出針對性的文生視頻解決方案,滿足影視制作、廣告創作、教育培訓等多樣化場景的需求。
在下游,視頻制作公司開始將文生視頻技術應用于實際內容創作中,借此制作廣告、電影等作品的效率得到了大幅提升。媒體平臺則通過廣泛的分發渠道,將這些生成的視頻內容傳播給更廣泛的受眾。對于營銷和廣告公司來說,文生視頻技術也為個性化廣告的創作帶來了新的可能。此外,企業客戶和個人用戶作為終端受眾,直接體驗并反饋文生視頻應用的效果,這些反饋不僅幫助技術的優化,也為整個產業鏈的健康發展提供了市場洞察。
文生視頻技術的應用場景非常廣泛,包括但不限于:
1.內容創作:幫助創作者快速生成視頻素材,用于電影、廣告或其他形式的數字內容。
2.游戲開發:生成游戲中的動態場景或角色動畫。
3.教育和培訓:制作教學視頻,展示復雜的概念或流程。
4.虛擬現實(VR)和增強現實(AR):創建更為逼真的沉浸式體驗。
雖然技術目前還在持續發展中,生成的視頻質量和真實性可能目前也有待提升,但該項技術展現了巨大的潛力,尤其是在自動化內容生成和節省創作成本方面。
睿獸分析整理文生視頻近年來的融資情況,截止2024年9月,有57家未上市公司發生融資事件166起,參與機構達280多家。文生視頻近兩年技術落地加速,于2023年融資事件數與融資金額都達到歷年最高,其金額高達802.14億人民幣,而今年僅前8個月,融資事件數也達到25起之多。在融資輪次方面,文生視頻相關公司的融資輪次多處于早期階段。
![]()
![]()
相關企業
生數科技
北京生數科技有限公司成立于2023年3月,是一家產業級多模態大模型研發商,基于自研產業級多模態大模型,生數科技目前正面向圖像創作、3D資產創建等細分場景打造垂類應用,服務范圍覆蓋C、B兩端。
2022年,生數科技提出了全球首個融合Diffusion和Transformer架構的U-ViT模型,僅僅半年后便實現了重大突破,開源了基于這一融合架構的多模態擴散模型UniDiffuser,成功驗證了大規模訓練融合架構的可行性與其涌現能力。
2023年初,生數科技開源了基于Transformer架構的多模態擴散大模型UniDiffuser,這是首次在Diffusion Model(擴散模型)上應用U-ViT的Transformer架構,從而使得一個底層模型能夠高質量地完成文生圖、圖生文、圖文聯合生成、圖文改寫等多種生成任務。
2024年4月,生數科技聯合清華大學正式發布了國內首個全自研視頻大模型Vidu,該模型在性能上全面對標OpenAI的Sora,在國內外引發了廣泛關注并獲得高度認可。
2024年6月,生數科技完成數億元Pre-A+輪融資,此次融資由順禧基金與百度戰略投資部聯合領投,中關村科學城公司等跟投,啟明創投、卓源亞洲老股東持續加碼,華興資本擔任本輪融資的獨家財務顧問。同年3月,其完成Pre-A輪的數億元融資,由啟明創投領投,達泰資本、智譜AI、老股東BV百度風投和卓源亞洲跟投。該輪融資主要用于多模態基礎大模型的迭代研發、應用產品創新及市場拓展。去年8月,其完成了數千萬元天使+輪融資,該輪融資由錦秋基金獨家投資,資金主要用于算法研發、產品開發和團隊擴充。
![]()
愛詩科技
北京愛詩科技有限公司成立于2023年4月,其致力于打造一個聚焦AIGC的視覺多模態算法平臺 ,覆蓋視覺相關的各種垂直應用場景。該平臺能夠支持AIGC新內容,幫用戶解決內容生成、安全、版權、分發、商業化等幾乎全生命周期的各項問題。愛詩科技團隊成員來自清華、北大、中科院等頂級學府,曾任職于字節、快手、騰訊、微軟研究院等核心技術團隊。
2024年1月,愛詩科技正式推出了文生視頻產品 PixVerse 的網頁版,并迅速獲得了全球用戶的廣泛關注。PixVerse 通過其出色的表現,迅速建立了穩固的創作者生態系統。該產品頁面的月訪問量已突破百萬,并在2月份登頂全球AI產品榜(aicpb.com)的增速榜首。目前,PixVerse 的視頻生成總量已超過千萬次,被廣泛應用于影視、廣告、動漫等多個內容創作領域。愛詩科技始終以用戶需求為核心,持續優化產品功能和交互體驗。
2024年4月,愛詩科技正式推出了基于自研視頻大模型的 C2V(Character to Video 角色一致性)功能,并已在 PixVerse 網頁端上線。該功能通過精準提取人物特征,并將其深度融合到視頻生成模型中,使得 PixVerse 能夠鎖定角色,實現連續且可控的視頻生成。此功能初步解決了AI視頻創作中的一致性挑戰,為創作者提供了更加高效、靈活的工作流程。
2024年4月,愛詩科技完成A+輪過億元融資,由螞蟻集團領投。本輪融資將用于進一步迭代自研視頻生成大模型,并升級團隊,加快實現AI視頻生成技術的行業應用。今年3月,愛詩科技完成億級人民幣A輪融資,該輪融資由國內一線投資機構達晨財智領投,光源資本擔任獨家財務顧問。
![]()
RightBrain AI
北京右腦科技有限公司成立于2022年9月,是一家專注于研發AI圖像和視頻創作工具的初創公司,致力于將AIGC技術應用于圖像視頻領域,以AI賦能創作。
創始團隊成員均畢業于清北,是女媧、智源悟道等大模型核心成員,團隊擁有業內最前沿的圖像視頻生成大模型的研發和落地經驗。
目前,右腦科技創始團隊包括多模態預訓練模型女媧系列 NUWA、NUWA Infinity 的模型一作,智源悟道·文生圖模型、國畫模型核心貢獻者和前商湯視頻生成算法研究員,具備優秀的多模態、大模型技術能力,能通過模型技術持續優化,獲得長期突出優勢。
其中女媧(NUWA)是2021年推出的突出的多模態預訓練大模型,提供了高質量的文本到圖像、文本到視頻以及視頻預測等視覺生成能力,在 8 種跨模態合成模式下效果超過同期最好的 DALLE 等模型,成為當時多模態領域 SOTA。
目前,右腦科技是少數具備視頻生成算法研發能力的公司之一,面向創作者和視覺生成的巨大需求,公司未來將持續實現更高難度的技術攻克。
2023年6月,右腦科技宣布完成數千萬元天使輪融資,本輪投資方為光速光合和奇績創壇。此次融資資金將主要用于算法研發、產品開發和團隊擴充。2022年9月,其獲得奇績創壇的種子投資。
![]()
![]()
熱點訊息
2024年8月,MiniMax低調發布首款文生視頻模型
8月31日,MiniMax低調發布首款視頻生成大模型,同時發布一條由MiniMax大模型生成的2分鐘視頻《魔法硬幣》。值得注意的是,目前MiniMax并未公布模型的具體參數和技術要點。當天,其創始人閆俊杰在接受媒體群訪時表示,“我們確實在視頻模型生成方面取得很大的進展,根據內部評測以及跑分,我們比Runway的(生成視頻)效果更好。”據其透露,目前的視頻生成模型只是第一版,很快會有新版本,后續還會在數據、算法本身、使用細節等方面繼續迭代,現在只提供文生視頻。未來圖生視頻、文+圖生成視頻都會陸續出來。
2024年6月,潞晨Open-Sora開源大升級:單鏡頭16秒720p高清任意視頻一鍵生成
潞晨Open-Sora團隊在720p高清文生視頻質量和生成時長上實現了突破性進展,支持無縫產出任意風格的高質量短片,并且,該版本繼續全部開源,為開源社區帶來億點點震撼。自OpenAI Sora發布以來,業界對Sora的開放性期待值爆表,但現實卻是持續的等待游戲。潞晨 Open-Sora 的開源,為文生視頻的創新和發展注入了強勁的活力。訪問其的github地址,即可零門檻免費獲得模型權重和全套訓練代碼,這使用戶從被動的內容消費者轉變為積極的內容創造者。
2024年4月,全面對標Sora 生數科技聯合清華推出國內首個純自研視頻大模型
4月27日,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學正式發布中國首個長時長、高一致性、高動態性視頻大模型Vidu。據悉,該模型采用Diffusion(擴散概率模型)與Transformer融合的架構U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。生數科技方面介紹,與Sora一致,Vidu能夠根據提供的文本描述直接生成長達16秒的高質量視頻。生數科技方面介紹,其核心技術U-ViT架構由團隊于2022年9月提出,早于Sora采用的DiT架構,是全球首個Diffusion(擴散概率模型)與Transformer融合的架構,完全由團隊自主研發。
2024年3月,中國首部文生視頻AI系列動畫片《千秋詩頌》英文版發布
3月10日,由中央廣播電視總臺打造的中國首部文生視頻AI系列動畫片《千秋詩頌》英文版在總臺CGTN正式上線發布,這是總臺利用AI技術賦能國際傳播的最新嘗試。《千秋詩頌》系列動畫片英文版同樣采用總臺最新AI技術譯制配音完成。總臺CGTN運用AI語言模型對中文腳本進行翻譯潤色,配音過程使用文生聲、聲線克隆、AI視頻處理等技術,出色還原了中文配音的音色和情感。
2024年2月,奧特曼再放大招!OpenAI發布首個文生視頻模型Sora
2月16日,全球人工智能模型領跑者OpenAI推出了一款能根據文字指令即時生成短視頻的模型,命名為Sora。此前在2023年轟轟烈烈的多模態AI模型競賽中,谷歌、Meta和初創公司Runway、Pika Labs都發布過類似的模型。但本次OpenAI展示的視頻仍然以高質量獲得關注。Sora能夠從文本說明中生成長達60秒的視頻,并能夠提供具有多個角色,特定類型的動作和詳細的背景細節的場景。Sora還能在一個生成的視頻中創建多個鏡頭,體現人物和視覺風格。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.