![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
本周 AI 項目推薦,我們聚焦在“演員的一生之敵”,AI 視頻生成工具上。
如今 AI 視頻生成這條賽道里,炫目的 Demo 已經很難再砸出多少水花了,行業視線悄悄從“生成得出來嗎”轉移到“能不能進流程、進交付”。
真正考驗模型/產品的是工程側,多鏡頭的一致性要穩,相機語法要能被精確控制,角色要可復用,音畫最好一條鏈路里就成片,這些才決定內容能不能規模化產出,而不是停留在幾條電影級的樣片上。
頭部產品,OpenAI的Sora 把“可復用角色”和“鏡頭拼接”變成面向創作的標準能力,Google Veo 把服務拆成速度檔、質量檔,方便團隊塞進既有的算力和預算框架。
Demo 只是開頭,產能才是故事。
由于 AI 視頻生成工具眾多且更新迅速,它成了今天最擁擠也最接近“顛覆產業”的一條賽道。它們有底層模型,有平臺產品,這讓外界有時分不清它們的區別,因此,我們做了一個四象限分類:
橫軸從“模型/基礎能力驅動”到“工具/工作流/應用驅動”,縱軸從“通用場景”到“垂直場景”。
![]()
這些來自大廠和創業公司的產品,落在不同的四大門派,彼此競爭。
1
Q1:通用 × 模型驅動
主打“我這個底模很強”,再往上包一層產品殼。
快手|可靈
快手在 2024 年 6 月正式發布視頻生成大模型“可靈 Kling”,可以生成最長 2 分鐘、1080p、30fps 的長視頻,并支持多種寬高比,直接對標“長視頻、強物理、一致性”這一檔能力。
特點:
在技術路徑上,可靈走的是“圖像–視頻聯合訓練+通用世界模型”的思路:一端用 Koala-36M 這類大規模、高質量視頻數據集配合 Scaling Law,把基礎模型往更大、更穩的方向推。另一端在 Owl-1 里把視頻視作“狀態–觀測–動作”的閉環演化過程,在潛空間里建一個 Omni World Model,讓模型先學會世界狀態如何隨時間演進,再用視頻生成模型去“拍攝”這一過程,從而在長時間軸上維持運動軌跡、鏡頭語言和物理規律的一致性。 ?
從產品形態看,可靈也不只是單獨一塊模型,更像是快手內容生態里的視頻底層引擎,為原生短視頻創作者提供從秒級片段到長鏡頭內容的穩定生成能力。
https://app.klingai.com/cn/
騰訊|混元
騰訊在混元大模型體系下推出了 HunyuanVideo,并把“文生視頻”作為對外開放的重要一環:一邊通過騰訊云「混元生視頻」提供 API 服務,面向短視頻平臺、影視制作、廣告營銷和游戲等行業,一邊將 HunyuanVideo 的推理代碼與權重開源到 GitHub 和 Hugging Face,拉起本地部署與二次開發的社區生態。開源模型參數量約 130 億,是當前體量最大的開源視頻基礎模型之一。 ?
特點:
走“開源追趕閉源”的敘事,并強調中文語境的優勢。
HunyuanVideo 采用圖像–視頻聯合訓練和嚴格的數據篩選策略,在技術報告里明確強調了對中文場景的適配:通過多模態大模型做文本編碼,對人物表情、肢體動作和鏡頭運動進行專項增強,使其在物理一致性和鏡頭連貫性上逼近閉源頭部模型。
https://video.hunyuan.tencent.com/
![]()
阿里|通義萬相
通義萬相是阿里通義體系下的 AI 創意平臺,最早憑文生圖、圖生圖出圈,隨后補齊文生視頻、圖生視頻、圖像編輯等一整套能力,并在阿里云「百煉」平臺上以 API 形式對外開放:在線產品主要面向設計師、電商商家和內容創作者,云端則瞄準品牌方、MCN 等需要批量產出的企業級場景。
在模型迭代上,阿里先后推出并開源了 Wan2.1、Wan2.2 等版本。Wan2.2 在文生視頻、圖生視頻和統一視頻生成三條線上一起升級:一方面引入 MoE(專家混合)結構,用高噪聲專家負責整體布局、低噪聲專家專注細節刻畫,在不增加有效參數規模的前提下,把推理算力開銷壓到大約原來的一半;另一方面通過高壓縮率 3D VAE,將時間與空間信息壓縮到 4×16×16 的潛在表征,在消費級顯卡上就能在數分鐘內生成 5 秒 720p 視頻,照顧了本地開發者和小團隊的算力現實。
特點:
通義萬相提出了“電影美學控制系統”,允許用戶用“黃昏、柔光、邊緣光、暖色調、中心構圖”這類語言去控制光影、色彩、構圖和鏡頭情緒。
這是在嘗試把攝影指導的語言直接映射到生成空間里,一種憑著模型能力強而延伸出的端到端競爭策略。
https://tongyi.aliyun.com/wan/
LTX Video
LTX 出自以 Facetune 聞名的 Lightricks。它的底層是自家的開源視頻模型族 LTX-Video / LTX-2。第一代 LTX-Video 是一個基于 DiT(Diffusion Transformer)的潛空間視頻擴散模型,核心思路是把 Video-VAE 和去噪 Transformer 當成一個整體來優化,在高壓縮率時空潛空間中做全時空自注意力,由 VAE 解碼器負責最后一步去噪和上采樣。這樣既保住細節,又把推理成本壓到接近“實時”:在 H100 上可以約 2 秒生成 5 秒、24fps、768×512 的視頻,比播放還快。
特點:
2024 年 2 月他們發布 AI 視頻創作產品 LTX Studio,定位為“給創作者用的 AI 電影工作室”。
這是模型和產品結合的一條越來越被采納的路——它可以從一段文本或腳本自動生成角色、場景、分鏡和鏡頭,再在時間軸上做剪輯、調構圖、改運鏡,而不是只吐一條不可控的視頻。
LTX Studio 在 2024 年下半年結束內測向公眾開放,之后陸續被廣告公司和創意工作室拉進正式工作流。
https://ltxvideo.ai/zh
Stable Video Diffusion
Stability AI 于 2023 年 11 月發布 Stable Video Diffusion(SVD),最初以研究用途開放,兩條線路:SVD(約 14 幀)與 SVD-XT(約 25 幀),幀率可在 3–30fps 自定義;隨后在 2023 年 12 月上線 API Alpha。定位更像“視頻生成底座”,廣泛被接入到本地/企業流程中。 ?
特點:
SVD 的優勢依然是可自托管、成本可控、拼裝友好——適合作為企業/工作室視頻流水線里的“生成單元”。
但在Sora等的沖擊下,SVD開始有些走下坡路。
它并非端到端成片器:默認無音頻、時長受幀數限制、復雜人物連續性需后期兜底。因此與 Sora、Veo 這類“模型即產品”相比,SVD 的定位開始走向工程化組件,未來可能只會扮演“可控、可部署、可二開”需求里的其中一環。
https://stability.ai/stable-video
1
Q2:通用 × 工具 / 工作流驅動
場景廣泛,但核心賣點是「一條工作流」而不只是模型參數。
字節跳動|即夢 AI
即夢 AI 由剪映團隊孵化,后來作為字節跳動旗下的一站式 AI 創作平臺,對接 Web 端和剪映 App 等多個入口,逐步與火山引擎打通,面向個人創作者和企業客戶提供服務。它同時覆蓋文生圖、圖生圖、文生視頻、圖生視頻、音樂和音效生成等能力,目標是把“從靈感到成片”的整條鏈路收進同一個工作臺。
在底層能力上,即夢接入了包括 PixelDance 在內的新一代視頻生成模型,支持中文提示詞、多風格圖片生成,也能從文字或參考圖快速生成短視頻片段。創作者可以用首幀 / 尾幀約束故事走向,再通過運鏡控制、節奏調節和對口型驅動,讓二維插畫動起來。配合智能畫布里的多圖融合、局部重繪、一鍵擴圖、摳圖等功能,可以在同一畫布上搭建復雜場景,并保持整體風格統一。
特點:
依然是最有野心的“工作臺”級別產品之一。
即夢是一套“模型+剪輯工具+分發場景”的組合:創作者在智能畫布里構好畫面,用文案驅動視頻生成,一鍵送入剪映時間線繼續后期,再經由抖音、今日頭條等渠道分發,讓 AI 生成直接嵌進字節現有的內容生產與分發體系里。
https://jimeng.jianying.com/
![]()
Runway|Gen-3
Runway 在 2024 年把 Gen-3 推到臺前,將“文本/圖→視頻、視頻延長與編輯”合成到一條可用的制作鏈路里。面向創作者與小團隊,支持短時長片段、橫豎屏與多比例輸出,并在同一工程里完成參考圖、版本迭代與導出,降低了從想法到可交付樣片的門檻。
Gen-3 基于擴散式視頻生成,將畫面作為時空體建模,重點放在鏡頭語言的可控:關鍵幀(首/尾幀)、相機運動曲線、遮罩與區域替換、參考鏡頭驅動等都做成了前臺控件,Video-to-Video 用于風格改寫與敘事修正,延長功能用于順接鏡頭。其短板在于長鏡頭與跨鏡人物一致性仍需精細引導與后期拼接。
特點:
Gen-3 把“導演面板”交回給使用者,適合廣告提案、社媒內容與輕敘事的高頻產出;當需求轉向長時長或復雜群像時,最好與分鏡/剪輯管理工具協同。
https://runwayml.com/
![]()
Luma AI|Dream Machine
Dream Machine 走的是“高質直出+成片工具”的組合路線,Web/iOS 并行,既能快速得到具備電影感的短片,也能通過企業/API 接入到現有工作流。
常見用法是先生成數秒片段,再在工程內完成升格與比例適配,直接對接不同分發渠道。
特點:
底層同樣采用時空擴散與注意力建模,特長是運動自然與寫實觀感:鏡頭銜接更順、材質與光影層次更穩。配套的 Reframe/多比例重構與上采樣,減少了橫豎屏切換的畫質損失;參考圖與素材可用于風格、角色與場景的軟約束。瓶頸在于超長敘事仍需分鏡拆解。
它把“畫面質量”和“工程落地”放在同一優先級:適合高質廣告、影視預演與跨平臺分發的穩態生產,而非一次性炫技。
https://lumalabs.ai/dream-machine
![]()
Flova AI (waitlist)
Flova.ai 在 2025 年推出,還處于內測階段,本質上不是單一視頻模型,而是“多智能體虛擬導演+一站式視頻工廠”。
用戶只要給一句想法或一個大致故事,腳本、分鏡、場景、配樂與配音等 Agent 就會接力完成從文案到成片的整條流水線,用聊天的方式就能拉出接近電影質感的視頻。
特點:
它“實用主義”更徹底,底層走的是集成路線:用 Gemini 1.5 Pro 寫劇本和對話,調用 Sora 2、Vidu Q2 Pro、Veo 3.1 等模型生成鏡頭(最高 1080p / 30fps),再接 Suno、ElevenLabs 做 BGM 和旁白,由自家的時序引擎負責剪輯、節奏和字幕,把一堆多模態模型包成一個統一工作臺。相較于 Sora 這類“一個很強的底模”,Flova 更像把整套片場流程抽象成產品。
https://www.flova.ai/zh-CN/
1
Q3:垂直 × 模型驅動
為某類內容 / 玩法而生,核心還是模型本身的風格與能力。
MiniMax|海螺 Hailuo
MiniMax 一邊推 M2 文本模型,一邊在視頻側把“海螺 Hailuo”系列堆成產品矩陣,目前官網上是 Hailuo 2.3 / 2.3 Fast 兩個主打版本,一檔追質量,一檔追速度。
特點:
海螺本身是偏 C 端的“視頻樂高”:
強 prompt 貼合度+比較花的特效模板,用戶可以從文字或圖片出發生成 3~10 秒短視頻,再用不同動作、場景預設去反復換皮;第三方測評里,海螺在運動流暢度和角色情緒上表現比較突出。
https://hailuoai.com/
![]()
生數科技|Vidu
生數科技的 Vidu 走的是“高一致性+2D 動畫”路線,一開始就把目標對準獨立創作者和內容團隊:同一批角色可以在多支短視頻、動畫片里反復出場,鏡頭運鏡和風格統一也做得比較好。
特點:
最新一代 Vidu Q2 支持文生、圖生和參考視頻驅動,可生成最長 8 秒、不同寬高比的片段,并且原生帶對白和音效,從低分辨率預覽到 1080p 輸出有一條完整升級鏈路。
它背后是一個 MaaS(Model-as-a-Service)平臺,企業可以直接用 API 接入,把自己的 IP 管理、廣告產線綁上去。
https://www.vidu.cn/
![]()
白日夢 AI
白日夢 AI 是光魔科技做的一體化文生視頻平臺,最早在“小說推文、漫畫推文”圈子里火起來,現在已經支持從幾秒到數十分鐘的視頻生成,用來做繪本、長故事、連載短劇都行。
特點:
它強調幾件事:長時長、角色一致性和動漫風格。創作者用自然語言寫故事,系統會自動抽取角色、分鏡和畫面風格,再批量生成分集視頻,對網文改編、條漫動畫化這類場景特別友好。
https://aibrm.com/
PixVerse
PixVerse 走的是典型的“C 端爆款特效”路線:
從自拍、照片或文本生成短視頻,主打 AI Kiss、擁抱、角色變身這類天然適合社交媒體傳播的效果。最新的 v4.5 模型在角色一致性、相機運動和特效豐富度上都有明顯提升,更適合做短、強刺激的刷屏內容。
特點:
它已經被大量用在“讓雕像動起來”“讓老照片開口說話”這種病毒視頻里:比如用 PixVerse 讓球員雕像復活,在球場上飛身撲救,在社交平臺上帶起一輪輪轉發。這類用法某種意義上定義了 AI 視頻的日常場景——不是拍電影級長片,而是給現實世界輕輕疊一層可分享的 AI 濾鏡。
https://app.pixverse.ai/onboard
![]()
1
Q4:垂直 × 應用 / 工具驅動
不是在賣“模型”,而是在賣一整套業務場景
TapNow
TapNow 把自己定義成“面向電商和廣告的 AI 視覺創作引擎”,更像是一個為品牌準備的工作臺,而不是單一視頻模型。用戶可以在 Tapflow 畫布上用節點把腳本、鏡頭、商品圖、模特等元素連成流程,再讓底層的 AI 引擎逐段生成廣告視頻、TVC 或短片。
特點:
平臺直接內置了電商場景優化:
結合自研 LLM 和一堆“旗艦 Agent”,可以根據營銷目標自動調節畫面風格、商品展示方式、本地化文案等;從本質上說,TapNow 將“AI 視頻”變成了電商工作流的一部分,而不是一個孤立的特效工具。
https://www.tapnow.ai/zh
![]()
MovieFlow
MovieFlow 更像是“AI 長片工廠”:輸入一個故事梗概或幾句 prompt,它幫你自動拆成劇情結構、分鏡,再生成時長可達數分鐘的連續影片,有穩定的角色、一致的鏡頭運動和比較完整的敘事。
特點:
很多實測里,MovieFlow 被拿來和 Veo 3 對比:Veo 在畫質和聲音上更“工業級”,而 MovieFlow 的優勢在于“長”和“自動化”,更適合作為 YouTube 劇情向內容、長廣告或教育短片的底層生產工具。
https://movieflow.ai/
![]()
OiiOii AI(需要邀請碼)
OiiOii 是全球首個專業動畫創作 Agent 工具。用戶只需上傳一張照片,不需要會剪輯、不需要自己找音樂,系統就能自動生成一段完整的音樂短片,把靜態畫面變成可以上 TikTok / Reels 的動態圖文。
它背后掛的是 ByteDance 系列的 DreamActor-M1 等 DiT 框架:模型會先分析圖片中的人物、場景和情緒氛圍,再用 Image-to-Video Motion Generation 給畫面加上景深、鏡頭推拉、眨眼、光影變化等細節,同時調用音樂生成模型自動配樂,并按節奏做鏡頭剪輯與轉場,讓音畫同步看起來像“真有人認真剪過”。
特點:
很Vibe。
OiiOii 將動畫制作門檻被壓到極低,只要一張照片就能完成創作,用戶不再需要操心時間線和軌道,而是把注意力放在“我想表達什么情緒”。
https://www.oiioii.ai/home
![]()
popi.art
用一句話概括這個產品就是“人人都能做動畫,人人都能養一個自己的虛擬 IP。”
創作者在 PC 端上傳少量角色圖片即可訓練出形象穩定的虛擬人物,后面由一串 AI Agent 接力完成:分鏡、腳本、視頻生成、剪輯到分發運營,把原本需要一整支動畫團隊的活,壓成一條從“靈感 → 成片 → 發出去”的自動化流水線。
特點:
看起來是單點特效工具,但在可能性上,有“虛擬生命孵化器”的味兒:
先用極低成本批量孵化不同風格的小角色,再從中篩出有潛力的 IP,往長篇動畫、漫畫、音樂、游戲角色去擴展,讓這些 Popi 擁有背景故事、性格與社會身份,觀眾可以像追愛豆一樣追一個“非人類偶像”。
這也是這類產品接下來的可能的敘事:從視頻模型產品脫離,開始講“AI 版泡泡瑪特+數字版迪士尼”的故事。
一端是自動化程度極高的動畫工作臺,一端是面向普通用戶的內容社區,用戶可以像刷短視頻一樣刷動畫、順手一鍵二創,把別人的 IP 接過去繼續講故事。技術負責把創作門檻壓到地板,舞臺則留給那些“能活得久一點的數字生命”。
https://www.popi.art/
![]()
Pika
Pika 將定位瞄準“從靈感到短片的極速鏈路”,強調上手速度與玩法密度。單段短片生成快、模板與社區生態活躍,適合社媒團隊在同一天內做多輪試錯與 A/B。
技術上以擴散式視頻為底,提供 PikaFrames 這樣的關鍵幀過渡、相機運動、局部/區域替換與參考圖引導;質量向與速度向路由可切換,先出樣再精修的節奏非常順手。受限之處在于長時長、多鏡頭角色穩定與極端動作場景,仍需借助剪輯與后期兜底。
特點:
它本質上是“創作速度器”:不是追求最重的底模,而是把迭代時間壓到最低,適合動效玩法、熱點創意與高頻更新的內容流水線。
https://pika.art/
AIPAI
AIPAI 是款一體化 AI 視頻平臺,它自己定位叫 AI Video Agent for Vibe Videoing。用戶只要在首頁輸入框里丟一句想法,比如“做一個 1 分鐘的山海經短片”或者“復刻一條類似《黑客帝國》開場的片子”,系統就會把你帶進一個 Agent 創作頁面:左側是項目概覽、角色圖、分鏡和生成的圖 / 視頻 / 配音,右側是和 Agent 對話的區域,你可以不斷提要求、改故事、調角色,整條鏈路都在同一界面里跑完。
特點:
在底層能力上,AIPAI 走的是“集成型選模+統一界面”:圖像側可以調 Midjourney、Flux、豆包、Gemini 等模型,視頻側則接了 Kling、海螺、Vidu、PixVerse、Runway、Vidu Q2 這類主流視頻模型,甚至包含 Sora 2、Veo 3.1 等高端能力,平臺會按你項目的需求推薦模型,或者讓你手動指定,計費按所選模型和時長結算。
https://aipai.ai/
總結這些產品的思路,大體如下:
一端是把底層模型做厚、盡可能把“物理 + 時序 +美學”封裝成一個穩定黑盒。
一端是把業務流程吃透、把劇組和甲方真實痛點抽象成工具流。
中間夾著的是開源和私有化部署,把算力、版權、數據安全這些長期變量壓回到團隊自己手里。
這些產品已經是最早進入到生產環境里競爭的AI 產品,這里有機會最早產生下一個平臺級AI產品。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.