網易首頁 > 網易號 > 正文申請入駐

本周AI產品推薦｜從可靈到popi、OiiOii ，AI影視大亂斗

2025-11-16 11:06:13　來源: 硅星人

北京舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

本周 AI 項目推薦，我們聚焦在“演員的一生之敵”，AI 視頻生成工具上。

如今 AI 視頻生成這條賽道里，炫目的 Demo 已經很難再砸出多少水花了，行業視線悄悄從“生成得出來嗎”轉移到“能不能進流程、進交付”。

真正考驗模型/產品的是工程側，多鏡頭的一致性要穩，相機語法要能被精確控制，角色要可復用，音畫最好一條鏈路里就成片，這些才決定內容能不能規模化產出，而不是停留在幾條電影級的樣片上。

頭部產品，OpenAI的Sora 把“可復用角色”和“鏡頭拼接”變成面向創作的標準能力，Google Veo 把服務拆成速度檔、質量檔，方便團隊塞進既有的算力和預算框架。

Demo 只是開頭，產能才是故事。

由于 AI 視頻生成工具眾多且更新迅速，它成了今天最擁擠也最接近“顛覆產業”的一條賽道。它們有底層模型，有平臺產品，這讓外界有時分不清它們的區別，因此，我們做了一個四象限分類：

橫軸從“模型/基礎能力驅動”到“工具/工作流/應用驅動”，縱軸從“通用場景”到“垂直場景”。

這些來自大廠和創業公司的產品，落在不同的四大門派，彼此競爭。

Q1：通用 × 模型驅動

主打“我這個底模很強”，再往上包一層產品殼。

快手｜可靈

快手在 2024 年 6 月正式發布視頻生成大模型“可靈 Kling”，可以生成最長 2 分鐘、1080p、30fps 的長視頻，并支持多種寬高比，直接對標“長視頻、強物理、一致性”這一檔能力。

特點：

在技術路徑上，可靈走的是“圖像–視頻聯合訓練＋通用世界模型”的思路：一端用 Koala-36M 這類大規模、高質量視頻數據集配合 Scaling Law，把基礎模型往更大、更穩的方向推。另一端在 Owl-1 里把視頻視作“狀態–觀測–動作”的閉環演化過程，在潛空間里建一個 Omni World Model，讓模型先學會世界狀態如何隨時間演進，再用視頻生成模型去“拍攝”這一過程，從而在長時間軸上維持運動軌跡、鏡頭語言和物理規律的一致性。 ?

從產品形態看，可靈也不只是單獨一塊模型，更像是快手內容生態里的視頻底層引擎，為原生短視頻創作者提供從秒級片段到長鏡頭內容的穩定生成能力。

https://app.klingai.com/cn/

騰訊｜混元

騰訊在混元大模型體系下推出了 HunyuanVideo，并把“文生視頻”作為對外開放的重要一環：一邊通過騰訊云「混元生視頻」提供 API 服務，面向短視頻平臺、影視制作、廣告營銷和游戲等行業，一邊將 HunyuanVideo 的推理代碼與權重開源到 GitHub 和 Hugging Face，拉起本地部署與二次開發的社區生態。開源模型參數量約 130 億，是當前體量最大的開源視頻基礎模型之一。 ?

特點：

走“開源追趕閉源”的敘事，并強調中文語境的優勢。

HunyuanVideo 采用圖像–視頻聯合訓練和嚴格的數據篩選策略，在技術報告里明確強調了對中文場景的適配：通過多模態大模型做文本編碼，對人物表情、肢體動作和鏡頭運動進行專項增強，使其在物理一致性和鏡頭連貫性上逼近閉源頭部模型。

https://video.hunyuan.tencent.com/

阿里｜通義萬相

通義萬相是阿里通義體系下的 AI 創意平臺，最早憑文生圖、圖生圖出圈，隨后補齊文生視頻、圖生視頻、圖像編輯等一整套能力，并在阿里云「百煉」平臺上以 API 形式對外開放：在線產品主要面向設計師、電商商家和內容創作者，云端則瞄準品牌方、MCN 等需要批量產出的企業級場景。

在模型迭代上，阿里先后推出并開源了 Wan2.1、Wan2.2 等版本。Wan2.2 在文生視頻、圖生視頻和統一視頻生成三條線上一起升級：一方面引入 MoE（專家混合）結構，用高噪聲專家負責整體布局、低噪聲專家專注細節刻畫，在不增加有效參數規模的前提下，把推理算力開銷壓到大約原來的一半；另一方面通過高壓縮率 3D VAE，將時間與空間信息壓縮到 4×16×16 的潛在表征，在消費級顯卡上就能在數分鐘內生成 5 秒 720p 視頻，照顧了本地開發者和小團隊的算力現實。

特點：

通義萬相提出了“電影美學控制系統”，允許用戶用“黃昏、柔光、邊緣光、暖色調、中心構圖”這類語言去控制光影、色彩、構圖和鏡頭情緒。

這是在嘗試把攝影指導的語言直接映射到生成空間里，一種憑著模型能力強而延伸出的端到端競爭策略。

https://tongyi.aliyun.com/wan/

LTX Video

LTX 出自以 Facetune 聞名的 Lightricks。它的底層是自家的開源視頻模型族 LTX-Video / LTX-2。第一代 LTX-Video 是一個基于 DiT（Diffusion Transformer）的潛空間視頻擴散模型，核心思路是把 Video-VAE 和去噪 Transformer 當成一個整體來優化，在高壓縮率時空潛空間中做全時空自注意力，由 VAE 解碼器負責最后一步去噪和上采樣。這樣既保住細節，又把推理成本壓到接近“實時”：在 H100 上可以約 2 秒生成 5 秒、24fps、768×512 的視頻，比播放還快。

特點：

2024 年 2 月他們發布 AI 視頻創作產品 LTX Studio，定位為“給創作者用的 AI 電影工作室”。

這是模型和產品結合的一條越來越被采納的路——它可以從一段文本或腳本自動生成角色、場景、分鏡和鏡頭，再在時間軸上做剪輯、調構圖、改運鏡，而不是只吐一條不可控的視頻。

LTX Studio 在 2024 年下半年結束內測向公眾開放，之后陸續被廣告公司和創意工作室拉進正式工作流。

https://ltxvideo.ai/zh

Stable Video Diffusion

Stability AI 于 2023 年 11 月發布 Stable Video Diffusion（SVD），最初以研究用途開放，兩條線路：SVD（約 14 幀）與 SVD-XT（約 25 幀），幀率可在 3–30fps 自定義；隨后在 2023 年 12 月上線 API Alpha。定位更像“視頻生成底座”，廣泛被接入到本地/企業流程中。 ?

特點：

SVD 的優勢依然是可自托管、成本可控、拼裝友好——適合作為企業/工作室視頻流水線里的“生成單元”。

但在Sora等的沖擊下，SVD開始有些走下坡路。

它并非端到端成片器：默認無音頻、時長受幀數限制、復雜人物連續性需后期兜底。因此與 Sora、Veo 這類“模型即產品”相比，SVD 的定位開始走向工程化組件，未來可能只會扮演“可控、可部署、可二開”需求里的其中一環。

https://stability.ai/stable-video

Q2：通用 × 工具 / 工作流驅動

場景廣泛，但核心賣點是「一條工作流」而不只是模型參數。

字節跳動｜即夢 AI

即夢 AI 由剪映團隊孵化，后來作為字節跳動旗下的一站式 AI 創作平臺，對接 Web 端和剪映 App 等多個入口，逐步與火山引擎打通，面向個人創作者和企業客戶提供服務。它同時覆蓋文生圖、圖生圖、文生視頻、圖生視頻、音樂和音效生成等能力，目標是把“從靈感到成片”的整條鏈路收進同一個工作臺。

在底層能力上，即夢接入了包括 PixelDance 在內的新一代視頻生成模型，支持中文提示詞、多風格圖片生成，也能從文字或參考圖快速生成短視頻片段。創作者可以用首幀 / 尾幀約束故事走向，再通過運鏡控制、節奏調節和對口型驅動，讓二維插畫動起來。配合智能畫布里的多圖融合、局部重繪、一鍵擴圖、摳圖等功能，可以在同一畫布上搭建復雜場景，并保持整體風格統一。

特點：

依然是最有野心的“工作臺”級別產品之一。

即夢是一套“模型＋剪輯工具＋分發場景”的組合：創作者在智能畫布里構好畫面，用文案驅動視頻生成，一鍵送入剪映時間線繼續后期，再經由抖音、今日頭條等渠道分發，讓 AI 生成直接嵌進字節現有的內容生產與分發體系里。

https://jimeng.jianying.com/

Runway｜Gen-3

Runway 在 2024 年把 Gen-3 推到臺前，將“文本/圖→視頻、視頻延長與編輯”合成到一條可用的制作鏈路里。面向創作者與小團隊，支持短時長片段、橫豎屏與多比例輸出，并在同一工程里完成參考圖、版本迭代與導出，降低了從想法到可交付樣片的門檻。

Gen-3 基于擴散式視頻生成，將畫面作為時空體建模，重點放在鏡頭語言的可控：關鍵幀（首/尾幀）、相機運動曲線、遮罩與區域替換、參考鏡頭驅動等都做成了前臺控件，Video-to-Video 用于風格改寫與敘事修正，延長功能用于順接鏡頭。其短板在于長鏡頭與跨鏡人物一致性仍需精細引導與后期拼接。

特點：

Gen-3 把“導演面板”交回給使用者，適合廣告提案、社媒內容與輕敘事的高頻產出；當需求轉向長時長或復雜群像時，最好與分鏡/剪輯管理工具協同。

https://runwayml.com/

Luma AI｜Dream Machine

Dream Machine 走的是“高質直出＋成片工具”的組合路線，Web/iOS 并行，既能快速得到具備電影感的短片，也能通過企業/API 接入到現有工作流。

常見用法是先生成數秒片段，再在工程內完成升格與比例適配，直接對接不同分發渠道。

特點：

底層同樣采用時空擴散與注意力建模，特長是運動自然與寫實觀感：鏡頭銜接更順、材質與光影層次更穩。配套的 Reframe/多比例重構與上采樣，減少了橫豎屏切換的畫質損失；參考圖與素材可用于風格、角色與場景的軟約束。瓶頸在于超長敘事仍需分鏡拆解。

它把“畫面質量”和“工程落地”放在同一優先級：適合高質廣告、影視預演與跨平臺分發的穩態生產，而非一次性炫技。

https://lumalabs.ai/dream-machine

Flova AI (waitlist)

Flova.ai 在 2025 年推出，還處于內測階段，本質上不是單一視頻模型，而是“多智能體虛擬導演＋一站式視頻工廠”。

用戶只要給一句想法或一個大致故事，腳本、分鏡、場景、配樂與配音等 Agent 就會接力完成從文案到成片的整條流水線，用聊天的方式就能拉出接近電影質感的視頻。

特點：

它“實用主義”更徹底，底層走的是集成路線：用 Gemini 1.5 Pro 寫劇本和對話，調用 Sora 2、Vidu Q2 Pro、Veo 3.1 等模型生成鏡頭（最高 1080p / 30fps），再接 Suno、ElevenLabs 做 BGM 和旁白，由自家的時序引擎負責剪輯、節奏和字幕，把一堆多模態模型包成一個統一工作臺。相較于 Sora 這類“一個很強的底模”，Flova 更像把整套片場流程抽象成產品。

https://www.flova.ai/zh-CN/

Q3：垂直 × 模型驅動

為某類內容 / 玩法而生，核心還是模型本身的風格與能力。

MiniMax｜海螺 Hailuo

MiniMax 一邊推 M2 文本模型，一邊在視頻側把“海螺 Hailuo”系列堆成產品矩陣，目前官網上是 Hailuo 2.3 / 2.3 Fast 兩個主打版本，一檔追質量，一檔追速度。

特點：

海螺本身是偏 C 端的“視頻樂高”：

強 prompt 貼合度＋比較花的特效模板，用戶可以從文字或圖片出發生成 3～10 秒短視頻，再用不同動作、場景預設去反復換皮；第三方測評里，海螺在運動流暢度和角色情緒上表現比較突出。

https://hailuoai.com/

生數科技｜Vidu

生數科技的 Vidu 走的是“高一致性＋2D 動畫”路線，一開始就把目標對準獨立創作者和內容團隊：同一批角色可以在多支短視頻、動畫片里反復出場，鏡頭運鏡和風格統一也做得比較好。

特點：

最新一代 Vidu Q2 支持文生、圖生和參考視頻驅動，可生成最長 8 秒、不同寬高比的片段，并且原生帶對白和音效，從低分辨率預覽到 1080p 輸出有一條完整升級鏈路。

它背后是一個 MaaS（Model-as-a-Service）平臺，企業可以直接用 API 接入，把自己的 IP 管理、廣告產線綁上去。

https://www.vidu.cn/

白日夢 AI

白日夢 AI 是光魔科技做的一體化文生視頻平臺，最早在“小說推文、漫畫推文”圈子里火起來，現在已經支持從幾秒到數十分鐘的視頻生成，用來做繪本、長故事、連載短劇都行。

特點：

它強調幾件事：長時長、角色一致性和動漫風格。創作者用自然語言寫故事，系統會自動抽取角色、分鏡和畫面風格，再批量生成分集視頻，對網文改編、條漫動畫化這類場景特別友好。

https://aibrm.com/

PixVerse

PixVerse 走的是典型的“C 端爆款特效”路線：

從自拍、照片或文本生成短視頻，主打 AI Kiss、擁抱、角色變身這類天然適合社交媒體傳播的效果。最新的 v4.5 模型在角色一致性、相機運動和特效豐富度上都有明顯提升，更適合做短、強刺激的刷屏內容。

特點：

它已經被大量用在“讓雕像動起來”“讓老照片開口說話”這種病毒視頻里：比如用 PixVerse 讓球員雕像復活，在球場上飛身撲救，在社交平臺上帶起一輪輪轉發。這類用法某種意義上定義了 AI 視頻的日常場景——不是拍電影級長片，而是給現實世界輕輕疊一層可分享的 AI 濾鏡。

https://app.pixverse.ai/onboard

Q4：垂直 × 應用 / 工具驅動

不是在賣“模型”，而是在賣一整套業務場景

TapNow

TapNow 把自己定義成“面向電商和廣告的 AI 視覺創作引擎”，更像是一個為品牌準備的工作臺，而不是單一視頻模型。用戶可以在 Tapflow 畫布上用節點把腳本、鏡頭、商品圖、模特等元素連成流程，再讓底層的 AI 引擎逐段生成廣告視頻、TVC 或短片。

特點：

平臺直接內置了電商場景優化：

結合自研 LLM 和一堆“旗艦 Agent”，可以根據營銷目標自動調節畫面風格、商品展示方式、本地化文案等；從本質上說，TapNow 將“AI 視頻”變成了電商工作流的一部分，而不是一個孤立的特效工具。

https://www.tapnow.ai/zh

MovieFlow

MovieFlow 更像是“AI 長片工廠”：輸入一個故事梗概或幾句 prompt，它幫你自動拆成劇情結構、分鏡，再生成時長可達數分鐘的連續影片，有穩定的角色、一致的鏡頭運動和比較完整的敘事。

特點：

很多實測里，MovieFlow 被拿來和 Veo 3 對比：Veo 在畫質和聲音上更“工業級”，而 MovieFlow 的優勢在于“長”和“自動化”，更適合作為 YouTube 劇情向內容、長廣告或教育短片的底層生產工具。

https://movieflow.ai/

OiiOii AI（需要邀請碼）

OiiOii 是全球首個專業動畫創作 Agent 工具。用戶只需上傳一張照片，不需要會剪輯、不需要自己找音樂，系統就能自動生成一段完整的音樂短片，把靜態畫面變成可以上 TikTok / Reels 的動態圖文。

它背后掛的是 ByteDance 系列的 DreamActor-M1 等 DiT 框架：模型會先分析圖片中的人物、場景和情緒氛圍，再用 Image-to-Video Motion Generation 給畫面加上景深、鏡頭推拉、眨眼、光影變化等細節，同時調用音樂生成模型自動配樂，并按節奏做鏡頭剪輯與轉場，讓音畫同步看起來像“真有人認真剪過”。

特點：

很Vibe。

OiiOii 將動畫制作門檻被壓到極低，只要一張照片就能完成創作，用戶不再需要操心時間線和軌道，而是把注意力放在“我想表達什么情緒”。

https://www.oiioii.ai/home

popi.art

用一句話概括這個產品就是“人人都能做動畫，人人都能養一個自己的虛擬 IP。”

創作者在 PC 端上傳少量角色圖片即可訓練出形象穩定的虛擬人物，后面由一串 AI Agent 接力完成：分鏡、腳本、視頻生成、剪輯到分發運營，把原本需要一整支動畫團隊的活，壓成一條從“靈感 → 成片 → 發出去”的自動化流水線。

特點：

看起來是單點特效工具，但在可能性上，有“虛擬生命孵化器”的味兒：

先用極低成本批量孵化不同風格的小角色，再從中篩出有潛力的 IP，往長篇動畫、漫畫、音樂、游戲角色去擴展，讓這些 Popi 擁有背景故事、性格與社會身份，觀眾可以像追愛豆一樣追一個“非人類偶像”。

這也是這類產品接下來的可能的敘事：從視頻模型產品脫離，開始講“AI 版泡泡瑪特＋數字版迪士尼”的故事。

一端是自動化程度極高的動畫工作臺，一端是面向普通用戶的內容社區，用戶可以像刷短視頻一樣刷動畫、順手一鍵二創，把別人的 IP 接過去繼續講故事。技術負責把創作門檻壓到地板，舞臺則留給那些“能活得久一點的數字生命”。

https://www.popi.art/

Pika

Pika 將定位瞄準“從靈感到短片的極速鏈路”，強調上手速度與玩法密度。單段短片生成快、模板與社區生態活躍，適合社媒團隊在同一天內做多輪試錯與 A/B。

技術上以擴散式視頻為底，提供 PikaFrames 這樣的關鍵幀過渡、相機運動、局部/區域替換與參考圖引導；質量向與速度向路由可切換，先出樣再精修的節奏非常順手。受限之處在于長時長、多鏡頭角色穩定與極端動作場景，仍需借助剪輯與后期兜底。

特點：

它本質上是“創作速度器”：不是追求最重的底模，而是把迭代時間壓到最低，適合動效玩法、熱點創意與高頻更新的內容流水線。

https://pika.art/

AIPAI

AIPAI 是款一體化 AI 視頻平臺，它自己定位叫 AI Video Agent for Vibe Videoing。用戶只要在首頁輸入框里丟一句想法，比如“做一個 1 分鐘的山海經短片”或者“復刻一條類似《黑客帝國》開場的片子”，系統就會把你帶進一個 Agent 創作頁面：左側是項目概覽、角色圖、分鏡和生成的圖 / 視頻 / 配音，右側是和 Agent 對話的區域，你可以不斷提要求、改故事、調角色，整條鏈路都在同一界面里跑完。

特點：

在底層能力上，AIPAI 走的是“集成型選模＋統一界面”：圖像側可以調 Midjourney、Flux、豆包、Gemini 等模型，視頻側則接了 Kling、海螺、Vidu、PixVerse、Runway、Vidu Q2 這類主流視頻模型，甚至包含 Sora 2、Veo 3.1 等高端能力，平臺會按你項目的需求推薦模型，或者讓你手動指定，計費按所選模型和時長結算。

https://aipai.ai/

總結這些產品的思路，大體如下：

一端是把底層模型做厚、盡可能把“物理 + 時序 +美學”封裝成一個穩定黑盒。
一端是把業務流程吃透、把劇組和甲方真實痛點抽象成工具流。
中間夾著的是開源和私有化部署，把算力、版權、數據安全這些長期變量壓回到團隊自己手里。

這些產品已經是最早進入到生產環境里競爭的AI 產品，這里有機會最早產生下一個平臺級AI產品。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.