如果把今年的 AI 創業圖景抽象成一幅熱力分布圖,會看到一個異常明亮的區域。它不在模型底座層,不在搜索、辦公、投喂式工具鏈,而是意外地集中在一個節點:視頻生成。
今年國內融資最快,估值攀升最快的 AI 創業公司,幾乎清一色來自視頻賽道。
劉宇的Vivix尤為典型——不到 20 人的多模態班底,從年初創立到年末估值沖上 13.2 億美元,用不到一年的時間連跳三輪,直接跨入獨角獸區間,成為今年資本市場上增長曲線最陡峭的 AI 公司之一。
與此同時,其他視頻創業者也在密集報喜。
前月之暗面產品負責人王冠創立的 ONE2X 在今年年中完成 A 輪融資,歷史累計融資額逼近 2300 萬美元;
草根出身的阿彪靠 Pollo AI 在 7 個月里做出 2000 萬注冊、600 萬月活,一邊拿下 1400 萬美元融資,一邊做到年化營收突破 2000 萬美元并實現盈虧平衡;
愛詩科技更是在9月宣布完成 6000 萬美元 B 輪融資,直接刷新國內視頻生成領域的單筆融資紀錄。
這些案例共同指向一個事實,只要做生成視頻,只要產品能讓用戶跑得起來、讓收入跑得出來,就會迅速被資本看見。哪怕大廠已經全面入場,視頻生成依舊是少數幾個創業公司仍能切入、仍能做出差異化、仍能講出增長故事的賽道。
從 OpenAI 把 Sora 做成日活千萬級的 App,再到 Runway、Luma AI 等一眾新貴估值輪番抬升,對比國內即夢、可靈、Pollo AI、ONE2X、Vivix 這些玩家的集體發力,你會發現:視頻生成已經從技術展示變成資本、巨頭、創業者三方博弈的主戰場。
這不是簡單的下一個 Stable Diffusion,而更像一場關于“下一代內容形態”和“下一代交互界面”的豪賭。
為什么偏偏是視頻?
從技術端看,視頻本來是多模態里最難啃的一塊骨頭:既有空間維度、又有時間維度,還要兼顧物理規律、角色一致、鏡頭語言。按理說,模型圈應該先把文本、圖片吃干抹凈,再慢慢升級到視頻。
但過去 18 個月,節奏被徹底打亂了。
一邊是模型能力的突進。Runway 的 Gen-4.5 在第三方評測機構 Artificial Analysis 的視頻模型榜上拿到 Elo 排名第一,超過 Google、OpenAI、快手等一眾玩家,真實感、動作連貫性、鏡頭調度都已經可以對線專業廣告片。
另一邊,是產品端的爆款效應。OpenAI 基于 Sora 2 推出獨立視頻 App“ Sora”,把寫一句話生成一條短視頻的體驗做成了類 TikTok 的內容社區。上線幾天沖到蘋果 App Store 免費榜第一,下載量直接超過自家 ChatGPT。
再往后看資本端。Luma AI 今年宣布完成 9 億美元融資,最新估值超過 40 億美元。Runway 的年化收入被第三方機構估算已經逼近 9000 萬美元等級,且增長主要來自視頻相關產品。快手在財報中單獨披露了可靈 AI 的收入,今年二季度單季收入就超過 2.5 億元人民幣,成為財報會上重點強調的增長引擎之一。
這幾個數字背后,有一個很現實的判斷:在所有多模態方向里,視頻是離錢最近的一個。
廣告、劇情短片、電商詳情頁、游戲預告、公司培訓、在線教育……幾乎所有行業都有“要做視頻”的剛性需求,但傳統視頻制作在人的時間、拍攝成本、后期成本上都極其昂貴。
大模型如果要從PPT 上的故事落到實際現金流,視頻是第一批真正能閉環的場景。文本模型做 Copilot、寫代碼、做搜索,更多是提高效率,視頻模型則是直接幫你省掉一部分外包預算和團隊 headcount,甚至重寫整個創作工作流。
大廠與創業公司:同一個戰場,兩套打法
如果從空中俯視今天的視頻生成賽道,會看到兩條清晰的力量對沖。
一條是大廠路線。OpenAI 用 Sora 把模型和消費級產品打通,Google 用 Veo 系列綁定 Gemini 生態,字節/快手用即夢/可靈深度綁定自家內容、廣告與電商體系。
另一條,是創業公司路線。從模型基礎設施到應用層產品,再到視頻版 Canva / 剪映,什么層級都有玩家在卷。剛剛提到的幾家公司,剛好構成了一個很好的切面。
ONE2X 是典型的“重產品、重工作流”的創業路徑。創始人王冠本身就是月之暗面的前產品負責人,團隊里大量成員來自月之暗面、字節、阿里、快手等公司。ONE2X 做的 Medeo,并不是再造一個“模型試玩網站”,而是把自己的定位定死在“創意表達工具”:像和 ChatGPT 聊天一樣對話式改視頻,前后文都在一個 Context 里完整保留,同時內置剪輯、工作流編排,讓動畫、MV、廣告、解說這些常見視頻形態都以“模版 + 自然語言”的方式組合出來。
![]()
他們在底層做了一套“面向視頻的生成系統”——用領域特定語言 DSL 去描述視頻操作,再用 Context 系統和“人機共創環境”來把模糊自然語言映射到具體的視頻操作命令上。換句話說,ONE2X 不只是“調用一個視頻模型”,而是把整個視頻編輯語言重新做了一次抽象,讓模型能聽懂“把剛才那條鏡頭再暖一點、調成 16:9、把音樂推進 2 秒”這種高度語義化的指令。
Pollo AI 則是完全另一套思路:先用極致的出海經驗和 SEO 能力,把聚合模型 + 視頻生成工具做成一個高速增長的產品,再在增長的浪里迭代產品形態。
創始人阿彪沒有大廠履歷,起步是做各種工具出海,靠 SEO 讓幾十個產品活下來。Pollo AI 最早只是一個接入可靈等內測視頻 API 的殼,后來逐步演化為聚合幾乎所有公開視頻、圖片模型的 POE 平臺。靠對“選品”和流量窗口的敏感理解,它在 7 個月內做到月活超 400 萬、注冊用戶超 2000 萬,并且在今年已經實現年化收入 2000 萬美元、整體盈虧平衡。
這是一條更草根的路線:不自研模型、不燒上億美金算力,而是用產品能力、SEO 能力和對時機的把握,把“模型紅利”盡可能轉化為用戶規模和現金流;再在這個基礎上,從“工具疊加”升級成“完整工作流 + 對話式創作 + Agent 編排”,試圖向“AI 版剪映 / 視頻版 Canva”演化。
第三類,則以劉宇的 Vivix AI為代表,走得最激進。不是單純做視頻模型,而是把視頻當成實時交互界面的第一語言,試圖在系統層面重寫多模態智能和推理基礎設施。
從公開信息和論文線索來看,這家公司做了三件本質性的事:
第一,把視頻推理當成系統工程問題來解,把精度-算力-延遲重新平衡,在低精度計算、自適應位寬、深度學習編譯器和多維并行上做系統性重寫,目標是做到“0.6T 秒生成 T 秒畫面”這個量級的實時推理。
第二,不再把語言當成總路由,而是用統一 token 空間做原生多模態,讓視覺、音頻、動作與語言在同一個表征空間里共同訓練,盡量減少“先轉成文字再推理”的信息損失。
第三,從 Day 1 就把產品想象成“實時交互多模態內容”的載體:用戶不再是在信息流里被動刷視頻,而是站在一個 AI 系統的對面,像玩游戲一樣實時對話、互動、共創——視頻不再是結果,而是一種持續生成的過程。
![]()
在這三種路徑之間,大廠的優勢是資源和分發,創業公司的優勢是速度和敢賭方向。視頻生成之所以熱,是因為這兩股力量難得地在一個時間點、一個方向上形成了強共振。
技術戰場:質量、速度與成本的三角博弈
從遠處看,視頻生成像是在比誰更逼真、誰更像真人拍的。但所有真正做事的團隊都知道:這背后是質量、速度與成本的三角博弈。
質量不僅僅是清晰度和分辨率,更包括:它能不能在鏡頭里保持角色、光影、場景的一致性?能不能遵守基本物理規律,不會走著走著突然穿模?能不能聽得懂鏡頭語言,理解運鏡、拉焦、搖鏡頭、等專業指令?
像 Runway Gen-4.5、可靈、Sora 這些頭部模型,今天已經能把文本描述 + 參考圖像翻譯出極具電影感的短片,用戶可以控制鏡頭推進、景別變化,甚至在一個提示詞里寫下“前 5 秒是空鏡,后 10 秒切到人物特寫”。
第二層是速度。在做 Demo 時,等幾分鐘生成一個 10 秒視頻并不是問題;但在真正的創作、電商、廣告甚至互動游戲場景里,幾分鐘一次是不可接受的。你要的是試錯-預覽-再改的快迭代體驗,甚至是實時互動的低延遲體驗,這要求推理棧被徹底重寫。
這也是為什么像 Vivix、Luma 這樣的公司會把大量精力砸在編譯器、低精度推理和多卡并行上。不是為了寫更學術的 paper,而是為了把延遲打到一個能支撐交互的量級。
與此同時,視頻是算力最燒錢的場景之一。OpenAI 自己估算過,Sora 這類模型在自由生成模式下,每天的 token 成本可能在千萬美元量級,這也是為什么它在產品設計上必須小心控制時長和生成頻率。
一端是像 Sora 這樣的社交 + 創作產品,為了冷啟動必須承擔相當高的免費用量;另一端是廣告主、游戲公司、影視公司,它們更關注的是“這條視頻到底省了我多少人力成本”、“這個 API 的單價能不能打平 ROI”。
所以,真正的技術競爭,其實是把這三個變量壓進一個更小的空間。在可接受的成本下,把質量做到某個閾值以上,同時把延遲打到可以撐起創作工作流甚至實時交互的程度。
從“做視頻”到“用視頻說話”:一個更遠的終局
如果只把視頻生成看成更便宜地做廣告片、做帶貨視頻,那它只是一次技術升級;但如果順著 Vivix 等團隊的視角往前走,你會看到一個更遠的終局:
視頻會從一種內容形態,變成一種交互語言。
今天,我們用語言和文字和模型互動。明天,越來越多的人會直接用視頻和動作去和系統對話。
你給模型看一段你家客廳的視頻,它幫你實時生成裝修方案;你用一句話和幾張草圖描述一個產品,系統直接生成產品介紹短片、發布會開場視頻、投放素材;你在游戲里走動、說話、做表情,身邊的 NPC 和環境都在根據你的行為實時重寫劇情和畫面。
要支撐這些場景,視頻模型必須具備三件東西:足夠強的多模態理解能力,能看懂人、環境和動作;足夠快的推理速度,能做到說一句、立刻給一段;足夠低的成本,才能規模化進入每一部手機、每一臺頭顯、每一個網頁。
這就是為什么 2025 年的視頻生成賽道看起來如此擁擠,卻又如此合理。它會像觸屏取代按鍵、短視頻取代圖文一樣,改變我們與數字世界的關系。
歡迎掃碼加群參與討論
我們相信認知能夠跨越階層,
致力于為年輕人提供高質量的科技和財經內容。
稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。
我們正在招募新一期的實習生
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.