網易首頁 > 網易號 > 正文申請入駐

14B規模竟也能單卡實時生成視頻？多虧這個強大的開源底座

2026-03-07 20:08:46　來源: 機器之心Pro

北京舉報

分享至

編輯｜Sia、Panda

春節期間， Seedance 2.0 爆火，堪稱現象級，這也再次把視頻生成推上風口。前兩天，字節跳動又攜手北大、安努智能和 Canva 共同開源了具備實時生成能力的視頻模型Helios家族。該系列包含了Helios-BaseHelios-MidHelios-Distilled三個版本，全面覆蓋了 T2V、I2V、V2V 以及交互式生成任務。其能以14B參數量之軀，實現高達19.5 FPS的單卡生成速度，可以說是真正做到了「質量」與「速度」齊飛。

視頻鏈接：https://mp.weixin.qq.com/s/F9dPhKfx82bOQjpAL_CBaA

值得一提的是，該項目在發布首日即實現了對昇騰 NPU 的 Day-0 級別支持，并同步兼容了 Diffusers、vLLM-Omni、SGLang-Diffusion 等主流推理框架。

左右滑動查看

如此卓越的表現和強勁的生態支持，也讓 Helios 成功登頂昨天的 Hugging Face Daily Papers。而在 GitHub 上，這個剛剛發布一兩天，還沒得到廣泛宣傳的開源項目的 star 數已經超過了 520！

論文標題：Helios: Real Real-Time Long Video Generation Model
論文地址：https://arxiv.org/abs/2603.04379
項目地址：
https://github.com/PKU-YuanGroup/Helios
https://gitcode.com/weixin_47617277/Helios

就在大家震驚于 Helios 高質量、高速度的生成能力時，技術社區卻在底層架構里尋得了另一番玄機：這個模型的核心開發團隊是北京大學袁粒課題組，而該模型也與該團隊之前重磅開源的Open-Sora Plan（OSP）項目（兔展智能 & 北大共同發起）的技術棧高度同源 ——Helios 與 OSP 團隊近期開源的 UniWorld-OSP2.0（基于 OSP 開發）存在三分之一到二分之一的代碼復用。

可以說，Helios 是對這一核心技術的一次有效驗證，性能也比 OSP 團隊此前基于 UniWorld-OSP2.0 開發的 OSP-RealTime 14B更勝一籌。

更值得關注的是，支撐 OSP 系列項目的算力引擎指向了一套龐大的國產化算力生態 ——鯤鵬與昇騰算力

事實上，正是得益于北京大學鯤鵬昇騰科教創新卓越中心的賦能和算力支持，這些開源項目才得以成為現實。我們在探討其令人驚艷的性能時，同樣不能忽略昇騰底座為其提供的強大支撐。

從 Seedance 2.0 和 Helios 的成功可以看出，AI 視頻生成社區正在凝聚一個愈發清晰的共識 ——

SOTA 視頻生成能力正快速向以Diffusion Transformer（DiT）為核心的統一范式收斂。與此同時，模型的比拼也正從基礎畫質的簡單堆料，轉向更高層級的語義理解深度與多模態協同效率。

正是在這樣的技術拐點與開源生態輻射力下，Open-Sora Plan 團隊推出的 UniWorld-OSP2.0 進入越來越多研究者的視野。

這不僅僅是一次簡單的版本更迭。作為業界首個開源的超百億級視頻生成大模型（21B），UniWorld-OSP2.0 同時也是首個實現「雙原生」（昇騰原生&自回歸+Diffusion 混合架構）統一范式的大模型體系。

UniWorld-OSP2.0 開源地址：

https://modelers.cn/models/PKU-YUAN-Group/Uniworld-OSP2.0
https://github.com/PKU-YuanGroup/UniWorld/tree/main/UniWorld-OSP2.0

在核心評測指標上，其在 VBench-I2V 基準上的表現已全面超越 Wan2.1，迅速成為開源視頻生成生態中最具風向標意義的技術坐標之一。

UniWorld-OSP2.0 與其它開源視頻模型在 VBench-I2V 基準上的表現對比

在關鍵評估指標上的對比中，UniWorld-OSP2.0 在運動質量、圖像保真度和語義一致性方面均表現出優越性，其整體表現已穩步進入開源陣營第一梯隊。

伴隨著新版本的發布，社區層面的勢能同樣如火如荼。

Open-Sora Plan 已累計獲得約 1.2 萬 GitHub star 和千萬級下載量，多次登上 Trending 榜單，并在實際代碼活躍度上進入開源視頻模型第一梯隊。

Open-Sora Plan 開源項目已在 GitHub 收獲超 1.2 萬 star

同時，這樣一個高性能、低成本且自主可控的視頻大模型底座，正加速演化為產業側可復用的視頻生成基礎設施。

目前已有包括字節、騰訊 WXG 、阿里達摩院、小紅書、嗶哩嗶哩等多家團隊，基于該框架展開二次開發，海外多家 AI 公司亦同步跟進。

隨著團隊宣布將進一步開源 12 類風格化數據集及完整模型權重，視頻生成領域或許正迎來屬于自己的「視覺版 LLaMA 時刻」。那么，問題也隨之變得更有意思：

這個正在開源視頻生成生態中持續演進的技術框架，究竟做對了什么？

下面我們就基于 UniWorld-OSP2.0 的官方技術報告進行一番解讀。

報告地址：https://github.com/PKU-YuanGroup/UniWorld/blob/main/UniWorld-OSP2.0/docs/Uniworld-OSP2.0.pdf

整體架構

三大核心組件的無縫協同

在深入探討 UniWorld-OSP2.0 的具體技術突破之前，有必要先從宏觀視角拆解其整體架構。這有助于我們理解該模型是如何支撐起「雙原生」統一范式并實現高質量生成的。

UniWorld-OSP2.0 架構概覽

根據技術報告， UniWorld-OSP 2.0 的系統框架在底層邏輯上主要由三個核心組件構成：

因果變分自編碼器（Causal VAE）：作為視頻像素空間與潛在空間之間的橋梁，它負責將高維的視頻序列壓縮為緊湊的、具有因果結構的潛在表示，確保在保持時間因果關系的同時提升處理效率。
VLM 增強的多模態條件模塊：這是該架構的認知中樞。它利用一個凍結狀態下的 VLM （視覺 - 語言模型）來提取多模態特征，隨后通過一個可訓練的 Adapter 模塊將這些特征進行適配與映射，從而為后續的生成過程提供深度的語義指導。
擴散 Transformer（DiT）主干網絡：作為視頻生成的核心引擎，DiT 接收上述經過 Adapter 處理的語義特征，并在 VAE 提供的潛在空間中執行條件去噪，最終合成在時間上高度連貫的視頻流。

這套「VAE+VLM+DiT」架構構成了 UniWorld-OSP2.0 強大性能的基石，同時也為模型深度適配昇騰算力、實現真正的「昇騰原生」打下了系統級的結構基礎。建立在這個全局架構認知之上，我們再來細看研究團隊是如何在具體的生成與理解環節中精準落刀，解決行業痛點的。

一大核心技術優勢

FlashI2V，物理一致性的定海神針

UniWorld-OSP2.0 的第一刀，精準落在了視頻的物理一致性上。

長期以來，I2V（圖像生成視頻）生成的視頻常常讓人覺得不太對勁，動作僵硬或畫面崩壞時有發生。其核心癥結在于條件圖像泄漏（Conditional Image Leakage）。

條件圖像泄漏。(a) 如 Wan2.1-I2V-14B-480P 在 VBench-I2V 上的結果所示，條件信號的泄漏會導致生成質量下降。(b) 分塊式 FVD 在領域內數據上增長，但在領域外輸入上保持高位，表明傳統 I2V 模型的泛化能力較差。

在現有的 I2V 范式（例如 SVD 或早期的各類模型）中，常規做法是將完整的條件圖像數據直接拼接到去噪器中。去噪器往往會把這種直接拼接當作一條「捷徑」，對其產生過度依賴。這種過度控制帶來的后果，就是生成的視頻經常出現動作幅度極小或者色調不協調等性能退化問題。為了解決這一行業難題，研究團隊提出了FlashI2V核心機制，通過隱式引入條件來破局。

FlashI2V 架構示意圖：條件圖像潛在變量首先被投影和偏移，以形成隱式編碼條件信息的中間表示。同時，圖像經過傅里葉變換后的高頻幅度與帶噪潛在變量拼接，并輸入到 DiT 主干網絡中。在推理過程中，去噪從偏移后的噪聲開始，并沿著常微分方程 ODE 軌跡進行，直到重建出最終視頻。

對其進行技術深度剖析， FlashI2V 的殺手锏主要體現在兩個相互配合的關鍵設計：

潛空間偏移（Latent Shifting）：這相當于在擴散鏈路中引入了一個「運動自由度閥門」。在具體的實現中，它通過修改流匹配的分布，將條件圖像信息隱式地整合進去。模型利用一個可學習的投影模塊，將原始潛變量轉換到一個包含豐富結構和高頻特征的空間中。這從根本上減少了去噪器對條件圖像的過度依賴，有效緩解了泄漏問題，避免了對首幀的控制過度，從而讓視頻真正動起來，保證了高保真的動態運動。
傅里葉引導（Fourier Guidance）：在潛空間偏移的過程中，恢復圖像的邊緣和紋理等高頻細節往往是一項挑戰。該機制精準地在頻域層面補齊了短板。它通過傅里葉變換提取圖像的高頻幅度特征，并將其與噪聲潛在空間拼接后饋入 DiT 主干網絡中。這在頻域增強了運動預測的穩定性，用于校準細節，確保生成的視頻軌跡不會跑偏。此外，它還允許模型通過調整截止頻率百分比，對生成視頻的細節水平進行細粒度控制，例如增強文本和精細紋理等小尺度結構的清晰度。

潛空間偏移和傅里葉引導分析。(a) 隨著訓練的進行，可學習的投射 ?(?) 逐漸強調條件圖像中的詳細信息。(b) 當使用較低的截止頻率百分位數時，會注入更多高頻信息。當截止頻率百分位數設為 0.1 時，視頻末尾的圖形文字保持不變，而當截止頻率百分位數設為 0.9 時，圖形文字變得無法識別。

這兩項技術的協同發力帶來了立竿見影的實際收益。FlashI2V 使得輸入參考圖像不會泄露到視頻的像素層面，有效避免了一張圖復制成一段視頻的僵硬感，同時保持了真實且流暢的運動軌跡，具備極強的時間一致性與空間結構穩定性。

從量化指標來看，研究團隊觀察了不同 I2V 范式的塊式 FVD （Chunk-wise FVD）變化模式。傳統的范式在域內數據上的 FVD 會隨著時間推移而增加，但在域外數據上始終保持較高水平，這意味著它們難以泛化。只有 FlashI2V 能夠保持一致的 FVD 變化模式，成功將從域內數據中學到的生成規律泛化應用于域外數據。得益于此，該項目不僅取得了最低的域外 FVD ，并在多項 I2V 關鍵指標上成功超越了 Wan2.1。

兩大主要創新

用 VLM 實現理解 & 用 I2SV 控制藝術表達

在利用 FlashI2V 解決了物理真實感之后，UniWorld-OSP2.0 團隊進一步在模型的認知深度與藝術審美上實現了雙重突破。

其一，引入 VLM 重構認知理解機制

傳統的純文本編碼器（如 T5 ）提取的特征往往只能捕獲表層詞匯線索，導致細粒度指令對齊面臨瓶頸。

為此，正如前文所述，團隊引入了一個凍結狀態下的預訓練 VLM （例如 7B 參數量的 Qwen2.5-VL）作為核心多模態特征提取器。該模塊會綜合圖像與文本提示，生成富含復雜跨模態關系的深層多模態表示。

隨后，通過一個專門設計的輕量級可訓練 Adapter 模塊，這些高維語義在特征維度上與 DiT 主干網絡實現了精準對齊。

這種設計讓模型直接繼承了 VLM 強大的視覺基礎知識，大幅提升了對角色、動作等細粒度信息的控制精度，讓模型真正具備了「看懂」復雜場景的能力。

有了 VLM 加持的 UniWorld-OSP2.0 具備優秀的視覺理解能力

其二，推出 I2SV 任務拓展可控藝術表達

僅僅還原真實的物理世界依然不夠，視頻生成同樣需要可控的藝術加工。

以往的視頻風格化多依賴后期疊加濾鏡，缺乏對畫面內容的深度融合。為了打破這一局限，研究團隊構建了一個包含 12 種典型藝術風格（如吉卜力、 3D 渲染、水墨畫、樂高風等）的專屬數據集，并在統一框架下推出了全新的 I2SV（圖像到風格化視頻）范式。

包含的 12 種典型藝術風格

現在，模型可以在生成期直接接收原始圖像、文本描述以及目標風格指令，一步輸出時間連續且符合語義的風格化視頻。配合嚴格的回環式質量監控策略，該機制可確保角色動作與語義細節得到完美保留，有效避免了角色變形與動作漂移的問題。

OSP-RealTime 14B

把視頻大模型帶進工業階段

過去一年大家默認的邏輯很簡單：模型越大，質量越強，但速度一定越慢。能實時跑的，通常是 1B 級別的小模型；14B 這種規模，只能老老實實離線生成。

袁粒課題組又基于 UniWorld-OSP2.0 訓練了一個模型OSP-RealTime 14B（這也是 Helios 系列底層的核心技術），在單塊昇騰 Atlas A3 系列產品上直接把幀率拉到了 10 FPS（文生視頻），成為第一個真正接近「交互式視頻生成」的開源級擴散架構。

為此，OSP-RealTime 14B 將長視頻生成，重新定義為無限的視頻續寫任務，最大限度保留與預訓練模型一致的推理方式。

通常，現有方案會利用滑動窗口機制配合因果掩碼，將雙向模型轉換為自回歸模型。這種方式本質還是 “拼接式延長”，推理模式和訓練不一致，質量上限受限。

而 OSP-RealTime 14B 通過引入時間維噪聲 latent 的拼接策略，在時間軸上對歷史噪聲狀態進行延續，使擴散過程在窗口切換時保持運動連續性。在不改變原有訓練范式的前提下，實現時間上的無限延展，最終實現更高的質量下限。

上圖展示了實時長視頻生成的實際架構：一個自回歸視頻擴散 Transformer，基于 Guidance Attention 模塊構建。它通過 Multi-Term Memory Patchification 和 Pyramid Unified Predictor-Corrector，對歷史信息與當前噪聲上下文進行壓縮，從而降低計算開銷；同時通過 Representation Control 實現對 T2V（文本生成視頻）、I2V（圖像生成視頻）和 V2V（視頻生成視頻）任務的統一建模。

在生成加速上，袁粒團隊做了三個關鍵優化。

第一刀砍在時間維度上，把噪聲 latent 的幀數從 21 幀降到 9 幀。幀數減少帶來的不是線性下降，而是平方級的算力節省，前向傳播成本瞬間被壓縮。

第二刀砍在分辨率策略上。先在低分辨率下完成大結構生成，再逐步細化到高分辨率。早期階段計算便宜，只有后期才進入高成本計算區間，把「多尺度思想」引入到推理流程本身。

最后一刀是采樣層面的壓縮，靠的是 DMD 蒸餾，把擴散推理步數從 50 步壓縮到 4 步。這不是簡單減少 step，而是把整個擴散軌跡學習成一個近似的快速映射，直接把時間開銷壓縮了一個數量級。

OSP-RealTime 14B 的實時無限長視頻生成示例

為了讓這種系統級改造在單塊昇騰 Atlas A3 系列產品上真正跑起來，并將幀率推進到約 10 FPS ，團隊還做了不少工程上的探索。

比如，特征緩存方案 (Latents Cache)，「以查代算」，預計算并存儲耗時最高的引導詞特征，使多輪迭代訓練時間縮短約 30%，并釋放 20% 的顯存資源。

模型全程在昇騰 Atlas A3 系列產品上完成訓練與推理，深度融合了 MindSpeed-MM 套件的分布式訓練能力（如 TP、SP 并行）、斷點續訓（MindCluster）以及 SmartSwap 等原生特性。

總體而言，OSP-RealTime 14B 讓其作為其基石的 UniWorld-OSP2.0 有了更廣泛的開源意義，也有了商用規模化潛力。

如果 14B 都可以進入實時區間，那視頻生成的邊界就開始松動。它不再只是生成幾秒鐘的片段，而是有可能成為持續運行的系統。互動視頻、生成式游戲場景、實時虛擬世界，這些過去停留在想象層面的應用，開始具備算力基礎。

定義視頻生成的「公共基礎設施」

在開源體系里，UniWorld-OSP2.0 率先將 VLM 的多模態理解、FlashI2V 的物理生成、I2SV 的藝術表達以及 14B 模型的實時化能力高度整合。這不僅在昇騰算力平臺上跑通了工業級視頻生成閉環，更在深層技術生態上，依托昇騰底座定義了視頻生成的「公共基礎設施」

袁粒課題組為整個行業蹚平了眾多深坑，節約了巨大的試錯成本。在探索統一架構的過程中，他們排除了多尺度自回歸帶來的細節模糊、簡單 token 早融合的質量瓶頸，以及 LLM 疊加 Flow 的工程局限，最終收斂出當前的最優解。

對于以昇騰為核心的國產智算生態而言，該項目提供了一份高價值的工程落地手冊。團隊在適配昇騰算力時，解決了底層通信算子的精度誤差與非并行切分層的推理崩潰隱患。結合「以查代算」的特征緩存機制，開發者無需從零訓練高耗能的 VAE 或調試脆弱的 DiT 架構，直接獲得了極具經濟性的成熟工具鏈。

面向未來，視頻生成的終局遠超像素的堆疊變換。UniWorld-OSP2.0 展現出的跨模態對齊與物理規律學習能力表明，它正向著真正的「通用視覺世界模型」穩步邁進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.