網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

14B規(guī)模竟也能單卡實(shí)時(shí)生成視頻？多虧這個(gè)強(qiáng)大的開源底座

2026-03-07 20:08:46　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜Sia、Panda

春節(jié)期間， Seedance 2.0 爆火，堪稱現(xiàn)象級(jí)，這也再次把視頻生成推上風(fēng)口。前兩天，字節(jié)跳動(dòng)又?jǐn)y手北大、安努智能和 Canva 共同開源了具備實(shí)時(shí)生成能力的視頻模型Helios家族。該系列包含了Helios-BaseHelios-MidHelios-Distilled三個(gè)版本，全面覆蓋了 T2V、I2V、V2V 以及交互式生成任務(wù)。其能以14B參數(shù)量之軀，實(shí)現(xiàn)高達(dá)19.5 FPS的單卡生成速度，可以說是真正做到了「質(zhì)量」與「速度」齊飛。

視頻鏈接：https://mp.weixin.qq.com/s/F9dPhKfx82bOQjpAL_CBaA

值得一提的是，該項(xiàng)目在發(fā)布首日即實(shí)現(xiàn)了對(duì)昇騰 NPU 的 Day-0 級(jí)別支持，并同步兼容了 Diffusers、vLLM-Omni、SGLang-Diffusion 等主流推理框架。

左右滑動(dòng)查看

如此卓越的表現(xiàn)和強(qiáng)勁的生態(tài)支持，也讓 Helios 成功登頂昨天的 Hugging Face Daily Papers。而在 GitHub 上，這個(gè)剛剛發(fā)布一兩天，還沒得到廣泛宣傳的開源項(xiàng)目的 star 數(shù)已經(jīng)超過了 520！

論文標(biāo)題：Helios: Real Real-Time Long Video Generation Model
論文地址：https://arxiv.org/abs/2603.04379
項(xiàng)目地址：
https://github.com/PKU-YuanGroup/Helios
https://gitcode.com/weixin_47617277/Helios

就在大家震驚于 Helios 高質(zhì)量、高速度的生成能力時(shí)，技術(shù)社區(qū)卻在底層架構(gòu)里尋得了另一番玄機(jī)：這個(gè)模型的核心開發(fā)團(tuán)隊(duì)是北京大學(xué)袁粒課題組，而該模型也與該團(tuán)隊(duì)之前重磅開源的Open-Sora Plan（OSP）項(xiàng)目（兔展智能 & 北大共同發(fā)起）的技術(shù)棧高度同源 ——Helios 與 OSP 團(tuán)隊(duì)近期開源的 UniWorld-OSP2.0（基于 OSP 開發(fā)）存在三分之一到二分之一的代碼復(fù)用。

可以說，Helios 是對(duì)這一核心技術(shù)的一次有效驗(yàn)證，性能也比 OSP 團(tuán)隊(duì)此前基于 UniWorld-OSP2.0 開發(fā)的 OSP-RealTime 14B更勝一籌。

更值得關(guān)注的是，支撐 OSP 系列項(xiàng)目的算力引擎指向了一套龐大的國(guó)產(chǎn)化算力生態(tài) ——鯤鵬與昇騰算力

事實(shí)上，正是得益于北京大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心的賦能和算力支持，這些開源項(xiàng)目才得以成為現(xiàn)實(shí)。我們?cè)谔接懫淞钊梭@艷的性能時(shí)，同樣不能忽略昇騰底座為其提供的強(qiáng)大支撐。

從 Seedance 2.0 和 Helios 的成功可以看出，AI 視頻生成社區(qū)正在凝聚一個(gè)愈發(fā)清晰的共識(shí) ——

SOTA 視頻生成能力正快速向以Diffusion Transformer（DiT）為核心的統(tǒng)一范式收斂。與此同時(shí)，模型的比拼也正從基礎(chǔ)畫質(zhì)的簡(jiǎn)單堆料，轉(zhuǎn)向更高層級(jí)的語(yǔ)義理解深度與多模態(tài)協(xié)同效率。

正是在這樣的技術(shù)拐點(diǎn)與開源生態(tài)輻射力下，Open-Sora Plan 團(tuán)隊(duì)推出的 UniWorld-OSP2.0 進(jìn)入越來越多研究者的視野。

這不僅僅是一次簡(jiǎn)單的版本更迭。作為業(yè)界首個(gè)開源的超百億級(jí)視頻生成大模型（21B），UniWorld-OSP2.0 同時(shí)也是首個(gè)實(shí)現(xiàn)「雙原生」（昇騰原生&自回歸+Diffusion 混合架構(gòu)）統(tǒng)一范式的大模型體系。

UniWorld-OSP2.0 開源地址：

https://modelers.cn/models/PKU-YUAN-Group/Uniworld-OSP2.0
https://github.com/PKU-YuanGroup/UniWorld/tree/main/UniWorld-OSP2.0

在核心評(píng)測(cè)指標(biāo)上，其在 VBench-I2V 基準(zhǔn)上的表現(xiàn)已全面超越 Wan2.1，迅速成為開源視頻生成生態(tài)中最具風(fēng)向標(biāo)意義的技術(shù)坐標(biāo)之一。

UniWorld-OSP2.0 與其它開源視頻模型在 VBench-I2V 基準(zhǔn)上的表現(xiàn)對(duì)比

在關(guān)鍵評(píng)估指標(biāo)上的對(duì)比中，UniWorld-OSP2.0 在運(yùn)動(dòng)質(zhì)量、圖像保真度和語(yǔ)義一致性方面均表現(xiàn)出優(yōu)越性，其整體表現(xiàn)已穩(wěn)步進(jìn)入開源陣營(yíng)第一梯隊(duì)。

伴隨著新版本的發(fā)布，社區(qū)層面的勢(shì)能同樣如火如荼。

Open-Sora Plan 已累計(jì)獲得約 1.2 萬 GitHub star 和千萬級(jí)下載量，多次登上 Trending 榜單，并在實(shí)際代碼活躍度上進(jìn)入開源視頻模型第一梯隊(duì)。

Open-Sora Plan 開源項(xiàng)目已在 GitHub 收獲超 1.2 萬 star

同時(shí)，這樣一個(gè)高性能、低成本且自主可控的視頻大模型底座，正加速演化為產(chǎn)業(yè)側(cè)可復(fù)用的視頻生成基礎(chǔ)設(shè)施。

目前已有包括字節(jié)、騰訊 WXG 、阿里達(dá)摩院、小紅書、嗶哩嗶哩等多家團(tuán)隊(duì)，基于該框架展開二次開發(fā)，海外多家 AI 公司亦同步跟進(jìn)。

隨著團(tuán)隊(duì)宣布將進(jìn)一步開源 12 類風(fēng)格化數(shù)據(jù)集及完整模型權(quán)重，視頻生成領(lǐng)域或許正迎來屬于自己的「視覺版 LLaMA 時(shí)刻」。那么，問題也隨之變得更有意思：

這個(gè)正在開源視頻生成生態(tài)中持續(xù)演進(jìn)的技術(shù)框架，究竟做對(duì)了什么？

下面我們就基于 UniWorld-OSP2.0 的官方技術(shù)報(bào)告進(jìn)行一番解讀。

報(bào)告地址：https://github.com/PKU-YuanGroup/UniWorld/blob/main/UniWorld-OSP2.0/docs/Uniworld-OSP2.0.pdf

整體架構(gòu)

三大核心組件的無縫協(xié)同

在深入探討 UniWorld-OSP2.0 的具體技術(shù)突破之前，有必要先從宏觀視角拆解其整體架構(gòu)。這有助于我們理解該模型是如何支撐起「雙原生」統(tǒng)一范式并實(shí)現(xiàn)高質(zhì)量生成的。

UniWorld-OSP2.0 架構(gòu)概覽

根據(jù)技術(shù)報(bào)告， UniWorld-OSP 2.0 的系統(tǒng)框架在底層邏輯上主要由三個(gè)核心組件構(gòu)成：

因果變分自編碼器（Causal VAE）：作為視頻像素空間與潛在空間之間的橋梁，它負(fù)責(zé)將高維的視頻序列壓縮為緊湊的、具有因果結(jié)構(gòu)的潛在表示，確保在保持時(shí)間因果關(guān)系的同時(shí)提升處理效率。
VLM 增強(qiáng)的多模態(tài)條件模塊：這是該架構(gòu)的認(rèn)知中樞。它利用一個(gè)凍結(jié)狀態(tài)下的 VLM （視覺 - 語(yǔ)言模型）來提取多模態(tài)特征，隨后通過一個(gè)可訓(xùn)練的 Adapter 模塊將這些特征進(jìn)行適配與映射，從而為后續(xù)的生成過程提供深度的語(yǔ)義指導(dǎo)。
擴(kuò)散 Transformer（DiT）主干網(wǎng)絡(luò)：作為視頻生成的核心引擎，DiT 接收上述經(jīng)過 Adapter 處理的語(yǔ)義特征，并在 VAE 提供的潛在空間中執(zhí)行條件去噪，最終合成在時(shí)間上高度連貫的視頻流。

這套「VAE+VLM+DiT」架構(gòu)構(gòu)成了 UniWorld-OSP2.0 強(qiáng)大性能的基石，同時(shí)也為模型深度適配昇騰算力、實(shí)現(xiàn)真正的「昇騰原生」打下了系統(tǒng)級(jí)的結(jié)構(gòu)基礎(chǔ)。建立在這個(gè)全局架構(gòu)認(rèn)知之上，我們?cè)賮砑?xì)看研究團(tuán)隊(duì)是如何在具體的生成與理解環(huán)節(jié)中精準(zhǔn)落刀，解決行業(yè)痛點(diǎn)的。

一大核心技術(shù)優(yōu)勢(shì)

FlashI2V，物理一致性的定海神針

UniWorld-OSP2.0 的第一刀，精準(zhǔn)落在了視頻的物理一致性上。

長(zhǎng)期以來，I2V（圖像生成視頻）生成的視頻常常讓人覺得不太對(duì)勁，動(dòng)作僵硬或畫面崩壞時(shí)有發(fā)生。其核心癥結(jié)在于條件圖像泄漏（Conditional Image Leakage）。

條件圖像泄漏。(a) 如 Wan2.1-I2V-14B-480P 在 VBench-I2V 上的結(jié)果所示，條件信號(hào)的泄漏會(huì)導(dǎo)致生成質(zhì)量下降。(b) 分塊式 FVD 在領(lǐng)域內(nèi)數(shù)據(jù)上增長(zhǎng)，但在領(lǐng)域外輸入上保持高位，表明傳統(tǒng) I2V 模型的泛化能力較差。

在現(xiàn)有的 I2V 范式（例如 SVD 或早期的各類模型）中，常規(guī)做法是將完整的條件圖像數(shù)據(jù)直接拼接到去噪器中。去噪器往往會(huì)把這種直接拼接當(dāng)作一條「捷徑」，對(duì)其產(chǎn)生過度依賴。這種過度控制帶來的后果，就是生成的視頻經(jīng)常出現(xiàn)動(dòng)作幅度極小或者色調(diào)不協(xié)調(diào)等性能退化問題。為了解決這一行業(yè)難題，研究團(tuán)隊(duì)提出了FlashI2V核心機(jī)制，通過隱式引入條件來破局。

FlashI2V 架構(gòu)示意圖：條件圖像潛在變量首先被投影和偏移，以形成隱式編碼條件信息的中間表示。同時(shí)，圖像經(jīng)過傅里葉變換后的高頻幅度與帶噪潛在變量拼接，并輸入到 DiT 主干網(wǎng)絡(luò)中。在推理過程中，去噪從偏移后的噪聲開始，并沿著常微分方程 ODE 軌跡進(jìn)行，直到重建出最終視頻。

對(duì)其進(jìn)行技術(shù)深度剖析， FlashI2V 的殺手锏主要體現(xiàn)在兩個(gè)相互配合的關(guān)鍵設(shè)計(jì)：

潛空間偏移（Latent Shifting）：這相當(dāng)于在擴(kuò)散鏈路中引入了一個(gè)「運(yùn)動(dòng)自由度閥門」。在具體的實(shí)現(xiàn)中，它通過修改流匹配的分布，將條件圖像信息隱式地整合進(jìn)去。模型利用一個(gè)可學(xué)習(xí)的投影模塊，將原始潛變量轉(zhuǎn)換到一個(gè)包含豐富結(jié)構(gòu)和高頻特征的空間中。這從根本上減少了去噪器對(duì)條件圖像的過度依賴，有效緩解了泄漏問題，避免了對(duì)首幀的控制過度，從而讓視頻真正動(dòng)起來，保證了高保真的動(dòng)態(tài)運(yùn)動(dòng)。
傅里葉引導(dǎo)（Fourier Guidance）：在潛空間偏移的過程中，恢復(fù)圖像的邊緣和紋理等高頻細(xì)節(jié)往往是一項(xiàng)挑戰(zhàn)。該機(jī)制精準(zhǔn)地在頻域?qū)用嫜a(bǔ)齊了短板。它通過傅里葉變換提取圖像的高頻幅度特征，并將其與噪聲潛在空間拼接后饋入 DiT 主干網(wǎng)絡(luò)中。這在頻域增強(qiáng)了運(yùn)動(dòng)預(yù)測(cè)的穩(wěn)定性，用于校準(zhǔn)細(xì)節(jié)，確保生成的視頻軌跡不會(huì)跑偏。此外，它還允許模型通過調(diào)整截止頻率百分比，對(duì)生成視頻的細(xì)節(jié)水平進(jìn)行細(xì)粒度控制，例如增強(qiáng)文本和精細(xì)紋理等小尺度結(jié)構(gòu)的清晰度。

潛空間偏移和傅里葉引導(dǎo)分析。(a) 隨著訓(xùn)練的進(jìn)行，可學(xué)習(xí)的投射 ?(?) 逐漸強(qiáng)調(diào)條件圖像中的詳細(xì)信息。(b) 當(dāng)使用較低的截止頻率百分位數(shù)時(shí)，會(huì)注入更多高頻信息。當(dāng)截止頻率百分位數(shù)設(shè)為 0.1 時(shí)，視頻末尾的圖形文字保持不變，而當(dāng)截止頻率百分位數(shù)設(shè)為 0.9 時(shí)，圖形文字變得無法識(shí)別。

這兩項(xiàng)技術(shù)的協(xié)同發(fā)力帶來了立竿見影的實(shí)際收益。FlashI2V 使得輸入?yún)⒖紙D像不會(huì)泄露到視頻的像素層面，有效避免了一張圖復(fù)制成一段視頻的僵硬感，同時(shí)保持了真實(shí)且流暢的運(yùn)動(dòng)軌跡，具備極強(qiáng)的時(shí)間一致性與空間結(jié)構(gòu)穩(wěn)定性。

從量化指標(biāo)來看，研究團(tuán)隊(duì)觀察了不同 I2V 范式的塊式 FVD （Chunk-wise FVD）變化模式。傳統(tǒng)的范式在域內(nèi)數(shù)據(jù)上的 FVD 會(huì)隨著時(shí)間推移而增加，但在域外數(shù)據(jù)上始終保持較高水平，這意味著它們難以泛化。只有 FlashI2V 能夠保持一致的 FVD 變化模式，成功將從域內(nèi)數(shù)據(jù)中學(xué)到的生成規(guī)律泛化應(yīng)用于域外數(shù)據(jù)。得益于此，該項(xiàng)目不僅取得了最低的域外 FVD ，并在多項(xiàng) I2V 關(guān)鍵指標(biāo)上成功超越了 Wan2.1。

兩大主要?jiǎng)?chuàng)新

用 VLM 實(shí)現(xiàn)理解 & 用 I2SV 控制藝術(shù)表達(dá)

在利用 FlashI2V 解決了物理真實(shí)感之后，UniWorld-OSP2.0 團(tuán)隊(duì)進(jìn)一步在模型的認(rèn)知深度與藝術(shù)審美上實(shí)現(xiàn)了雙重突破。

其一，引入 VLM 重構(gòu)認(rèn)知理解機(jī)制

傳統(tǒng)的純文本編碼器（如 T5 ）提取的特征往往只能捕獲表層詞匯線索，導(dǎo)致細(xì)粒度指令對(duì)齊面臨瓶頸。

為此，正如前文所述，團(tuán)隊(duì)引入了一個(gè)凍結(jié)狀態(tài)下的預(yù)訓(xùn)練 VLM （例如 7B 參數(shù)量的 Qwen2.5-VL）作為核心多模態(tài)特征提取器。該模塊會(huì)綜合圖像與文本提示，生成富含復(fù)雜跨模態(tài)關(guān)系的深層多模態(tài)表示。

隨后，通過一個(gè)專門設(shè)計(jì)的輕量級(jí)可訓(xùn)練 Adapter 模塊，這些高維語(yǔ)義在特征維度上與 DiT 主干網(wǎng)絡(luò)實(shí)現(xiàn)了精準(zhǔn)對(duì)齊。

這種設(shè)計(jì)讓模型直接繼承了 VLM 強(qiáng)大的視覺基礎(chǔ)知識(shí)，大幅提升了對(duì)角色、動(dòng)作等細(xì)粒度信息的控制精度，讓模型真正具備了「看懂」復(fù)雜場(chǎng)景的能力。

有了 VLM 加持的 UniWorld-OSP2.0 具備優(yōu)秀的視覺理解能力

其二，推出 I2SV 任務(wù)拓展可控藝術(shù)表達(dá)

僅僅還原真實(shí)的物理世界依然不夠，視頻生成同樣需要可控的藝術(shù)加工。

以往的視頻風(fēng)格化多依賴后期疊加濾鏡，缺乏對(duì)畫面內(nèi)容的深度融合。為了打破這一局限，研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含 12 種典型藝術(shù)風(fēng)格（如吉卜力、 3D 渲染、水墨畫、樂高風(fēng)等）的專屬數(shù)據(jù)集，并在統(tǒng)一框架下推出了全新的 I2SV（圖像到風(fēng)格化視頻）范式。

包含的 12 種典型藝術(shù)風(fēng)格

現(xiàn)在，模型可以在生成期直接接收原始圖像、文本描述以及目標(biāo)風(fēng)格指令，一步輸出時(shí)間連續(xù)且符合語(yǔ)義的風(fēng)格化視頻。配合嚴(yán)格的回環(huán)式質(zhì)量監(jiān)控策略，該機(jī)制可確保角色動(dòng)作與語(yǔ)義細(xì)節(jié)得到完美保留，有效避免了角色變形與動(dòng)作漂移的問題。

OSP-RealTime 14B

把視頻大模型帶進(jìn)工業(yè)階段

過去一年大家默認(rèn)的邏輯很簡(jiǎn)單：模型越大，質(zhì)量越強(qiáng)，但速度一定越慢。能實(shí)時(shí)跑的，通常是 1B 級(jí)別的小模型；14B 這種規(guī)模，只能老老實(shí)實(shí)離線生成。

袁粒課題組又基于 UniWorld-OSP2.0 訓(xùn)練了一個(gè)模型OSP-RealTime 14B（這也是 Helios 系列底層的核心技術(shù)），在單塊昇騰 Atlas A3 系列產(chǎn)品上直接把幀率拉到了 10 FPS（文生視頻），成為第一個(gè)真正接近「交互式視頻生成」的開源級(jí)擴(kuò)散架構(gòu)。

為此，OSP-RealTime 14B 將長(zhǎng)視頻生成，重新定義為無限的視頻續(xù)寫任務(wù)，最大限度保留與預(yù)訓(xùn)練模型一致的推理方式。

通常，現(xiàn)有方案會(huì)利用滑動(dòng)窗口機(jī)制配合因果掩碼，將雙向模型轉(zhuǎn)換為自回歸模型。這種方式本質(zhì)還是 “拼接式延長(zhǎng)”，推理模式和訓(xùn)練不一致，質(zhì)量上限受限。

而 OSP-RealTime 14B 通過引入時(shí)間維噪聲 latent 的拼接策略，在時(shí)間軸上對(duì)歷史噪聲狀態(tài)進(jìn)行延續(xù)，使擴(kuò)散過程在窗口切換時(shí)保持運(yùn)動(dòng)連續(xù)性。在不改變?cè)杏?xùn)練范式的前提下，實(shí)現(xiàn)時(shí)間上的無限延展，最終實(shí)現(xiàn)更高的質(zhì)量下限。

上圖展示了實(shí)時(shí)長(zhǎng)視頻生成的實(shí)際架構(gòu)：一個(gè)自回歸視頻擴(kuò)散 Transformer，基于 Guidance Attention 模塊構(gòu)建。它通過 Multi-Term Memory Patchification 和 Pyramid Unified Predictor-Corrector，對(duì)歷史信息與當(dāng)前噪聲上下文進(jìn)行壓縮，從而降低計(jì)算開銷；同時(shí)通過 Representation Control 實(shí)現(xiàn)對(duì) T2V（文本生成視頻）、I2V（圖像生成視頻）和 V2V（視頻生成視頻）任務(wù)的統(tǒng)一建模。

在生成加速上，袁粒團(tuán)隊(duì)做了三個(gè)關(guān)鍵優(yōu)化。

第一刀砍在時(shí)間維度上，把噪聲 latent 的幀數(shù)從 21 幀降到 9 幀。幀數(shù)減少帶來的不是線性下降，而是平方級(jí)的算力節(jié)省，前向傳播成本瞬間被壓縮。

第二刀砍在分辨率策略上。先在低分辨率下完成大結(jié)構(gòu)生成，再逐步細(xì)化到高分辨率。早期階段計(jì)算便宜，只有后期才進(jìn)入高成本計(jì)算區(qū)間，把「多尺度思想」引入到推理流程本身。

最后一刀是采樣層面的壓縮，靠的是 DMD 蒸餾，把擴(kuò)散推理步數(shù)從 50 步壓縮到 4 步。這不是簡(jiǎn)單減少 step，而是把整個(gè)擴(kuò)散軌跡學(xué)習(xí)成一個(gè)近似的快速映射，直接把時(shí)間開銷壓縮了一個(gè)數(shù)量級(jí)。

OSP-RealTime 14B 的實(shí)時(shí)無限長(zhǎng)視頻生成示例

為了讓這種系統(tǒng)級(jí)改造在單塊昇騰 Atlas A3 系列產(chǎn)品上真正跑起來，并將幀率推進(jìn)到約 10 FPS ，團(tuán)隊(duì)還做了不少工程上的探索。

比如，特征緩存方案 (Latents Cache)，「以查代算」，預(yù)計(jì)算并存儲(chǔ)耗時(shí)最高的引導(dǎo)詞特征，使多輪迭代訓(xùn)練時(shí)間縮短約 30%，并釋放 20% 的顯存資源。

模型全程在昇騰 Atlas A3 系列產(chǎn)品上完成訓(xùn)練與推理，深度融合了 MindSpeed-MM 套件的分布式訓(xùn)練能力（如 TP、SP 并行）、斷點(diǎn)續(xù)訓(xùn)（MindCluster）以及 SmartSwap 等原生特性。

總體而言，OSP-RealTime 14B 讓其作為其基石的 UniWorld-OSP2.0 有了更廣泛的開源意義，也有了商用規(guī)模化潛力。

如果 14B 都可以進(jìn)入實(shí)時(shí)區(qū)間，那視頻生成的邊界就開始松動(dòng)。它不再只是生成幾秒鐘的片段，而是有可能成為持續(xù)運(yùn)行的系統(tǒng)。互動(dòng)視頻、生成式游戲場(chǎng)景、實(shí)時(shí)虛擬世界，這些過去停留在想象層面的應(yīng)用，開始具備算力基礎(chǔ)。

定義視頻生成的「公共基礎(chǔ)設(shè)施」

在開源體系里，UniWorld-OSP2.0 率先將 VLM 的多模態(tài)理解、FlashI2V 的物理生成、I2SV 的藝術(shù)表達(dá)以及 14B 模型的實(shí)時(shí)化能力高度整合。這不僅在昇騰算力平臺(tái)上跑通了工業(yè)級(jí)視頻生成閉環(huán)，更在深層技術(shù)生態(tài)上，依托昇騰底座定義了視頻生成的「公共基礎(chǔ)設(shè)施」

袁粒課題組為整個(gè)行業(yè)蹚平了眾多深坑，節(jié)約了巨大的試錯(cuò)成本。在探索統(tǒng)一架構(gòu)的過程中，他們排除了多尺度自回歸帶來的細(xì)節(jié)模糊、簡(jiǎn)單 token 早融合的質(zhì)量瓶頸，以及 LLM 疊加 Flow 的工程局限，最終收斂出當(dāng)前的最優(yōu)解。

對(duì)于以昇騰為核心的國(guó)產(chǎn)智算生態(tài)而言，該項(xiàng)目提供了一份高價(jià)值的工程落地手冊(cè)。團(tuán)隊(duì)在適配昇騰算力時(shí)，解決了底層通信算子的精度誤差與非并行切分層的推理崩潰隱患。結(jié)合「以查代算」的特征緩存機(jī)制，開發(fā)者無需從零訓(xùn)練高耗能的 VAE 或調(diào)試脆弱的 DiT 架構(gòu)，直接獲得了極具經(jīng)濟(jì)性的成熟工具鏈。

面向未來，視頻生成的終局遠(yuǎn)超像素的堆疊變換。UniWorld-OSP2.0 展現(xiàn)出的跨模態(tài)對(duì)齊與物理規(guī)律學(xué)習(xí)能力表明，它正向著真正的「通用視覺世界模型」穩(wěn)步邁進(jìn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.