<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      14B規(guī)模竟也能單卡實(shí)時(shí)生成視頻?多虧這個(gè)強(qiáng)大的開源底座

      0
      分享至



      編輯|Sia、Panda

      春節(jié)期間, Seedance 2.0 爆火,堪稱現(xiàn)象級(jí),這也再次把視頻生成推上風(fēng)口。前兩天,字節(jié)跳動(dòng)又?jǐn)y手北大、安努智能和 Canva 共同開源了具備實(shí)時(shí)生成能力的視頻模型Helios家族。該系列包含了Helios-BaseHelios-MidHelios-Distilled三個(gè)版本,全面覆蓋了 T2V、I2V、V2V 以及交互式生成任務(wù)。其能以14B參數(shù)量之軀,實(shí)現(xiàn)高達(dá)19.5 FPS的單卡生成速度,可以說是真正做到了「質(zhì)量」與「速度」齊飛。



      視頻鏈接:https://mp.weixin.qq.com/s/F9dPhKfx82bOQjpAL_CBaA

      值得一提的是,該項(xiàng)目在發(fā)布首日即實(shí)現(xiàn)了對(duì)昇騰 NPU 的 Day-0 級(jí)別支持,并同步兼容了 Diffusers、vLLM-Omni、SGLang-Diffusion 等主流推理框架。





      左右滑動(dòng)查看

      如此卓越的表現(xiàn)和強(qiáng)勁的生態(tài)支持,也讓 Helios 成功登頂昨天的 Hugging Face Daily Papers。而在 GitHub 上,這個(gè)剛剛發(fā)布一兩天,還沒得到廣泛宣傳的開源項(xiàng)目的 star 數(shù)已經(jīng)超過了 520!

      • 論文標(biāo)題:Helios: Real Real-Time Long Video Generation Model
      • 論文地址:https://arxiv.org/abs/2603.04379
      • 項(xiàng)目地址:
      • https://github.com/PKU-YuanGroup/Helios
      • https://gitcode.com/weixin_47617277/Helios

      就在大家震驚于 Helios 高質(zhì)量、高速度的生成能力時(shí),技術(shù)社區(qū)卻在底層架構(gòu)里尋得了另一番玄機(jī):這個(gè)模型的核心開發(fā)團(tuán)隊(duì)是北京大學(xué)袁粒課題組,而該模型也與該團(tuán)隊(duì)之前重磅開源的Open-Sora Plan(OSP)項(xiàng)目(兔展智能 & 北大共同發(fā)起)的技術(shù)棧高度同源 ——Helios 與 OSP 團(tuán)隊(duì)近期開源的 UniWorld-OSP2.0(基于 OSP 開發(fā))存在三分之一到二分之一的代碼復(fù)用。

      可以說,Helios 是對(duì)這一核心技術(shù)的一次有效驗(yàn)證,性能也比 OSP 團(tuán)隊(duì)此前基于 UniWorld-OSP2.0 開發(fā)的 OSP-RealTime 14B更勝一籌。





      更值得關(guān)注的是,支撐 OSP 系列項(xiàng)目的算力引擎指向了一套龐大的國(guó)產(chǎn)化算力生態(tài) ——鯤鵬與昇騰算力

      事實(shí)上,正是得益于北京大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心的賦能和算力支持,這些開源項(xiàng)目才得以成為現(xiàn)實(shí)。我們?cè)谔接懫淞钊梭@艷的性能時(shí),同樣不能忽略昇騰底座為其提供的強(qiáng)大支撐。

      從 Seedance 2.0 和 Helios 的成功可以看出,AI 視頻生成社區(qū)正在凝聚一個(gè)愈發(fā)清晰的共識(shí) ——

      SOTA 視頻生成能力正快速向以Diffusion Transformer(DiT)為核心的統(tǒng)一范式收斂。與此同時(shí),模型的比拼也正從基礎(chǔ)畫質(zhì)的簡(jiǎn)單堆料,轉(zhuǎn)向更高層級(jí)的語(yǔ)義理解深度與多模態(tài)協(xié)同效率。

      正是在這樣的技術(shù)拐點(diǎn)與開源生態(tài)輻射力下,Open-Sora Plan 團(tuán)隊(duì)推出的 UniWorld-OSP2.0 進(jìn)入越來越多研究者的視野。

      這不僅僅是一次簡(jiǎn)單的版本更迭。作為業(yè)界首個(gè)開源的超百億級(jí)視頻生成大模型(21B),UniWorld-OSP2.0 同時(shí)也是首個(gè)實(shí)現(xiàn)「雙原生」(昇騰原生&自回歸+Diffusion 混合架構(gòu))統(tǒng)一范式的大模型體系。



      UniWorld-OSP2.0 開源地址:

      • https://modelers.cn/models/PKU-YUAN-Group/Uniworld-OSP2.0
      • https://github.com/PKU-YuanGroup/UniWorld/tree/main/UniWorld-OSP2.0

      在核心評(píng)測(cè)指標(biāo)上,其在 VBench-I2V 基準(zhǔn)上的表現(xiàn)已全面超越 Wan2.1,迅速成為開源視頻生成生態(tài)中最具風(fēng)向標(biāo)意義的技術(shù)坐標(biāo)之一。



      UniWorld-OSP2.0 與其它開源視頻模型在 VBench-I2V 基準(zhǔn)上的表現(xiàn)對(duì)比

      在關(guān)鍵評(píng)估指標(biāo)上的對(duì)比中,UniWorld-OSP2.0 在運(yùn)動(dòng)質(zhì)量、圖像保真度和語(yǔ)義一致性方面均表現(xiàn)出優(yōu)越性,其整體表現(xiàn)已穩(wěn)步進(jìn)入開源陣營(yíng)第一梯隊(duì)。

      伴隨著新版本的發(fā)布,社區(qū)層面的勢(shì)能同樣如火如荼。

      Open-Sora Plan 已累計(jì)獲得約 1.2 萬 GitHub star 和千萬級(jí)下載量,多次登上 Trending 榜單,并在實(shí)際代碼活躍度上進(jìn)入開源視頻模型第一梯隊(duì)。



      Open-Sora Plan 開源項(xiàng)目已在 GitHub 收獲超 1.2 萬 star

      同時(shí),這樣一個(gè)高性能、低成本且自主可控的視頻大模型底座,正加速演化為產(chǎn)業(yè)側(cè)可復(fù)用的視頻生成基礎(chǔ)設(shè)施。

      目前已有包括字節(jié)、騰訊 WXG 、阿里達(dá)摩院、小紅書、嗶哩嗶哩等多家團(tuán)隊(duì),基于該框架展開二次開發(fā),海外多家 AI 公司亦同步跟進(jìn)。

      隨著團(tuán)隊(duì)宣布將進(jìn)一步開源 12 類風(fēng)格化數(shù)據(jù)集及完整模型權(quán)重,視頻生成領(lǐng)域或許正迎來屬于自己的「視覺版 LLaMA 時(shí)刻」。那么,問題也隨之變得更有意思:

      這個(gè)正在開源視頻生成生態(tài)中持續(xù)演進(jìn)的技術(shù)框架,究竟做對(duì)了什么?

      下面我們就基于 UniWorld-OSP2.0 的官方技術(shù)報(bào)告進(jìn)行一番解讀。



      報(bào)告地址:https://github.com/PKU-YuanGroup/UniWorld/blob/main/UniWorld-OSP2.0/docs/Uniworld-OSP2.0.pdf

      整體架構(gòu)

      三大核心組件的無縫協(xié)同

      在深入探討 UniWorld-OSP2.0 的具體技術(shù)突破之前,有必要先從宏觀視角拆解其整體架構(gòu)。這有助于我們理解該模型是如何支撐起「雙原生」統(tǒng)一范式并實(shí)現(xiàn)高質(zhì)量生成的。



      UniWorld-OSP2.0 架構(gòu)概覽

      根據(jù)技術(shù)報(bào)告, UniWorld-OSP 2.0 的系統(tǒng)框架在底層邏輯上主要由三個(gè)核心組件構(gòu)成 :

      • 因果變分自編碼器(Causal VAE):作為視頻像素空間與潛在空間之間的橋梁,它負(fù)責(zé)將高維的視頻序列壓縮為緊湊的、具有因果結(jié)構(gòu)的潛在表示,確保在保持時(shí)間因果關(guān)系的同時(shí)提升處理效率。
      • VLM 增強(qiáng)的多模態(tài)條件模塊:這是該架構(gòu)的認(rèn)知中樞。它利用一個(gè)凍結(jié)狀態(tài)下的 VLM (視覺 - 語(yǔ)言模型)來提取多模態(tài)特征,隨后通過一個(gè)可訓(xùn)練的 Adapter 模塊將這些特征進(jìn)行適配與映射,從而為后續(xù)的生成過程提供深度的語(yǔ)義指導(dǎo)。
      • 擴(kuò)散 Transformer(DiT)主干網(wǎng)絡(luò):作為視頻生成的核心引擎,DiT 接收上述經(jīng)過 Adapter 處理的語(yǔ)義特征,并在 VAE 提供的潛在空間中執(zhí)行條件去噪,最終合成在時(shí)間上高度連貫的視頻流。

      這套「VAE+VLM+DiT」架構(gòu)構(gòu)成了 UniWorld-OSP2.0 強(qiáng)大性能的基石,同時(shí)也為模型深度適配昇騰算力、實(shí)現(xiàn)真正的「昇騰原生」打下了系統(tǒng)級(jí)的結(jié)構(gòu)基礎(chǔ)。建立在這個(gè)全局架構(gòu)認(rèn)知之上,我們?cè)賮砑?xì)看研究團(tuán)隊(duì)是如何在具體的生成與理解環(huán)節(jié)中精準(zhǔn)落刀,解決行業(yè)痛點(diǎn)的。

      一大核心技術(shù)優(yōu)勢(shì)

      FlashI2V,物理一致性的定海神針

      UniWorld-OSP2.0 的第一刀,精準(zhǔn)落在了視頻的物理一致性上。

      長(zhǎng)期以來,I2V(圖像生成視頻)生成的視頻常常讓人覺得不太對(duì)勁,動(dòng)作僵硬或畫面崩壞時(shí)有發(fā)生。其核心癥結(jié)在于條件圖像泄漏(Conditional Image Leakage)。



      條件圖像泄漏。(a) 如 Wan2.1-I2V-14B-480P 在 VBench-I2V 上的結(jié)果所示,條件信號(hào)的泄漏會(huì)導(dǎo)致生成質(zhì)量下降。(b) 分塊式 FVD 在領(lǐng)域內(nèi)數(shù)據(jù)上增長(zhǎng),但在領(lǐng)域外輸入上保持高位,表明傳統(tǒng) I2V 模型的泛化能力較差。

      在現(xiàn)有的 I2V 范式(例如 SVD 或早期的各類模型)中,常規(guī)做法是將完整的條件圖像數(shù)據(jù)直接拼接到去噪器中。去噪器往往會(huì)把這種直接拼接當(dāng)作一條「捷徑」,對(duì)其產(chǎn)生過度依賴。這種過度控制帶來的后果,就是生成的視頻經(jīng)常出現(xiàn)動(dòng)作幅度極小或者色調(diào)不協(xié)調(diào)等性能退化問題。為了解決這一行業(yè)難題,研究團(tuán)隊(duì)提出了FlashI2V核心機(jī)制,通過隱式引入條件來破局。



      FlashI2V 架構(gòu)示意圖:條件圖像潛在變量首先被投影和偏移,以形成隱式編碼條件信息的中間表示。同時(shí),圖像經(jīng)過傅里葉變換后的高頻幅度與帶噪潛在變量拼接,并輸入到 DiT 主干網(wǎng)絡(luò)中。在推理過程中,去噪從偏移后的噪聲開始,并沿著常微分方程 ODE 軌跡進(jìn)行,直到重建出最終視頻。

      對(duì)其進(jìn)行技術(shù)深度剖析, FlashI2V 的殺手锏主要體現(xiàn)在兩個(gè)相互配合的關(guān)鍵設(shè)計(jì):

      • 潛空間偏移(Latent Shifting):這相當(dāng)于在擴(kuò)散鏈路中引入了一個(gè)「運(yùn)動(dòng)自由度閥門」。在具體的實(shí)現(xiàn)中,它通過修改流匹配的分布,將條件圖像信息隱式地整合進(jìn)去。模型利用一個(gè)可學(xué)習(xí)的投影模塊,將原始潛變量轉(zhuǎn)換到一個(gè)包含豐富結(jié)構(gòu)和高頻特征的空間中。這從根本上減少了去噪器對(duì)條件圖像的過度依賴,有效緩解了泄漏問題,避免了對(duì)首幀的控制過度,從而讓視頻真正動(dòng)起來,保證了高保真的動(dòng)態(tài)運(yùn)動(dòng)。
      • 傅里葉引導(dǎo)(Fourier Guidance):在潛空間偏移的過程中,恢復(fù)圖像的邊緣和紋理等高頻細(xì)節(jié)往往是一項(xiàng)挑戰(zhàn)。該機(jī)制精準(zhǔn)地在頻域?qū)用嫜a(bǔ)齊了短板。它通過傅里葉變換提取圖像的高頻幅度特征,并將其與噪聲潛在空間拼接后饋入 DiT 主干網(wǎng)絡(luò)中。這在頻域增強(qiáng)了運(yùn)動(dòng)預(yù)測(cè)的穩(wěn)定性,用于校準(zhǔn)細(xì)節(jié),確保生成的視頻軌跡不會(huì)跑偏。此外,它還允許模型通過調(diào)整截止頻率百分比,對(duì)生成視頻的細(xì)節(jié)水平進(jìn)行細(xì)粒度控制,例如增強(qiáng)文本和精細(xì)紋理等小尺度結(jié)構(gòu)的清晰度。



      潛空間偏移和傅里葉引導(dǎo)分析。(a) 隨著訓(xùn)練的進(jìn)行,可學(xué)習(xí)的投射 ?(?) 逐漸強(qiáng)調(diào)條件圖像中的詳細(xì)信息。(b) 當(dāng)使用較低的截止頻率百分位數(shù)時(shí),會(huì)注入更多高頻信息。當(dāng)截止頻率百分位數(shù)設(shè)為 0.1 時(shí),視頻末尾的圖形文字保持不變,而當(dāng)截止頻率百分位數(shù)設(shè)為 0.9 時(shí),圖形文字變得無法識(shí)別。

      這兩項(xiàng)技術(shù)的協(xié)同發(fā)力帶來了立竿見影的實(shí)際收益。FlashI2V 使得輸入?yún)⒖紙D像不會(huì)泄露到視頻的像素層面,有效避免了一張圖復(fù)制成一段視頻的僵硬感,同時(shí)保持了真實(shí)且流暢的運(yùn)動(dòng)軌跡,具備極強(qiáng)的時(shí)間一致性與空間結(jié)構(gòu)穩(wěn)定性。

      從量化指標(biāo)來看,研究團(tuán)隊(duì)觀察了不同 I2V 范式的塊式 FVD (Chunk-wise FVD)變化模式。傳統(tǒng)的范式在域內(nèi)數(shù)據(jù)上的 FVD 會(huì)隨著時(shí)間推移而增加,但在域外數(shù)據(jù)上始終保持較高水平,這意味著它們難以泛化。只有 FlashI2V 能夠保持一致的 FVD 變化模式,成功將從域內(nèi)數(shù)據(jù)中學(xué)到的生成規(guī)律泛化應(yīng)用于域外數(shù)據(jù)。得益于此,該項(xiàng)目不僅取得了最低的域外 FVD ,并在多項(xiàng) I2V 關(guān)鍵指標(biāo)上成功超越了 Wan2.1。

      兩大主要?jiǎng)?chuàng)新

      用 VLM 實(shí)現(xiàn)理解 & 用 I2SV 控制藝術(shù)表達(dá)

      在利用 FlashI2V 解決了物理真實(shí)感之后,UniWorld-OSP2.0 團(tuán)隊(duì)進(jìn)一步在模型的認(rèn)知深度與藝術(shù)審美上實(shí)現(xiàn)了雙重突破。

      其一,引入 VLM 重構(gòu)認(rèn)知理解機(jī)制

      傳統(tǒng)的純文本編碼器(如 T5 )提取的特征往往只能捕獲表層詞匯線索,導(dǎo)致細(xì)粒度指令對(duì)齊面臨瓶頸。

      為此,正如前文所述,團(tuán)隊(duì)引入了一個(gè)凍結(jié)狀態(tài)下的預(yù)訓(xùn)練 VLM (例如 7B 參數(shù)量的 Qwen2.5-VL)作為核心多模態(tài)特征提取器。該模塊會(huì)綜合圖像與文本提示,生成富含復(fù)雜跨模態(tài)關(guān)系的深層多模態(tài)表示。

      隨后,通過一個(gè)專門設(shè)計(jì)的輕量級(jí)可訓(xùn)練 Adapter 模塊,這些高維語(yǔ)義在特征維度上與 DiT 主干網(wǎng)絡(luò)實(shí)現(xiàn)了精準(zhǔn)對(duì)齊。

      這種設(shè)計(jì)讓模型直接繼承了 VLM 強(qiáng)大的視覺基礎(chǔ)知識(shí),大幅提升了對(duì)角色、動(dòng)作等細(xì)粒度信息的控制精度,讓模型真正具備了「看懂」復(fù)雜場(chǎng)景的能力。



      有了 VLM 加持的 UniWorld-OSP2.0 具備優(yōu)秀的視覺理解能力

      其二,推出 I2SV 任務(wù)拓展可控藝術(shù)表達(dá)

      僅僅還原真實(shí)的物理世界依然不夠,視頻生成同樣需要可控的藝術(shù)加工。

      以往的視頻風(fēng)格化多依賴后期疊加濾鏡,缺乏對(duì)畫面內(nèi)容的深度融合。為了打破這一局限,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含 12 種典型藝術(shù)風(fēng)格(如吉卜力、 3D 渲染、水墨畫、樂高風(fēng)等)的專屬數(shù)據(jù)集,并在統(tǒng)一框架下推出了全新的 I2SV(圖像到風(fēng)格化視頻)范式。



      包含的 12 種典型藝術(shù)風(fēng)格

      現(xiàn)在,模型可以在生成期直接接收原始圖像、文本描述以及目標(biāo)風(fēng)格指令,一步輸出時(shí)間連續(xù)且符合語(yǔ)義的風(fēng)格化視頻。配合嚴(yán)格的回環(huán)式質(zhì)量監(jiān)控策略,該機(jī)制可確保角色動(dòng)作與語(yǔ)義細(xì)節(jié)得到完美保留,有效避免了角色變形與動(dòng)作漂移的問題。

      OSP-RealTime 14B

      把視頻大模型帶進(jìn)工業(yè)階段

      過去一年大家默認(rèn)的邏輯很簡(jiǎn)單:模型越大,質(zhì)量越強(qiáng),但速度一定越慢。能實(shí)時(shí)跑的,通常是 1B 級(jí)別的小模型;14B 這種規(guī)模,只能老老實(shí)實(shí)離線生成。

      袁粒課題組又基于 UniWorld-OSP2.0 訓(xùn)練了一個(gè)模型OSP-RealTime 14B(這也是 Helios 系列底層的核心技術(shù)),在單塊昇騰 Atlas A3 系列產(chǎn)品上直接把幀率拉到了 10 FPS(文生視頻),成為第一個(gè)真正接近「交互式視頻生成」的開源級(jí)擴(kuò)散架構(gòu)。

      為此,OSP-RealTime 14B 將長(zhǎng)視頻生成,重新定義為無限的視頻續(xù)寫任務(wù),最大限度保留與預(yù)訓(xùn)練模型一致的推理方式。

      通常,現(xiàn)有方案會(huì)利用滑動(dòng)窗口機(jī)制配合因果掩碼,將雙向模型轉(zhuǎn)換為自回歸模型。這種方式本質(zhì)還是 “拼接式延長(zhǎng)”,推理模式和訓(xùn)練不一致,質(zhì)量上限受限。

      而 OSP-RealTime 14B 通過引入時(shí)間維噪聲 latent 的拼接策略,在時(shí)間軸上對(duì)歷史噪聲狀態(tài)進(jìn)行延續(xù),使擴(kuò)散過程在窗口切換時(shí)保持運(yùn)動(dòng)連續(xù)性。在不改變?cè)杏?xùn)練范式的前提下,實(shí)現(xiàn)時(shí)間上的無限延展,最終實(shí)現(xiàn)更高的質(zhì)量下限。



      上圖展示了實(shí)時(shí)長(zhǎng)視頻生成的實(shí)際架構(gòu):一個(gè)自回歸視頻擴(kuò)散 Transformer,基于 Guidance Attention 模塊構(gòu)建。它通過 Multi-Term Memory Patchification 和 Pyramid Unified Predictor-Corrector,對(duì)歷史信息與當(dāng)前噪聲上下文進(jìn)行壓縮,從而降低計(jì)算開銷;同時(shí)通過 Representation Control 實(shí)現(xiàn)對(duì) T2V(文本生成視頻)、I2V(圖像生成視頻)和 V2V(視頻生成視頻)任務(wù)的統(tǒng)一建模。

      在生成加速上,袁粒團(tuán)隊(duì)做了三個(gè)關(guān)鍵優(yōu)化。

      第一刀砍在時(shí)間維度上,把噪聲 latent 的幀數(shù)從 21 幀降到 9 幀。幀數(shù)減少帶來的不是線性下降,而是平方級(jí)的算力節(jié)省,前向傳播成本瞬間被壓縮。

      第二刀砍在分辨率策略上。先在低分辨率下完成大結(jié)構(gòu)生成,再逐步細(xì)化到高分辨率。早期階段計(jì)算便宜,只有后期才進(jìn)入高成本計(jì)算區(qū)間,把「多尺度思想」引入到推理流程本身。

      最后一刀是采樣層面的壓縮,靠的是 DMD 蒸餾,把擴(kuò)散推理步數(shù)從 50 步壓縮到 4 步。這不是簡(jiǎn)單減少 step,而是把整個(gè)擴(kuò)散軌跡學(xué)習(xí)成一個(gè)近似的快速映射,直接把時(shí)間開銷壓縮了一個(gè)數(shù)量級(jí)。



      OSP-RealTime 14B 的實(shí)時(shí)無限長(zhǎng)視頻生成示例

      為了讓這種系統(tǒng)級(jí)改造在單塊昇騰 Atlas A3 系列產(chǎn)品上真正跑起來,并將幀率推進(jìn)到約 10 FPS ,團(tuán)隊(duì)還做了不少工程上的探索。

      比如,特征緩存方案 (Latents Cache),「以查代算」,預(yù)計(jì)算并存儲(chǔ)耗時(shí)最高的引導(dǎo)詞特征,使多輪迭代訓(xùn)練時(shí)間縮短約 30%,并釋放 20% 的顯存資源 。

      模型全程在昇騰 Atlas A3 系列產(chǎn)品上完成訓(xùn)練與推理,深度融合了 MindSpeed-MM 套件的分布式訓(xùn)練能力(如 TP、SP 并行)、斷點(diǎn)續(xù)訓(xùn)(MindCluster)以及 SmartSwap 等原生特性 。

      總體而言,OSP-RealTime 14B 讓其作為其基石的 UniWorld-OSP2.0 有了更廣泛的開源意義,也有了商用規(guī)模化潛力。

      如果 14B 都可以進(jìn)入實(shí)時(shí)區(qū)間,那視頻生成的邊界就開始松動(dòng)。它不再只是生成幾秒鐘的片段,而是有可能成為持續(xù)運(yùn)行的系統(tǒng)。互動(dòng)視頻、生成式游戲場(chǎng)景、實(shí)時(shí)虛擬世界,這些過去停留在想象層面的應(yīng)用,開始具備算力基礎(chǔ)。

      定義視頻生成的「公共基礎(chǔ)設(shè)施」

      在開源體系里,UniWorld-OSP2.0 率先將 VLM 的多模態(tài)理解、FlashI2V 的物理生成、I2SV 的藝術(shù)表達(dá)以及 14B 模型的實(shí)時(shí)化能力高度整合。這不僅在昇騰算力平臺(tái)上跑通了工業(yè)級(jí)視頻生成閉環(huán),更在深層技術(shù)生態(tài)上,依托昇騰底座定義了視頻生成的「公共基礎(chǔ)設(shè)施」

      袁粒課題組為整個(gè)行業(yè)蹚平了眾多深坑,節(jié)約了巨大的試錯(cuò)成本。在探索統(tǒng)一架構(gòu)的過程中,他們排除了多尺度自回歸帶來的細(xì)節(jié)模糊、簡(jiǎn)單 token 早融合的質(zhì)量瓶頸,以及 LLM 疊加 Flow 的工程局限,最終收斂出當(dāng)前的最優(yōu)解。

      對(duì)于以昇騰為核心的國(guó)產(chǎn)智算生態(tài)而言,該項(xiàng)目提供了一份高價(jià)值的工程落地手冊(cè)。團(tuán)隊(duì)在適配昇騰算力時(shí),解決了底層通信算子的精度誤差與非并行切分層的推理崩潰隱患。結(jié)合「以查代算」的特征緩存機(jī)制,開發(fā)者無需從零訓(xùn)練高耗能的 VAE 或調(diào)試脆弱的 DiT 架構(gòu),直接獲得了極具經(jīng)濟(jì)性的成熟工具鏈。

      面向未來,視頻生成的終局遠(yuǎn)超像素的堆疊變換。UniWorld-OSP2.0 展現(xiàn)出的跨模態(tài)對(duì)齊與物理規(guī)律學(xué)習(xí)能力表明,它正向著真正的「通用視覺世界模型」穩(wěn)步邁進(jìn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      戰(zhàn)事升級(jí),伊朗打法變了,魯比奧承認(rèn)一個(gè)事實(shí),中國(guó)迎來戰(zhàn)略機(jī)遇

      戰(zhàn)事升級(jí),伊朗打法變了,魯比奧承認(rèn)一個(gè)事實(shí),中國(guó)迎來戰(zhàn)略機(jī)遇

      梁訊
      2026-03-05 01:02:18
      52條中日航線2月取消全部航班

      52條中日航線2月取消全部航班

      第一財(cái)經(jīng)資訊
      2026-03-10 15:37:36
      好慘!賽季報(bào)銷后馬上被裁!他基本告別NBA了....

      好慘!賽季報(bào)銷后馬上被裁!他基本告別NBA了....

      柚子說球
      2026-03-10 17:00:49
      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史,鄭曉龍劇組成大贏家

      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史,鄭曉龍劇組成大贏家

      小先生筆記
      2026-03-10 10:01:34
      一語(yǔ)驚醒夢(mèng)中人!歐洲高官直言:搞垮中國(guó),就是給美國(guó)送霸權(quán)!

      一語(yǔ)驚醒夢(mèng)中人!歐洲高官直言:搞垮中國(guó),就是給美國(guó)送霸權(quán)!

      達(dá)文西看世界
      2026-01-24 11:29:41
      看哭一代人!80后本科宿舍8人:3人離世,2人失業(yè),3人工資僅4000

      看哭一代人!80后本科宿舍8人:3人離世,2人失業(yè),3人工資僅4000

      川渝視覺
      2026-03-09 18:10:33
      笑死!特朗普發(fā)文對(duì)伊朗新領(lǐng)袖哈梅內(nèi)伊的兒子說:準(zhǔn)備好見你爹!

      笑死!特朗普發(fā)文對(duì)伊朗新領(lǐng)袖哈梅內(nèi)伊的兒子說:準(zhǔn)備好見你爹!

      老馬拉車莫少裝
      2026-03-09 21:29:33
      巴拿馬遭索賠140億,中方終于騰出手來,港口事件不能就這么算了

      巴拿馬遭索賠140億,中方終于騰出手來,港口事件不能就這么算了

      王裕慶
      2026-03-10 19:02:13
      用親人生命逼她們低頭!伊朗女足的“國(guó)歌表演”,看哭了全世界

      用親人生命逼她們低頭!伊朗女足的“國(guó)歌表演”,看哭了全世界

      戧詞奪理
      2026-03-09 16:42:57
      水滸中,絕不可交的3個(gè)小人,現(xiàn)實(shí)中就有,遇見了最好敬而遠(yuǎn)之

      水滸中,絕不可交的3個(gè)小人,現(xiàn)實(shí)中就有,遇見了最好敬而遠(yuǎn)之

      銘記歷史呀
      2026-03-09 14:20:57
      恐慌蔓延!伊朗數(shù)千巴斯基收匿名死亡威脅,基層鐵拳徹底慌了

      恐慌蔓延!伊朗數(shù)千巴斯基收匿名死亡威脅,基層鐵拳徹底慌了

      老馬拉車莫少裝
      2026-03-09 00:03:46
      汪小菲心系筱梅和寶寶,改變行程回灣灣,筱梅透露楊阿姨缺席原因

      汪小菲心系筱梅和寶寶,改變行程回灣灣,筱梅透露楊阿姨缺席原因

      攬星河的筆記
      2026-03-10 18:12:52
      法巴:伊朗戰(zhàn)事如果升級(jí) 中國(guó)股市在亞洲市場(chǎng)的優(yōu)勢(shì)可能擴(kuò)大

      法巴:伊朗戰(zhàn)事如果升級(jí) 中國(guó)股市在亞洲市場(chǎng)的優(yōu)勢(shì)可能擴(kuò)大

      財(cái)聯(lián)社
      2026-03-10 17:02:07
      當(dāng)哈梅內(nèi)伊遇到“伊朗的魯迅”:我來晚了!

      當(dāng)哈梅內(nèi)伊遇到“伊朗的魯迅”:我來晚了!

      黔有虎
      2026-03-09 18:22:54
      毛骨悚然!網(wǎng)傳西安二婚大專女,找月薪2萬985未婚男,全款車房…

      毛骨悚然!網(wǎng)傳西安二婚大專女,找月薪2萬985未婚男,全款車房…

      火山詩(shī)話
      2026-03-08 06:10:43
      最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會(huì)沒開完就溜了

      最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會(huì)沒開完就溜了

      天天熱點(diǎn)見聞
      2026-03-09 06:51:26
      伊朗確認(rèn)穆杰塔巴受傷;專家會(huì)議都是些什么專家?

      伊朗確認(rèn)穆杰塔巴受傷;專家會(huì)議都是些什么專家?

      寰宇大觀察
      2026-03-09 15:24:05
      地產(chǎn)大佬一個(gè)個(gè)在香港隔岸觀火

      地產(chǎn)大佬一個(gè)個(gè)在香港隔岸觀火

      包郵區(qū)
      2026-03-09 11:37:16
      890億美元,600架飛機(jī),特朗普訪華之前,中國(guó)要送美國(guó)一份大禮?

      890億美元,600架飛機(jī),特朗普訪華之前,中國(guó)要送美國(guó)一份大禮?

      近史博覽
      2026-03-09 15:48:53
      夏朝到底存不存在?上個(gè)世紀(jì),胡適提出了一條簡(jiǎn)單的驗(yàn)證辦法

      夏朝到底存不存在?上個(gè)世紀(jì),胡適提出了一條簡(jiǎn)單的驗(yàn)證辦法

      銘記歷史呀
      2026-03-10 15:21:12
      2026-03-10 20:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142580關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

      頭條要聞

      專家:打擊伊朗遭3大反噬 特朗普政府或真有點(diǎn)"撐不住"

      頭條要聞

      專家:打擊伊朗遭3大反噬 特朗普政府或真有點(diǎn)"撐不住"

      體育要聞

      加蘭沒那么差,但鱸魚會(huì)用嗎?

      娛樂要聞

      肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      游戲
      旅游
      藝術(shù)
      時(shí)尚
      家居

      外媒盤點(diǎn):PSPlus會(huì)員庫(kù)十大精選游戲 你玩過幾個(gè)?

      旅游要聞

      涵蓋120余種賞花植物,濟(jì)南9大公園景區(qū)賞花打卡指南來了

      藝術(shù)要聞

      30000畝杏花開了,新疆的春天這么美!

      今年春夏的褲子,彩色的更好看!

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      無障礙瀏覽 進(jìn)入關(guān)懷版