![]()
機器之心報道
編輯:楊文
自 Sora 2 發(fā)布以來,各大科技廠商迎來新一輪視頻生成模型「軍備競賽」,紛紛趕在年底前推出更強的迭代版本。
谷歌推出 Veo 3.1,通過首尾幀控制和多圖參考解決了以往視頻生成「抽卡」隨機性太強的問題;Runway 拿出 Gen-4.5,強化了物理模擬和表情動作遷移;快手祭出 Kling 2.6,實現(xiàn)了原生音畫同步……
各家都在炫技,但一個更本質(zhì)的問題卻常被忽略:這些模型距離真正的生產(chǎn)力工具,究竟還有多遠(yuǎn)?
12 月 15 日,商湯科技產(chǎn)品發(fā)布周正式開啟,第一天就重磅上線了全新的Seko 2.0 版本,讓 AI 短劇創(chuàng)作真正實現(xiàn)「一人劇組」。
![]()
比如只需輸入一句簡單的提示詞,它立馬就能策劃劇本大綱,生成分鏡和視頻,整個過程相當(dāng)麻溜。
![]()
視頻來自 Seko 官網(wǎng),創(chuàng)作者:小銘AI百寶箱
無論是 1 分半鐘的 3D 藝術(shù)風(fēng)格的動畫短片:
![]()
視頻來自 Seko 官網(wǎng),創(chuàng)作者:噪維 AIGC
還是唇形同步精準(zhǔn)的數(shù)字人音樂 MV,Seko 2.0 也都能在最短時間內(nèi)信手拈來。
![]()
視頻來自 Seko 官網(wǎng),創(chuàng)作者:AI制片人Webb
作為行業(yè)首個創(chuàng)編一體、多劇集生成智能體,Seko 已經(jīng)服務(wù)上百家短劇工作室,大量 AI 短劇成功上線。
![]()
用商湯 Seko 創(chuàng)作的《婉心計》登頂抖音 AI 短劇榜第一
而此次 2.0 版本的升級,背后是商湯在視頻生成底層技術(shù)上的深度突破。從開源推理框架 LightX2V 到產(chǎn)品化落地,再到國產(chǎn)芯片的全面適配,商湯正在構(gòu)建一條完整的 AI 視頻生產(chǎn)鏈路。
視頻生成的「不可能三角」
盡管賽道火熱,但當(dāng) AI 視頻生成模型步入短劇制作等實戰(zhàn)場景時,往往會撞上由效率、成本、質(zhì)量構(gòu)成的「不可能三角」。
目前即便如 Sora 2 級別的產(chǎn)品,生成 10 秒視頻往往需要數(shù)分鐘乃至十分鐘。這種漫長的等待時間,讓創(chuàng)作者難以進行快速迭代和實時反饋,嚴(yán)重制約了創(chuàng)作效率,更無法支撐工業(yè)化生產(chǎn)。
有數(shù)據(jù)表明,開源模型生成一段 5s 視頻通常超過十分鐘,商用閉源模型生成 5s 的視頻通常也需 1 至 10 分鐘不等。這意味著生成與實時播放之間存在著很長的時間差距,距離真正的「強實時生成」,即生成 5 秒視頻所需時間小于 5 秒,還有遙遠(yuǎn)的距離。
實時性問題的背后,是更為本質(zhì)的計算成本困境。如果要投入如此高昂的算力成本,任何試圖用 AI 大規(guī)模生產(chǎn)視頻內(nèi)容的商業(yè)計劃,都會在財務(wù)模型上遭遇滑鐵盧。
對于 AI 短劇和漫劇創(chuàng)作而言,這個問題更加尖銳。短劇制作的本質(zhì)是多劇集、多場景、多分鏡的復(fù)雜工程,這直接導(dǎo)致了計算量的指數(shù)級增長。一個僅 5 秒的視頻片段就需要生成接近 10 萬 token,而在實際創(chuàng)作流程中,一鍵生成通常會產(chǎn)生 10 到 20 個分鏡,這意味著單次操作的 token 消耗量就達(dá)到 100 萬到 200 萬級別。
按照傳統(tǒng)視頻生成模型的成本結(jié)構(gòu),制作一集 10 分鐘的 AI 短劇,所需的計算資源和時間成本將達(dá)到令人咋舌的地步。沒有哪家內(nèi)容制作公司能夠承受每生成一分鐘內(nèi)容就要支付數(shù)小時高端 GPU 算力的成本。在這種場景下,效率與成本直接決定了項目的生死。
當(dāng)行業(yè)試圖通過降低推理步數(shù)、壓縮模型參數(shù)等方式提升速度、降低成本時,又往往會遭遇生成質(zhì)量下降的挑戰(zhàn)。視頻的一致性、動態(tài)性、畫面清晰度都可能在優(yōu)化過程中受損,而對于商業(yè)應(yīng)用而言,質(zhì)量是不可妥協(xié)的底線。
如此看來,現(xiàn)有的視頻生成技術(shù)架構(gòu)似乎陷入了一個「不可能三角」,要么犧牲質(zhì)量換取速度,要么保證質(zhì)量但付出巨大的時間和算力代價,要么在兩者之間艱難平衡卻難以真正滿足商業(yè)應(yīng)用需求。這個困局讓無數(shù)技術(shù)團隊在實驗室里的驚艷演示,最終折戟于真實商業(yè)場景的嚴(yán)苛考驗。
打破這個困局,需要的不僅僅是單點技術(shù)的突破,更需要從算法、架構(gòu)到系統(tǒng)工程的全方位創(chuàng)新。
商湯悄悄開源的 AI 視頻生成框架
速度快 10 倍
今年上半年,一個名為 LightX2V 的開源項目及其推出的圖像和視頻生成 4 步蒸餾模型,在 ComfyUI 社區(qū)走紅,還在 Reddit 上引發(fā)熱烈討論。截至目前,該項目上傳的模型累計下載量已突破 350 萬次
這個備受矚目的項目背后的研發(fā)團隊一度頗為神秘,如今答案揭曉,LightX2V 是由商湯科技與北航聯(lián)合研發(fā)的成果,也是業(yè)界首個開源的實時視頻生成推理框架
LightX2V 的核心價值在于真正做到了實時視頻生成。
它通過一系列創(chuàng)新技術(shù)的組合應(yīng)用,在消費級顯卡上實現(xiàn)了強實時生成,生成 5 秒視頻所需時間小于 5 秒,速度達(dá)到現(xiàn)在行業(yè)主流的數(shù)倍甚至十倍以上。
算法創(chuàng)新:實時生成的基礎(chǔ)
LightX2V 的性能突破首先源于其深層的算法創(chuàng)新。
商湯原創(chuàng)設(shè)計的 Phased DMD 步數(shù)蒸餾技術(shù),讓視頻生成在 4 步推理下就能實現(xiàn)高質(zhì)量的一致性和動態(tài)性。這套技術(shù)產(chǎn)出的 Wan2.1、Qwen-Image 等多步模型,登上 HuggingFace 趨勢榜前 10,累計下載量超過 358 萬次。
傳統(tǒng)的分布匹配蒸餾(DMD)方法雖然可以將分?jǐn)?shù)匹配生成模型壓縮成高效的多步生成器,但在直接擴展到多步蒸餾時,會面臨生成多樣性顯著降低、訓(xùn)練不穩(wěn)定以及難以有效處理復(fù)雜分布的局限性。
為了解決這些難題,研究者提出了 Phased DMD。這是一個結(jié)合了階段式蒸餾和專家混合思想的多步蒸餾框架,旨在降低學(xué)習(xí)難度并增強模型能力。
![]()
圖 1:(a) 多步 DMD、(b) 采用隨機梯度截斷策略的多步 DMD、(c) Phased DMD 和 (d) 采用 SGTS 的 Phased DMD 的示意圖。
Phased DMD 建立在兩個核心理念之上:
- 漸進式分布匹配:該方法將信噪比(SNR)范圍劃分成多個子區(qū)間,通過這種劃分,模型可以漸進式地將自身精度優(yōu)化到更高的 SNR 級別,從而更好地捕獲復(fù)雜分布,并提高訓(xùn)練的穩(wěn)定性和生成性能。在去噪過程中,低 SNR 階段聚焦于全局結(jié)構(gòu),而高 SNR 階段則關(guān)注精細(xì)細(xì)節(jié)。
- 子區(qū)間內(nèi)分?jǐn)?shù)匹配:由于要對齊子區(qū)間的分布,研究者通過嚴(yán)格的推導(dǎo),得到一個具有理論保證的訓(xùn)練目標(biāo)。這個目標(biāo)能夠正確估計子區(qū)間內(nèi)的分?jǐn)?shù),確保階段式訓(xùn)練的理論正確性。
Phased DMD 的結(jié)構(gòu)設(shè)計是一個天然的 Mixture-of-Experts 架構(gòu),允許模型中的不同專家專門學(xué)習(xí)處理不同的 SNR 階段,而不會引入額外的推理成本。Phased DMD 不僅原生支持 MoE 模型,而且對于非 MoE 的教師模型,該技術(shù)也可以將之蒸餾為 MoE 學(xué)生模型。
實驗結(jié)果表明,Phased DMD 相較于傳統(tǒng) DMD 方法,能更好地保持基模型的動態(tài)效果和多樣性。Phased DMD 通過蒸餾 Qwen-Image (20B 參數(shù)) 和 Wan2.2 (28B 參數(shù)) 等先進的模型得到了充分驗證,開源的部分模型也受到開源社區(qū)的討論和好評。
![]()
來自 Wan2.1-T2V-14B 基礎(chǔ)模型(40 步、CFG=4)及其蒸餾變體(4 步、CFG=1)的樣本(隨機種子 0–3):(a) 基礎(chǔ)模型,(b) DMD,(c) 帶 SGTS 的 DMD,(d) Phased DMD。與基礎(chǔ)模型和 Phased DMD 相比,DMD 與 SGTS 展現(xiàn)出更弱的運動動態(tài)。類似地,帶 SGTS 的 DMD 傾向于生成特寫視角,而 Phased DMD 和基礎(chǔ)模型更好地遵循提示中的相機指令。
![]()
通過 Phased DMD 蒸餾生成的 Qwen-Image 示例。
在高效視頻生成領(lǐng)域,自編碼器(VAE)模型是不可或缺的關(guān)鍵組件。它負(fù)責(zé)將像素空間壓縮到更小的潛在空間,以實現(xiàn)更快處理。然而,傳統(tǒng)的官方 VAE 模型往往內(nèi)存占用大、推理速度慢,嚴(yán)重制約了視頻生成效率。
針對這一行業(yè)痛點,LightX2V 團隊發(fā)布了LightVAE、LightTAE 系列高效視頻自編碼器模型集合,旨在通過深度優(yōu)化和蒸餾技術(shù),在最大限度保持高清畫質(zhì)的同時,實現(xiàn)高達(dá) 10 倍以上的性能提升,為實時生成奠定了堅實的算法基礎(chǔ)。
LightVAE 系列被定位為「最佳平衡解決方案」,通過對官方 VAE 架構(gòu)進行剪枝和蒸餾,例如對 Wan2.1 VAE 剪枝 75%,成功將顯存占用減少了約 50%(降至約 4-5 GB),同時將推理速度提升了 2 到 3 倍。LightVAE 保持了接近官方模型的優(yōu)異質(zhì)量,使其成為日常生產(chǎn)和高性能需求的理想選擇。
對于追求極致速度和最小內(nèi)存占用的場景,團隊則推出了 LightTAE 系列,采用更輕量級的 2D 卷積架構(gòu),將顯存占用降至極低的約 0.4 GB,并實現(xiàn)了極快的推理速度。盡管其基礎(chǔ)架構(gòu)與開源的 TAE 相似,但 LightTAE 經(jīng)過團隊的蒸餾優(yōu)化,其生成質(zhì)量顯著超越了普通的開源 TAE,達(dá)到了接近官方 VAE 的水平,非常適合開發(fā)測試和快速迭代等對效率有高要求的場景。
實際測試結(jié)果表明,LightX2V 的優(yōu)化效果是顯著的。例如,在處理一段 5 秒 81 幀的視頻時,官方 Wan2.1 VAE 的解碼時間約為 5.46 秒,顯存需求超過 10 GB。相比之下,LightVAE 將解碼時間縮短到約 2.07 秒,顯存降至 5.57 GB 左右。而 LightTAE 則表現(xiàn)出驚人的速度,解碼時間僅需約 0.25 秒,且顯存幾乎可以忽略不計。
![]()
工程創(chuàng)新:全棧優(yōu)化實現(xiàn)「強實時」
真正讓實時生成視頻變?yōu)榭赡艿模?LightX2V 在工程層面的全棧優(yōu)化。
LightX2V 構(gòu)建了一個面向低成本、強實時的視頻生成推理完整方案,覆蓋了模型、調(diào)度、計算、存儲和通信五個維度,通過低比特量化、稀疏注意力、特征緩存、高效 Offloading 和多卡通信優(yōu)化等技術(shù),形成了清晰且高效的五層體系結(jié)構(gòu)。
![]()
在框架的最底層是算子實現(xiàn)層,它是所有性能優(yōu)化的根基,集成了多種高度定制和優(yōu)化的低級計算操作,特別是針對計算密集型的注意力機制。通過引入 Flash Attention V3、Sage Attention V1/V2/V3、Radial Attention 和 Ring Attention 等創(chuàng)新算子,LightX2V 為上層提供了強大的計算加速能力,從硬件層面保證了推理的高效運行。
![]()
緊接著是內(nèi)核庫層,它負(fù)責(zé)封裝底層算子的復(fù)雜性,并為上層模型提供穩(wěn)定、高性能的調(diào)用接口和運行時環(huán)境。
再向上,框架的核心執(zhí)行環(huán)境位于模型模塊層。該層以并行推理為核心機制,最大化了計算資源的利用。它包含一個負(fù)責(zé)任務(wù)順序和時間步管理的調(diào)度器,以及一個支持主流視頻生成模型如 Hunyuan、Cogvideo 和 Wan 系列的模型組件,還集成了 Offload(用于顯存卸載管理)和 Weight(權(quán)重管理)等模塊,確保了在有限硬件資源下依然能夠高效運行大型模型。
在模型模塊之上,是 LightX2V 的優(yōu)化算法層,這一層匯聚了框架的關(guān)鍵加速策略。它通過量化技術(shù)來壓縮模型體積并加速計算;利用特征緩存來避免中間結(jié)果的重復(fù)計算;并結(jié)合底層的優(yōu)化算子實現(xiàn)高效注意力機制,共同將模型的推理效率推向極致。
最后,位于頂層的是用戶入口層,它體現(xiàn)了 LightX2V 的易用性。為適應(yīng)不同場景,框架提供了多樣化的接入方式,包括集成到流行的節(jié)點式工具 ComfyUI Workflow 中、通過 Gradio Web 快速部署在線演示服務(wù)、支持本地服務(wù)器部署,以及提供用于穩(wěn)定生產(chǎn)環(huán)境的靜態(tài)推理接口。
這種全棧優(yōu)化帶來的直接效果就是顯存門檻降至 8GB 以下,入門級消費卡即可流暢運行;在 RTX 5090 等消費級顯卡上,已經(jīng)實現(xiàn)了 1:1 的實時生成效果
![]()
從技術(shù)架構(gòu)來看,不是簡單優(yōu)化某個環(huán)節(jié),而是構(gòu)建了一套面向低成本、強實時的視頻生成推理完整方案,這也是為什么它能在開源社區(qū)獲得如此廣泛關(guān)注的原因。它不僅是一個模型,更是一個可落地、可復(fù)用的技術(shù)框架。
國產(chǎn)化芯片適配
商業(yè)化的最后一塊拼圖
技術(shù)突破之外,商湯在 Seko 2.0 中還實現(xiàn)了另一個關(guān)鍵布局 —— 全面適配國產(chǎn)化芯片。
借助 LightX2V 框架,Seko 已成功支持多款國產(chǎn) AI 芯片,真正實現(xiàn)了視頻生成模型的全國產(chǎn)化部署能力。
從實際效果來看,在國產(chǎn)芯片與英偉達(dá)芯片上生成的視頻,質(zhì)量差距并不明顯。雖然國產(chǎn)芯片的生成速度略慢,但其性價比優(yōu)勢突出。未來商湯計劃給創(chuàng)作者提供國產(chǎn)化和非國產(chǎn)化兩套方案,使用國產(chǎn)化方案的用戶將獲得更優(yōu)惠的價格政策。
![]()
英偉達(dá)芯片(左)和國產(chǎn)芯片(右)生成視頻對比
這不僅僅是成本優(yōu)化的技術(shù)選擇,更是對國產(chǎn) AI 生態(tài)的戰(zhàn)略性支持。在視頻生成這一 AI 應(yīng)用的關(guān)鍵場景中,打通從算法框架到硬件芯片的全鏈路國產(chǎn)化能力,意味著中國 AI 產(chǎn)業(yè)在核心技術(shù)上邁出了實質(zhì)性的一步。
當(dāng)視頻生成真正做到實時、低成本、可規(guī)模化,AI 短劇乃至更廣泛的視頻內(nèi)容創(chuàng)作,或許將迎來真正的生產(chǎn)力革命。而這場革命的起點,正是像 LightX2V 這樣從底層技術(shù)開始的系統(tǒng)性創(chuàng)新。
文中視頻鏈接:https://mp.weixin.qq.com/s/JkH_x_aajxyzG8_EzLQ8Tw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.