![]()
今年以來,開源項目LightX2V 及其 4 步視頻生成蒸餾模型在 ComfyUI 社區迅速走紅,單月下載量超過 170 萬次。越來越多創作者用它在消費級顯卡上完成高質量視頻生成,把“等幾分鐘出一段視頻”變成“邊看邊出片”。
LightX2V 背后并不是單一模型的優化,而是一整套面向低成本、強實時視頻生成的推理技術棧:從步數蒸餾與輕量VAE,到低比特算子、稀疏算子、多卡并行與分級Offloading,目標只有一個——在主流硬件上,把視頻生成推到 1:1 實時。
![]()
- GitHub:https://github.com/ModelTC/LightX2V
- Hugging Face:https://huggingface.co/lightx2v
- 項目主頁:https://light-ai.top
1:1 實時,遠超現有框架
![]()
在很多視頻生成框架中,生成 5–10 秒視頻依然需要幾分鐘時間。LightX2V 在相同分辨率和硬件條件下,通過極少步數的推理和系統級優化,將生成時間壓縮到與視頻時長接近的水平 (如上圖端到端耗時所示),實現接近 1:1 的實時體驗。
在同類開源方案中,LightX2V 相比 SGLang Diffusion, FastVideo 等優秀的開源框架在延遲和吞吐上都具有明顯優勢 (如下圖單步耗時對比所示),尤其是在 8GB–24GB 消費級顯卡區間,更容易跑滿硬件能力。
![]()
![]()
雙核心算法:Phased DMD 步數蒸餾 + LightVAE
LightX2V 的速度并不是簡單 “少采樣幾步” 得到的,而是通過兩項關鍵算法協同設計:
Phased DMD 步數蒸餾
LightX2V 自研的 Phased DMD 步數蒸餾,把原本 40–50 步的視頻擴散過程壓縮到 4 步,同時保持時間一致性和運動細節。基于這一技術產出的少步模型(如 Wan2.1 / Qwen-Image 等)已經在 Hugging Face 趨勢榜中長期靠前,累積下載量達到百萬級。
LightVAE 輕量級 VAE
針對視頻生成場景對吞吐和分辨率的雙重需求,LightX2V 設計了極致輕量的 LightVAE。與常規 VAE 相比,在保持高清畫質和時間一致性的前提下,有效降低了編解碼開銷,為 4 步推理釋放出更多預算。
這兩部分相當于在 “算法上先把路打通”,再讓后續工程優化盡可能榨干硬件性能。
全棧性能工程:從 8GB 顯存到多卡強實時
在算法壓縮完成后,LightX2V 通過一套全棧推理框架,把 “能跑” 變成 “跑得快、跑得省”:
- 顯存門檻:通過步數蒸餾、低比特量化和分級 Offloading,將完整視頻生成工作流的顯存需求壓到 8GB 以下,入門級消費卡即可運行。
- 吞吐與延遲:綜合使用低比特算子、稀疏注意力與特征緩存,在常見 5 秒視頻場景下達到接近 1:1 的實時生成速度。
關鍵技術模塊包括:
- 低比特算子(MXFP8 / MXFP6 / NVFP4):在不明顯損傷畫質的前提下壓縮計算與帶寬,釋放硬件算力。
- 稀疏注意力算子:利用視頻時空特征的稀疏性,減少冗余計算,提升大分辨率下的吞吐。
- 特征緩存:對中間特征進行緩存與復用,降低重復計算,進一步縮短延遲。
- 三層延遲隱藏 Offloading:通過精細化的顯存–內存調度,在 8GB 顯存上完成 28B 級別 MoE 模型推理,兼顧成本與能力。
- FP8 通信多卡并行:結合 FP8 通信和流水線 / 序列并行,在多卡環境下進一步提升吞吐,面向 5090 等消費級新卡實現更高幀率的強實時目標。
這些技術疊加,使 LightX2V 不僅在單機單卡上易于部署,也可以順暢擴展到多卡集群。
模型與硬件生態:從 Wan 到國產芯片
為了方便創作者直接受益于上述優化,LightX2V 面向主流模型和硬件做了系統支持:
- 模型生態:當前已支持 Wan2.1 / Wan2.2、CogVideo1.5、HunyuanVideo1.5 等主流視頻生成模型,以及 Matrix Game、MagicDrive 等世界模型,并在這些模型上提供 4 步或少步數配置與加速方案。
- 應用生態:LightX2V 深度集成 ComfyUI,LightVAE 等核心組件已進入社區主干工作流,用戶可以在熟悉的圖形界面中直接調用加速推理。
- 硬件生態:除 NVIDIA 3060 / 4090 / 5090 及 A100 / A800 / H100 / H800 / H200 等顯卡外,LightX2V 還原生支持寒武紀 MLU590、沐曦 C500 等國產 AI 芯片,為本地化、大規模部署提供了基礎。
使用與落地:從個人創作到企業集群
在實際使用上,LightX2V 覆蓋了從個人到企業的不同需求:
- 個人開發者:只需要一臺帶獨顯的筆記本或臺式機,就可以本地啟動帶前端界面的視頻生成工具,在 ComfyUI 中完成素材調試、風格迭代和項目輸出。
- 企業用戶:通過 LightX2V 的服務化部署方案,可以一鍵搭建面向外部的 API 服務和 Web 應用,并按需擴展到多機多卡集群,支持批量視頻生產和內部工具集成。
- 普通用戶:可直接訪問網頁版入口 x2v.light-ai.top,在瀏覽器中體驗少步視頻生成和實時預覽。
從圖像轉視頻、文本轉視頻,到世界模型和自動駕駛仿真,LightX2V 試圖用開源的方式,把 “高質量、低成本、強實時” 的視頻生成能力交到更多人手里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.