網易首頁 > 網易號 > 正文申請入駐

從分鐘級等待到20倍超速：LightX2V重寫AI視頻生成速度上限

2025-12-08 14:11:58　來源: 機器之心Pro

北京舉報

分享至

今年以來，開源項目LightX2V 及其 4 步視頻生成蒸餾模型在 ComfyUI 社區迅速走紅，單月下載量超過 170 萬次。越來越多創作者用它在消費級顯卡上完成高質量視頻生成，把“等幾分鐘出一段視頻”變成“邊看邊出片”。

LightX2V 背后并不是單一模型的優化，而是一整套面向低成本、強實時視頻生成的推理技術棧：從步數蒸餾與輕量VAE，到低比特算子、稀疏算子、多卡并行與分級Offloading，目標只有一個——在主流硬件上，把視頻生成推到 1:1 實時。

GitHub：https://github.com/ModelTC/LightX2V
Hugging Face：https://huggingface.co/lightx2v
項目主頁：https://light-ai.top

1:1 實時，遠超現有框架

在很多視頻生成框架中，生成 5–10 秒視頻依然需要幾分鐘時間。LightX2V 在相同分辨率和硬件條件下，通過極少步數的推理和系統級優化，將生成時間壓縮到與視頻時長接近的水平 (如上圖端到端耗時所示)，實現接近 1:1 的實時體驗。

在同類開源方案中，LightX2V 相比 SGLang Diffusion, FastVideo 等優秀的開源框架在延遲和吞吐上都具有明顯優勢（如下圖單步耗時對比所示），尤其是在 8GB–24GB 消費級顯卡區間，更容易跑滿硬件能力。

雙核心算法：Phased DMD 步數蒸餾 + LightVAE

LightX2V 的速度并不是簡單 “少采樣幾步” 得到的，而是通過兩項關鍵算法協同設計：

Phased DMD 步數蒸餾

LightX2V 自研的 Phased DMD 步數蒸餾，把原本 40–50 步的視頻擴散過程壓縮到 4 步，同時保持時間一致性和運動細節。基于這一技術產出的少步模型（如 Wan2.1 / Qwen-Image 等）已經在 Hugging Face 趨勢榜中長期靠前，累積下載量達到百萬級。

LightVAE 輕量級 VAE

針對視頻生成場景對吞吐和分辨率的雙重需求，LightX2V 設計了極致輕量的 LightVAE。與常規 VAE 相比，在保持高清畫質和時間一致性的前提下，有效降低了編解碼開銷，為 4 步推理釋放出更多預算。

這兩部分相當于在 “算法上先把路打通”，再讓后續工程優化盡可能榨干硬件性能。

全棧性能工程：從 8GB 顯存到多卡強實時

在算法壓縮完成后，LightX2V 通過一套全棧推理框架，把 “能跑” 變成 “跑得快、跑得省”：

顯存門檻：通過步數蒸餾、低比特量化和分級 Offloading，將完整視頻生成工作流的顯存需求壓到 8GB 以下，入門級消費卡即可運行。
吞吐與延遲：綜合使用低比特算子、稀疏注意力與特征緩存，在常見 5 秒視頻場景下達到接近 1:1 的實時生成速度。

關鍵技術模塊包括：

低比特算子（MXFP8 / MXFP6 / NVFP4）：在不明顯損傷畫質的前提下壓縮計算與帶寬，釋放硬件算力。
稀疏注意力算子：利用視頻時空特征的稀疏性，減少冗余計算，提升大分辨率下的吞吐。
特征緩存：對中間特征進行緩存與復用，降低重復計算，進一步縮短延遲。
三層延遲隱藏 Offloading：通過精細化的顯存–內存調度，在 8GB 顯存上完成 28B 級別 MoE 模型推理，兼顧成本與能力。
FP8 通信多卡并行：結合 FP8 通信和流水線 / 序列并行，在多卡環境下進一步提升吞吐，面向 5090 等消費級新卡實現更高幀率的強實時目標。

這些技術疊加，使 LightX2V 不僅在單機單卡上易于部署，也可以順暢擴展到多卡集群。

模型與硬件生態：從 Wan 到國產芯片

為了方便創作者直接受益于上述優化，LightX2V 面向主流模型和硬件做了系統支持：

模型生態：當前已支持 Wan2.1 / Wan2.2、CogVideo1.5、HunyuanVideo1.5 等主流視頻生成模型，以及 Matrix Game、MagicDrive 等世界模型，并在這些模型上提供 4 步或少步數配置與加速方案。
應用生態：LightX2V 深度集成 ComfyUI，LightVAE 等核心組件已進入社區主干工作流，用戶可以在熟悉的圖形界面中直接調用加速推理。
硬件生態：除 NVIDIA 3060 / 4090 / 5090 及 A100 / A800 / H100 / H800 / H200 等顯卡外，LightX2V 還原生支持寒武紀 MLU590、沐曦 C500 等國產 AI 芯片，為本地化、大規模部署提供了基礎。

使用與落地：從個人創作到企業集群

在實際使用上，LightX2V 覆蓋了從個人到企業的不同需求：

個人開發者：只需要一臺帶獨顯的筆記本或臺式機，就可以本地啟動帶前端界面的視頻生成工具，在 ComfyUI 中完成素材調試、風格迭代和項目輸出。
企業用戶：通過 LightX2V 的服務化部署方案，可以一鍵搭建面向外部的 API 服務和 Web 應用，并按需擴展到多機多卡集群，支持批量視頻生產和內部工具集成。
普通用戶：可直接訪問網頁版入口 x2v.light-ai.top，在瀏覽器中體驗少步視頻生成和實時預覽。

從圖像轉視頻、文本轉視頻，到世界模型和自動駕駛仿真，LightX2V 試圖用開源的方式，把 “高質量、低成本、強實時” 的視頻生成能力交到更多人手里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.