![]()
作者和團(tuán)隊(duì)介紹:本文一作是高煥霖和陳平,通訊作者為趙放和廉士國,其他作者還包括石芙源、譚超、劉兆祥、王愷,所有作者均來自聯(lián)通數(shù)據(jù)智能有限公司(聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院)元景大模型研發(fā)團(tuán)隊(duì)。
當(dāng)前,視頻生成模型性能正在快速提升,尤其是基于Transformer架構(gòu)的DiT模型,在視頻生成領(lǐng)域的表現(xiàn)已經(jīng)逐漸接近真實(shí)拍攝效果。然而,這些擴(kuò)散模型也面臨一個共同的瓶頸:推理時間長、算力成本高、生成速度難以提升。隨著視頻生成長度持續(xù)增加、分辨率不斷提高,這個瓶頸正在成為影響視頻創(chuàng)作體驗(yàn)的主要障礙之一。
來自中國聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院的研究團(tuán)隊(duì)提出了一個全新的思路 :LeMiCa(Lexicographic Minimax Path Caching)——一種無需訓(xùn)練、全局最優(yōu)建模的緩存加速框架,能在保持畫質(zhì)與一致性的同時,實(shí)現(xiàn)高效的推理加速。LeMiCa解決的是一個長期被“局部貪心決策”束縛的老問題:擴(kuò)散模型是否存在一種真正“全局一致、誤差可控、速度極快”的緩存加速路徑?研究答案是:有。并且比想象中簡單得多。
這項(xiàng)研究已經(jīng)成功入選 NeurIPS 2025 Spotlight。
![]()
論文標(biāo)題:
LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
論文鏈接:
https://arxiv.org/abs/2511.00090
項(xiàng)目主頁:
https://unicomai.github.io/LeMiCa
代碼地址:
https://github.com/UnicomAI/LeMiCa
核心亮點(diǎn):
LeMiCa 如何做到“又快又穩(wěn)”?
當(dāng)前主流的緩存加速方法(如TeaCache)采用了“局部貪心”策略:如果相鄰時間步之間的變化很小,就選擇復(fù)用緩存。然而,這種“走一步看一步”的策略忽視了擴(kuò)散模型的重要特性——早期步驟對生成結(jié)果有較高的敏感性,微小的誤差可能在后期被不斷放大,影響最終畫質(zhì)。同時,許多現(xiàn)有方法需要引入在線判別機(jī)制,這會引入額外的計(jì)算負(fù)擔(dān),使得生成過程依然緩慢。
LeMiCa的核心思想是:
“緩存加速并不是局部決策問題,而是一個全局路徑優(yōu)化問題。”
研究團(tuán)隊(duì)發(fā)現(xiàn),擴(kuò)散模型的生成過程其實(shí)可以抽象成一個帶權(quán)有向無環(huán)圖(DAG) 。每個節(jié)點(diǎn)代表一個時間步,每條邊代表在兩個時間步之間“跳過計(jì)算、復(fù)用緩存”的行為,邊的權(quán)重則對應(yīng)緩存導(dǎo)致的全局誤差。這樣,緩存策略可以很自然的轉(zhuǎn)化為在DAG中搜索最優(yōu)路徑的問題。
![]()
LeMiCa技術(shù)實(shí)現(xiàn):從誤差建模到圖優(yōu)化
為了準(zhǔn)確評估緩存的影響,LeMiCa提出了一種全新的誤差度量方法,通過離線構(gòu)建靜態(tài)DAG來量化緩存對最終生成視頻結(jié)果的影響。DAG的構(gòu)成部分主要有:1)節(jié)點(diǎn):每個時間步;2)邊:可能的緩存區(qū)間;3)邊權(quán)重:緩存-復(fù)用引發(fā)的全局重建誤差。具體來說,對于DAG中節(jié)點(diǎn)i到j(luò)的邊權(quán)被定義為:
![]()
在圖構(gòu)建過程中,我們會對每個時間步進(jìn)行節(jié)點(diǎn)抽象。DAG中的每一條邊代表在時間步i到j(luò)之間跳過若干步計(jì)算、直接復(fù)用緩存的行為。為避免圖過于龐大,LeMiCa依據(jù)“距離越長,緩存誤差越大”的先驗(yàn)知識,設(shè)置了最大跳躍長度,從而只保留合理的緩存段以減少搜索復(fù)雜度。最終,為了保證魯棒性和泛化性,LeMiCa僅使用少量樣本(prompt和seed)離線生成多個DAG并進(jìn)行融合,最終得到一個靜態(tài)的、跨任務(wù)可復(fù)用的全局誤差圖。
字典序極小化路徑優(yōu)化(Lexicographic Minimax Path):在構(gòu)建好靜態(tài)誤差圖之后,LeMiCa 將緩存調(diào)度問題形式化為:在固定預(yù)算 B 下,從起點(diǎn)到終點(diǎn)尋找一條最優(yōu)路徑。由于傳統(tǒng)的“最短路徑”或“局部最優(yōu)”算法不具備線性可加性,導(dǎo)致最短路徑算法不再適用,LeMiCa采用了字典序極小化準(zhǔn)則來進(jìn)行路徑搜索。這種優(yōu)化方式不追求誤差總和最小,而是逐層比較路徑中各段緩存的誤差值,確保:
- 最大誤差被最小化(避免單段災(zāi)難性退化)
- 誤差分布更均衡(提升全局一致性)
形式化定義如下:
![]()
通過字典序比較,LeMiCa避免了“看似整體誤差低但中間崩壞”的路徑:
若路徑A的最大誤差 < 路徑B的最大誤差 → A 更優(yōu)
若最大誤差相同 → 比較第二大依次類推
實(shí)驗(yàn)結(jié)果:加速與畫質(zhì)兼得
聯(lián)通元景大模型研究團(tuán)隊(duì)在多個主流視頻生成模型中驗(yàn)證了LeMiCa的性能。從結(jié)果中可以看到該方法在保留加速前后的視覺一致性具有顯著優(yōu)勢,這也正是全局路徑視角下的圖優(yōu)化所帶來的增益。
![]()
從視覺效果上看,LeMiCa生成的視頻在結(jié)構(gòu)風(fēng)格保持、內(nèi)容一致性方面都顯著提升。
![]()
即使在高倍加速推理下,也幾乎看不出明顯退化。
![]()
從結(jié)果中可以看出,LeMiCa對比其他主流方法,存在以下明顯優(yōu)勢:
- 極佳的生成效果:結(jié)構(gòu)、紋理和內(nèi)容一致性全面提升;
- 優(yōu)秀的加速性能:提供2.4×以上的高倍加速推理;
消融實(shí)驗(yàn):
少樣本建圖,高魯棒性,場景擴(kuò)展能力
極少樣本建立DAG:LeMiCa僅憑少量樣本即可構(gòu)建高質(zhì)量緩存路徑,單樣本已具強(qiáng)性能,20個樣本即達(dá)到性能飽和,體現(xiàn)了靜態(tài)緩存策略的高效與穩(wěn)健。
![]()
加速路徑的魯棒性:即使改變采樣調(diào)度中的軌跡縮放參數(shù)得到不同的去噪軌跡,LeMiCa仍有較好的效果,體現(xiàn)了良好的路徑魯棒性。
![]()
文生圖模型兼容:由于LeMiCa本質(zhì)上是一個用于擴(kuò)散模型緩存加速的框架,因此其也適用于文生圖模型。我們拿最新的QWen-Image模型進(jìn)行了實(shí)驗(yàn),得到了同樣出色的加速效果:
![]()
業(yè)界頂級團(tuán)隊(duì)推薦
LeMiCa得到了頂級多模態(tài)模型研發(fā)團(tuán)隊(duì)阿里通義千問和智譜AI的認(rèn)可,分別在其官方主頁上對LeMiCa進(jìn)行權(quán)威推薦!
![]()
![]()
![]()
![]()
總結(jié)與展望
LeMiCa以全局優(yōu)化視角重新定義了擴(kuò)散視頻生成的加速問題。它突破了傳統(tǒng)“局部貪心”式緩存策略的局限,將緩存調(diào)度建模為有向無環(huán)圖(DAG)上的全局路徑搜索問題。作為一種通用的免訓(xùn)練加速框架,LeMiCa為視頻生成帶來了“又快又穩(wěn)”的新范式,聯(lián)通元景大模型團(tuán)隊(duì)希望以此為基石,為業(yè)界關(guān)于擴(kuò)散模型的加速和復(fù)雜場景生成提供新的思考角度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.