網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 | 20步也能穩(wěn)住畫質(zhì)，這個(gè)擴(kuò)散加速方法不一樣

2026-04-10 18:40:17　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

作者介紹：本文的共同第一作者為崔奔雷（阿里巴巴）和何少軒（阿里巴巴實(shí)習(xí)生、浙江大學(xué)）主要研究領(lǐng)域?yàn)槎嗄B(tài)理解與生成，通訊作者洪海文（阿里巴巴）和趙洲（浙江大學(xué)）主要研究領(lǐng)域分別為多模態(tài)大語(yǔ)言模型、語(yǔ)音理解生成等方向。

近年來(lái)，擴(kuò)散模型已成為圖像、音頻、視頻等多模態(tài)生成的核心技術(shù)路線，并在工業(yè)界得到廣泛應(yīng)用。但在實(shí)際落地中仍存在關(guān)鍵瓶頸：工業(yè)級(jí)推理預(yù)算通常只有 20–30 步，在這一約束下，許多加速方法仍會(huì)出現(xiàn)紋理錯(cuò)亂、顏色漂移、軌跡偏離等問(wèn)題，影響生成質(zhì)量與穩(wěn)定性。

這一問(wèn)題也限制了生成技術(shù)在理解側(cè)訓(xùn)練中的大規(guī)模應(yīng)用，而這對(duì)于補(bǔ)充安全場(chǎng)景中的高危稀缺樣本、構(gòu)造生產(chǎn)環(huán)境下的對(duì)抗變異樣本至關(guān)重要。高危圖片和視頻往往傳播快、危害大，但樣本數(shù)量有限，因此需要借助生成技術(shù)大規(guī)模合成相關(guān)數(shù)據(jù)，以提升審核模型的識(shí)別能力。

同時(shí)，AI 時(shí)代用戶生成變異樣本的成本大幅降低，使內(nèi)容安全面臨更強(qiáng)的對(duì)抗壓力。因此，需要在管控側(cè)引入生成技術(shù)，構(gòu)造對(duì)抗訓(xùn)練樣本，提升審核模型的魯棒性。然而，對(duì)于這類大規(guī)模工業(yè)應(yīng)用而言，擴(kuò)散模型過(guò)高的推理時(shí)延仍然不可接受。如何在有限步數(shù)預(yù)算下兼顧生成質(zhì)量與推理效率，已成為工業(yè)級(jí)擴(kuò)散落地的核心挑戰(zhàn)。

針對(duì)這一挑戰(zhàn)，阿里安全 AGI 實(shí)驗(yàn)室 - 御風(fēng)大模型團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了一種全新的擴(kuò)散加速方法 ——TC-Padé（Trajectory-Consistent Padé Approximation）。該方法基于 Padé 逼近構(gòu)建殘差預(yù)測(cè)框架，在無(wú)需訓(xùn)練、即插即用的前提下，實(shí)現(xiàn)對(duì)擴(kuò)散采樣過(guò)程的高效加速，并在低步數(shù)設(shè)置下依然保持穩(wěn)定、高質(zhì)量的生成效果。實(shí)驗(yàn)表明，TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務(wù)上都取得了出色表現(xiàn)。例如，在 FLUX.1-dev 上可實(shí)現(xiàn) 2.88× 加速，在 Wan2.1 視頻生成模型上可實(shí)現(xiàn) 1.72× 加速，同時(shí)顯著優(yōu)于已有緩存類加速方法。基于以上加速方法，御風(fēng)大模型團(tuán)隊(duì)得以產(chǎn)出大量高質(zhì)量冷門風(fēng)險(xiǎn)訓(xùn)練樣本，大幅度提升模型對(duì)風(fēng)險(xiǎn)的視覺理解能力，賦能百項(xiàng)以上廣泛業(yè)務(wù)場(chǎng)景。

該研究論文已被 CVPR 2026 錄用。

論文標(biāo)題：TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
論文鏈接：https://arxiv.org/pdf/2603.02943
Github 地址：https://github.com/Alibaba-YuFeng/TC_Pade

一、研究背景

擴(kuò)散模型的生成質(zhì)量雖然已經(jīng)達(dá)到很高水平，但其推理效率始終是落地應(yīng)用中的核心制約因素。由于擴(kuò)散采樣依賴多步迭代去噪，一個(gè)樣本通常需要經(jīng)歷數(shù)十次甚至上百次網(wǎng)絡(luò)前向計(jì)算，這使得模型在實(shí)時(shí)交互、批量生成和資源受限場(chǎng)景中面臨較高的時(shí)延與成本。

為降低這一開銷，近年來(lái)出現(xiàn)了多類擴(kuò)散加速方法，其中一類重要思路是特征緩存（feature caching）。這類方法利用相鄰時(shí)間步之間特征變化較小的性質(zhì)，減少重復(fù)計(jì)算，從而實(shí)現(xiàn) “免訓(xùn)練、可插拔” 的推理加速。現(xiàn)有方法主要包括兩種路線：

（1）基于復(fù)用的方法：直接緩存并復(fù)用中間特征；

（2）基于預(yù)測(cè)的方法：根據(jù)歷史特征變化趨勢(shì)預(yù)測(cè)未來(lái)特征。

盡管這些方法在較高采樣步數(shù)（如 50 步）下能夠取得一定加速效果，但在工業(yè)場(chǎng)景更常見的 20～30 步低步數(shù)采樣中，其局限性會(huì)明顯暴露出來(lái)。隨著時(shí)間步間隔變大，特征之間的相似性快速下降：

（1）復(fù)用類方法容易因緩存特征與當(dāng)前狀態(tài)不匹配而產(chǎn)生偏差；

（2）多項(xiàng)式外推類方法則容易因誤差積累導(dǎo)致軌跡漂移。

如下圖所示，在低步數(shù)設(shè)置下，已有加速方法往往會(huì)帶來(lái)明顯的畫質(zhì)下降，而 TC-Padé 能夠在實(shí)現(xiàn)更高加速比的同時(shí)，保持更好的視覺一致性。

圖 1 相較于已有緩存加速方法，TC-Padé 在 20 步采樣下依然能夠保持更穩(wěn)定的紋理與色彩表現(xiàn)

為何現(xiàn)有方法在低步數(shù)下容易失效？低步數(shù)采樣意味著：相鄰?fù)评聿街g的時(shí)間跨度更大，特征演化不再平滑。這會(huì)帶來(lái)兩個(gè)直接問(wèn)題。第一，傳統(tǒng)緩存復(fù)用方法默認(rèn)相鄰時(shí)間步特征 “足夠相似”，但在低步數(shù)場(chǎng)景下，這一假設(shè)很容易被打破，導(dǎo)致緩存信息與當(dāng)前狀態(tài)錯(cuò)位，從而影響生成質(zhì)量。第二，基于泰勒展開的外推方法雖然能夠在局部做近似，但泰勒多項(xiàng)式本質(zhì)上更適合小范圍、平滑變化的趨勢(shì)建模。

當(dāng)時(shí)間間隔增大、特征變化更復(fù)雜時(shí)，就容易出現(xiàn)外推誤差放大、采樣軌跡偏移的問(wèn)題。論文通過(guò) PCA 可視化進(jìn)一步表明，已有方法在加速采樣過(guò)程中往往無(wú)法保持與原始采樣軌跡的一致性，而 TC-Padé 更接近原始軌跡，體現(xiàn)出更強(qiáng)的穩(wěn)定性。

圖 2 不同緩存方法在 20 步采樣設(shè)置下的軌跡一致性對(duì)比，TC-Padé 更接近原始軌跡，體現(xiàn)出更強(qiáng)的穩(wěn)定性

二、研究方法：TC-Padé 核心創(chuàng)新

針對(duì)上述問(wèn)題，本文提出了 TC-Padé，從 “預(yù)測(cè)對(duì)象”“預(yù)測(cè)形式” 和 “采樣階段策略” 三個(gè)層面重新設(shè)計(jì)擴(kuò)散緩存加速框架，核心包括以下兩點(diǎn)：

1、創(chuàng)新一：基于） Padé 逼近的軌跡一致性殘差預(yù)測(cè)

與直接預(yù)測(cè)原始特征不同，TC-Padé 首先將建模對(duì)象轉(zhuǎn)向殘差表示（residual representation）。殘差刻畫的是層間特征增量，相較于原始特征通常具有更高的時(shí)間連續(xù)性和更穩(wěn)定的變化規(guī)律，因此更適合做跨時(shí)間步預(yù)測(cè)。

殘差定義如下：

其中，x_{t} l 和 x_{t} r 分別表示時(shí)間步 t 下不同層的特征表示，R_{t} l:r 表示對(duì)應(yīng)層間殘差。

在此基礎(chǔ)上，TC-Padé 使用 Padé 逼近替代傳統(tǒng)的泰勒多項(xiàng)式展開。Padé 逼近采用 “分子多項(xiàng)式 / 分母多項(xiàng)式” 的有理函數(shù)形式，能夠更好地描述非線性變化、漸近行為和階段切換，因此在低步數(shù)、大跨度時(shí)間間隔下具有更好的穩(wěn)定性。其一般形式為：

在本文中，為平衡效果與開銷，采用了低階 Padé 型預(yù)測(cè)器，對(duì)當(dāng)前殘差進(jìn)行預(yù)測(cè)：

進(jìn)一步可恢復(fù)當(dāng)前時(shí)刻輸出特征：

這一設(shè)計(jì)避免了直接在高維原始特征空間進(jìn)行預(yù)測(cè)，使模型能夠更聚焦于結(jié)構(gòu)更穩(wěn)定的殘差動(dòng)態(tài)，從而有效降低低步數(shù)采樣中的誤差累積問(wèn)題。

2、創(chuàng)新二：面向去噪階段差異的步感知預(yù)測(cè)策略

擴(kuò)散模型在不同采樣階段的動(dòng)態(tài)特性并不相同：早期階段，噪聲高，結(jié)構(gòu)變化劇烈；中期階段，整體結(jié)構(gòu)逐漸穩(wěn)定，適合進(jìn)行軌跡預(yù)測(cè)；后期階段，主要進(jìn)行細(xì)節(jié)修復(fù)與紋理優(yōu)化。現(xiàn)有方法通常采用統(tǒng)一策略處理整個(gè)去噪過(guò)程，難以適應(yīng)不同階段的變化特點(diǎn)。為此，TC-Padé 提出了一種去噪步感知（step-aware）預(yù)測(cè)策略，針對(duì)不同階段采用不同的殘差更新方式：

其中，T 為總?cè)ピ氩綌?shù)。這一策略使 TC-Padé 能夠在采樣早期避免過(guò)度外推，在中期充分發(fā)揮 Padé 逼近的優(yōu)勢(shì)，并在后期捕捉更細(xì)粒度的變化趨勢(shì)，從而提升整體加速過(guò)程的穩(wěn)定性與生成質(zhì)量。

3、創(chuàng)新三：自適應(yīng)軌跡穩(wěn)定性判別機(jī)制

除了預(yù)測(cè)方式的設(shè)計(jì)外，TC-Padé 還引入了一個(gè)軌跡穩(wěn)定性指標(biāo)（Trajectory Stableness Indicator, TSI），用于判斷當(dāng)前時(shí)間段是否適合跳過(guò)計(jì)算、直接使用預(yù)測(cè)結(jié)果。其定義為：

當(dāng)軌跡變化平穩(wěn)時(shí)，模型可安全地跳過(guò)部分計(jì)算并采用預(yù)測(cè)；當(dāng)軌跡不穩(wěn)定時(shí)，則恢復(fù)完整計(jì)算，以保證生成質(zhì)量。這樣就實(shí)現(xiàn)了在穩(wěn)定區(qū)間盡可能加速，在關(guān)鍵變化區(qū)間保留精細(xì)計(jì)算的自適應(yīng)推理機(jī)制。

圖 3 在每個(gè)緩存區(qū)間內(nèi)，系統(tǒng)通過(guò)軌跡穩(wěn)定性指標(biāo)動(dòng)態(tài)判斷是執(zhí)行完整計(jì)算還是進(jìn)行殘差預(yù)測(cè)

三、實(shí)驗(yàn)亮點(diǎn)：低步數(shù)下依然保持高質(zhì)量與高速度

（一）圖像生成任務(wù)：更快的同時(shí)保持更高保真度

在文本到圖像生成任務(wù)中，TC-Padé 在 FLUX.1-dev 上展現(xiàn)出非常突出的效率 — 質(zhì)量平衡能力。實(shí)驗(yàn)結(jié)果表明：

（1）TC-Padé（fast）實(shí)現(xiàn) 2.88× 加速

（2）在 FID、CLIP Score 等指標(biāo)上保持與原始模型接近的性能

（3）在 PSNR、SSIM、LPIPS 等保真度指標(biāo)上明顯優(yōu)于其他緩存類方法

相比之下，已有方法雖然在部分設(shè)置下可以進(jìn)一步壓縮 FLOPs，但往往伴隨顯著的畫質(zhì)下降，甚至出現(xiàn)無(wú)法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結(jié)構(gòu)與語(yǔ)義一致性。

表 1 方法在實(shí)現(xiàn)高達(dá) 2.88× 加速的同時(shí)，依然保持高質(zhì)量圖像生成效果

（二）視頻生成任務(wù)：在時(shí)序生成中同樣有效

視頻生成對(duì)一致性要求更高，任何預(yù)測(cè)偏差都可能在時(shí)間維度被進(jìn)一步放大。即便如此，TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優(yōu)異結(jié)果：

（1）1.72× 推理加速，1.74× FLOPs 降低

（2）VBench-2.0 總分僅較原始 20 步基線小幅下降

（3）在 PSNR、SSIM、LPIPS 等指標(biāo)上顯著優(yōu)于泰勒預(yù)測(cè)類方法

這說(shuō)明 TC-Padé 不僅適用于靜態(tài)圖像生成，也能夠較好適配視頻場(chǎng)景中的復(fù)雜時(shí)空動(dòng)態(tài)。

表 2 在視頻生成任務(wù)中的效果對(duì)比。相較于其他方法，TC-Padé 在保證視頻內(nèi)容穩(wěn)定性的同時(shí)實(shí)現(xiàn)了更高效率

（三）類別條件圖像生成：兼顧樣本保真度與多樣性

在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務(wù)中，TC-Padé 同樣表現(xiàn)穩(wěn)定：

（1）1.46× 時(shí)延加速，1.64× FLOPs 降低

（2）FID 優(yōu)于對(duì)比的緩存加速方法

（3）Precision 與 Recall 保持更好平衡

這表明 TC-Padé 不僅適用于文本條件生成任務(wù)，也能在標(biāo)準(zhǔn)視覺生成基準(zhǔn)上保持較強(qiáng)競(jìng)爭(zhēng)力。

表 3 TC-Padé 在 DiT-XL/2 上的定量結(jié)果，展示了其在類別條件圖像生成任務(wù)中的穩(wěn)定泛化能力

（四）消融實(shí)驗(yàn)：關(guān)鍵設(shè)計(jì)帶來(lái)穩(wěn)定收益

論文進(jìn)一步通過(guò)消融實(shí)驗(yàn)驗(yàn)證了 TC-Padé 各組成模塊的有效性。

1、殘差緩存粒度分析：實(shí)驗(yàn)比較了不同緩存粒度，包括 double-stream、single-stream 和 entire block。結(jié)果顯示，在整個(gè) block 粒度上進(jìn)行殘差緩存與預(yù)測(cè)時(shí)效果最佳，能夠在速度和質(zhì)量之間取得更優(yōu)平衡。

2、穩(wěn)定性閾值分析：通過(guò)調(diào)整軌跡穩(wěn)定性閾值 θ，可以靈活控制加速比與質(zhì)量之間的權(quán)衡。實(shí)驗(yàn)顯示，θ=0.7 時(shí)可獲得最高 2.88× 加速，而 θ=1.0 則在質(zhì)量和效率之間表現(xiàn)出更均衡的綜合效果。

3、與量化技術(shù)兼容：TC-Padé 還具有良好的工程兼容性，可與量化等其他推理優(yōu)化技術(shù)疊加使用。實(shí)驗(yàn)顯示，在結(jié)合量化后，其整體時(shí)延下降可進(jìn)一步擴(kuò)大，體現(xiàn)出良好的實(shí)際部署潛力。

四、總結(jié)

TC-Padé 針對(duì)擴(kuò)散模型低步數(shù)采樣中 “加速容易、穩(wěn)定很難” 的核心問(wèn)題，提出了一套兼顧理論與實(shí)踐的新方案。通過(guò)基于 Padé 逼近的殘差預(yù)測(cè)、步感知預(yù)測(cè)策略以及軌跡穩(wěn)定性自適應(yīng)判別機(jī)制，該方法在無(wú)需訓(xùn)練的條件下顯著提升了擴(kuò)散推理效率，并在多個(gè)任務(wù)上保持了高質(zhì)量生成效果。對(duì)于追求低延遲、高吞吐、可落地部署的擴(kuò)散模型應(yīng)用而言，TC-Padé 提供了一種具有現(xiàn)實(shí)價(jià)值的高效加速思路，也為未來(lái)擴(kuò)散模型推理優(yōu)化打開了新的方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.