![]()
作者介紹:本文的共同第一作者為崔奔雷(阿里巴巴)和何少軒(阿里巴巴實(shí)習(xí)生、浙江大學(xué))主要研究領(lǐng)域?yàn)槎嗄B(tài)理解與生成,通訊作者洪海文(阿里巴巴)和趙洲(浙江大學(xué))主要研究領(lǐng)域分別為多模態(tài)大語(yǔ)言模型、語(yǔ)音理解生成等方向。
近年來(lái),擴(kuò)散模型已成為圖像、音頻、視頻等多模態(tài)生成的核心技術(shù)路線,并在工業(yè)界得到廣泛應(yīng)用。但在實(shí)際落地中仍存在關(guān)鍵瓶頸:工業(yè)級(jí)推理預(yù)算通常只有 20–30 步,在這一約束下,許多加速方法仍會(huì)出現(xiàn)紋理錯(cuò)亂、顏色漂移、軌跡偏離等問(wèn)題,影響生成質(zhì)量與穩(wěn)定性。
這一問(wèn)題也限制了生成技術(shù)在理解側(cè)訓(xùn)練中的大規(guī)模應(yīng)用,而這對(duì)于補(bǔ)充安全場(chǎng)景中的高危稀缺樣本、構(gòu)造生產(chǎn)環(huán)境下的對(duì)抗變異樣本至關(guān)重要。高危圖片和視頻往往傳播快、危害大,但樣本數(shù)量有限,因此需要借助生成技術(shù)大規(guī)模合成相關(guān)數(shù)據(jù),以提升審核模型的識(shí)別能力。
同時(shí),AI 時(shí)代用戶生成變異樣本的成本大幅降低,使內(nèi)容安全面臨更強(qiáng)的對(duì)抗壓力。因此,需要在管控側(cè)引入生成技術(shù),構(gòu)造對(duì)抗訓(xùn)練樣本,提升審核模型的魯棒性。然而,對(duì)于這類大規(guī)模工業(yè)應(yīng)用而言,擴(kuò)散模型過(guò)高的推理時(shí)延仍然不可接受。如何在有限步數(shù)預(yù)算下兼顧生成質(zhì)量與推理效率,已成為工業(yè)級(jí)擴(kuò)散落地的核心挑戰(zhàn)。
針對(duì)這一挑戰(zhàn),阿里安全 AGI 實(shí)驗(yàn)室 - 御風(fēng)大模型團(tuán)隊(duì)聯(lián)合浙江大學(xué)提出了一種全新的擴(kuò)散加速方法 ——TC-Padé(Trajectory-Consistent Padé Approximation)。該方法基于 Padé 逼近構(gòu)建殘差預(yù)測(cè)框架,在無(wú)需訓(xùn)練、即插即用的前提下,實(shí)現(xiàn)對(duì)擴(kuò)散采樣過(guò)程的高效加速,并在低步數(shù)設(shè)置下依然保持穩(wěn)定、高質(zhì)量的生成效果。實(shí)驗(yàn)表明,TC-Padé 在圖像生成、視頻生成和類別條件圖像生成等任務(wù)上都取得了出色表現(xiàn)。例如,在 FLUX.1-dev 上可實(shí)現(xiàn) 2.88× 加速,在 Wan2.1 視頻生成模型上可實(shí)現(xiàn) 1.72× 加速,同時(shí)顯著優(yōu)于已有緩存類加速方法。基于以上加速方法,御風(fēng)大模型團(tuán)隊(duì)得以產(chǎn)出大量高質(zhì)量冷門風(fēng)險(xiǎn)訓(xùn)練樣本,大幅度提升模型對(duì)風(fēng)險(xiǎn)的視覺理解能力,賦能百項(xiàng)以上廣泛業(yè)務(wù)場(chǎng)景。
該研究論文已被 CVPR 2026 錄用。
![]()
- 論文標(biāo)題:TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
- 論文鏈接:https://arxiv.org/pdf/2603.02943
- Github 地址:https://github.com/Alibaba-YuFeng/TC_Pade
一、研究背景
擴(kuò)散模型的生成質(zhì)量雖然已經(jīng)達(dá)到很高水平,但其推理效率始終是落地應(yīng)用中的核心制約因素。由于擴(kuò)散采樣依賴多步迭代去噪,一個(gè)樣本通常需要經(jīng)歷數(shù)十次甚至上百次網(wǎng)絡(luò)前向計(jì)算,這使得模型在實(shí)時(shí)交互、批量生成和資源受限場(chǎng)景中面臨較高的時(shí)延與成本。
為降低這一開銷,近年來(lái)出現(xiàn)了多類擴(kuò)散加速方法,其中一類重要思路是特征緩存(feature caching)。這類方法利用相鄰時(shí)間步之間特征變化較小的性質(zhì),減少重復(fù)計(jì)算,從而實(shí)現(xiàn) “免訓(xùn)練、可插拔” 的推理加速。現(xiàn)有方法主要包括兩種路線:
(1)基于復(fù)用的方法:直接緩存并復(fù)用中間特征;
(2)基于預(yù)測(cè)的方法:根據(jù)歷史特征變化趨勢(shì)預(yù)測(cè)未來(lái)特征。
盡管這些方法在較高采樣步數(shù)(如 50 步)下能夠取得一定加速效果,但在工業(yè)場(chǎng)景更常見的 20~30 步低步數(shù)采樣中,其局限性會(huì)明顯暴露出來(lái)。隨著時(shí)間步間隔變大,特征之間的相似性快速下降:
(1)復(fù)用類方法容易因緩存特征與當(dāng)前狀態(tài)不匹配而產(chǎn)生偏差;
(2)多項(xiàng)式外推類方法則容易因誤差積累導(dǎo)致軌跡漂移。
如下圖所示,在低步數(shù)設(shè)置下,已有加速方法往往會(huì)帶來(lái)明顯的畫質(zhì)下降,而 TC-Padé 能夠在實(shí)現(xiàn)更高加速比的同時(shí),保持更好的視覺一致性。
![]()
圖 1 相較于已有緩存加速方法,TC-Padé 在 20 步采樣下依然能夠保持更穩(wěn)定的紋理與色彩表現(xiàn)
為何現(xiàn)有方法在低步數(shù)下容易失效?低步數(shù)采樣意味著:相鄰?fù)评聿街g的時(shí)間跨度更大,特征演化不再平滑。這會(huì)帶來(lái)兩個(gè)直接問(wèn)題。第一,傳統(tǒng)緩存復(fù)用方法默認(rèn)相鄰時(shí)間步特征 “足夠相似”,但在低步數(shù)場(chǎng)景下,這一假設(shè)很容易被打破,導(dǎo)致緩存信息與當(dāng)前狀態(tài)錯(cuò)位,從而影響生成質(zhì)量。第二,基于泰勒展開的外推方法雖然能夠在局部做近似,但泰勒多項(xiàng)式本質(zhì)上更適合小范圍、平滑變化的趨勢(shì)建模。
當(dāng)時(shí)間間隔增大、特征變化更復(fù)雜時(shí),就容易出現(xiàn)外推誤差放大、采樣軌跡偏移的問(wèn)題。論文通過(guò) PCA 可視化進(jìn)一步表明,已有方法在加速采樣過(guò)程中往往無(wú)法保持與原始采樣軌跡的一致性,而 TC-Padé 更接近原始軌跡,體現(xiàn)出更強(qiáng)的穩(wěn)定性。
![]()
圖 2 不同緩存方法在 20 步采樣設(shè)置下的軌跡一致性對(duì)比,TC-Padé 更接近原始軌跡,體現(xiàn)出更強(qiáng)的穩(wěn)定性
二、研究方法:TC-Padé 核心創(chuàng)新
針對(duì)上述問(wèn)題,本文提出了 TC-Padé,從 “預(yù)測(cè)對(duì)象”“預(yù)測(cè)形式” 和 “采樣階段策略” 三個(gè)層面重新設(shè)計(jì)擴(kuò)散緩存加速框架,核心包括以下兩點(diǎn):
1、創(chuàng)新一:基于) Padé 逼近的軌跡一致性殘差預(yù)測(cè)
與直接預(yù)測(cè)原始特征不同,TC-Padé 首先將建模對(duì)象轉(zhuǎn)向殘差表示(residual representation)。殘差刻畫的是層間特征增量,相較于原始特征通常具有更高的時(shí)間連續(xù)性和更穩(wěn)定的變化規(guī)律,因此更適合做跨時(shí)間步預(yù)測(cè)。
殘差定義如下:
![]()
其中,x_{t} l 和 x_{t} r 分別表示時(shí)間步 t 下不同層的特征表示,R_{t} l:r 表示對(duì)應(yīng)層間殘差。
在此基礎(chǔ)上,TC-Padé 使用 Padé 逼近替代傳統(tǒng)的泰勒多項(xiàng)式展開。Padé 逼近采用 “分子多項(xiàng)式 / 分母多項(xiàng)式” 的有理函數(shù)形式,能夠更好地描述非線性變化、漸近行為和階段切換,因此在低步數(shù)、大跨度時(shí)間間隔下具有更好的穩(wěn)定性。其一般形式為:
![]()
在本文中,為平衡效果與開銷,采用了低階 Padé 型預(yù)測(cè)器,對(duì)當(dāng)前殘差進(jìn)行預(yù)測(cè):
![]()
進(jìn)一步可恢復(fù)當(dāng)前時(shí)刻輸出特征:
![]()
這一設(shè)計(jì)避免了直接在高維原始特征空間進(jìn)行預(yù)測(cè),使模型能夠更聚焦于結(jié)構(gòu)更穩(wěn)定的殘差動(dòng)態(tài),從而有效降低低步數(shù)采樣中的誤差累積問(wèn)題。
2、創(chuàng)新二:面向去噪階段差異的步感知預(yù)測(cè)策略
擴(kuò)散模型在不同采樣階段的動(dòng)態(tài)特性并不相同:早期階段,噪聲高,結(jié)構(gòu)變化劇烈;中期階段,整體結(jié)構(gòu)逐漸穩(wěn)定,適合進(jìn)行軌跡預(yù)測(cè);后期階段,主要進(jìn)行細(xì)節(jié)修復(fù)與紋理優(yōu)化。現(xiàn)有方法通常采用統(tǒng)一策略處理整個(gè)去噪過(guò)程,難以適應(yīng)不同階段的變化特點(diǎn)。為此,TC-Padé 提出了一種去噪步感知(step-aware)預(yù)測(cè)策略,針對(duì)不同階段采用不同的殘差更新方式:
![]()
其中,T 為總?cè)ピ氩綌?shù)。這一策略使 TC-Padé 能夠在采樣早期避免過(guò)度外推,在中期充分發(fā)揮 Padé 逼近的優(yōu)勢(shì),并在后期捕捉更細(xì)粒度的變化趨勢(shì),從而提升整體加速過(guò)程的穩(wěn)定性與生成質(zhì)量。
3、創(chuàng)新三:自適應(yīng)軌跡穩(wěn)定性判別機(jī)制
除了預(yù)測(cè)方式的設(shè)計(jì)外,TC-Padé 還引入了一個(gè)軌跡穩(wěn)定性指標(biāo)(Trajectory Stableness Indicator, TSI),用于判斷當(dāng)前時(shí)間段是否適合跳過(guò)計(jì)算、直接使用預(yù)測(cè)結(jié)果。其定義為:
![]()
當(dāng)軌跡變化平穩(wěn)時(shí),模型可安全地跳過(guò)部分計(jì)算并采用預(yù)測(cè);當(dāng)軌跡不穩(wěn)定時(shí),則恢復(fù)完整計(jì)算,以保證生成質(zhì)量。這樣就實(shí)現(xiàn)了在穩(wěn)定區(qū)間盡可能加速,在關(guān)鍵變化區(qū)間保留精細(xì)計(jì)算的自適應(yīng)推理機(jī)制。
![]()
圖 3 在每個(gè)緩存區(qū)間內(nèi),系統(tǒng)通過(guò)軌跡穩(wěn)定性指標(biāo)動(dòng)態(tài)判斷是執(zhí)行完整計(jì)算還是進(jìn)行殘差預(yù)測(cè)
三、實(shí)驗(yàn)亮點(diǎn):低步數(shù)下依然保持高質(zhì)量與高速度
(一)圖像生成任務(wù):更快的同時(shí)保持更高保真度
在文本到圖像生成任務(wù)中,TC-Padé 在 FLUX.1-dev 上展現(xiàn)出非常突出的效率 — 質(zhì)量平衡能力。實(shí)驗(yàn)結(jié)果表明:
(1)TC-Padé(fast)實(shí)現(xiàn) 2.88× 加速
(2)在 FID、CLIP Score 等指標(biāo)上保持與原始模型接近的性能
(3)在 PSNR、SSIM、LPIPS 等保真度指標(biāo)上明顯優(yōu)于其他緩存類方法
相比之下,已有方法雖然在部分設(shè)置下可以進(jìn)一步壓縮 FLOPs,但往往伴隨顯著的畫質(zhì)下降,甚至出現(xiàn)無(wú)法接受的圖像退化。TC-Padé 則在較高加速比下依然能夠保持良好的紋理、結(jié)構(gòu)與語(yǔ)義一致性。
![]()
表 1 方法在實(shí)現(xiàn)高達(dá) 2.88× 加速的同時(shí),依然保持高質(zhì)量圖像生成效果
(二)視頻生成任務(wù):在時(shí)序生成中同樣有效
視頻生成對(duì)一致性要求更高,任何預(yù)測(cè)偏差都可能在時(shí)間維度被進(jìn)一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 視頻生成模型上取得了優(yōu)異結(jié)果:
(1)1.72× 推理加速,1.74× FLOPs 降低
(2)VBench-2.0 總分僅較原始 20 步基線小幅下降
(3)在 PSNR、SSIM、LPIPS 等指標(biāo)上顯著優(yōu)于泰勒預(yù)測(cè)類方法
這說(shuō)明 TC-Padé 不僅適用于靜態(tài)圖像生成,也能夠較好適配視頻場(chǎng)景中的復(fù)雜時(shí)空動(dòng)態(tài)。
![]()
表 2 在視頻生成任務(wù)中的效果對(duì)比。相較于其他方法,TC-Padé 在保證視頻內(nèi)容穩(wěn)定性的同時(shí)實(shí)現(xiàn)了更高效率
(三)類別條件圖像生成:兼顧樣本保真度與多樣性
在 DiT-XL/2 的 ImageNet 256×256 類別條件圖像生成任務(wù)中,TC-Padé 同樣表現(xiàn)穩(wěn)定:
(1)1.46× 時(shí)延加速,1.64× FLOPs 降低
(2)FID 優(yōu)于對(duì)比的緩存加速方法
(3)Precision 與 Recall 保持更好平衡
這表明 TC-Padé 不僅適用于文本條件生成任務(wù),也能在標(biāo)準(zhǔn)視覺生成基準(zhǔn)上保持較強(qiáng)競(jìng)爭(zhēng)力。
![]()
表 3 TC-Padé 在 DiT-XL/2 上的定量結(jié)果,展示了其在類別條件圖像生成任務(wù)中的穩(wěn)定泛化能力
(四)消融實(shí)驗(yàn):關(guān)鍵設(shè)計(jì)帶來(lái)穩(wěn)定收益
論文進(jìn)一步通過(guò)消融實(shí)驗(yàn)驗(yàn)證了 TC-Padé 各組成模塊的有效性。
1、殘差緩存粒度分析:實(shí)驗(yàn)比較了不同緩存粒度,包括 double-stream、single-stream 和 entire block。結(jié)果顯示,在整個(gè) block 粒度上進(jìn)行殘差緩存與預(yù)測(cè)時(shí)效果最佳,能夠在速度和質(zhì)量之間取得更優(yōu)平衡。
2、穩(wěn)定性閾值分析:通過(guò)調(diào)整軌跡穩(wěn)定性閾值 θ,可以靈活控制加速比與質(zhì)量之間的權(quán)衡。實(shí)驗(yàn)顯示,θ=0.7 時(shí)可獲得最高 2.88× 加速,而 θ=1.0 則在質(zhì)量和效率之間表現(xiàn)出更均衡的綜合效果。
3、與量化技術(shù)兼容:TC-Padé 還具有良好的工程兼容性,可與量化等其他推理優(yōu)化技術(shù)疊加使用。實(shí)驗(yàn)顯示,在結(jié)合量化后,其整體時(shí)延下降可進(jìn)一步擴(kuò)大,體現(xiàn)出良好的實(shí)際部署潛力。
四、總結(jié)
TC-Padé 針對(duì)擴(kuò)散模型低步數(shù)采樣中 “加速容易、穩(wěn)定很難” 的核心問(wèn)題,提出了一套兼顧理論與實(shí)踐的新方案。通過(guò)基于 Padé 逼近的殘差預(yù)測(cè)、步感知預(yù)測(cè)策略以及軌跡穩(wěn)定性自適應(yīng)判別機(jī)制,該方法在無(wú)需訓(xùn)練的條件下顯著提升了擴(kuò)散推理效率,并在多個(gè)任務(wù)上保持了高質(zhì)量生成效果。對(duì)于追求低延遲、高吞吐、可落地部署的擴(kuò)散模型應(yīng)用而言,TC-Padé 提供了一種具有現(xiàn)實(shí)價(jià)值的高效加速思路,也為未來(lái)擴(kuò)散模型推理優(yōu)化打開了新的方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.