![]()
尹博:NUS 計算機工程碩士生、LV Lab 實習生,研究方向是生成式 AI,及參數高效率微調(PEFT)。
胡曉彬:NUS LV Lab Senior Research Fellow, 研究方向是生成式 AI,MLLM Agent 等。
在大模型時代,參數高效微調(PEFT) 已成為將 Stable Diffusion、Flux 等大規模擴散模型遷移至下游任務的標準范式。從 LoRA 到 DoRA,社區不斷探索如何用更少的參數實現更好的適配。
然而,現有的微調方法(如 LoRA、AdaLoRA)大多采用「靜態」策略:無論模型處于去噪過程的哪個階段,適配器(Adapter)的參數都是固定不變的。這種「一刀切」的方式忽略了擴散生成過程內在的時序物理規律,導致模型在處理復雜結構與精細紋理時往往顧此失彼。
針對上述問題,新加坡國立大學 LV Lab(顏水成團隊) 聯合電子科技大學、浙江大學等機構提出 FeRA (Frequency-Energy Constrained Routing) 框架:首次從頻域能量的第一性原理出發,揭示了擴散去噪過程具有顯著的「低頻到高頻」演變規律,并據此設計了動態路由機制。
FeRA 摒棄了傳統的靜態微調思路,通過實時感知潛空間(Latent Space)的頻域能量分布,動態調度不同的專家模塊。實驗結果顯示,FeRA 在 SD 1.5、SDXL、Flux.1 等多個主流底座上,于風格遷移和主體定制任務中均實現了遠超 baseline 的生成質量。
![]()
- 論文地址: https://arxiv.org/abs/2511.17979
- 項目主頁: https://github.com/YinBo0927/FeRA
研究背景:靜態微調與動態生成的錯配
擴散生成的「頻域時序性」
擴散模型的去噪過程(Denoising Process)本質上是一個從無序到有序的物理演變。研究團隊通過對中間層特征的頻譜分析發現,這一過程并非各向同性,而是具有鮮明的階段性特征:
- 生成初期(高噪聲):模型主要致力于恢復圖像的低頻能量(如整體構圖、輪廓)。
- 生成后期(低噪聲):重心逐漸轉移至高頻能量(如紋理、邊緣細節)。
現有方法的局限
然而,LoRA 等主流 PEFT 方法在所有時間步(Timestep)上應用相同的低秩矩陣。這意味著,負責「畫輪廓」的參數和負責「描細節」的參數是完全耦合的。這種目標錯配(Misalignment)導致了計算資源的浪費:模型不得不在有限的參數空間內權衡結構與細節,往往導致生成的圖像要么結構崩壞,要么紋理模糊。
因此,設計一種能夠感知當前生成階段,并「按需分配」算力的動態微調機制,成為突破性能瓶頸的關鍵。
![]()
![]()
方法介紹:FeRA 框架
為了解決上述痛點,研究團隊提出了 FeRA (Frequency-Energy Constrained Routing)。該框架包含三個核心組件,形成了一個感知 - 決策 - 優化的閉環:
頻域能量指示器 (Frequency-Energy Indicator, FEI)
這是 FeRA 的「眼睛」,不同于以往方法僅依賴離散的時間步(Timestep)作為條件,FeRA 利用 高斯差分 (Difference-of-Gaussians, DoG) 算子,在潛空間直接提取特征的頻域能量分布。
- 它將特征分解為多個頻帶。
- 實時計算各頻帶的歸一化能量值,形成一個連續的、物理可解釋的能量向量。
軟頻域路由器 (Soft Frequency Router)
這是 FeRA 的「大腦」,基于 FEI 提供的能量信號,路由器通過一個輕量級網絡動態計算不同LoRA 專家 (Experts)的權重。
- 低頻主導時:系統自動激活擅長結構生成的專家分支。
- 高頻主導時:平滑過渡到擅長紋理細節的專家分支。 這種機制實現了參數的解耦,讓不同的專家專注于其擅長的頻域范圍。
頻域能量一致性正則化 (FECL)
這是 FeRA 的「穩定器」,為了防止微調過程偏離原本的生成軌跡,團隊引入了FECL (Frequency-Energy Consistency Loss)。該損失函數強制要求:LoRA 產生的參數更新量(Update),其在頻域上的能量分布必須與模型原本的殘差誤差(Residual Error)保持一致。這確保了微調過程「指哪打哪」,極大地提升了訓練穩定性。
![]()
實驗驗證:從風格遷移到主體定制
研究團隊在Stable Diffusion 1.5、2.0、3.0、SDXL以及最新的FLUX.1等多個主流底座上進行了廣泛測試 。實驗涵蓋了風格遷移(Style Adaptation)和主體定制(DreamBooth)兩大任務。
風格遷移:FID 與 CLIP 的雙贏
在 Cyberpunk, Watercolor 等多種風格數據集上,FeRA 在FID(圖像質量) 、CLIP Score(語義對齊)和 Style(MLLM 評分)上均取得了最優或次優的成績。
![]()
![]()
主體定制:更懂你的 Prompt
在 DreamBooth 任務(如讓特定的狗游泳、讓特定的茶壺放在草地上)中,FeRA 展示了驚人的文本可控性。
- 痛點解決:傳統方法容易過擬合主體(Identity),導致無法響應新的背景提示詞(Prompt)。
- FeRA 表現:在 CLIP-T(文本對齊度)指標上,FeRA 顯著優于 DoRA 和 AdaLoRA 。這意味著它不僅記住了「這只狗」,還能聽懂指揮讓它「去游泳」。
![]()
![]()
總結
總的來看,目前的擴散模型微調仍以靜態參數疊加為主,在處理復雜的多頻段信息時存在天然瓶頸。
LV Lab 顏水成團隊 提出的 FeRA 框架,通過引入頻域第一性原理,將微調從「參數層面的分解」推進到了「機制層面的對齊」。FeRA 證明了:順應生成過程的物理規律,利用頻域能量進行動態路由,是實現高效、高質量微調的關鍵路徑。
這一工作不僅刷新了各項 SOTA 指標,更為未來擴散模型在視頻生成、3D 生成等更復雜任務中的微調提供了極具價值的新思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.