![]()
混合專家架構(Mixture-of-Experts,MoE)在擴展模型容量的同時保持了計算效率,在大語言模型(LLM)的發(fā)展中發(fā)揮了巨大作用。然而,現有方法將 MoE 應用于 Diffusion Transformer(DiT)時,卻發(fā)現收益非常有限,無法復刻 MoE 在 LLM 中的成功。
為什么同樣的架構,跨界到視覺生成領域就「水土不服」了?
近期,來自復旦大學、阿里通義萬相Wan Team、浙江大學和香港大學的研究團隊指出,視覺 Token 的高度冗余性和功能異質性阻礙了視覺 MoE 中專家的專業(yè)化(specialization)。為此,他們提出了 ProMoE,一種帶有顯式路由引導的兩步路由 MoE 框架。相關論文已被 ICLR2026 接收,第一作者為復旦大學博士衛(wèi)昱杰。
![]()
- 論文標題:Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
- 論文地址:
- https://arxiv.org/abs/2510.24711
- 代碼:
- https://github.com/ali-vilab/ProMoE
視覺 Token 與語言 Token 的差異
為了探究 MoE 在 DiT 中收益不明顯的原因,研究團隊發(fā)現,視覺 Token 具有兩個獨特的屬性,導致傳統的隱式路由分配策略產生次優(yōu)的效果:
- 高度空間冗余性(High Spatial Redundancy):離散的文本 Token 語義高度濃縮且差異明顯,而連續(xù)的圖像 Patch(視覺 Token)在空間上高度耦合,存在大量的冗余信息,導致視覺 MoE 中的專家往往學到同質化的特征。
- 功能異質性(Functional Heterogeneity):擴散模型普遍依賴無分類器引導(CFG)技術。這就導致輸入 Token 天然分為兩派:條件 Token 和無條件 Token。標準 MoE 范式對它們一視同仁、同時分配,忽略了它們不同的功能角色。
圖 1:(a)我們從 110 個 ImageNet 類別中隨機抽取 1k 個中間層 Token,進行 10 簇 k-means 聚類(以顏色區(qū)分)。以類別名稱 / 標簽作為輸入時,LLM Token 形成緊湊、分離良好的簇,語義密度高,而視覺 Token 則較為分散。這種差異可以用類間距離與類內距離的比值來量化(19.283 ? 0.748)。(b)我們對每個 MoE 層的專家權重矩陣進行奇異值分解,并計算由其左前 k 個奇異向量張成的子空間的平均相似度來衡量專家間的多樣性。引入路由引導(我們的方法)可以增強專家間的多樣性。
ProMoE:兩步路由與顯式語義路由引導
MoE 的核心原則是專家專業(yè)化(Expert Specialization),即確保每個專家都能獲取集中且不重疊的知識。為了在視覺模型中實現「專家內一致」和「專家間多樣」,ProMoE 引入了兩步路由器(Two-Step Router)和路由對比學習(Routing Contrastive Learning)。
兩步路由器
- 第一步:條件路由(Conditional Routing)
路由器首先根據 Token 的功能角色進行硬路由分配。無條件圖像 Token(來源于 null conditioning 下的圖像 Patch)被直接分配給專門的無條件專家(Unconditional Experts)進行處理。而條件圖像 Token 則進入下一步,交由標準的路由專家(Routed Experts)進行處理。這種機制實現了專家的功能隔離。
- 第二步:原型路由(Prototypical Routing)
對于條件圖像 Token,ProMoE 引入了一組可學習的「原型」(Prototypes),每個原型對應一個特定專家。原型路由在隱空間中計算 Token 與各個 Prototype 之間的余弦相似度,并選擇 identity function 作為激活函數得到路由分數,分數較高的 Token 會被分配給對應的專家。
顯式語義路由引導:路由對比學習(Routing Contrastive Learning)
為了顯式增強原型路由的語義引導,ProMoE 提出了一種無需手動標注的路由對比損失(Routing Contrastive Loss,RCL)。在訓練過程中,RCL 會產生兩種影響:
- 拉近:將 Prototype 拉向分配給它的 Token 集合的質心,確保同一個專家處理的 Token 是語義相似的。
- 將 Prototype 推離其他專家處理的 Token 集合的質心,鼓勵不同專家之間形成差異化,增強多樣性。
同時,實驗發(fā)現 RCL 中的「推開」操作在語義層面上天然起到了負載均衡的作用,比傳統的負載均衡損失更加靈活且有效。
![]()
圖 2:ProMoE 架構概覽。輸入 Token 通過條件路由被分為無條件 Token 子集和條件 Token 子集。無條件圖像 Token 由無條件專家處理。條件圖像 Token 通過基于可學習原型的原型路由進行分配。路由對比學習顯式增強了原型路由中的語義引導。
算法偽代碼如下:
![]()
實驗結果
模型配置
![]()
與 Dense Model 的對比
ProMoE 在各種規(guī)模和設置下均穩(wěn)定超越了稠密模型。亮眼的是,參數量僅 1.063B 的 ProMoE-L-Flow,憑借更少的激活參數,超越了計算量更大的 Dense-DiT-XL-Flow。
![]()
![]()
與 SOTA MoE Model 的對比
ProMoE 超越現有的視覺 MoE 方案。特別是,用 1.063B 超越了擁有 16 個專家,1.846B 的 DiffMoE。
![]()
Text-to-Image 驗證
在 GenEval bench 中,ProMoE 在所有子任務上優(yōu)于標準的 Token-Choice MoE 模型,展現出一定的泛化能力。
![]()
可視化結果
Class-to-image generation
![]()
Text-to-image generation
![]()
收斂性分析
訓練曲線顯示,ProMoE 的收斂速度明顯快于稠密模型和現有 MoE 模型。
![]()
Scaling 實驗
ProMoE 展現出一定的擴展?jié)摿ΑkS著模型尺寸從 Base 擴展至 XL,以及專家數量從 4 逐步增加到 16,ProMoE 的生成性能均呈現出穩(wěn)定的提升。
![]()
消融實驗
![]()
總結
通過分析語言和視覺 Token 之間的差異,ProMoE 提出了一種帶有顯式路由引導的 MoE 框架。通過巧妙設計的條件路由、原型路由以及路由對比學習機制,ProMoE 用更少的激活參數超越了 Dense Model 以及現有 MoE 方法。這為如何在大規(guī)模擴散模型中高效引入 MoE 架構提供了一套可能的開源范式。
更多技術與實驗細節(jié),歡迎閱讀原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.