網易首頁 > 網易號 > 正文申請入駐

復旦&通義萬相提出ProMoE，顯式路由引導打破DiT MoE scaling瓶頸

2026-03-31 16:10:04　來源: 機器之心Pro

河北舉報

分享至

混合專家架構（Mixture-of-Experts，MoE）在擴展模型容量的同時保持了計算效率，在大語言模型（LLM）的發(fā)展中發(fā)揮了巨大作用。然而，現有方法將 MoE 應用于 Diffusion Transformer（DiT）時，卻發(fā)現收益非常有限，無法復刻 MoE 在 LLM 中的成功。

為什么同樣的架構，跨界到視覺生成領域就「水土不服」了？

近期，來自復旦大學、阿里通義萬相Wan Team、浙江大學和香港大學的研究團隊指出，視覺 Token 的高度冗余性和功能異質性阻礙了視覺 MoE 中專家的專業(yè)化（specialization）。為此，他們提出了 ProMoE，一種帶有顯式路由引導的兩步路由 MoE 框架。相關論文已被 ICLR2026 接收，第一作者為復旦大學博士衛(wèi)昱杰。

論文標題：Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
論文地址：
https://arxiv.org/abs/2510.24711
代碼：
https://github.com/ali-vilab/ProMoE

視覺 Token 與語言 Token 的差異

為了探究 MoE 在 DiT 中收益不明顯的原因，研究團隊發(fā)現，視覺 Token 具有兩個獨特的屬性，導致傳統的隱式路由分配策略產生次優(yōu)的效果：

高度空間冗余性（High Spatial Redundancy）：離散的文本 Token 語義高度濃縮且差異明顯，而連續(xù)的圖像 Patch（視覺 Token）在空間上高度耦合，存在大量的冗余信息，導致視覺 MoE 中的專家往往學到同質化的特征。

功能異質性（Functional Heterogeneity）：擴散模型普遍依賴無分類器引導（CFG）技術。這就導致輸入 Token 天然分為兩派：條件 Token 和無條件 Token。標準 MoE 范式對它們一視同仁、同時分配，忽略了它們不同的功能角色。

圖 1：（a）我們從 110 個 ImageNet 類別中隨機抽取 1k 個中間層 Token，進行 10 簇 k-means 聚類（以顏色區(qū)分）。以類別名稱 / 標簽作為輸入時，LLM Token 形成緊湊、分離良好的簇，語義密度高，而視覺 Token 則較為分散。這種差異可以用類間距離與類內距離的比值來量化（19.283 ? 0.748）。（b）我們對每個 MoE 層的專家權重矩陣進行奇異值分解，并計算由其左前 k 個奇異向量張成的子空間的平均相似度來衡量專家間的多樣性。引入路由引導（我們的方法）可以增強專家間的多樣性。

ProMoE：兩步路由與顯式語義路由引導

MoE 的核心原則是專家專業(yè)化（Expert Specialization），即確保每個專家都能獲取集中且不重疊的知識。為了在視覺模型中實現「專家內一致」和「專家間多樣」，ProMoE 引入了兩步路由器（Two-Step Router）和路由對比學習（Routing Contrastive Learning）。

兩步路由器

第一步：條件路由（Conditional Routing）

路由器首先根據 Token 的功能角色進行硬路由分配。無條件圖像 Token（來源于 null conditioning 下的圖像 Patch）被直接分配給專門的無條件專家（Unconditional Experts）進行處理。而條件圖像 Token 則進入下一步，交由標準的路由專家（Routed Experts）進行處理。這種機制實現了專家的功能隔離。

第二步：原型路由（Prototypical Routing）

對于條件圖像 Token，ProMoE 引入了一組可學習的「原型」（Prototypes），每個原型對應一個特定專家。原型路由在隱空間中計算 Token 與各個 Prototype 之間的余弦相似度，并選擇 identity function 作為激活函數得到路由分數，分數較高的 Token 會被分配給對應的專家。

顯式語義路由引導：路由對比學習（Routing Contrastive Learning）

為了顯式增強原型路由的語義引導，ProMoE 提出了一種無需手動標注的路由對比損失（Routing Contrastive Loss，RCL）。在訓練過程中，RCL 會產生兩種影響：

拉近：將 Prototype 拉向分配給它的 Token 集合的質心，確保同一個專家處理的 Token 是語義相似的。

將 Prototype 推離其他專家處理的 Token 集合的質心，鼓勵不同專家之間形成差異化，增強多樣性。

同時，實驗發(fā)現 RCL 中的「推開」操作在語義層面上天然起到了負載均衡的作用，比傳統的負載均衡損失更加靈活且有效。

圖 2：ProMoE 架構概覽。輸入 Token 通過條件路由被分為無條件 Token 子集和條件 Token 子集。無條件圖像 Token 由無條件專家處理。條件圖像 Token 通過基于可學習原型的原型路由進行分配。路由對比學習顯式增強了原型路由中的語義引導。

算法偽代碼如下：

實驗結果

模型配置

與 Dense Model 的對比

ProMoE 在各種規(guī)模和設置下均穩(wěn)定超越了稠密模型。亮眼的是，參數量僅 1.063B 的 ProMoE-L-Flow，憑借更少的激活參數，超越了計算量更大的 Dense-DiT-XL-Flow。

與 SOTA MoE Model 的對比

ProMoE 超越現有的視覺 MoE 方案。特別是，用 1.063B 超越了擁有 16 個專家，1.846B 的 DiffMoE。

Text-to-Image 驗證

在 GenEval bench 中，ProMoE 在所有子任務上優(yōu)于標準的 Token-Choice MoE 模型，展現出一定的泛化能力。

可視化結果

Class-to-image generation

Text-to-image generation

收斂性分析

訓練曲線顯示，ProMoE 的收斂速度明顯快于稠密模型和現有 MoE 模型。

Scaling 實驗

ProMoE 展現出一定的擴展?jié)摿ΑｋS著模型尺寸從 Base 擴展至 XL，以及專家數量從 4 逐步增加到 16，ProMoE 的生成性能均呈現出穩(wěn)定的提升。

消融實驗

總結

通過分析語言和視覺 Token 之間的差異，ProMoE 提出了一種帶有顯式路由引導的 MoE 框架。通過巧妙設計的條件路由、原型路由以及路由對比學習機制，ProMoE 用更少的激活參數超越了 Dense Model 以及現有 MoE 方法。這為如何在大規(guī)模擴散模型中高效引入 MoE 架構提供了一套可能的開源范式。

更多技術與實驗細節(jié)，歡迎閱讀原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.