<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      復旦&通義萬相提出ProMoE,顯式路由引導打破DiT MoE scaling瓶頸

      0
      分享至



      混合專家架構(Mixture-of-Experts,MoE)在擴展模型容量的同時保持了計算效率,在大語言模型(LLM)的發(fā)展中發(fā)揮了巨大作用。然而,現有方法將 MoE 應用于 Diffusion Transformer(DiT)時,卻發(fā)現收益非常有限,無法復刻 MoE 在 LLM 中的成功。

      為什么同樣的架構,跨界到視覺生成領域就「水土不服」了?

      近期,來自復旦大學、阿里通義萬相Wan Team、浙江大學和香港大學的研究團隊指出,視覺 Token 的高度冗余性和功能異質性阻礙了視覺 MoE 中專家的專業(yè)化(specialization)。為此,他們提出了 ProMoE,一種帶有顯式路由引導的兩步路由 MoE 框架。相關論文已被 ICLR2026 接收,第一作者為復旦大學博士衛(wèi)昱杰。



      • 論文標題:Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
      • 論文地址:
      • https://arxiv.org/abs/2510.24711
      • 代碼:
      • https://github.com/ali-vilab/ProMoE

      視覺 Token 與語言 Token 的差異

      為了探究 MoE 在 DiT 中收益不明顯的原因,研究團隊發(fā)現,視覺 Token 具有兩個獨特的屬性,導致傳統的隱式路由分配策略產生次優(yōu)的效果:

      • 高度空間冗余性(High Spatial Redundancy):離散的文本 Token 語義高度濃縮且差異明顯,而連續(xù)的圖像 Patch(視覺 Token)在空間上高度耦合,存在大量的冗余信息,導致視覺 MoE 中的專家往往學到同質化的特征。

      • 功能異質性(Functional Heterogeneity):擴散模型普遍依賴無分類器引導(CFG)技術。這就導致輸入 Token 天然分為兩派:條件 Token 和無條件 Token。標準 MoE 范式對它們一視同仁、同時分配,忽略了它們不同的功能角色。

      圖 1:(a)我們從 110 個 ImageNet 類別中隨機抽取 1k 個中間層 Token,進行 10 簇 k-means 聚類(以顏色區(qū)分)。以類別名稱 / 標簽作為輸入時,LLM Token 形成緊湊、分離良好的簇,語義密度高,而視覺 Token 則較為分散。這種差異可以用類間距離與類內距離的比值來量化(19.283 ? 0.748)。(b)我們對每個 MoE 層的專家權重矩陣進行奇異值分解,并計算由其左前 k 個奇異向量張成的子空間的平均相似度來衡量專家間的多樣性。引入路由引導(我們的方法)可以增強專家間的多樣性。

      ProMoE:兩步路由與顯式語義路由引導

      MoE 的核心原則是專家專業(yè)化(Expert Specialization),即確保每個專家都能獲取集中且不重疊的知識。為了在視覺模型中實現「專家內一致」和「專家間多樣」,ProMoE 引入了兩步路由器(Two-Step Router)和路由對比學習(Routing Contrastive Learning)。

      兩步路由器

      • 第一步:條件路由(Conditional Routing)

      路由器首先根據 Token 的功能角色進行硬路由分配。無條件圖像 Token(來源于 null conditioning 下的圖像 Patch)被直接分配給專門的無條件專家(Unconditional Experts)進行處理。而條件圖像 Token 則進入下一步,交由標準的路由專家(Routed Experts)進行處理。這種機制實現了專家的功能隔離。

      • 第二步:原型路由(Prototypical Routing)

      對于條件圖像 Token,ProMoE 引入了一組可學習的「原型」(Prototypes),每個原型對應一個特定專家。原型路由在隱空間中計算 Token 與各個 Prototype 之間的余弦相似度,并選擇 identity function 作為激活函數得到路由分數,分數較高的 Token 會被分配給對應的專家。

      顯式語義路由引導:路由對比學習(Routing Contrastive Learning)

      為了顯式增強原型路由的語義引導,ProMoE 提出了一種無需手動標注的路由對比損失(Routing Contrastive Loss,RCL)。在訓練過程中,RCL 會產生兩種影響:

      • 拉近:將 Prototype 拉向分配給它的 Token 集合的質心,確保同一個專家處理的 Token 是語義相似的。

      • 將 Prototype 推離其他專家處理的 Token 集合的質心,鼓勵不同專家之間形成差異化,增強多樣性。

      同時,實驗發(fā)現 RCL 中的「推開」操作在語義層面上天然起到了負載均衡的作用,比傳統的負載均衡損失更加靈活且有效。



      圖 2:ProMoE 架構概覽。輸入 Token 通過條件路由被分為無條件 Token 子集和條件 Token 子集。無條件圖像 Token 由無條件專家處理。條件圖像 Token 通過基于可學習原型的原型路由進行分配。路由對比學習顯式增強了原型路由中的語義引導。

      算法偽代碼如下:



      實驗結果

      模型配置



      與 Dense Model 的對比

      ProMoE 在各種規(guī)模和設置下均穩(wěn)定超越了稠密模型。亮眼的是,參數量僅 1.063B 的 ProMoE-L-Flow,憑借更少的激活參數,超越了計算量更大的 Dense-DiT-XL-Flow。





      與 SOTA MoE Model 的對比

      ProMoE 超越現有的視覺 MoE 方案。特別是,用 1.063B 超越了擁有 16 個專家,1.846B 的 DiffMoE。



      Text-to-Image 驗證

      在 GenEval bench 中,ProMoE 在所有子任務上優(yōu)于標準的 Token-Choice MoE 模型,展現出一定的泛化能力。



      可視化結果

      Class-to-image generation



      Text-to-image generation



      收斂性分析

      訓練曲線顯示,ProMoE 的收斂速度明顯快于稠密模型和現有 MoE 模型。



      Scaling 實驗

      ProMoE 展現出一定的擴展?jié)摿ΑkS著模型尺寸從 Base 擴展至 XL,以及專家數量從 4 逐步增加到 16,ProMoE 的生成性能均呈現出穩(wěn)定的提升。



      消融實驗



      總結

      通過分析語言和視覺 Token 之間的差異,ProMoE 提出了一種帶有顯式路由引導的 MoE 框架。通過巧妙設計的條件路由、原型路由以及路由對比學習機制,ProMoE 用更少的激活參數超越了 Dense Model 以及現有 MoE 方法。這為如何在大規(guī)模擴散模型中高效引入 MoE 架構提供了一套可能的開源范式。

      更多技術與實驗細節(jié),歡迎閱讀原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      45歲李尚寶家中離世,死因未明,一家四口皆已離世,一生未婚

      45歲李尚寶家中離世,死因未明,一家四口皆已離世,一生未婚

      陳意小可愛
      2026-03-31 09:52:46
      客觀來講,單依純后續(xù)辦演唱會,路子真的越走越窄了。

      客觀來講,單依純后續(xù)辦演唱會,路子真的越走越窄了。

      小光侃娛樂
      2026-03-31 15:29:26
      場均29分鐘也能搶MVP!文班30分鐘狂砍41分15板3帽,還有誰不服?

      場均29分鐘也能搶MVP!文班30分鐘狂砍41分15板3帽,還有誰不服?

      林子說事
      2026-03-31 16:41:51
      釋放維護兩岸和平堅定信號,回應臺灣主流民意殷殷期盼,大陸宣布國民黨主席4月來訪

      釋放維護兩岸和平堅定信號,回應臺灣主流民意殷殷期盼,大陸宣布國民黨主席4月來訪

      環(huán)球網資訊
      2026-03-31 07:12:04
      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      “白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

      “白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

      江山揮筆
      2026-03-28 16:50:15
      比超高音速更快!中國白帝2-30首飛在即,性能曝光,碾壓美X37B

      比超高音速更快!中國白帝2-30首飛在即,性能曝光,碾壓美X37B

      聞識
      2026-03-29 00:23:01
      萬萬沒有想到,賴清德的父親賴永都,非但不是日本鬼子他是中國人

      萬萬沒有想到,賴清德的父親賴永都,非但不是日本鬼子他是中國人

      顧史
      2026-03-29 21:31:50
      張雪峰大學時期青澀照片曝光!陽光痞帥似青松,進娛樂圈沒問題

      張雪峰大學時期青澀照片曝光!陽光痞帥似青松,進娛樂圈沒問題

      談史論天地
      2026-03-31 09:45:54
      蔡正元入獄第三天,大陸發(fā)布邀請公告,信號明確,鄭麗文或成功臣

      蔡正元入獄第三天,大陸發(fā)布邀請公告,信號明確,鄭麗文或成功臣

      李健政觀察
      2026-03-30 16:08:37
      內塔尼亞胡抱怨歐洲大多數領導人太“軟弱”,都不敢來幫忙打伊朗

      內塔尼亞胡抱怨歐洲大多數領導人太“軟弱”,都不敢來幫忙打伊朗

      小影的娛樂
      2026-03-31 17:39:22
      富人的生活能有多夸張?網友:根本找不到心動還門當戶對的人

      富人的生活能有多夸張?網友:根本找不到心動還門當戶對的人

      帶你感受人間冷暖
      2026-03-27 00:05:14
      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      小舟談歷史
      2026-03-08 08:00:04
      男子在國際航班上抽煙辯稱憋著難受 川航:落地后該旅客被警方帶離

      男子在國際航班上抽煙辯稱憋著難受 川航:落地后該旅客被警方帶離

      快科技
      2026-03-30 14:06:06
      兒子去世一周后,白發(fā)人送黑發(fā)人的張媽媽狀態(tài)曝光,未來令人心痛

      兒子去世一周后,白發(fā)人送黑發(fā)人的張媽媽狀態(tài)曝光,未來令人心痛

      奇思妙想草葉君
      2026-03-31 15:49:30
      國足為何0-2慘敗喀麥隆? 賽后邵佳一毫不客氣說出原因,說得很實在

      國足為何0-2慘敗喀麥隆? 賽后邵佳一毫不客氣說出原因,說得很實在

      林子說事
      2026-03-31 17:30:59
      這是鞏俐年輕時的劇照,張藝謀導演,特別真實的,很貼近生活。

      這是鞏俐年輕時的劇照,張藝謀導演,特別真實的,很貼近生活。

      可樂談情感
      2026-03-30 00:15:45
      重慶一飛手用無人機吊人上山!大疆發(fā)布公告:性質惡劣,吊銷操作證書!當地警方介入

      重慶一飛手用無人機吊人上山!大疆發(fā)布公告:性質惡劣,吊銷操作證書!當地警方介入

      大象新聞
      2026-03-31 13:53:04
      李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為啥不能當省長?

      李瑞環(huán)說:葉選平是葉帥的兒子,但水平比我高,為啥不能當省長?

      基斯默默
      2026-03-31 08:20:29
      徹底掀桌了?伊朗亮出核底牌,硬剛美國重兵集團,寧可同歸于盡!

      徹底掀桌了?伊朗亮出核底牌,硬剛美國重兵集團,寧可同歸于盡!

      荷蘭豆愛健康
      2026-03-31 07:23:39
      2026-03-31 18:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12647文章數 142600關注度
      往期回顧 全部

      科技要聞

      尚未正式宣發(fā),國行蘋果AI半夜"意外閃現"

      頭條要聞

      時隔7年美國重開駐委內瑞拉大使館:辦公樓霉菌滋生

      頭條要聞

      時隔7年美國重開駐委內瑞拉大使館:辦公樓霉菌滋生

      體育要聞

      縣城修車工,用20年成為世界冠軍

      娛樂要聞

      絲芭傳媒舉報鞠婧祎:瞞報收入竟達85%

      財經要聞

      油價暴漲 我們的生活成本會飆升多少?

      汽車要聞

      騰勢Z9GT到底GT在哪?

      態(tài)度原創(chuàng)

      手機
      游戲
      藝術
      本地
      公開課

      手機要聞

      國行iPhone開啟蘋果AI屬于意外!蘋果回應稱“現已修復”

      漫威金剛狼官推爆火!玩家在線催更解鎖狼叔新情報

      藝術要聞

      石濤『野色冊』

      本地新聞

      用Color Walk的方式解鎖城市春日

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版