<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      跳過88%專家,保住97%性能!MoE推理的正確玩法| CVPR’26

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】CVPR新研究MoDES讓多模態大模型推理效率飆升:無需訓練,智能跳過88%冗余專家,仍保留97%性能,徹底打破「跳得多必掉點」舊認知,推理速度提升2倍。

      多模態大模型正在迅速走向大規模。為了處理更高分辨率圖像、更長視頻序列以及更復雜跨模態任務,模型參數規模持續增長。

      Mixture-of-Experts(MoE)架構成為主流選擇:通過只激活部分專家網絡,試圖在保持模型規模的同時降低計算開銷。

      但問題在于——即便采用 MoE,多模態模型的推理成本依然很高。

      每個token仍需與多個專家交互,大量計算發生在「并非真正關鍵」的專家上。MoE 的確避免了「全參數全激活」,卻沒有真正做到「按需計算」。

      在視頻理解或長上下文場景下,這種冗余會被迅速放大,成為推理瓶頸。

      于是,一個自然問題出現:能否在推理階段動態跳過冗余專家?

      已有expert skipping方法在純文本LLM上取得了一定效果,但一旦直接應用于多模態模型,往往出現明顯性能下降。跳得越多,掉點越嚴重,高比例skipping下甚至直接崩潰。

      來自香港科技大學、北航、北大等單位的研究團隊提出了MoDES(Multimodal Dynamic Expert Skipping),系統分析了多模態MoE skipping失效的根本原因,并給出了一套面向多模態MoE的training-free動態專家跳過框架,該工作已被CVPR接收。


      論文地址:https://arxiv.org/pdf/2511.15690

      代碼地址:https://github.com/ModelTC/MoDES

      在Qwen3-VL-MoE-30B上,MoDES在跳過88%專家的情況下,仍保留97.33%原始性能,同時帶來顯著推理加速,打破了一個長期存在的共識:高比例專家跳過必然帶來不可接受的性能損失。


      圖表1 不同skipping比例下MoDES與現有方法在13個基準上的性能對比

      MoDES并沒有直接提出新規則,而是首先回答一個更基礎的問題:為什么為文本模型設計的skipping方法,在多模態MoE上會明顯失效?

      論文給出了兩個關鍵觀察。

      不同層專家對最終輸出的全局貢獻高度不均衡:現有skipping方法通常僅依據當前層的routing概率判斷專家是否重要,但忽略了一個關鍵事實:不同層專家對最終預測分布的影響差異巨大。

      實驗表明,當減少routed experts數量時,淺層專家的減少會導致更顯著的性能下降,而深層專家的影響相對較小。這意味著淺層誤差會在后續層逐步放大,從而引發性能崩潰。

      換言之,專家的重要性不僅是「局部routing概率」的問題,更是「對最終輸出影響程度」的問題。如果采用層無關的統一規則,很容易在關鍵淺層跳得過多。相關現象如圖表2所示。


      圖表2 不同層范圍減少專家后的性能變化

      文本token與視覺token行為存在顯著差異:論文進一步分析了模態差異。通過對FFN前后token表征的可視化與統計分析,研究者發現:文本token在FFN中的更新幅度明顯更大;視覺token與專家權重更接近正交;專家對視覺token的影響相對較小。

      這意味著,專家對文本推理更關鍵,而對視覺token存在更高冗余。如果skipping策略不區分模態,很可能誤刪對文本理解至關重要的專家,導致性能下降。相關分析見圖表3。


      圖表3 文本與視覺token在FFN中的差異分析

      這兩個觀察共同指向一個核心結論:多模態MoE的專家重要性,需要同時具備output-aware(輸出感知) 與modality-aware(模態感知)。

      輸出感知+模態感知

      動態skipping框架

      基于上述insight,MoDES構建了一個輸出感知、模態感知的動態專家跳過機制,其整體流程如圖表4所示。


      圖表 4 MoDES框架圖

      首先,MoDES在原始routing概率基礎上引入層級全局重要性因子,用于刻畫第

      l
      層專家對最終輸出分布的整體影響。

      該因子通過離線校準獲得,即比較移除該層專家前后模型輸出分布的差異,從而量化該層專家的全局貢獻。新的專家重要性分數由局部routing概率與全局因子共同決定。這樣一來,淺層專家會被更保守地保留,而深層專家可以更激進地跳過,實現真正的output-aware skipping。

      其次,MoDES引入雙模態閾值機制,為文本token與視覺token分別設定不同的skipping閾值。通過模態區分,使專家跳過決策更加精細化,避免誤刪關鍵專家。

      最后,為高效尋找最優閾值組合,MoDES設計了frontier search算法,利用性能與 skipping比例之間的單調性,將搜索復雜度從降為,在保證結果一致性的同時將搜索時間縮短約45倍。


      圖表5 校準與搜索時間對比

      實驗結果

      在主實驗中,QVGen在W4A4/W3A3在大規模實驗中,MoDES在多個主流多模態MoE模型上進行了系統評估。

      在Kimi-VL-A3B-Instruct上,當跳過83%專家時,多數現有expert skipping方法平均性能下降超過11%,而MoDES仍然保留96.25%原始性能(見圖表 6)。這一結果說明,高比例skipping并不必然導致性能崩潰,只要專家的重要性建模足夠準確,冗余專家可以被有效識別。

      在更大規模的Qwen3-VL-MoE-30B-A3B-Instruct上,MoDES的優勢更加明顯。在跳過88%專家的條件下,MC-MoE僅保留86.66%性能,DiEP保留85.30%,而MoDES仍然能夠保留97.33%原始性能(見圖表 7)。在13個圖像與視頻理解基準上,MoDES均取得最優或接近最優表現。


      圖表6 Kimi-VL不同skipping比例性能對比


      圖表7 跨backbone性能對比

      這一結果表明,高比例skipping并非不可行,關鍵在于是否能夠正確建模專家對最終輸出的全局貢獻以及不同模態token的行為差異。

      推理效率與量化兼容性

      在實際推理測試中,MoDES在H200 GPU上實現了顯著加速。在Prefill階段獲得約2×加速,在Decoding階段仍有約1.2×提升(見圖表 8)。由于MoDES為training-free方法,推理階段不引入額外計算開銷,因此加速效果更加穩定。

      此外,MoDES與混合精度量化具有良好兼容性。在低比特量化條件下仍能保持較高性能,說明skipping與量化可以從結構與數值兩個層面形成互補,共同降低多模態MoE的計算成本。


      圖表8 推理速度對比。(上)Qwen3-VL;(下)Kimi-VL。

      總結

      MoDES的核心貢獻在于:提出了一種真正output-aware、modality-aware的多模態專家跳過機制。

      通過顯式建模不同層專家對最終輸出分布的全局貢獻,以及不同模態token在專家網絡中的更新特性,MoDES證明了一件重要的事情:即便跳過80%以上的專家,只要跳得足夠「聰明」,模型性能依然可以穩定保持。

      在多模態模型規模持續擴大的背景下,這種基于輸出影響建模的skipping思路,為大模型推理效率優化提供了一條更加穩健且可落地的路徑。

      參考資料:

      https://arxiv.org/pdf/2511.15690

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      學校繳費33600元!東莞一家長哭訴已拼盡全力生活,還是力不從心

      學校繳費33600元!東莞一家長哭訴已拼盡全力生活,還是力不從心

      火山詩話
      2026-03-07 07:54:49
      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      小彭美識
      2026-03-08 10:46:00
      這是要復婚?過年丟下4年女友,直奔三亞陪佟麗婭!陳思誠太膈應人了

      這是要復婚?過年丟下4年女友,直奔三亞陪佟麗婭!陳思誠太膈應人了

      八卦王者
      2026-03-08 11:01:19
      起風了!表決結果出爐,22名綠委缺席!蔣萬安、盧秀燕高下立判!

      起風了!表決結果出爐,22名綠委缺席!蔣萬安、盧秀燕高下立判!

      浪子阿邴聊體育
      2026-03-08 04:13:40
      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      1年1100萬美金!聯盟第1!湖人2換1交易血賺,東契奇把話挑明

      世界體育圈
      2026-03-08 10:43:18
      足不出戶一鍵養龍蝦!美團推出OpenClaw遠程部署服務

      足不出戶一鍵養龍蝦!美團推出OpenClaw遠程部署服務

      快科技
      2026-03-07 12:37:27
      陶虹這腿無法直視了,徐導這么能賺錢為啥不保養一下

      陶虹這腿無法直視了,徐導這么能賺錢為啥不保養一下

      愛下廚的阿釃
      2026-03-06 20:11:39
      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      壹家言
      2026-03-04 19:37:20
      懸念不大了!NBA西部季后賽球隊,大概率這8支,勇士基本出局

      懸念不大了!NBA西部季后賽球隊,大概率這8支,勇士基本出局

      籃球掃地僧
      2026-03-07 15:18:27
      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協和醫院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      川普:伊朗只剩無條件投降!拉里賈尼成了頭號斬首目標

      川普:伊朗只剩無條件投降!拉里賈尼成了頭號斬首目標

      深度報
      2026-03-07 22:13:54
      鄧肯“接班人”實至名歸!文班亞馬生涯第三年數據高度復刻傳奇!

      鄧肯“接班人”實至名歸!文班亞馬生涯第三年數據高度復刻傳奇!

      田先生籃球
      2026-03-05 14:13:10
      高葉這衣服暴露了真實身材

      高葉這衣服暴露了真實身材

      科學發掘
      2026-03-07 22:21:36
      江蘇一女子當著丈夫和女兒的面點兩男模 還讓丈夫買單

      江蘇一女子當著丈夫和女兒的面點兩男模 還讓丈夫買單

      塵埃里的看客
      2026-03-07 17:05:51
      請收藏!WTT重慶冠軍賽賽程出爐,看點全梳理不錯過每個精彩瞬間

      請收藏!WTT重慶冠軍賽賽程出爐,看點全梳理不錯過每個精彩瞬間

      乒談
      2026-03-08 00:10:21
      男子養豪豬拔刺 每斤刺能賣400元

      男子養豪豬拔刺 每斤刺能賣400元

      閃電新聞
      2026-03-08 00:25:56
      局長被免職后去世,全局只有我去吊唁,后來他的妻子擔任市委書記

      局長被免職后去世,全局只有我去吊唁,后來他的妻子擔任市委書記

      秋風專欄
      2025-12-29 16:32:49
      漢纜股份這回徹底出圈了

      漢纜股份這回徹底出圈了

      蔚然先聲
      2026-03-08 08:32:12
      很遺憾這兩位沒有在一起,多么郎才女貌,天作之合,好般配呀

      很遺憾這兩位沒有在一起,多么郎才女貌,天作之合,好般配呀

      草莓解說體育
      2026-03-06 14:49:46
      賭徒的結局真的是一無所有嗎 網友講述百億老板到騙他300萬過程

      賭徒的結局真的是一無所有嗎 網友講述百億老板到騙他300萬過程

      侃神評故事
      2026-03-07 07:15:03
      2026-03-08 12:04:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14664文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      藝術
      教育
      房產
      手機
      公開課

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      教育要聞

      給孩子減負重磅消息

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      手機要聞

      麒麟9030產能火力全開!華為Mate 80系列銷量激增:已突破400萬臺

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版