![]()
全模態大模型(Omnimodal Large Models, OLMs)能夠理解、生成、處理并關聯真實世界多種數據類型,從而實現更豐富的理解以及與復雜世界的深度交互。人工智能向全模態大模型的演進,標志著其從「專才」走向「通才」,從「工具」走向「伙伴」的關鍵點。
然而,如何在一個模型中同時兼顧強大的多模態理解與高質量生成,如何構建高效而統一的模型架構,如何設計合理的訓練方法和數據配比方案,仍是當前學術界與工業界共同的挑戰。
近日,哈工大深圳計算與智能研究院 Lychee 大模型團隊,在 2023 年研發的「立知」大語言模型基礎上(工信部和網信辦雙認證),基于 2024 年 5 月提出的原創 Uni-MoE 全模態大模型架構,正式發布第二代「立知」全模態大模型Uni-MoE-2.0-Omni。
該模型以大語言模型為核心,通過漸進式模型架構演進與訓練策略優化,將稠密大語言模型拓展為混合專家架構驅動的高效全模態大模型,實現了從「語言理解」到「多模態理解」,再到「理解與生成兼備」的跨越式升級!團隊圍繞以語言為核心的通用人工智能,通過引入全模態 3D RoPE 位置編碼、設計動態容量 MoE 架構以及全模態生成器等關鍵技術,有效打破了不同模態之間的壁壘,在維持高效計算性能的同時,實現了對圖像、視頻、文本與語音的統一理解、推理與生成。
值得一提的是,Uni-MoE-2.0-Omni 在圖像理解、視頻推理、音頻理解、語音生成、圖像生成與編輯等85 項基準上取得高度競爭性或領先的表現,在 76 項可對比評測中,Uni-MoE-2.0-Omni(75B Tokens)超越 Qwen2.5-Omni(1.2T Tokens)逾 50 項任務,不僅在視頻理解和全模態交互上取得顯著突破,更在長語音生成、多模態語音交互和可控圖像生成與編輯方面樹立了新標桿。
![]()
- 論文地址: https://arxiv.org/abs/2511.12609
- 項目地址: https://idealistxy.github.io/Uni-MoE-v2.github.io/
- 開源代碼: https://github.com/HITsz-TMG/Uni-MoE
- 開源模型: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
模型結構
![]()
Uni-MoE-2.0-Omni 以語言核心(LLM),通過統一的感知(Uni-Perception)與生成(Uni-Generation)模塊,實現對文本、圖像、視頻、音頻等多模態信號的全鏈路處理。這一架構由統一模態編碼、動態 MoE 以及全模態生成器三大核心組件構成,旨在打破模態間的壁壘,實現從感知到生成的全鏈路統一。
1. 統一模態編碼:為實現真正的多模態統一表示,Uni-MoE-2.0-Omni 采用了統一的 Token 化策略。在視覺方面,模型借助 SigLIP 編碼器處理任意分辨率的圖像與高幀率視頻,并通過滑動窗口編碼實現能力的平滑遷移;在音頻方面,基于 Whisper-Large-v3 將 30 秒音頻壓縮為僅 200 個 Token,顯著提升了長語音的理解效率。更重要的是,模型引入了Omni-Modality 3D RoPE機制,構建了一個覆蓋文本(時間)、圖像(空間)、視頻(時空)和音頻(絕對時間)的統一坐標系。這一設計徹底解決了跨模態位置編碼不一致的問題,為高精度視頻理解與視聽對齊奠定了堅實基礎。
2. 動態混合專家:Uni-MoE-2.0-Omni 的核心架構升級為新型的Dynamic-Capacity MoE。不同于傳統混合專家架構的固定路由,該架構支持動態專家數,即根據 Token 的難易程度自動分配算力,實現輕重緩急的自適應處理。同時,模型創新性地引入了三類專家角色:負責特定模態知識的路由專家、促進跨模態知識遷移的共享專家,以及用于躍層加速的空專家。配合路由梯度估計(Routing Gradient Estimation)技術,該架構有效解決了離散選擇無法反向傳播的痛點,在降低訓練與推理算力的同時,顯著提升了模型的穩定性與記憶管理能力。
3. 全模態生成器:Uni-MoE-2.0-Omni 通過特殊的控制 Token,將所有理解與生成任務統一納入語言模型的語義空間,實現了理解即生成的無縫流轉:在語音生成方面,其上下文信息驅動的 Uni-MoE-TTS可以實現兩分鐘以上的語音回復,支持中英三種音色。在視覺生成方面:引入任務感知的擴散模型,通過深度融合視覺、任務與內容信號來聯合驅動圖像生成與編輯,顯著提升了圖像編輯和復原的準確性。
訓練方法
![]()
針對混合專家架構在全模態大模型訓練中易出現不穩定的問題,該團隊設計了漸進式訓練策略,依次推進:跨模態對齊→專家預熱→MoE 微調與強化學習→生成式訓練。該漸進式的模型演進和訓練流程能夠以較少的數據量(75B),將稠密大語言模型 (Qwen2.5-7B) 高效擴展為全模態大模型,并保障在全模態數據環境下強化訓練的收斂穩定性。
針對多模態理解與生成任務在訓練中往往割裂的問題,該團隊提出以語言生成任務為錨點的多模態理解與生成聯合訓練方式。通過將圖像編輯與生成、語音合成等任務統一至語言生成框架,打破理解與生成之間的內在界限,實現兩者能力的協同增強與雙向賦能。
性能評估
![]()
為了驗證 Uni-MoE-2.0-Omni 的全能實力,研究團隊在多達 85 個基準測試上進行了地毯式評估。結果顯示,該模型在理解能力與生成質量上均取得了質的飛躍,不僅在35 個任務上達到最佳性能(SOTA),更在 50 個評估任務上全面超越了 1.2T Token 訓練的 Qwen2.5-Omni,其中在 8 個視頻評估基準和 4 個全模態理解基準較 Qwen2.5-Omni提升 7%,展現了極高的數據利用效率與架構優勢。
![]()
全模態理解
![]()
視頻理解
![]()
可控生成與圖像復原
![]()
多模態語音交互問答
功能展示
場景一:視覺數學推理
給它一個圖表題,它不僅具備 OCR 能力,而且能基于 OCR 結果進行數學推理。
![]()
場景二:圖像推理生成
生成冬天的蘋果園時,考慮季節因素,避免「畫蛇添足」。
![]()
![]()
場景三:人像圖片修飾
保持人物主體不變,根據指令修改圖片。
![]()
場景四:圖像質量修復
給它雨 / 霧 / 雪 / 暗等低質量圖片,秒變清晰原圖。
![]()
場景五:識圖語音助手
給它一張照片,精確定位旅游景點。
![]()
場景六:多輪對話伙伴
化身智慧助手,精準捕捉話題流轉,連續響應用戶意圖。
![]()
總結與展望
Uni-MoE-2.0-Omni 是一個架構先進、完全開源的全模態大模型。從 Uni-MoE 1.0 到 2.0,該系列模型不僅驗證了將稠密大語言模型擴展為全模態模型的路徑,更實現了從單純的「多模態理解」向「理解生成一體化」的跨越。該模型的發布,為社區提供了一個強有力的全模態基座,其代碼、模型權重及數據清單的開源,將進一步推動通用多模態人工智能的研究與應用發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.