快科技2月11日消息 今日,螞蟻集團開源發布全模態大模型 Ming-Flash-Omni 2.0。
在多項公開基準測試中,該模型在視覺語言理解、語音可控生成、圖像生成與編輯等關鍵能力表現突出,部分指標超越 Gemini 2.5 Pro,成為開源全模態大模型性能新標桿。
Ming-Flash-Omni 2.0 也是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂。
用戶只需用自然語言下指令,即可對音色、語速、語調、音量、情緒與方言等進行精細控制。
模型在推理階段實現了 3.1Hz 的極低推理幀率,實現了分鐘級長音頻的實時高保真生成,在推理效率與成本控制上保持業界領先。
![]()
螞蟻集團在全模態方向已持續投入多年,Ming-Omni 系列迭代三個版本,此次將 Ming-Flash-Omni 2.0 開源,意味著其核心能力以"可復用底座"的形式對外釋放,為端到端多模態應用開發提供統一能力入口。
據了解,Ming-Flash-Omni 2.0基于 Ling-2.0 架構(MoE,100B-A6B)訓練,圍繞"看得更準、聽得更細、生成更穩"三大目標全面優化。
視覺方面,融合億級細粒度數據與難例訓練策略,顯著提升對近緣動植物、工藝細節和稀有文物等復雜對象的識別能力;
音頻方面,實現語音、音效、音樂同軌生成,支持自然語言精細控制音色、語速、情緒等參數,并具備零樣本音色克隆與定制能力;
圖像方面,增強復雜編輯的穩定性,支持光影調整、場景替換、人物姿態優化及一鍵修圖等功能,在動態場景中仍保持畫面連貫與細節真實。
目前,Ming-Flash-Omni 2.0 的模型權重、推理代碼已在 Hugging Face 等開源社區發布。用戶也可通過螞蟻百靈官方平臺 Ling Studio 在線體驗與調用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.