<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻全模態模型開源!首創人聲配樂音效一次生成,圖像編輯指哪改哪

      0
      分享至


      智東西
      作者 李水青
      編輯 心緣

      智東西2月11日報道,今日,螞蟻集團開源全模態大模型Ming-flash-omni 2.0。在多項公開基準測試中,該模型的視覺語言理解、語音可控生成、圖像生成與編輯等能力表現突出,趕超Qwen3-Omini-30B-A3B-Instruct等同類模型。

      Ming-flash-omni 2.0是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂。用戶只需用自然語言下指令,即可對音色、語速、語調、音量、情緒與方言等進行精細控制。模型在推理階段實現了3.1Hz的極低推理幀率,實現了分鐘級長音頻的實時高保真生成。

      與螞蟻2025年5月推出的Ming-flash-omni Preview相比,Ming-flash-omni 2.0實現了跨代升級,側重于優化以下關鍵領域的功能:

      1、專家級多模態認知:它能精準識別動植物以及文化典故,并對文物進行專家級分析。通過將高分辨率視覺捕捉與龐大的知識圖譜相結合,該模型實現了“視覺到知識”的合成,知識理解能力更強。

      2、沉浸式可控統一聲學合成:它引入統一的端到端聲學生成流程,將語音、音頻和音樂集成于單一通道中。該模型利用連續自回歸算法結合擴散變換器 (DiT) 頭部,實現了零樣本語音克隆和精細的屬性控制,例如情感、音色和環境氛圍,大幅提高聽覺體驗。

      3、高動態可控圖像生成與處理:它采用原生多任務架構,整合了分割、生成和編輯功能,實現了精細的時空語義解耦。它在高動態內容創作方面表現卓越,包括大氣重建、無縫場景合成和上下文感知物體移除,且能在復雜的圖像處理任務中達到頂尖精度。

      目前,Ming-flash-omni 2.0的模型權重、推理代碼已在Hugging Face等開源社區發布,用戶也將可通過螞蟻百靈官方平臺Ling Studio在線體驗與調用。

      Hugging Face地址:
      https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
      GitHub地址:
      https://github.com/inclusionAI/Ming
      魔搭社區地址:
      https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
      體驗入口:
      https://ling.tbox.cn/chat

      一、動植物與知識識別變強,音頻三合一生成是特色

      首先來看看Ming-flash-omni 2.0的實際應用效果。智東西在Ling Studio還未收到更新,我們可以先從幾組官方公布的案例中來看看Ming-flash-omni 2.0能做什么。

      在多模態認知方面,Ming-flash-omni 2.0能較精準識別動植物,如下圖所示,當用戶上傳幾張馬的圖片和植物的圖片,Ming-flash-omni 2.0能夠比較準確分辨出馬和植物的品種。


      再看看Ming-flash-omni 2.0側重提升的文化典故識別能力。當用戶讓該模型分別介紹一張關于馬的文物照片和繪畫照片,其能夠比較準確的識別出這是“馬踏飛燕”和徐悲鴻的《奔馬圖》,并且進行了較專業的解讀,可以看到內置知識變強及知識理解能力的提升。


      Ming-flash-omni 2.0支持自由多模態切換,用戶可以用語音對話,讓Ming-flash-omni 2.0識別和生成多種模態的內容,這些動作都是交替進行的。

      在流媒體對話方面,螞蟻上傳了一個用Ming-flash-omni 2.0識別舞龍獅表演的視頻,其不僅能夠準確識別事物,還能夠講解背后文化知識,延遲較低。不過,其語音聽起來仍然沒有達到完全的真人感,能聽出來是AI聲音。

      在可控統一聲學合成方面,兩個人聲在講解Ming-flash-omni 2.0可以為音頻添加背景音樂、音效,而這個音頻本身正是Ming-flash-omni 2.0生成的。人聲之下墊有節奏明快的背景音樂。據悉,其還支持零樣本語音克隆和精細的屬性控制,例如情感、音色和環境氛圍。

      在圖像生成與處理方面,如下所示,當用戶輸入一張照片,并輸入一段提示詞,比如“背景換成澳大利亞藍天,姿勢自然一點”、“背景換成西湖并改成拍手”等,就可以得到所需的照片,能達到較高的修改精度。這一高精度能力在谷歌Nano Banana等專用模型那里也仍有難度,Ming-flash-omni 2.0實際表現如何,能否達到官方案例效果,還有待用戶親自實操后來評判。


      二、全模態能力匹敵專業模型,多項能力超Gemini 2.5 Pro

      看完實際應用,再來看看模型測評成績。

      在通用圖像理解方面,Ming-flash-omni 2.0在HallusionBench、MMvet測評上超越了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct等模型,具有較強的內容理解和知識能力,較少的幻覺情況。

      在文檔理解方面,Ming-flash-omni 2.0在ChartQA、OCRBench測評上超越了Gemini 2.5 Pro,在AI2D上得分略低于Gemini 2.5 Pro,但整體得分都在87分以上,在處理文檔、圖表識別等方面表現較好。

      在STEM(科學、技術、工程、數學)方面,Ming-flash-omni 2.0的測評表現全面超越Qwen3-Omini-30B-A3B-Instruct,得分接近Gemini 2.5 Pro。


      ▲Ming-flash-omni 2.0的實測表現

      在定位與內部知識方面,其在圖像中定位和指定特定對象的能力較強,接近90分,內置知識庫的準確性和豐富度得分也遠高于Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct。

      在多圖像理解方面,該模型在MVbench、CharadesSTA上的得分超過了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct,在MLVU上也表現較好,但略低于Gemini 2.5 Pro。

      在語音方面,作為業界首個全場景音頻統一生成模型,其在語音識別(WER越低越好)和語音生成準確率的表現都非常優異,在多個基準上領先。

      在圖像生成、編輯和分割方面,其在DPGBench、Geneval、RefCOCO-val等測評中都取得了匹敵專用模型的成績。

      三、統一架構,降低多模型串聯成本和復雜度

      業內普遍認為,多模態大模型最終會走向更統一的架構。但現實是“全模態”模型往往很難同時做到通用與專精,在特定單項能力上往往不及專用模型。

      Ming-omni系列正是在這一背景下持續演進,早期版本構建統一多模態能力底座,中期版本驗證規模增長帶來的能力提升,而最新2.0版本通過更大規模數據與系統性訓練優化,將全模態理解與生成能力推至開源領先水平,并在部分領域超越頂級專用模型。

      2025年5月,螞蟻開源了MoE架構的統一多模態大模型Ming-lite-omni,實現了以單一模型處理包括圖像、文本、音頻和視頻在內的廣泛輸入類型;2025年7月,螞蟻集團推出升級的Ming-lite-omni v1.5,在可控圖像生成、生成式圖像分割、深度及邊緣檢測三大維度能力上得到提升。

      2025年10月,螞蟻集團進一步開源了Ming-flash-omni-Preview,成為當時首個參數規模達到千億的開源全模態大模型。當時,Ming-flash-omni-Preview仍有不完善的地方,包括視覺文本理解能力與頂尖專用VL大模型仍存在一定差距語音多輪對話效果以及高質量的音色克隆仍需優化,在復雜布局文字渲染與編輯、特定IP角色的生成方面還有待提升。

      此次螞蟻集團將Ming-flash-omni 2.0在這些方面實現提升,達到了整體跨代的效果。Ming-flash-omni 2.0基于Ling-2.0架構(MoE,100B-A6B)訓練,主要圍繞“看得更準、聽得更細、生成更穩”三大進行了優化。


      視覺方面,該模型融合億級細粒度數據與難例訓練策略,顯著提升對近緣動植物、工藝細節和稀有文物等復雜對象的識別能力。

      音頻方面,其實現了語音、音效、音樂同軌生成,支持自然語言精細控制音色、語速、情緒等參數,并具備零樣本音色克隆與定制能力。

      圖像方面,其增強了復雜編輯的穩定性,支持光影調整、場景替換、人物姿態優化及一鍵修圖等功能,在動態場景中仍保持畫面連貫與細節真實。

      百靈模型負責人周俊談道,全模態技術的關鍵在于通過統一架構實現多模態能力的深度融合與高效調用。開源后,開發者可基于同一套框架復用視覺、語音與生成能力,顯著降低多模型串聯的復雜度與成本。

      Ming-flash-omni 2.0模型的開源,意味著其核心能力以“可復用底座”的形式對外釋放,為端到端多模態應用開發提供統一能力入口。

      結語:統一架構全模態模型加速發展

      隨著自回歸路線統一了語言模型領域,多模態領域能否出現一個統一的架構路線?國內外多家企業或機構展開了統一多模態學習的訓練,打造性能出色的原生多模態大模型,螞蟻集團在這一領域有頗多嘗試。

      盡管相比最頂尖的專業模型仍有差距,但以Ming-flash-omni 2.0為代表的全模態模型已經逼近專業模型性能。未來,團隊將持續優化視頻時序理解、復雜圖像編輯與長音頻生成實時性,完善工具鏈與評測體系,推動全模態技術在實際業務中規模化落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      悄悄5連勝!聯盟第1!西部豪門超級崛起,文班亞馬卻有所保留

      悄悄5連勝!聯盟第1!西部豪門超級崛起,文班亞馬卻有所保留

      世界體育圈
      2026-02-11 17:18:33
      主力資金 | 尾盤主力重點搶籌8股

      主力資金 | 尾盤主力重點搶籌8股

      數據寶
      2026-02-11 21:06:49
      白人飯真的很難吃嗎?其實我們都低估白人飯的優點了!

      白人飯真的很難吃嗎?其實我們都低估白人飯的優點了!

      阿天愛旅行
      2026-02-09 21:31:16
      記者:勇士堅信波爾津吉斯交易零風險且潛在回報極高

      記者:勇士堅信波爾津吉斯交易零風險且潛在回報極高

      懂球帝
      2026-02-11 19:25:06
      快過年了卻沒有興趣做任何事情,衛生沒掃、年貨沒辦、衣服沒買!

      快過年了卻沒有興趣做任何事情,衛生沒掃、年貨沒辦、衣服沒買!

      另子維愛讀史
      2026-02-10 18:05:17
      史詩級懸念!梅西登頂歷史第一人?他如何定義足球時代

      史詩級懸念!梅西登頂歷史第一人?他如何定義足球時代

      籃球看比賽
      2026-02-11 11:34:37
      卸任多年后,原三甲醫院院長主動投案!

      卸任多年后,原三甲醫院院長主動投案!

      梅斯醫學
      2026-02-11 16:49:30
      江蘇現狀已明確,蘇州、南京、淮安均不夠資格成為“超大城市”

      江蘇現狀已明確,蘇州、南京、淮安均不夠資格成為“超大城市”

      愛下廚的阿釃
      2026-02-11 18:54:57
      現在整個世界對中國不友好了,放眼全球都是跟我們作對的國家

      現在整個世界對中國不友好了,放眼全球都是跟我們作對的國家

      安安說
      2026-02-11 20:21:59
      Leader 禁止實習生碰代碼,我不聽,用 Agent Skills 修了個線上 Bug。他找我談話:今天轉正!

      Leader 禁止實習生碰代碼,我不聽,用 Agent Skills 修了個線上 Bug。他找我談話:今天轉正!

      程序員魚皮
      2026-02-11 19:21:34
      遭教練打罵索財!13歲體操女選手跳樓77天后,官方終于做出回應

      遭教練打罵索財!13歲體操女選手跳樓77天后,官方終于做出回應

      念洲
      2026-02-10 20:31:54
      冬奧會最新獎牌榜,挪威第1瑞士第2,中國隊遺憾丟奪金點,排第13

      冬奧會最新獎牌榜,挪威第1瑞士第2,中國隊遺憾丟奪金點,排第13

      球盲百小易
      2026-02-11 02:24:52
      女孩故意穿丑去相親,本想勸退竟被當場相中,網友:男子太精明了

      女孩故意穿丑去相親,本想勸退竟被當場相中,網友:男子太精明了

      觀察鑒娛
      2026-02-11 15:07:58
      火箭勝快船,4位替補遭雪藏!背靠背再戰,雙前鋒輪休,2陣迎巨變

      火箭勝快船,4位替補遭雪藏!背靠背再戰,雙前鋒輪休,2陣迎巨變

      熊哥愛籃球
      2026-02-11 20:17:56
      哈登庫里不入法眼!詹皇欽點NBA新賽季三大黑馬,還是第一人懂球

      哈登庫里不入法眼!詹皇欽點NBA新賽季三大黑馬,還是第一人懂球

      嘴炮體壇
      2026-02-11 20:24:18
      突發!002731,被證監會立案

      突發!002731,被證監會立案

      中國基金報
      2026-02-11 16:24:40
      浙江一小米車主遭特斯拉車主惡意別車、持續辱罵,特斯拉司機被扣9分、罰款100元,小米法務部發聲

      浙江一小米車主遭特斯拉車主惡意別車、持續辱罵,特斯拉司機被扣9分、罰款100元,小米法務部發聲

      大風新聞
      2026-02-11 19:14:05
      兩部電影連續五天零票房,《瘋狂動物城2》把國產片打懵了

      兩部電影連續五天零票房,《瘋狂動物城2》把國產片打懵了

      影視高原說
      2026-02-11 18:05:57
      鄉愛18:謝飛機變謝大炮,王小蒙劉英變土肥圓,我卻被宋青蓮驚艷

      鄉愛18:謝飛機變謝大炮,王小蒙劉英變土肥圓,我卻被宋青蓮驚艷

      糊咖娛樂
      2026-02-10 19:20:19
      NBA宣布!再見了,哈登!又喂出一個全明星中鋒

      NBA宣布!再見了,哈登!又喂出一個全明星中鋒

      籃球實戰寶典
      2026-02-11 14:37:42
      2026-02-11 21:39:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11218文章數 116968關注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      前美國財長顧問:我剛從中國回來 美國沒贏

      頭條要聞

      前美國財長顧問:我剛從中國回來 美國沒贏

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      健康
      房產
      時尚
      本地
      數碼

      轉頭就暈的耳石癥,能開車上班嗎?

      房產要聞

      177億元,砸向超級城更!海南這座城,正式起飛!

      冬季穿出高級感,全靠這3個招數簡單好懂,中年女人趕緊照搬

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      數碼要聞

      華為官網終于公布!MateBook Fold、MateBook Pro搭載麒麟X90芯片

      無障礙瀏覽 進入關懷版