<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      擊敗GPT、Gemini,復旦×創(chuàng)智孵化創(chuàng)業(yè)團隊模思智能,語音模型上新

      0
      分享至



      編輯|澤南、杜偉

      在語音大模型賽道上,GPT-4o、Gemini 的能力遙遙領先。

      近日,由復旦邱錫鵬擔任首席科學家的模思智能發(fā)布了多說話人自動語音識別(ASR)模型 MOSS-Transcribe-Diarize,不但可以語音轉文字,還可以將音頻片段與對話中不同的說話者關聯起來,性能超過了 GPT-4o、Gemini、豆包等一眾模型。

      多人說話場景的語音轉錄是語音識別領域的落地痛點問題。以往模型一旦遇到多人搶著說話就可能聽不清、記不準。現在 MOSS-Transcribe-Diarize 摸透了多人說話邏輯,能夠輕松應對混亂插話、頻繁切話或者重疊說話等復雜場景,真正掌握了「說哪記哪、聽聲辯人」的技能。

      MOSS-Transcribe-Diarize 在語音識別與分析領域具有突破性意義,解決了語音領域最后的落地痛點。MOSS-Transcribe-Diarize 支持 128K 的長上下文窗口,可以一次性輸入并處理長達 90 分鐘的音頻,突出了復雜場景下的抗干擾能力。

      MOSS-Transcribe-Diarize 的跑分成績同樣亮眼。在 AISHELL-4、Podcast、Movies 等多個語音基準測試中,模型均取得了業(yè)界最優(yōu)(SOTA)的整體表現。尤其是在影視劇場景下,背景音更雜、多人同時說話、頻繁插話、聲音重疊,是語音轉錄里最亂、也最接近真實應用的情況。即便面對這樣的復雜語音條件,MOSS-Transcribe-Diarize 依然穩(wěn)定跑出了當前業(yè)界最優(yōu)的整體成績:



      此處 GPT-4o 特指 gpt-4o-transcribe-diarize

      再更具體一點,該模型實現了:

      • 最低的 CER(字錯誤率)與 cpCER(最優(yōu)排列字錯誤率):在多說話人混合與重疊場景下取得業(yè)內領先的轉錄準確率。
      • 最佳的 Δcp 指標(說話人分離性能 ):相比于其它因為長音頻切片而導致的說話人識別不一致的模型,MOSS-Transcribe-Diarize 保持了最好的說話人標簽準確性和一致性。
      • 超長音頻處理:在面對超長音頻時,當前頂尖商業(yè)模型(如 GPT-4o Transcribe Diarize、Gemini 3 Pro)受限于輸入長度或輸出格式的穩(wěn)定性,而 MOSS-Transcribe-Diarize 能夠穩(wěn)定輸出完整的帶有說話人以及時間戳的語音轉錄結果。

      實戰(zhàn)效果驚艷,經典名場面「華強買瓜」:



      Mygo 的飛鳥山公園:



      視頻鏈接:https://mp.weixin.qq.com/s/LoP4twE1X5UFSY3G7g42mQ

      看起來 AI 模型可以把說話人和每個人所講的內容識別地清清楚楚,不論是嘈雜的環(huán)境音,人物的方言、俚語,還是因為情感波動表現出的喊叫、哭泣等都不會影響 AI 的判斷。

      首個統(tǒng)一多模態(tài)模型,挑戰(zhàn) AI 語音最難題

      MOSS-Transcribe-Diarize 的特點不僅在于語音能力,它作為統(tǒng)一的端到端多模態(tài)語音轉錄模型,能夠像人類一樣,在「聽」的過程中同時完成「聽懂內容」、「識別是誰說的」以及「記錄說話時間」這三件事。

      它主要解決的是語音處理中一個經典且極具挑戰(zhàn)的問題:SATS,即「帶說話人歸屬和時間戳的轉錄」。 想象一下,在參加環(huán)境嘈雜、一堆人在場的會議時,大家你一言我一語,亂哄哄一片。這種面向多說話人的轉錄既要求內容準確,也要標明「何人何時發(fā)言」。

      但是,傳統(tǒng)的模塊化組件拼接方案(如自動語音識別 + 說話人日志)引入 LLM 的半級聯方案(使用自動語音識別和說話人日志生成候選內容,然后利用 LLM 修正錯誤)以及近期將識別與歸屬統(tǒng)一在多模態(tài)框架下的嘗試(如 Sortformer、SpeakerLM、JEDIS-LLM 等)都不同程度地存在著缺陷,比如級聯方案對于說話人重疊的音頻表現不魯棒,其他方案對長時間多說話人對話的轉錄效果不佳,亟需更優(yōu)的解決方案。

      邱錫鵬團隊發(fā)布的 MOSS-Transcribe-Diarize 一掃現有 SATS 方案的不足,一舉解決了三大核心瓶頸,即長上下文窗口受限、長時記憶脆弱和缺乏原生時間戳。相關技術報告已在幾天前發(fā)布,同時官方也開放了API 接口,目前為限時免費期,感興趣的同學可自行體驗:

      • 技術報告:https://arxiv.org/pdf/2601.01554
      • 模型主頁:https://mosi.cn/models/moss-transcribe-diarize
      • API 接入:https://studio.mosi.cn/docs/moss-transcribe-diarize

      其中展示了新模型的大量技術特點:其作為一個統(tǒng)一的多模態(tài)大語言模型,可以通過端到端的方式同時執(zhí)行語音識別(ASR)、說話人歸屬和時間戳預測,消除可能產生的誤差傳播。

      為了達成這些效果,MOSS-Transcribe-Diarize 在模型架構、訓練數據組成上形成了一套自己的解法。

      在架構設計上,它采用了統(tǒng)一的音頻 - 文本多模態(tài)架構

      設計者將多說話人的聲學表示投影到預訓練文本 LLM 的特征空間中,使得該模型在單一的端到端框架內能夠聯合建模詞匯內容、說話人歸屬和時間戳預測。

      模型在一個推理過程中直接輸出帶有 [S01]、[S02] 標簽和精確時間戳的文本。這種機制利用了語義信息來輔助說話人識別(例如,通過說話內容的連貫性來判斷是否換人了),極大地提高了識別準確率。

      在訓練數據的組成上,采用「虛實結合」的策略

      MOSS-Transcribe-Diarize 使用大量真實世界的對話音頻以及通過概率模擬器生成的合成數據進行訓練,增強了對重疊語音、輪替和聲學變化等性能指標的魯棒性。該模型訓練使用的真實數據包含了從公共語料庫中采樣的大量說話人片段,并覆蓋了現實中不同類型的多說話人場景。

      得益于架構與數據層面的一系列巧思,MOSS-Transcribe-Diarize 才能夠一舉攻克行業(yè)長期以來面臨的長對話和多說話人轉錄難題。

      長短音頻、切話疊音,多場景表現最優(yōu)

      在與國內外頂級模型的較量中,MOSS-Transcribe-Diarize 在多個基準測試中拿下 SOTA 成績。它究竟強在哪些方面呢?我們接下來進行了一番深入探究。

      1)在包含近 40 分鐘真實世界會議錄音的 AISHELL-4 數據集上,MOSS-Transcribe-Diarize 在 CER 和 cpCER 兩項指標上大幅優(yōu)于所有基線模型,并表現出了更低的 Δcp 值。這驗證了相較于純粹的 ASR 錯誤,由說話人歸屬錯誤引入的額外性能衰退要少得多,并由此證明了長上下文、端到端建模在長對話中維持說話人一致性方面的有效性。

      相比之下,GPT-4o 和 Gemini 3 Pro 均無法可靠地處理 AISHELL-4 等長音頻輸入,前者受限于音頻輸入長度,無法完成完整錄音轉錄;后者無法生成符合既定說話人歸屬格式的有效輸出。



      2)在Podcast 數據集(多說話人播客訪談場景)上,MOSS-Transcribe-Diarize 再次取得所有參評模型中最低的 CER 和 cpCER。盡管其他基線模型也達到很高的 ASR 準確率,但在 Δcp 值這點上落敗了。這表明,在頻繁的話輪轉換和長跨度的說話人重現場景下,MOSS-Transcribe-Diarize 能夠讓說話人歸屬更加準確。



      3)在Movies 數據集(復雜影視劇場景)上,強調短促話語、快速說話人交替以及頻繁的語音重疊場景,MOSS-Transcribe-Diarize 面對這種短語音轉錄任務依然優(yōu)于所有基線模型。它還在 CER 和 cpCER 兩項指標之間保持了相對較小的差距,這意味著不僅能聽清說了什么,還能非常精準地判斷出是誰說的。



      目標:情境智能

      MOSS 系列大模型的背后,是國內 AI 領域領軍人物,復旦大學教授邱錫鵬帶領的團隊。在中國 AI 版圖中,他們顯得極具特色。該團隊的 MOSS 模型是國內第一個對標 ChatGPT 并開源的對話式大語言模型,并提出了最早的具有內生語音能力的大模型 SpeechGPT 和原生端到端全模態(tài)大模型 AnyGPT。團隊組建的模思智能(MOSI AI)則由上海創(chuàng)智學院與復旦大學自主孵化,是一家專注面向情境智能的多模態(tài)大模型公司。

      他們保持了一條清晰且具有戰(zhàn)略眼光的技術路徑:讓大模型理解復雜的真實世界情境,并以情境多模態(tài)實現通用人工智能。在這條路線上,他們一直在不斷探索,發(fā)布了一系列多模態(tài)領域的前沿技術成果:

      • 去年 7 月,模思開源了革命性的對話語音合成模型MOSS-TTSD,能夠根據完整的多人對話文本,直接生成高質量對話語音。
      • 去年 11 月,MOSS-Speech的發(fā)布展現了語音 AI 技術的突破,實現了 SOTA 性能。這是一個無文本引導的真端到端語音大模型,可以在保持模型高智商程度的前提下,解決人機低時延交互的挑戰(zhàn)。
      • 最近發(fā)布的MOSS-Transcribe-Diarize,則攻克了復雜日常多人對話場景的語音識別,對于多模態(tài) AI 的實際落地具有重要意義。

      這一系列技術成果可覆蓋實時對話交互、復雜場景音頻生成、高魯棒性語音理解、多模態(tài)交互等核心能力場景,在流暢度、響應速度、理解能力和可控性方面實現了行業(yè)領先表現。

      面向未來,模思將持續(xù)深耕讓 AI「理解用戶所處的全局情境」的多模態(tài)智能,通過規(guī)模化物理世界的復雜真實情境,實現真正自然、連貫、可成長、可信賴的智能交互,推動多模態(tài)交互與具身智能的產業(yè)化落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      又要下雪了!周日北京再迎降雪降溫 最高氣溫將重返冰點之下

      又要下雪了!周日北京再迎降雪降溫 最高氣溫將重返冰點之下

      北青網-北京青年報
      2026-01-24 11:07:02
      浙江20歲女留學生赴泰25天后慘遭同胞撕票身亡

      浙江20歲女留學生赴泰25天后慘遭同胞撕票身亡

      玲兒愛唱歌
      2026-01-23 12:04:17
      英特爾重挫17%,白銀拉升超7%,國際油價大漲,特朗普政府正考慮全面封鎖古巴石油進口

      英特爾重挫17%,白銀拉升超7%,國際油價大漲,特朗普政府正考慮全面封鎖古巴石油進口

      21世紀經濟報道
      2026-01-24 07:16:05
      欠中國的錢,委內瑞拉不還了?美財長:中國已無法再獲得委石油

      欠中國的錢,委內瑞拉不還了?美財長:中國已無法再獲得委石油

      通文知史
      2026-01-23 14:05:03
      奧斯卡再次來到上港隊!穆斯卡特親自出面接待他,隊友都點贊歡迎

      奧斯卡再次來到上港隊!穆斯卡特親自出面接待他,隊友都點贊歡迎

      懂個球
      2026-01-23 16:13:42
      英國首相:特朗普應就北約盟友“脫離前線”言論道歉

      英國首相:特朗普應就北約盟友“脫離前線”言論道歉

      新京報
      2026-01-24 10:08:23
      太陽官宣:杰倫-格林僅4分鐘腿筋傷勢復發(fā)退賽 本季只打4場

      太陽官宣:杰倫-格林僅4分鐘腿筋傷勢復發(fā)退賽 本季只打4場

      醉臥浮生
      2026-01-24 10:07:50
      不結婚咋解決生理需求?王嘉爾和張也的回答,讓多少明星羞愧難當

      不結婚咋解決生理需求?王嘉爾和張也的回答,讓多少明星羞愧難當

      洲洲影視娛評
      2026-01-23 20:44:41
      浙大才子周一超被執(zhí)行注射死刑,被按執(zhí)行床時,他卻突然號啕大哭

      浙大才子周一超被執(zhí)行注射死刑,被按執(zhí)行床時,他卻突然號啕大哭

      紅豆講堂
      2024-10-21 09:30:24
      黎姿太豐滿了,真空穿緊身裙都兜不住好身材,我感慨富商真會選人

      黎姿太豐滿了,真空穿緊身裙都兜不住好身材,我感慨富商真會選人

      蓓小西
      2026-01-24 09:28:14
      中國空軍立下規(guī)矩:從今以后,絕不允許有人對我大聲說話

      中國空軍立下規(guī)矩:從今以后,絕不允許有人對我大聲說話

      滄海旅行家
      2026-01-24 14:07:52
      浙江男子總感覺喉嚨不舒服,脖子右側有腫塊,確診HPV還有癌癥中晚期!這個夫妻親密習慣是誘因

      浙江男子總感覺喉嚨不舒服,脖子右側有腫塊,確診HPV還有癌癥中晚期!這個夫妻親密習慣是誘因

      環(huán)球網資訊
      2026-01-10 19:59:06
      嚴查教育內鬼呼聲再起,為什么教材又引發(fā)了社會爭議?

      嚴查教育內鬼呼聲再起,為什么教材又引發(fā)了社會爭議?

      楓冷慕詩
      2026-01-23 11:37:39
      汽車研發(fā)譚少鋒去世,年僅32歲,遺言:告別式放周末,不耽誤時間

      汽車研發(fā)譚少鋒去世,年僅32歲,遺言:告別式放周末,不耽誤時間

      天天熱點見聞
      2026-01-24 07:46:33
      A股:周末監(jiān)管組合拳砸來!2億股民迎重磅新規(guī),下周迎更大級別變盤

      A股:周末監(jiān)管組合拳砸來!2億股民迎重磅新規(guī),下周迎更大級別變盤

      股市皆大事
      2026-01-24 10:14:56
      中國股市穩(wěn)定復利的笨方法:持有一只股,保留50%倉位,長期做T

      中國股市穩(wěn)定復利的笨方法:持有一只股,保留50%倉位,長期做T

      股經縱橫談
      2026-01-18 16:12:10
      生產時我讓男閨蜜陪產,老公平靜離開后護士遞來賬單和信

      生產時我讓男閨蜜陪產,老公平靜離開后護士遞來賬單和信

      曉艾故事匯
      2026-01-19 08:02:20
      “花20年養(yǎng)孩子值嗎”,深圳一句官宣文案標語,網絡閱讀量近千萬

      “花20年養(yǎng)孩子值嗎”,深圳一句官宣文案標語,網絡閱讀量近千萬

      火山詩話
      2026-01-24 06:44:56
      失去中國市場后,大量水果爛地里賣不出去,現在開始后悔得罪中國

      失去中國市場后,大量水果爛地里賣不出去,現在開始后悔得罪中國

      花小貓的美食日常
      2026-01-24 11:33:05
      前女籃隊長宋曉波:退役后愛上風流主帥,共患難10年卻被隊友綠

      前女籃隊長宋曉波:退役后愛上風流主帥,共患難10年卻被隊友綠

      胡一舸南游y
      2026-01-05 13:21:24
      2026-01-24 14:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      專家:特朗普或在春天訪問中國 其被認為是"對華鴿派"

      頭條要聞

      專家:特朗普或在春天訪問中國 其被認為是"對華鴿派"

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      李微漪更新:狼王格林去世,3字淚目

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      房產
      健康
      藝術
      教育
      軍事航空

      房產要聞

      正式官宣!三亞又一所名校要來了!

      耳石脫落為何讓人天旋地轉+惡心?

      藝術要聞

      色彩之巔!法國蓬皮杜中心館藏藝術大師特展”在北京民生現代美術館開幕

      教育要聞

      難住大學生,如何求正方形面積

      軍事要聞

      俄美烏首次三方會談在阿聯酋舉行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丁香六月久久婷婷开心| 秋霞av无码一区二区三区试看| 国产精品久久久久久影视| av无码免费| 99re66| 中国免费A片XXXXXX| 好看午夜一鲁一鲁一鲁| 中文字幕精品久久久久人妻红杏1| 欧美国产在线一区| 99久久精品免费看国产一区二区三区 | 日韩美女亚洲性一区二区| 亚洲国产美女精品久久久| 亚洲精品国产成人99久久6| 欧洲熟妇色xxxxx欧美老妇伦| 南和县| 香蕉av777xxx色综合一区| 亚洲色成人网站| 妺妺窝人体色www婷婷| 中文字幕精品人妻| 天天躁日日躁AAAAⅩXXX| 国产一区国产精品自拍| 亚洲国产成人精品av区按摩 | 男人扒女人添高潮视频| www.yw尤物| 亚洲无码一卡二卡三卡| www.成人| 欧美亚洲国产一区二区三区| 久久中精品中文字幕入口| 国产精品偷伦视频免费观看了| 国产思思99re99在线观看| 亚洲精品国产主播一区二区| 日本三级欧美三级人妇视频黑白配 | 兴义市| 秋霞av鲁丝片一区二区| 亚洲AV秘?无码一区二三月夜| 99久久久无码国产精品免费| 国产熟女第三页| 国产精品成人网| 日韩AV中文字幕在线| 亚洲成人国产精品| 国产亚洲无线码一区二区|