<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      擊敗GPT、Gemini,復旦×創智孵化創業團隊模思智能,語音模型上新

      0
      分享至



      編輯|澤南、杜偉

      在語音大模型賽道上,GPT-4o、Gemini 的能力遙遙領先。

      近日,由復旦邱錫鵬擔任首席科學家的模思智能發布了多說話人自動語音識別(ASR)模型 MOSS-Transcribe-Diarize,不但可以語音轉文字,還可以將音頻片段與對話中不同的說話者關聯起來,性能超過了 GPT-4o、Gemini、豆包等一眾模型。

      多人說話場景的語音轉錄是語音識別領域的落地痛點問題。以往模型一旦遇到多人搶著說話就可能聽不清、記不準。現在 MOSS-Transcribe-Diarize 摸透了多人說話邏輯,能夠輕松應對混亂插話、頻繁切話或者重疊說話等復雜場景,真正掌握了「說哪記哪、聽聲辯人」的技能。

      MOSS-Transcribe-Diarize 在語音識別與分析領域具有突破性意義,解決了語音領域最后的落地痛點。MOSS-Transcribe-Diarize 支持 128K 的長上下文窗口,可以一次性輸入并處理長達 90 分鐘的音頻,突出了復雜場景下的抗干擾能力。

      MOSS-Transcribe-Diarize 的跑分成績同樣亮眼。在 AISHELL-4、Podcast、Movies 等多個語音基準測試中,模型均取得了業界最優(SOTA)的整體表現。尤其是在影視劇場景下,背景音更雜、多人同時說話、頻繁插話、聲音重疊,是語音轉錄里最亂、也最接近真實應用的情況。即便面對這樣的復雜語音條件,MOSS-Transcribe-Diarize 依然穩定跑出了當前業界最優的整體成績:



      此處 GPT-4o 特指 gpt-4o-transcribe-diarize

      再更具體一點,該模型實現了:

      • 最低的 CER(字錯誤率)與 cpCER(最優排列字錯誤率):在多說話人混合與重疊場景下取得業內領先的轉錄準確率。
      • 最佳的 Δcp 指標(說話人分離性能 ):相比于其它因為長音頻切片而導致的說話人識別不一致的模型,MOSS-Transcribe-Diarize 保持了最好的說話人標簽準確性和一致性。
      • 超長音頻處理:在面對超長音頻時,當前頂尖商業模型(如 GPT-4o Transcribe Diarize、Gemini 3 Pro)受限于輸入長度或輸出格式的穩定性,而 MOSS-Transcribe-Diarize 能夠穩定輸出完整的帶有說話人以及時間戳的語音轉錄結果。

      實戰效果驚艷,經典名場面「華強買瓜」:



      Mygo 的飛鳥山公園:



      視頻鏈接:https://mp.weixin.qq.com/s/LoP4twE1X5UFSY3G7g42mQ

      看起來 AI 模型可以把說話人和每個人所講的內容識別地清清楚楚,不論是嘈雜的環境音,人物的方言、俚語,還是因為情感波動表現出的喊叫、哭泣等都不會影響 AI 的判斷。

      首個統一多模態模型,挑戰 AI 語音最難題

      MOSS-Transcribe-Diarize 的特點不僅在于語音能力,它作為統一的端到端多模態語音轉錄模型,能夠像人類一樣,在「聽」的過程中同時完成「聽懂內容」、「識別是誰說的」以及「記錄說話時間」這三件事。

      它主要解決的是語音處理中一個經典且極具挑戰的問題:SATS,即「帶說話人歸屬和時間戳的轉錄」。 想象一下,在參加環境嘈雜、一堆人在場的會議時,大家你一言我一語,亂哄哄一片。這種面向多說話人的轉錄既要求內容準確,也要標明「何人何時發言」。

      但是,傳統的模塊化組件拼接方案(如自動語音識別 + 說話人日志)引入 LLM 的半級聯方案(使用自動語音識別和說話人日志生成候選內容,然后利用 LLM 修正錯誤)以及近期將識別與歸屬統一在多模態框架下的嘗試(如 Sortformer、SpeakerLM、JEDIS-LLM 等)都不同程度地存在著缺陷,比如級聯方案對于說話人重疊的音頻表現不魯棒,其他方案對長時間多說話人對話的轉錄效果不佳,亟需更優的解決方案。

      邱錫鵬團隊發布的 MOSS-Transcribe-Diarize 一掃現有 SATS 方案的不足,一舉解決了三大核心瓶頸,即長上下文窗口受限、長時記憶脆弱和缺乏原生時間戳。相關技術報告已在幾天前發布,同時官方也開放了API 接口,目前為限時免費期,感興趣的同學可自行體驗:

      • 技術報告:https://arxiv.org/pdf/2601.01554
      • 模型主頁:https://mosi.cn/models/moss-transcribe-diarize
      • API 接入:https://studio.mosi.cn/docs/moss-transcribe-diarize

      其中展示了新模型的大量技術特點:其作為一個統一的多模態大語言模型,可以通過端到端的方式同時執行語音識別(ASR)、說話人歸屬和時間戳預測,消除可能產生的誤差傳播。

      為了達成這些效果,MOSS-Transcribe-Diarize 在模型架構、訓練數據組成上形成了一套自己的解法。

      在架構設計上,它采用了統一的音頻 - 文本多模態架構

      設計者將多說話人的聲學表示投影到預訓練文本 LLM 的特征空間中,使得該模型在單一的端到端框架內能夠聯合建模詞匯內容、說話人歸屬和時間戳預測。

      模型在一個推理過程中直接輸出帶有 [S01]、[S02] 標簽和精確時間戳的文本。這種機制利用了語義信息來輔助說話人識別(例如,通過說話內容的連貫性來判斷是否換人了),極大地提高了識別準確率。

      在訓練數據的組成上,采用「虛實結合」的策略

      MOSS-Transcribe-Diarize 使用大量真實世界的對話音頻以及通過概率模擬器生成的合成數據進行訓練,增強了對重疊語音、輪替和聲學變化等性能指標的魯棒性。該模型訓練使用的真實數據包含了從公共語料庫中采樣的大量說話人片段,并覆蓋了現實中不同類型的多說話人場景。

      得益于架構與數據層面的一系列巧思,MOSS-Transcribe-Diarize 才能夠一舉攻克行業長期以來面臨的長對話和多說話人轉錄難題。

      長短音頻、切話疊音,多場景表現最優

      在與國內外頂級模型的較量中,MOSS-Transcribe-Diarize 在多個基準測試中拿下 SOTA 成績。它究竟強在哪些方面呢?我們接下來進行了一番深入探究。

      1)在包含近 40 分鐘真實世界會議錄音的 AISHELL-4 數據集上,MOSS-Transcribe-Diarize 在 CER 和 cpCER 兩項指標上大幅優于所有基線模型,并表現出了更低的 Δcp 值。這驗證了相較于純粹的 ASR 錯誤,由說話人歸屬錯誤引入的額外性能衰退要少得多,并由此證明了長上下文、端到端建模在長對話中維持說話人一致性方面的有效性。

      相比之下,GPT-4o 和 Gemini 3 Pro 均無法可靠地處理 AISHELL-4 等長音頻輸入,前者受限于音頻輸入長度,無法完成完整錄音轉錄;后者無法生成符合既定說話人歸屬格式的有效輸出。



      2)在Podcast 數據集(多說話人播客訪談場景)上,MOSS-Transcribe-Diarize 再次取得所有參評模型中最低的 CER 和 cpCER。盡管其他基線模型也達到很高的 ASR 準確率,但在 Δcp 值這點上落敗了。這表明,在頻繁的話輪轉換和長跨度的說話人重現場景下,MOSS-Transcribe-Diarize 能夠讓說話人歸屬更加準確。



      3)在Movies 數據集(復雜影視劇場景)上,強調短促話語、快速說話人交替以及頻繁的語音重疊場景,MOSS-Transcribe-Diarize 面對這種短語音轉錄任務依然優于所有基線模型。它還在 CER 和 cpCER 兩項指標之間保持了相對較小的差距,這意味著不僅能聽清說了什么,還能非常精準地判斷出是誰說的。



      目標:情境智能

      MOSS 系列大模型的背后,是國內 AI 領域領軍人物,復旦大學教授邱錫鵬帶領的團隊。在中國 AI 版圖中,他們顯得極具特色。該團隊的 MOSS 模型是國內第一個對標 ChatGPT 并開源的對話式大語言模型,并提出了最早的具有內生語音能力的大模型 SpeechGPT 和原生端到端全模態大模型 AnyGPT。團隊組建的模思智能(MOSI AI)則由上海創智學院與復旦大學自主孵化,是一家專注面向情境智能的多模態大模型公司。

      他們保持了一條清晰且具有戰略眼光的技術路徑:讓大模型理解復雜的真實世界情境,并以情境多模態實現通用人工智能。在這條路線上,他們一直在不斷探索,發布了一系列多模態領域的前沿技術成果:

      • 去年 7 月,模思開源了革命性的對話語音合成模型MOSS-TTSD,能夠根據完整的多人對話文本,直接生成高質量對話語音。
      • 去年 11 月,MOSS-Speech的發布展現了語音 AI 技術的突破,實現了 SOTA 性能。這是一個無文本引導的真端到端語音大模型,可以在保持模型高智商程度的前提下,解決人機低時延交互的挑戰。
      • 最近發布的MOSS-Transcribe-Diarize,則攻克了復雜日常多人對話場景的語音識別,對于多模態 AI 的實際落地具有重要意義。

      這一系列技術成果可覆蓋實時對話交互、復雜場景音頻生成、高魯棒性語音理解、多模態交互等核心能力場景,在流暢度、響應速度、理解能力和可控性方面實現了行業領先表現。

      面向未來,模思將持續深耕讓 AI「理解用戶所處的全局情境」的多模態智能,通過規模化物理世界的復雜真實情境,實現真正自然、連貫、可成長、可信賴的智能交互,推動多模態交互與具身智能的產業化落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新華社千筆樓:千條彈幕七成假,誰在給直播彈幕“注水”?

      新華社千筆樓:千條彈幕七成假,誰在給直播彈幕“注水”?

      澎湃新聞
      2026-01-21 13:49:33
      2-0!凱恩梅開二度+失點,拜仁反超皇馬,提前晉級歐冠16強

      2-0!凱恩梅開二度+失點,拜仁反超皇馬,提前晉級歐冠16強

      我的護球最獨特
      2026-01-22 06:08:31
      保利集團董事長調整

      保利集團董事長調整

      新京報政事兒
      2026-01-21 21:35:09
      官宣!亞足聯公布決賽裁判組,安東尼奧攤牌了:展望與日本隊之爭

      官宣!亞足聯公布決賽裁判組,安東尼奧攤牌了:展望與日本隊之爭

      大秦壁虎白話體育
      2026-01-21 21:01:47
      阿卡晉級首盤卻意外陷入苦戰,亨曼坦言,費雷羅走后他像野馬脫韁

      阿卡晉級首盤卻意外陷入苦戰,亨曼坦言,費雷羅走后他像野馬脫韁

      網球之家
      2026-01-21 22:20:57
      李湘“封號”后首現身!攜王詩齡香港購物超悠閑,瞬間在網絡上炸開了鍋

      李湘“封號”后首現身!攜王詩齡香港購物超悠閑,瞬間在網絡上炸開了鍋

      今古深日報
      2026-01-21 10:54:36
      紅星觀察|3比0大勝越南隊!創中國足球22年來最高光時刻,U23國足靠什么?

      紅星觀察|3比0大勝越南隊!創中國足球22年來最高光時刻,U23國足靠什么?

      紅星新聞
      2026-01-21 08:49:14
      日本!大崩盤開始了!

      日本!大崩盤開始了!

      大嘴說天下
      2026-01-22 04:30:03
      李湘前夫,鋃鐺入獄!

      李湘前夫,鋃鐺入獄!

      LULU生活家
      2026-01-21 14:36:09
      劍南春“掀桌了”!直接拿線下硬通貨打價格戰了!

      劍南春“掀桌了”!直接拿線下硬通貨打價格戰了!

      超級數學建模
      2026-01-21 22:38:03
      突發! 中餐館20人死傷! IS發動炸彈恐襲, 宣稱中國公民為攻擊目標!

      突發! 中餐館20人死傷! IS發動炸彈恐襲, 宣稱中國公民為攻擊目標!

      澳洲紅領巾
      2026-01-21 12:39:50
      鐵路公司黨委書記被查,大家關心的不是他違法犯罪而是名字怎么讀

      鐵路公司黨委書記被查,大家關心的不是他違法犯罪而是名字怎么讀

      杰絲聊古今
      2026-01-20 09:00:29
      廣東119-98大勝吉林 球員評價:奎因滿分,6人及格,3人低迷

      廣東119-98大勝吉林 球員評價:奎因滿分,6人及格,3人低迷

      籃球資訊達人
      2026-01-21 21:27:24
      40歲左右得女性這樣打扮,既優雅又有成熟女人的魅力

      40歲左右得女性這樣打扮,既優雅又有成熟女人的魅力

      牛彈琴123456
      2025-12-28 16:35:58
      閑魚不愧是全國最大的黑市,網民:只有你想不到,沒有你買不到

      閑魚不愧是全國最大的黑市,網民:只有你想不到,沒有你買不到

      小熊侃史
      2026-01-16 07:40:07
      美國急壞了:中國為什么遮住神舟20的舷窗?有什么不想讓人看到?

      美國急壞了:中國為什么遮住神舟20的舷窗?有什么不想讓人看到?

      軍機Talk
      2026-01-21 10:57:17
      肖國棟147,吳宜澤也轟生涯首桿147!趙心童2勝1負,張安達1勝2負

      肖國棟147,吳宜澤也轟生涯首桿147!趙心童2勝1負,張安達1勝2負

      陌識
      2026-01-22 05:12:27
      滿是心酸!過氣男頂流陪老板去酒局,倒酒、陪笑,都只是冰山一角

      滿是心酸!過氣男頂流陪老板去酒局,倒酒、陪笑,都只是冰山一角

      查爾菲的筆記
      2026-01-19 16:33:14
      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      番茄說史聊
      2026-01-21 10:06:55
      謎之操作!柬埔寨剛疏遠中國,泰國就火速接住中方巨額援助

      謎之操作!柬埔寨剛疏遠中國,泰國就火速接住中方巨額援助

      東風寄的千愁
      2026-01-22 05:52:28
      2026-01-22 06:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12162文章數 142547關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      本地
      健康
      時尚
      旅游
      教育

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復好心情

      打工人年終總結!健康通關=贏麻了

      締造仙女夢的人,去了天堂繼續縫制星光?

      旅游要聞

      天宮燈會明日啟幕

      教育要聞

      某高中電話旁邊墻上的兩個字,刺痛多少家長的心?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 四虎成人在线观看免费| 一级做a爰片在线播放| av中文无码韩国亚洲色偷偷| 亚洲五月天综合| 无码探花| 日本强好片久久久久久aaa| 亚洲日逼| 国模大胆一区二区三区| 潘金莲高清dvd碟片| 玩弄放荡人妇系列av在线网站| 狠狠爱无码一区二区三区| 水蜜桃自拍视频在线观看| 亚洲国产另类久久久精品网站 | 绵阳市| 婷婷亚洲综合五月天小说| 91偷拍视频| 国产精品久久久久久亚洲毛片| 91丨国产丨精品丨丝袜| 人妻无码av一区二区三区精品| 国精品无码一区二区三区在线看| 久久久久人妻精品一区三寸蜜桃 | 许昌县| 被灌满精子的波多野结衣| 伊人网狼人| 国精品无码一区二区三区左线| 五月丁香色情| 一本久久伊人热热精品中文字幕| 人妻精品视频| 亚洲3P| 99亚洲精品| 日日躁狠狠躁狠狠爱| 色偷偷女人的天堂亚洲网| 午夜福利宅福利国产精品| 国产女同疯狂作爱系列| 精品无码国产自产拍在线观看 | 亚洲精品国产av成拍色拍个| 免费可以在线看a∨网站| 国产偷自视频区视频| 中文字幕无码成人片| 国产日韩av二区三区| 日本中文字幕久久网站|