網易首頁 > 網易號 > 正文申請入駐

擊敗GPT、Gemini，復旦×創(chuàng)智孵化創(chuàng)業(yè)團隊模思智能，語音模型上新

2026-01-20 18:29:15　來源: 機器之心Pro

北京舉報

分享至

編輯｜澤南、杜偉

在語音大模型賽道上，GPT-4o、Gemini 的能力遙遙領先。

近日，由復旦邱錫鵬擔任首席科學家的模思智能發(fā)布了多說話人自動語音識別（ASR）模型 MOSS-Transcribe-Diarize，不但可以語音轉文字，還可以將音頻片段與對話中不同的說話者關聯起來，性能超過了 GPT-4o、Gemini、豆包等一眾模型。

多人說話場景的語音轉錄是語音識別領域的落地痛點問題。以往模型一旦遇到多人搶著說話就可能聽不清、記不準。現在 MOSS-Transcribe-Diarize 摸透了多人說話邏輯，能夠輕松應對混亂插話、頻繁切話或者重疊說話等復雜場景，真正掌握了「說哪記哪、聽聲辯人」的技能。

MOSS-Transcribe-Diarize 在語音識別與分析領域具有突破性意義，解決了語音領域最后的落地痛點。MOSS-Transcribe-Diarize 支持 128K 的長上下文窗口，可以一次性輸入并處理長達 90 分鐘的音頻，突出了復雜場景下的抗干擾能力。

MOSS-Transcribe-Diarize 的跑分成績同樣亮眼。在 AISHELL-4、Podcast、Movies 等多個語音基準測試中，模型均取得了業(yè)界最優(yōu)（SOTA）的整體表現。尤其是在影視劇場景下，背景音更雜、多人同時說話、頻繁插話、聲音重疊，是語音轉錄里最亂、也最接近真實應用的情況。即便面對這樣的復雜語音條件，MOSS-Transcribe-Diarize 依然穩(wěn)定跑出了當前業(yè)界最優(yōu)的整體成績：

此處 GPT-4o 特指 gpt-4o-transcribe-diarize

再更具體一點，該模型實現了：

最低的 CER（字錯誤率）與 cpCER（最優(yōu)排列字錯誤率）：在多說話人混合與重疊場景下取得業(yè)內領先的轉錄準確率。
最佳的 Δcp 指標（說話人分離性能）：相比于其它因為長音頻切片而導致的說話人識別不一致的模型，MOSS-Transcribe-Diarize 保持了最好的說話人標簽準確性和一致性。
超長音頻處理：在面對超長音頻時，當前頂尖商業(yè)模型（如 GPT-4o Transcribe Diarize、Gemini 3 Pro）受限于輸入長度或輸出格式的穩(wěn)定性，而 MOSS-Transcribe-Diarize 能夠穩(wěn)定輸出完整的帶有說話人以及時間戳的語音轉錄結果。

實戰(zhàn)效果驚艷，經典名場面「華強買瓜」：

Mygo 的飛鳥山公園：

視頻鏈接：https://mp.weixin.qq.com/s/LoP4twE1X5UFSY3G7g42mQ

看起來 AI 模型可以把說話人和每個人所講的內容識別地清清楚楚，不論是嘈雜的環(huán)境音，人物的方言、俚語，還是因為情感波動表現出的喊叫、哭泣等都不會影響 AI 的判斷。

首個統(tǒng)一多模態(tài)模型，挑戰(zhàn) AI 語音最難題

MOSS-Transcribe-Diarize 的特點不僅在于語音能力，它作為統(tǒng)一的端到端多模態(tài)語音轉錄模型，能夠像人類一樣，在「聽」的過程中同時完成「聽懂內容」、「識別是誰說的」以及「記錄說話時間」這三件事。

它主要解決的是語音處理中一個經典且極具挑戰(zhàn)的問題：SATS，即「帶說話人歸屬和時間戳的轉錄」。想象一下，在參加環(huán)境嘈雜、一堆人在場的會議時，大家你一言我一語，亂哄哄一片。這種面向多說話人的轉錄既要求內容準確，也要標明「何人何時發(fā)言」。

但是，傳統(tǒng)的模塊化組件拼接方案（如自動語音識別 + 說話人日志）引入 LLM 的半級聯方案（使用自動語音識別和說話人日志生成候選內容，然后利用 LLM 修正錯誤）以及近期將識別與歸屬統(tǒng)一在多模態(tài)框架下的嘗試（如 Sortformer、SpeakerLM、JEDIS-LLM 等）都不同程度地存在著缺陷，比如級聯方案對于說話人重疊的音頻表現不魯棒，其他方案對長時間多說話人對話的轉錄效果不佳，亟需更優(yōu)的解決方案。

邱錫鵬團隊發(fā)布的 MOSS-Transcribe-Diarize 一掃現有 SATS 方案的不足，一舉解決了三大核心瓶頸，即長上下文窗口受限、長時記憶脆弱和缺乏原生時間戳。相關技術報告已在幾天前發(fā)布，同時官方也開放了API 接口，目前為限時免費期，感興趣的同學可自行體驗：

技術報告：https://arxiv.org/pdf/2601.01554
模型主頁：https://mosi.cn/models/moss-transcribe-diarize
API 接入：https://studio.mosi.cn/docs/moss-transcribe-diarize

其中展示了新模型的大量技術特點：其作為一個統(tǒng)一的多模態(tài)大語言模型，可以通過端到端的方式同時執(zhí)行語音識別（ASR）、說話人歸屬和時間戳預測，消除可能產生的誤差傳播。

為了達成這些效果，MOSS-Transcribe-Diarize 在模型架構、訓練數據組成上形成了一套自己的解法。

在架構設計上，它采用了統(tǒng)一的音頻 - 文本多模態(tài)架構

設計者將多說話人的聲學表示投影到預訓練文本 LLM 的特征空間中，使得該模型在單一的端到端框架內能夠聯合建模詞匯內容、說話人歸屬和時間戳預測。

模型在一個推理過程中直接輸出帶有 [S01]、[S02] 標簽和精確時間戳的文本。這種機制利用了語義信息來輔助說話人識別（例如，通過說話內容的連貫性來判斷是否換人了），極大地提高了識別準確率。

在訓練數據的組成上，采用「虛實結合」的策略

MOSS-Transcribe-Diarize 使用大量真實世界的對話音頻以及通過概率模擬器生成的合成數據進行訓練，增強了對重疊語音、輪替和聲學變化等性能指標的魯棒性。該模型訓練使用的真實數據包含了從公共語料庫中采樣的大量說話人片段，并覆蓋了現實中不同類型的多說話人場景。

得益于架構與數據層面的一系列巧思，MOSS-Transcribe-Diarize 才能夠一舉攻克行業(yè)長期以來面臨的長對話和多說話人轉錄難題。

長短音頻、切話疊音，多場景表現最優(yōu)

在與國內外頂級模型的較量中，MOSS-Transcribe-Diarize 在多個基準測試中拿下 SOTA 成績。它究竟強在哪些方面呢？我們接下來進行了一番深入探究。

1）在包含近 40 分鐘真實世界會議錄音的 AISHELL-4 數據集上，MOSS-Transcribe-Diarize 在 CER 和 cpCER 兩項指標上大幅優(yōu)于所有基線模型，并表現出了更低的 Δcp 值。這驗證了相較于純粹的 ASR 錯誤，由說話人歸屬錯誤引入的額外性能衰退要少得多，并由此證明了長上下文、端到端建模在長對話中維持說話人一致性方面的有效性。

相比之下，GPT-4o 和 Gemini 3 Pro 均無法可靠地處理 AISHELL-4 等長音頻輸入，前者受限于音頻輸入長度，無法完成完整錄音轉錄；后者無法生成符合既定說話人歸屬格式的有效輸出。

2）在Podcast 數據集（多說話人播客訪談場景）上，MOSS-Transcribe-Diarize 再次取得所有參評模型中最低的 CER 和 cpCER。盡管其他基線模型也達到很高的 ASR 準確率，但在 Δcp 值這點上落敗了。這表明，在頻繁的話輪轉換和長跨度的說話人重現場景下，MOSS-Transcribe-Diarize 能夠讓說話人歸屬更加準確。

3）在Movies 數據集（復雜影視劇場景）上，強調短促話語、快速說話人交替以及頻繁的語音重疊場景，MOSS-Transcribe-Diarize 面對這種短語音轉錄任務依然優(yōu)于所有基線模型。它還在 CER 和 cpCER 兩項指標之間保持了相對較小的差距，這意味著不僅能聽清說了什么，還能非常精準地判斷出是誰說的。

目標：情境智能

MOSS 系列大模型的背后，是國內 AI 領域領軍人物，復旦大學教授邱錫鵬帶領的團隊。在中國 AI 版圖中，他們顯得極具特色。該團隊的 MOSS 模型是國內第一個對標 ChatGPT 并開源的對話式大語言模型，并提出了最早的具有內生語音能力的大模型 SpeechGPT 和原生端到端全模態(tài)大模型 AnyGPT。團隊組建的模思智能（MOSI AI）則由上海創(chuàng)智學院與復旦大學自主孵化，是一家專注面向情境智能的多模態(tài)大模型公司。

他們保持了一條清晰且具有戰(zhàn)略眼光的技術路徑：讓大模型理解復雜的真實世界情境，并以情境多模態(tài)實現通用人工智能。在這條路線上，他們一直在不斷探索，發(fā)布了一系列多模態(tài)領域的前沿技術成果：

去年 7 月，模思開源了革命性的對話語音合成模型MOSS-TTSD，能夠根據完整的多人對話文本，直接生成高質量對話語音。
去年 11 月，MOSS-Speech的發(fā)布展現了語音 AI 技術的突破，實現了 SOTA 性能。這是一個無文本引導的真端到端語音大模型，可以在保持模型高智商程度的前提下，解決人機低時延交互的挑戰(zhàn)。
最近發(fā)布的MOSS-Transcribe-Diarize，則攻克了復雜日常多人對話場景的語音識別，對于多模態(tài) AI 的實際落地具有重要意義。

這一系列技術成果可覆蓋實時對話交互、復雜場景音頻生成、高魯棒性語音理解、多模態(tài)交互等核心能力場景，在流暢度、響應速度、理解能力和可控性方面實現了行業(yè)領先表現。

面向未來，模思將持續(xù)深耕讓 AI「理解用戶所處的全局情境」的多模態(tài)智能，通過規(guī)模化物理世界的復雜真實情境，實現真正自然、連貫、可成長、可信賴的智能交互，推動多模態(tài)交互與具身智能的產業(yè)化落地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.