![]()
語音,或許是最快跑通 PMF 的模型。
沉寂已久的語音大模型的市場(chǎng),在 2025 年又重新熱了起來。
硬件端,如果以單品銷量突破百萬為標(biāo)志,那么Plaud為代表的 AI 轉(zhuǎn)錄筆、AI 耳機(jī),這些與 AI 語音強(qiáng)綁定的硬件,或許是大模型落地中為數(shù)不多成功的品類。
同時(shí),伴隨阿里、字節(jié)等大廠,華米 OV 等傳統(tǒng)硬件公司,乃至 ikko、時(shí)空壺、黃鸝智聲等創(chuàng)新硬件公司下場(chǎng),語音 AI 硬件已經(jīng)成為炙手可熱的品類。
硬件端的熱度,傳導(dǎo)到算法層:今年以來,包括OpenAI GPT-4o語音系列、Anthropic Claude語音模式、Mistral Voxtral系列、ElevenLabs Eleven v3等語音模型先后亮相。
到了年末,發(fā)布變得更加密集,微軟 12 月 23 日開源VibeVoice-Realtime-0.5B、谷歌 12 月 11 日推出Gemini TTS 2.5,xAI 12 月 17 日發(fā)布 Grok Voice Agent API……
緊隨其后,12 ? 23 ?的飛天發(fā)布時(shí)刻,阿里官宣升級(jí)與發(fā)布通義百聆系列:Fun-ASR(語音識(shí)別)、開源版Fun-ASR-Nano(0.8B);Fun-CosyVoice3(語音合成)、開源版 Fun-CosyVoice3(0.5B);同日,Fun-Audio-Chat(端到端語音交互)發(fā)布,并宣布開源 Fun-Audio-Chat-8B,接力棒開始逐漸傳遞到中國(guó)團(tuán)隊(duì)的手中。
至此,一個(gè)越來越清晰的信號(hào)已經(jīng)出現(xiàn):相比文本類模型免費(fèi)產(chǎn)品內(nèi)卷,視頻類模型卡在成本高但付費(fèi)率低的困境;2025 年率先實(shí)現(xiàn)PMF 的大模型類別,或許出現(xiàn)在語音賽道。
那么語音大模型是如何又火了起來?背后的原因幾何?為什么又說它會(huì)是最早實(shí)現(xiàn) PMF 的大模型類別,而市場(chǎng)又需要怎樣的語音大模型?
我們不妨以最新升級(jí)發(fā)布Fun-ASR模型與Fun-CosyVoice3模型為代表,來拆解這場(chǎng)語音賽道的逆襲之戰(zhàn)。
01
語音大模型,為什么又火起來了?
如果回望 2024 年百模大戰(zhàn),大概會(huì)發(fā)現(xiàn)一個(gè)細(xì)節(jié):當(dāng)時(shí)幾乎所有 AI 發(fā)布會(huì),都會(huì)把長(zhǎng)文本或者炫酷的視頻生成作為主菜,而語音模型,往往只作為企業(yè)具備全模態(tài) AI 能力的一個(gè)不起眼的佐證,被一筆帶過。
這種邊緣化并非偶然。早在前一波 AI 浪潮中,ASR(自動(dòng)語音識(shí)別)和 TTS(文本轉(zhuǎn)語音)就已展現(xiàn)出「早熟」特質(zhì):會(huì)議軟件的實(shí)時(shí)轉(zhuǎn)寫、社交 APP 的語音轉(zhuǎn)文字,這些功能早已打得滿場(chǎng)開花,讓市場(chǎng)產(chǎn)生了語音 AI 市場(chǎng)早已飽和的錯(cuò)覺。
但這種飽和的本質(zhì),其實(shí)是一種技術(shù)完成度 90% 帶來的錯(cuò)覺。ASR(自動(dòng)語音識(shí)別)的準(zhǔn)確率看似很高,日常對(duì)話能到 90% 以上,但一碰到專業(yè)場(chǎng)景就掉鏈子:
金融會(huì)議上,「LPR 利率」能被識(shí)別成「LPR 利潤(rùn)」,差一個(gè)字就讓數(shù)據(jù)失去意義;醫(yī)療問診中,「腎小球?yàn)V過率」被轉(zhuǎn)寫成「腎小,求過濾」,專業(yè)術(shù)語直接變外行話。
而 TTS 的尷尬更直觀,早期合成音要么像機(jī)器人讀課文,平鋪直敘毫無感情,要么連「不太行(xíng)」和「太行(háng)王屋」這樣的多音字都分不清,更別提還原真人說話時(shí)的呼吸間隙、情緒波動(dòng),甚至偶爾的卡頓細(xì)節(jié)。
也正因此,語音技術(shù)長(zhǎng)期被困在網(wǎng)頁朗讀、導(dǎo)航播報(bào)等低價(jià)值場(chǎng)景里,無法觸及數(shù)字人、有聲書、商業(yè)配音等高價(jià)值領(lǐng)域。
直到大模型技術(shù)的突破,終于補(bǔ)上了最關(guān)鍵的 10%。
首先是音頻建模難題的破解。過去 TTS 的核心痛點(diǎn),是自然度:怎么讓 AI 知道一句話里該重讀哪個(gè)詞、哪里該停頓。比如「我今天吃了三碗飯」,正常人會(huì)重讀「三碗」強(qiáng)調(diào)數(shù)量,但早期 TTS 可能把「今天」讀得最重,來雖然沒錯(cuò),但對(duì)會(huì)聽眾,就會(huì)造成昨天沒吃飯的潛層含義誤讀。
而大模型通過學(xué)習(xí)海量真人語音的韻律特征,不僅解決了重音、多音這樣的老問題,甚至能還原出笑場(chǎng)、陰陽怪氣這類細(xì)微情緒,F(xiàn)un-CosyVoice3 甚至已經(jīng)能做到開口即真聲,說什么都像本?,會(huì)笑、會(huì)喘、有情緒,具有百種好聽??任你選。
其次是 ASR 從「逐字轉(zhuǎn)寫」到「語義轉(zhuǎn)寫」識(shí)別準(zhǔn)確率的最后一公里突破。傳統(tǒng)模型只能做語音轉(zhuǎn)碼工,遇到口語化表達(dá)、網(wǎng)絡(luò)熱梗、場(chǎng)景化表達(dá)就抓瞎。比如有人玩梗說「后人管乾隆叫章總」,過去的模型可能把「乾隆」識(shí)別為「潛龍」或者「錢龍」,甚至斷句成「管錢、龍」,相應(yīng)的后半句「章總」的調(diào)侃,也會(huì)被誤識(shí)別為「張總」。而 Fun-ASR 能直接識(shí)別為專業(yè)縮寫,甚至能根據(jù)上下文判斷「章總」是特定指代,而非「張總經(jīng)理」的簡(jiǎn)稱。
建立在此基礎(chǔ)之上,硬件商業(yè)模式的跑通,成了語音大模型爆發(fā)的催化劑。市場(chǎng)逐漸意識(shí)到,AI 時(shí)代的交互模式中,語音或許會(huì)智能手機(jī)時(shí)代的觸摸+視覺更加便捷。
人和人之間最直接的交互媒介是語音,但不同語種人群如何交流需要借助 AI 語音翻譯;冗長(zhǎng)的會(huì)議過程,如何提升效率、總結(jié)重點(diǎn),同樣離不開語音技術(shù)。
此外,過去需要打開某個(gè)功能,即使熟練操作的年輕人,也需要在 APP 不同一二級(jí)入口、小程序之間跳轉(zhuǎn),在此之前,還需要先躲過搖一搖的漫長(zhǎng)開屏暴擊。畢竟,一不留神,就會(huì)從學(xué)習(xí)軟件跳到外賣 APP——知識(shí)大門里的精神食糧還顆粒未見,外賣員就已經(jīng)帶著深夜奶茶炸串按響了家門口的門鈴。而 AI 時(shí)代,只需要一句命令,「幫我打開 XX 軟件的《哲學(xué)二十講》有聲書,1.5 倍速播放」就能一切搞定。對(duì)年輕人而言,是效率提升,是不熟悉操作的老年人來說,則是擁抱智能時(shí)代最簡(jiǎn)單的方式。
語音,也在這一時(shí)期有了成為 AI 時(shí)代硬件超級(jí)入口的可能。
與此同時(shí),相比需要在云端才能高效運(yùn)行的視覺、文本大模型,語音模型被本地化的難度更低、模型效果損失更低,也更容易被直接搭載到手機(jī)、耳機(jī)、眼鏡等現(xiàn)有硬件形態(tài)。
這一點(diǎn),華強(qiáng)北的商家最有發(fā)言權(quán)。有媒體調(diào)查發(fā)現(xiàn),在華強(qiáng)北,一個(gè)攝像功能的眼鏡需要至少三五百,而一個(gè)搭載語音功能的耳機(jī),借助快速成型的模組解決方案、軟件解決方案、組裝、分銷等細(xì)分產(chǎn)業(yè)鏈環(huán)節(jié),最低幾十元就能拿貨,一舉在今年年初就賣成了爆品,甚至遠(yuǎn)銷海外,以 9.9 美元的價(jià)格血洗美國(guó)市場(chǎng)。
而當(dāng)所有人都涌到語音硬件賽道淘金時(shí),提供核心算法的賣鏟人,自然迎來了最好的時(shí)代。
02
市場(chǎng)需要怎樣的語音大模型?
語音模型的能力,會(huì)直接決定整個(gè)市場(chǎng)的天花板。
但過去一個(gè)行業(yè)常見的技術(shù)難題在于:客戶想要一個(gè)能識(shí)別所有場(chǎng)景的 ASR 模型,最后發(fā)現(xiàn),連他們公司的簡(jiǎn)稱都識(shí)別不出來。這本質(zhì)其實(shí)是場(chǎng)景的碎片化,與模型通用性的沖突。
場(chǎng)景層面,客戶需要模型能夠應(yīng)對(duì)復(fù)雜環(huán)境、能應(yīng)對(duì)強(qiáng)背景音干擾、實(shí)時(shí)流式輸出。能力上,還要支持中英文混合輸入、多語言與方言、能夠理解場(chǎng)景詞、支持聲音定制,最好還能被安裝進(jìn)本地硬件。
但很顯然,一個(gè)模型不可能解決以上所有難題。
也是因此,此次發(fā)布的通義百聆,除了滿血 Fun-ASR、Fun-CosyVoice、Fun-Audio-Chat 模型,還同步開源了Fun-ASR-Nano(0.8B)、Fun-CosyVoice3(0.5B),Fun-Audio-Chat-8B,針對(duì)不同場(chǎng)景做了精準(zhǔn)打擊。
接下來,我們可以通過幾個(gè)典型案例,看看不同場(chǎng)景下,好的語音模型該具備哪些能力。
語音技術(shù)當(dāng)前最常用的剛需場(chǎng)景當(dāng)屬會(huì)議。在此場(chǎng)景下,會(huì)議錄音轉(zhuǎn)寫是剛需,但也是痛點(diǎn):會(huì)議室里的空調(diào)聲、翻筆記本的雜音、遠(yuǎn)處同事的討論聲,突然的咳嗽聲,都會(huì)讓 ASR 集體失聰。
Fun-ASR 針對(duì)這個(gè)場(chǎng)景做了遠(yuǎn)場(chǎng)降噪優(yōu)化。通過模擬會(huì)議室、車載、工業(yè)現(xiàn)場(chǎng)等 高噪聲環(huán)境,用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型過濾干擾音。實(shí)測(cè)數(shù)據(jù)顯示,以上復(fù)雜的場(chǎng)景下,F(xiàn)un-ASR 的識(shí)別準(zhǔn)確率能達(dá)到 93%。
![]()
更實(shí)用的是流式識(shí)別能力。傳統(tǒng) ASR 需要等整段語音結(jié)束才能輸出文字,而 Fun-ASR 支持邊說邊出字,首字延遲低至毫秒級(jí)別。也就是說,你剛說完「接下來我們討論 Q4 計(jì)劃」,文字就已經(jīng)出現(xiàn)在屏幕上,這對(duì)實(shí)時(shí)字幕、會(huì)議直播等場(chǎng)景至關(guān)重要。
會(huì)議之外,多語言混說的翻譯場(chǎng)景,也是很多跨境商家、留學(xué)黨、出國(guó)旅游黨的一大痛點(diǎn)。做跨境電商談判的商家可能遇到過這種尷尬:和日本客戶溝通時(shí),既要和同事說中文「這個(gè)產(chǎn)品的毛利率是 20%」,又要對(duì)客戶說日語「発送時(shí)間は 3 日です」(發(fā)貨時(shí)間 3 天),還夾雜英文「MOQ 是 100 件」,傳統(tǒng) ASR 要么只能識(shí)別單一語言,要么把「MOQ」拆成「M-O-Q」。
Fun-ASR 支持 31 種語言的自由混說,不需要預(yù)先設(shè)置語種,模型就能自動(dòng)判斷并識(shí)別。比如輸入「このカフェの wi-fi が不安定で、google meet で切斷された」(這家咖啡館的 WiFi 不穩(wěn)定,在 Google Meet 上斷連了),其中包含得日語、英文,F(xiàn)un-ASR 都能準(zhǔn)確轉(zhuǎn)寫。
翻譯場(chǎng)景除了需要準(zhǔn)確,如果能做到翻譯音色與原始音色保持一致,那么在商務(wù)洽談、文化內(nèi)容出海等場(chǎng)景中將極大提升表達(dá)的效率。為此,F(xiàn)un-CosyVoice3 在能力建設(shè)上,支持了跨語種音色克隆。基于用戶的普通話錄音,就能生成粵語、日語、英語的語音,覆蓋 9 大語種 + 18 種中文方言及口音。
![]()
比如用一段中文「今天天氣很好」的錄音,克隆后生成日語「今日は天気が良いです」,聽感上幾乎是同一個(gè)人的發(fā)音,相當(dāng)于一個(gè)人頂一個(gè)翻譯+配音團(tuán)隊(duì)。并且?包延遲下降 50%,交互更絲滑,顯著提升語?助?、智能客服等場(chǎng)景下的響應(yīng)感知。
除了以上通用場(chǎng)景,對(duì)醫(yī)療、金融、工業(yè)等領(lǐng)域的語音識(shí)別來說,最大的難點(diǎn)是專業(yè)術(shù)語。比如醫(yī)療會(huì)議中的「腎小球?yàn)V過率」「三磷酸腺苷」,金融討論中的「LPR 加點(diǎn)」「量化寬松」,如果 ASR 不認(rèn)識(shí)這些詞,轉(zhuǎn)寫結(jié)果就會(huì)變成天書。
Fun-ASR 引入了 RAG(檢索增強(qiáng)生成)機(jī)制,解決了這個(gè)痛點(diǎn)。簡(jiǎn)單來說,就是給模型建了一個(gè)專業(yè)詞典庫(kù):用戶可以導(dǎo)入行業(yè)術(shù)語(比如醫(yī)院的科室名稱、金融的產(chǎn)品名稱),模型在識(shí)別時(shí)會(huì)自動(dòng)檢索詞典,確保專業(yè)詞不被認(rèn)錯(cuò)。更關(guān)鍵的是,這個(gè)詞典庫(kù)的容量從傳統(tǒng)的 1000 條擴(kuò)展到 10000 條,且不影響通用場(chǎng)景的識(shí)別準(zhǔn)確率。
尤其值得一提的場(chǎng)景是數(shù)字人、AI 客服、AI 硬件交互這樣的高價(jià)值場(chǎng)景。過去要想這些場(chǎng)景的實(shí)時(shí)智能互動(dòng),通常需要 ASR + LLM + TTS 多模塊拼接。這不僅會(huì)造成模型架構(gòu)上的冗余臃腫、部署鏈路繁瑣,還會(huì)因多模塊間的數(shù)據(jù)傳輸、指令調(diào)度產(chǎn)生大量耗時(shí),讓整體的首包延遲大幅增加,很難滿足實(shí)時(shí)交互的體驗(yàn)要求。比如數(shù)字人直播出現(xiàn)嘴型與應(yīng)答脫節(jié)、AI 客服讓用戶等待過久、智能硬件語音交互有明顯卡頓感。
Fun-Audio-Chat 則能實(shí)現(xiàn)直接用戶語音輸入-模型語音輸出的端到端能力,并且保持整體的高智商、高情商、及時(shí)反映。此外,用戶還能用它實(shí)現(xiàn)情緒、說話風(fēng)格、語速、高低音、音量的定制。從而在數(shù)字人場(chǎng)景中,讓虛擬主播、虛擬講師、政企數(shù)字分身的語音表達(dá)更貼合人設(shè);在 AI 客服場(chǎng)景里,定制符合企業(yè)品牌調(diào)性的溝通語態(tài),適配金融、教育、政務(wù)等不同行業(yè)的服務(wù)規(guī)范。
而對(duì)數(shù)據(jù)敏感的場(chǎng)景(比如機(jī)房巡檢、軍工設(shè)備)來說,除了要準(zhǔn)確率、實(shí)時(shí)率,語音模型還不能聯(lián)網(wǎng),必須本地部署,這就要求模型體積小、性能強(qiáng)。
通義此次開源的 Fun-ASR-Nano(0.8B)和 Fun-CosyVoice3(0.5B)、Fun-Audio-Chat-8B,就是為本地部署設(shè)計(jì)的。Fun-Audio-Chat-8B,其參數(shù)量意味著,用戶借助一張 24GB 的 4090 就能以 FP16 的精度在本地運(yùn)行模型,實(shí)現(xiàn)高質(zhì)量的端到端語音交互;Fun-ASR-Nano 以及 Fun-CosyVoice3-0.5B 更夸張,0.8B 以及 0.5B 的參數(shù),也就意味著其在手機(jī)端這樣的移動(dòng)終端上就能實(shí)現(xiàn)實(shí)時(shí)語音識(shí)別與語音合成(FP16 精度格式下,靜態(tài)存儲(chǔ)成本約為 1G,動(dòng)態(tài)運(yùn)行開銷大概為 1.5G,和 MOBA 類手游團(tuán)戰(zhàn)場(chǎng)景的開銷不相上下)。
03
尾聲
AI 耳機(jī)、轉(zhuǎn)錄筆的爆發(fā),讓市場(chǎng)看到了語音賽道的巨大潛力。但要做好語音大模型這門賣鏟人的生意,門檻遠(yuǎn)比淘金的硬件廠商更高——它不僅要求技術(shù)過關(guān),還需要企業(yè)同時(shí)具備開源運(yùn)營(yíng)與商業(yè)化能力。
商業(yè)化不必多說,這是核心的收入來源。
開源的意義則在于滿足語音場(chǎng)景的碎片化需求。從 Transformer 到通義千問 Qwen、通義萬相 Wan,開源一直是 AI 技術(shù)突破的關(guān)鍵。對(duì)語音賽道來說,不同行業(yè)、不同場(chǎng)景的需求千差萬別,單靠廠商的標(biāo)準(zhǔn)化 API,遠(yuǎn)遠(yuǎn)無法滿足所有個(gè)性化需求。而通過共享基線模型,開發(fā)者可以低成本地進(jìn)行差異化探索,比如優(yōu)化特定方言與場(chǎng)景的識(shí)別、提升小語種的合成質(zhì)量。
阿里通義團(tuán)隊(duì)的實(shí)踐印證了這一點(diǎn):從 2023 年至今,其已開源的 300 多款模型,覆蓋文本、視覺、語音等全模態(tài),參數(shù)從 0.5B 到 480B 全尺寸。這種開源策略,不僅讓創(chuàng)業(yè)公司、個(gè)人開發(fā)者能低成本利用高精度語音模型搭建應(yīng)用,也讓阿里通過生態(tài)效應(yīng)掌握了賽道主動(dòng)權(quán)。
更重要的是,開源降低了語音技術(shù)的普及門檻。過去,只有大廠才有能力研發(fā)高精度語音模型,而現(xiàn)在,創(chuàng)業(yè)公司甚至個(gè)人開發(fā)者,都能通過 Fun-ASR-Nano、Fun-CosyVoice3-0.5B 以及 Fun-Audio-Chat-8B,快速搭建自己的語音應(yīng)用。
而當(dāng) AI 耳機(jī)、AI 轉(zhuǎn)錄筆、智能巡檢設(shè)備等硬件,都能基于這個(gè)底座快速在不同場(chǎng)景落地時(shí),過去一年的 AI 耳機(jī)、AI 會(huì)議轉(zhuǎn)錄爆發(fā),或許只是語音模型跑通 PMF 的起點(diǎn)。
*頭圖來源:AI 生成本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.