隨著智能體時(shí)代到來(lái),云知聲在“山海·Atlas”通用智算基座持續(xù)演進(jìn)基礎(chǔ)上,年前實(shí)現(xiàn)了“山海·知醫(yī)”5.0醫(yī)療大模型升級(jí),今天迎來(lái)了“山海·知音”2.0的重磅發(fā)布,正在完成“一基兩翼”技術(shù)戰(zhàn)略升級(jí)的能力拼圖。
“山海·知音”大模型 2.0——依托“山海·Atlas”的多模態(tài)、跨語(yǔ)言基座能力,讓“山海·知醫(yī)”等垂直專(zhuān)業(yè)智能體,惠及千家萬(wàn)戶(hù)——聽(tīng)懂專(zhuān)業(yè)與鄉(xiāng)音、聊出親情與溫度、極致機(jī)敏反應(yīng),是本次升級(jí)的三大能力進(jìn)化。
01 聽(tīng)懂專(zhuān)業(yè)與鄉(xiāng)音——ASR全景升級(jí)
此次模型ASR能力在公開(kāi)測(cè)試集和自有全場(chǎng)景測(cè)試集中,均顯現(xiàn)了領(lǐng)先的語(yǔ)音識(shí)別能力,在評(píng)測(cè)中實(shí)現(xiàn)了從通用到極端全面的領(lǐng)先水平,超過(guò)了國(guó)內(nèi)主流的開(kāi)源和閉源語(yǔ)音大模型,達(dá)到業(yè)界最高水平。特別是在高難度的復(fù)雜噪音與方言口音場(chǎng)景下,相比主流ASR模型性能提升了2.5%至3.6%,在復(fù)雜背景音環(huán)境下識(shí)別準(zhǔn)確率更是在業(yè)內(nèi)首次突破90%。
![]()
公開(kāi)測(cè)試集
![]()
自有測(cè)試集
真實(shí)的語(yǔ)音識(shí)別環(huán)境中,還經(jīng)常會(huì)面臨專(zhuān)業(yè)術(shù)語(yǔ)識(shí)別不清、邏輯混亂等挑戰(zhàn)。作為此次升級(jí)中最大的亮點(diǎn),即模型“能夠聽(tīng)得懂專(zhuān)業(yè)話(huà)”,它可結(jié)合上下文和行業(yè)術(shù)語(yǔ),聽(tīng)懂專(zhuān)業(yè)場(chǎng)景中的每一個(gè)術(shù)語(yǔ)與指令,識(shí)別精度提升 30%。“它不是在‘聽(tīng)字’,而是在‘理解事’”。
例如在汽車(chē)4S店試駕場(chǎng)景中,當(dāng)銷(xiāo)售提及“方向盤(pán)”相關(guān)描述時(shí),即使上下文未明確出現(xiàn)“半幅方向盤(pán)”,模型仍能通過(guò)邏輯推理準(zhǔn)確識(shí)別。
而在嚴(yán)肅的醫(yī)療場(chǎng)景,模型能顯式注入“依帕司他”“二甲雙胍”等術(shù)語(yǔ)進(jìn)行定向增強(qiáng),確保識(shí)別結(jié)果更精準(zhǔn)。
同時(shí),模型支持30余種中文方言及14種國(guó)際語(yǔ)言的識(shí)別轉(zhuǎn)寫(xiě),無(wú)論是晦澀的粵語(yǔ)、閩南語(yǔ)、上海話(huà),還是英、日、韓、法、德、泰等國(guó)際語(yǔ)言,均能實(shí)現(xiàn)精準(zhǔn)轉(zhuǎn)寫(xiě)。更進(jìn)一步,模型還能融合講義等視覺(jué)語(yǔ)義,構(gòu)建“視聽(tīng)融合”閉環(huán)交互,進(jìn)一步提升識(shí)別結(jié)果。
02 聊出親情與溫度——TTS聲動(dòng)進(jìn)化
如果說(shuō)ASR能力是“耳朵”,那么TTS能力便是“嘴巴”。山海·知音-TTS以“高度擬人+創(chuàng)意多元”為核心,讓語(yǔ)音合成兼具真實(shí)感與創(chuàng)造力,使科技更有溫度。
它目前支持12種方言(粵語(yǔ)、四川話(huà)、上海話(huà)全拿下)+10種外語(yǔ),清嗓、笑聲、呼吸聲都自然還原,甚至能切換12種普通話(huà)風(fēng)格,溫柔、干練、親切隨你選。“科技不該高高在上,而該用你最舒服的方式說(shuō)話(huà)。”
目前模型已支持粵語(yǔ)、四川話(huà)、上海話(huà)等12種方言,以及日語(yǔ)、韓語(yǔ)、泰語(yǔ)等10種外語(yǔ)。可實(shí)現(xiàn)跨方言、跨語(yǔ)種、跨情感的組合生成,針對(duì)小語(yǔ)種的語(yǔ)音韻律也進(jìn)行了專(zhuān)項(xiàng)優(yōu)化——如日語(yǔ)的“促音”、泰語(yǔ)的“聲調(diào)變化”,合成自然度接近母語(yǔ)使用者。
此外,還支持一句話(huà)聲音復(fù)刻以及播客級(jí)長(zhǎng)文本合成,賦能有聲內(nèi)容創(chuàng)作與互動(dòng)娛樂(lè)。
基于大模型的語(yǔ)音合成通常采用流匹配(Flow Matching)將大語(yǔ)言模型預(yù)測(cè)的語(yǔ)音Token轉(zhuǎn)換為梅爾譜,再通過(guò)神經(jīng)聲碼器(Neural Vocoder)重建為最終語(yǔ)音。但該方案普遍存在延遲較高的問(wèn)題。業(yè)界常通過(guò)流匹配分段處理來(lái)降低延遲,但效果有限,且容易犧牲音質(zhì)。
為實(shí)現(xiàn)真正高質(zhì)量、低延遲的流式語(yǔ)音生成,云知聲創(chuàng)新性地設(shè)計(jì)了基于純因果注意力機(jī)制的流匹配模塊,并與神經(jīng)聲碼器進(jìn)行聯(lián)合優(yōu)化,構(gòu)建出端到端的純流式推理架構(gòu)。該方案在不損失合成質(zhì)量的前提下,顯著降低系統(tǒng)延遲——在低并發(fā)場(chǎng)景下,首包延遲已壓縮至90毫秒以?xún)?nèi),達(dá)到業(yè)界領(lǐng)先的實(shí)時(shí)交互水平。
![]()
因果注意力機(jī)制
03 極致機(jī)敏反應(yīng)——端到端全雙工交互
真正的智能交互,在于“理解語(yǔ)境、感受情緒、自然回應(yīng)”。端到端模型實(shí)現(xiàn)流暢全雙工面臨的核心挑戰(zhàn)是:需在流式收聲時(shí)同步完成理解、決策與生成,并在任意打斷瞬間保持對(duì)話(huà)狀態(tài)連貫。山海·知音2.0基于端到端交互大腦攻克了這一難題,將全雙工能力提升至新高度。
支持隨時(shí)打斷、即時(shí)接話(huà)、連貫追問(wèn),就像和一個(gè)真正聰明的朋友聊天,行云流水,毫無(wú)卡頓。“這不是問(wèn)答,是對(duì)話(huà)。”
背后是誰(shuí)在支撐這一切?
答案是云知聲獨(dú)創(chuàng)的 “山海·Atlas”智算一體基座,將通用多模態(tài)大模型底座與Atlas基礎(chǔ)架構(gòu)深度整合,既是專(zhuān)業(yè)智能體的基礎(chǔ),也是感知AI中樞的根基——將傳統(tǒng)的ASR、TTS和全雙工能力,有效整合到端到端大模型中,做到傳統(tǒng)模塊級(jí)聯(lián)無(wú)法實(shí)現(xiàn)的極致交互體驗(yàn)和效率。
智起山海,知音萬(wàn)物
從手術(shù)室到鄉(xiāng)間小路,從駕駛艙到老人床頭,
云知聲相信:真正的智能,不是炫技,而是融入生活。
山海·知音 2.0,
讓 AI 不再“人工智障”,
而是聽(tīng)得清、說(shuō)得真、懂人心的伙伴。
這一次,AI 終于學(xué)會(huì)好好說(shuō)話(huà)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.