在智能體時代加速到來的背景下,人工智能企業云知聲正式發布“山海·知音”大模型2.0版本。此次發布標志著云知聲“一基兩翼”技術戰略升級的關鍵拼圖已完成,在“山海·Atlas”通用智算基座的支撐下,公司正推動垂直專業智能體加速惠及千行百業與千家萬戶。
作為云知聲“山海”系列的核心交互入口,“山海·知音”2.0依托“山海·Atlas”的多模態、跨語言基座能力,實現了聽懂專業術語與鄉音、聊出親情溫度、極致機敏反應三大核心進化,重新定義了人機語音交互的行業標準。
ASR全景升級,復雜場景識別準確率首破90%
語音識別(ASR)是人機交互的第一道關口。據公開測試集與自有全場景測試集顯示,“山海·知音”2.0在通用及極端場景下均展現出領先實力,性能超過國內主流開源及閉源語音大模型。特別是在高噪與方言口音場景下,模型性能較主流ASR提升2.5%至3.6%,復雜背景音識別準確率業內首次突破90%。
![]()
更值得關注的是其“理解式”識別能力。不同于傳統“聽字”模式,該模型能結合上下文與行業知識精準識別專業術語。在醫療場景中,可顯式注入“依帕司他”等專業詞匯進行定向增強;在汽車4S店場景中,能通過邏輯推理識別出未明確提及的“半幅方向盤”等專業描述。此外,模型支持30余種中文方言及14種國際語言轉寫,并融合視覺語義構建“視聽融合”閉環,進一步提升識別魯棒性。
![]()
TTS聲動進化,端到端流式架構實現90毫秒低延遲
如果說ASR是“耳朵”,語音合成(TTS)則是“嘴巴”。“山海·知音”2.0的TTS能力以“高度擬人+創意多元”為核心,支持12種方言及10種外語合成,并能自然還原清嗓、笑聲、呼吸聲等細節,甚至可切換12種普通話風格。針對小語種韻律難點,如日語“促音”、泰語“聲調變化”,合成自然度已接近母語使用者。
![]()
針對大模型語音合成普遍存在的高延遲痛點,云知聲創新性地設計了基于純因果注意力機制的流匹配模塊,并與神經聲碼器聯合優化,構建出端到端純流式推理架構。測試數據顯示,在低并發場景下,首包延遲已壓縮至90毫秒以內,在不損失音質的前提下達到業界領先的實時交互水平。
全雙工交互,像朋友一樣隨時打斷、即時接話
真正的智能交互在于流暢的對話感。“山海·知音”2.0基于端到端交互大腦,攻克了流式收聲時同步完成理解、決策與生成的技術難題。新版本支持隨時打斷、即時接話與連貫追問,解決了傳統級聯架構在多輪對話中的卡頓與邏輯斷裂問題,實現了“行云流水”的全雙工交互體驗。
![]()
上述能力的實現,離不開云知聲獨創的“山海·Atlas”智算一體基座。該基座將通用多模態大模型與基礎架構深度整合,既是專業智能體的基礎,也是感知AI中樞的根基。通過將傳統ASR、TTS和全雙工能力有效整合到端到端大模型中,實現了傳統模塊級聯無法達到的極致交互效率。
從手術室到鄉間小路,從駕駛艙到老人床頭,“山海·知音”2.0的發布旨在讓AI不再“人工智障”,而是成為聽得清、說得真、懂人心的伙伴。此次升級不僅是技術參數的提升,更是AI技術融入生活、服務民生的重要實踐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.