近日,云知聲正式對外發布“山海·知音”大模型2.0版本,標志著企業在“一基兩翼”技術戰略布局上完成了關鍵拼圖,依托“山海·Atlas”通用智算基座的強大支撐,實現了從感知到交互的全面進化,旨在打造聽得清、說得真、懂人心的下一代智能交互體驗。
![]()
作為本次升級的核心,“山海·知音”2.0在語音識別(ASR)、語音合成(TTS)及端到端全雙工交互三大維度實現了技術突破。在語音識別層面,模型展現了極強的環境適應性與專業理解力。測試數據顯示,在復雜噪音與方言口音場景下,其性能較主流ASR模型提升了2.5%至3.6%,復雜背景音下的識別準確率業內首次突破90%。更值得關注的是,該模型不再局限于“聽字”,而是進化至“理解事”的層面,通過結合上下文與行業知識圖譜,在醫療、汽車等垂直場景的專業術語識別精度提升了30%。例如在醫療場景中,模型能對“依帕司他”等生僻藥名進行定向增強識別;在通用場景下,支持30余種中文方言及14種國際語言的精準轉寫,并融合視覺語義構建視聽閉環,徹底打破了語言與環境的壁壘。
在語音合成(TTS)方面,“山海·知音”2.0追求高度擬人化與情感溫度。系統支持12種方言及10種外語的合成,涵蓋粵語、四川話、日語、泰語等,并能細膩還原清嗓、笑聲、呼吸聲等細節。針對傳統大模型語音合成延遲高的痛點,云知聲創新研發了基于純因果注意力機制的流匹配模塊,并與神經聲碼器聯合優化,構建了端到端純流式推理架構。這一技術創新將首包延遲壓縮至90毫秒以內,在保證播音級音質的同時,實現了業界領先的實時交互水平,讓AI語音不再機械冰冷。
![]()
此外,端到端全雙工交互能力的引入,讓人機對話真正實現了“行云流水”。不同于傳統的一問一答模式,新模型支持隨時打斷、即時接話與連貫追問,能夠在流式收聲的同時同步完成理解、決策與生成。這種類似真人朋友間的自然交流體驗,得益于“山海·Atlas”智算基座對多模態大模型底座與基礎架構的深度整合,將傳統的級聯模塊升級為統一的端到端大模型。
依托“山海·Atlas”算力底座與垂直領域經驗,新模型在多模態感知及端到端交互上的突破,為醫療、汽車等行業提供了高自然度、低延遲的通用交互中樞。此次升級不僅推動了人機交互從指令執行向智能伙伴關系的演進,更為智能體時代的產業落地提供了具備高可用性的技術范本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.