網易首頁 > 網易號 > 正文申請入駐

云知聲發布“山海·知音”2.0，依托Atlas基座多模態交互全面升級

2026-01-28 17:15:16　來源: 商業知識說

河北舉報

分享至

近日，云知聲正式對外發布“山海·知音”大模型2.0版本，標志著企業在“一基兩翼”技術戰略布局上完成了關鍵拼圖，依托“山海·Atlas”通用智算基座的強大支撐，實現了從感知到交互的全面進化，旨在打造聽得清、說得真、懂人心的下一代智能交互體驗。

作為本次升級的核心，“山海·知音”2.0在語音識別（ASR）、語音合成（TTS）及端到端全雙工交互三大維度實現了技術突破。在語音識別層面，模型展現了極強的環境適應性與專業理解力。測試數據顯示，在復雜噪音與方言口音場景下，其性能較主流ASR模型提升了2.5%至3.6%，復雜背景音下的識別準確率業內首次突破90%。更值得關注的是，該模型不再局限于“聽字”，而是進化至“理解事”的層面，通過結合上下文與行業知識圖譜，在醫療、汽車等垂直場景的專業術語識別精度提升了30%。例如在醫療場景中，模型能對“依帕司他”等生僻藥名進行定向增強識別；在通用場景下，支持30余種中文方言及14種國際語言的精準轉寫，并融合視覺語義構建視聽閉環，徹底打破了語言與環境的壁壘。

在語音合成（TTS）方面，“山海·知音”2.0追求高度擬人化與情感溫度。系統支持12種方言及10種外語的合成，涵蓋粵語、四川話、日語、泰語等，并能細膩還原清嗓、笑聲、呼吸聲等細節。針對傳統大模型語音合成延遲高的痛點，云知聲創新研發了基于純因果注意力機制的流匹配模塊，并與神經聲碼器聯合優化，構建了端到端純流式推理架構。這一技術創新將首包延遲壓縮至90毫秒以內，在保證播音級音質的同時，實現了業界領先的實時交互水平，讓AI語音不再機械冰冷。

此外，端到端全雙工交互能力的引入，讓人機對話真正實現了“行云流水”。不同于傳統的一問一答模式，新模型支持隨時打斷、即時接話與連貫追問，能夠在流式收聲的同時同步完成理解、決策與生成。這種類似真人朋友間的自然交流體驗，得益于“山海·Atlas”智算基座對多模態大模型底座與基礎架構的深度整合，將傳統的級聯模塊升級為統一的端到端大模型。

依托“山海·Atlas”算力底座與垂直領域經驗，新模型在多模態感知及端到端交互上的突破，為醫療、汽車等行業提供了高自然度、低延遲的通用交互中樞。此次升級不僅推動了人機交互從指令執行向智能伙伴關系的演進，更為智能體時代的產業落地提供了具備高可用性的技術范本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.