網易首頁 > 網易號 > 正文申請入駐

智啟山海交互無界｜云知聲山海·知音2.0重磅發布，三大能力進化

2026-01-26 12:33:45　來源: Auto中原雜談

河南舉報

分享至

在智能體時代加速到來的背景下，人工智能企業云知聲正式發布“山海·知音”大模型2.0版本。此次發布標志著云知聲“一基兩翼”技術戰略升級的關鍵拼圖已完成，在“山海·Atlas”通用智算基座的支撐下，公司正推動垂直專業智能體加速惠及千行百業與千家萬戶。

作為云知聲“山海”系列的核心交互入口，“山海·知音”2.0依托“山海·Atlas”的多模態、跨語言基座能力，實現了聽懂專業術語與鄉音、聊出親情溫度、極致機敏反應三大核心進化，重新定義了人機語音交互的行業標準。

ASR全景升級，復雜場景識別準確率首破90%

語音識別（ASR）是人機交互的第一道關口。據公開測試集與自有全場景測試集顯示，“山海·知音”2.0在通用及極端場景下均展現出領先實力，性能超過國內主流開源及閉源語音大模型。特別是在高噪與方言口音場景下，模型性能較主流ASR提升2.5%至3.6%，復雜背景音識別準確率業內首次突破90%。

更值得關注的是其“理解式”識別能力。不同于傳統“聽字”模式，該模型能結合上下文與行業知識精準識別專業術語。在醫療場景中，可顯式注入“依帕司他”等專業詞匯進行定向增強；在汽車4S店場景中，能通過邏輯推理識別出未明確提及的“半幅方向盤”等專業描述。此外，模型支持30余種中文方言及14種國際語言轉寫，并融合視覺語義構建“視聽融合”閉環，進一步提升識別魯棒性。

TTS聲動進化，端到端流式架構實現90毫秒低延遲

如果說ASR是“耳朵”，語音合成（TTS）則是“嘴巴”。“山海·知音”2.0的TTS能力以“高度擬人+創意多元”為核心，支持12種方言及10種外語合成，并能自然還原清嗓、笑聲、呼吸聲等細節，甚至可切換12種普通話風格。針對小語種韻律難點，如日語“促音”、泰語“聲調變化”，合成自然度已接近母語使用者。

針對大模型語音合成普遍存在的高延遲痛點，云知聲創新性地設計了基于純因果注意力機制的流匹配模塊，并與神經聲碼器聯合優化，構建出端到端純流式推理架構。測試數據顯示，在低并發場景下，首包延遲已壓縮至90毫秒以內，在不損失音質的前提下達到業界領先的實時交互水平。

全雙工交互，像朋友一樣隨時打斷、即時接話

真正的智能交互在于流暢的對話感。“山海·知音”2.0基于端到端交互大腦，攻克了流式收聲時同步完成理解、決策與生成的技術難題。新版本支持隨時打斷、即時接話與連貫追問，解決了傳統級聯架構在多輪對話中的卡頓與邏輯斷裂問題，實現了“行云流水”的全雙工交互體驗。

上述能力的實現，離不開云知聲獨創的“山海·Atlas”智算一體基座。該基座將通用多模態大模型與基礎架構深度整合，既是專業智能體的基礎，也是感知AI中樞的根基。通過將傳統ASR、TTS和全雙工能力有效整合到端到端大模型中，實現了傳統模塊級聯無法達到的極致交互效率。

從手術室到鄉間小路，從駕駛艙到老人床頭，“山海·知音”2.0的發布旨在讓AI不再“人工智障”，而是成為聽得清、說得真、懂人心的伙伴。此次升級不僅是技術參數的提升，更是AI技術融入生活、服務民生的重要實踐。

聲明：取材網絡，謹慎辨別

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.