網易首頁 > 網易號 > 正文申請入駐

端到端流式架構首落地！云知聲“山海·知音”2.0攻克識別延遲難題

2026-01-26 12:36:42　來源: 潮流科技與生活

江西舉報

分享至

時至今日，當人工智能從“工具”向“伙伴”演進，如何打破人機對話的機械感，成為行業突圍的關鍵。今日，云知聲正式推出“山海·知音”2.0大模型，以“一基兩翼”戰略為錨點，依托“山海·Atlas”智算基座，通過端到端架構重塑語音交互邏輯，標志著AI語音交互正從“聽懂指令”邁向“共情對話”的新階段。

從“識別字”到“理解事”，實現專業場景的認知躍遷

長期以來，AI語音交互的痛點不僅在于聽不清，更在于聽不懂“行話”。在此次發布的“山海·知音”2.0中，云知聲首次實現了ASR（自動語音識別）能力的認知級躍升。

不同于傳統模型依賴關鍵詞匹配，2.0版本引入了行業知識圖譜與上下文推理機制。在公開及自有全場景測試中，其復雜噪音環境下的識別準確率突破90%，較主流模型提升2.5%至3.6%。更為關鍵的是，在醫療、汽車等垂直領域，模型展現出“邏輯補全”能力——面對醫生口中的“依帕司他”或銷售隱晦提及的“半幅方向盤”，系統能結合語境精準還原語義，識別精度提升30%。“山海·知音”2.0“聽弦外之音”的能力，為醫療問診、汽車銷售等專業場景的智能體落地掃清了核心障礙。

90毫秒極速響應，流式架構攻克“延遲魔咒”

語音交互的“臨場感”往往毀于高延遲。云知聲技術團隊指出，傳統大模型語音合成需經過“文本-譜圖-波形”的多級轉換，難以滿足實時對話需求。

“山海·知音”2.0給出了創新解法：基于純因果注意力機制的流匹配模塊與神經聲碼器聯合優化。端到端純流式架構，將首包延遲壓縮至90毫秒以內，首次在保證播客級音質的同時，實現了“即說即合成”的實時體驗。配合支持12種方言、10種外語及多種情感風格的TTS能力，AI不僅能說“標準的普通話”，更能用粵語講段子、用四川話拉家常，甚至模擬呼吸聲與笑聲，讓交互充滿“人味”。

全雙工交互，像人一樣“搶話”與“共情”

“這不是問答，是對話。”這是2.0版本的核心體驗。依托“山海·Atlas”的多模態基座，新模型打破了傳統“你問我答”的線性邏輯，支持全雙工交互——用戶可隨時打斷、插話，系統能瞬時捕捉情緒變化并調整回應策略，實現連貫追問與即時接話。

業內分析認為，云知聲此次升級的深層邏輯，在于通過“山海·Atlas”將感知AI（ASR/TTS）與認知AI（大模型）深度融合。隨著“山海·知醫”5.0與“山海·知音”2.0的雙翼齊飛，云知聲正構建起從專業場景到家庭生活的全鏈路智能體生態。未來，AI將不再是冰冷的指令執行者，而是能聽懂鄉音、感知情緒、反應機敏的智慧伙伴，真正實現“智啟山海，交互無界”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.