時至今日,當人工智能從“工具”向“伙伴”演進,如何打破人機對話的機械感,成為行業突圍的關鍵。今日,云知聲正式推出“山海·知音”2.0大模型,以“一基兩翼”戰略為錨點,依托“山海·Atlas”智算基座,通過端到端架構重塑語音交互邏輯,標志著AI語音交互正從“聽懂指令”邁向“共情對話”的新階段。
![]()
從“識別字”到“理解事”,實現專業場景的認知躍遷
長期以來,AI語音交互的痛點不僅在于聽不清,更在于聽不懂“行話”。在此次發布的“山海·知音”2.0中,云知聲首次實現了ASR(自動語音識別)能力的認知級躍升。
不同于傳統模型依賴關鍵詞匹配,2.0版本引入了行業知識圖譜與上下文推理機制。在公開及自有全場景測試中,其復雜噪音環境下的識別準確率突破90%,較主流模型提升2.5%至3.6%。更為關鍵的是,在醫療、汽車等垂直領域,模型展現出“邏輯補全”能力——面對醫生口中的“依帕司他”或銷售隱晦提及的“半幅方向盤”,系統能結合語境精準還原語義,識別精度提升30%。“山海·知音”2.0“聽弦外之音”的能力,為醫療問診、汽車銷售等專業場景的智能體落地掃清了核心障礙。
![]()
90毫秒極速響應,流式架構攻克“延遲魔咒”
語音交互的“臨場感”往往毀于高延遲。云知聲技術團隊指出,傳統大模型語音合成需經過“文本-譜圖-波形”的多級轉換,難以滿足實時對話需求。
“山海·知音”2.0給出了創新解法:基于純因果注意力機制的流匹配模塊與神經聲碼器聯合優化。端到端純流式架構,將首包延遲壓縮至90毫秒以內,首次在保證播客級音質的同時,實現了“即說即合成”的實時體驗。配合支持12種方言、10種外語及多種情感風格的TTS能力,AI不僅能說“標準的普通話”,更能用粵語講段子、用四川話拉家常,甚至模擬呼吸聲與笑聲,讓交互充滿“人味”。
![]()
全雙工交互,像人一樣“搶話”與“共情”
“這不是問答,是對話。”這是2.0版本的核心體驗。依托“山海·Atlas”的多模態基座,新模型打破了傳統“你問我答”的線性邏輯,支持全雙工交互——用戶可隨時打斷、插話,系統能瞬時捕捉情緒變化并調整回應策略,實現連貫追問與即時接話。
業內分析認為,云知聲此次升級的深層邏輯,在于通過“山海·Atlas”將感知AI(ASR/TTS)與認知AI(大模型)深度融合。隨著“山海·知醫”5.0與“山海·知音”2.0的雙翼齊飛,云知聲正構建起從專業場景到家庭生活的全鏈路智能體生態。未來,AI將不再是冰冷的指令執行者,而是能聽懂鄉音、感知情緒、反應機敏的智慧伙伴,真正實現“智啟山海,交互無界”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.