品玩12月5日訊,火山引擎近日正式推出豆包語音識別模型2.0,顯著提升上下文理解與復雜場景識別能力。
模型整體關鍵詞召回率提高20%,在專有名詞、多音字等難點上表現更優,并首次引入多模態視覺識別能力,可結合圖像內容輔助區分同音詞(如“滑雞”與“滑稽”)。該版本新增日語、韓語、德語、法語等13種語言支持,在保持中英文高精度基礎上拓展全球化應用。技術上基于Seed混合專家架構與PPO強化學習,實現無需歷史詞匯的動態泛化推理,并通過Function Call策略優化跨語言識別效果。
模型現已上線火山方舟體驗中心并開放API,適用于搜圖描述、語音指令創作、多語言交互等場景。2025火山引擎FORCE原動力大會將于12月在上海舉行。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.