品玩12月8日訊,據(jù) AI base 報(bào)道,微軟近日推出VibeVoice-Realtime-0.5B,一款面向?qū)崟r(shí)文本轉(zhuǎn)語音(TTS)應(yīng)用的輕量級模型。該模型支持流式文本輸入與長語音輸出,首音延遲約300毫秒,適用于代理對話、實(shí)時(shí)數(shù)據(jù)播報(bào)等場景。
VibeVoice-Realtime采用交錯(cuò)窗口設(shè)計(jì),在編碼新文本塊的同時(shí)持續(xù)生成聲學(xué)特征,實(shí)現(xiàn)低延遲響應(yīng)。模型基于聲學(xué)標(biāo)記器,運(yùn)行速率為7.5赫茲,在LibriSpeech測試集上零樣本字錯(cuò)誤率(WER)達(dá)2.00%。推薦與對話大語言模型(LLM)協(xié)同部署,支持固定8k上下文及約10分鐘音頻輸出,滿足典型交互式語音需求。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.