品玩1月23日訊,據(jù)千問官方消息,阿里通義千問團隊正式開源Qwen3-TTS系列語音生成模型。該系列模型擁有97毫秒的超低延遲、秒級音色克隆與跨語言遷移能力,為語音合成領域的一項重大突破。
開源模型采用了創(chuàng)新的雙軌混合流式生成架構,實現(xiàn)了端到端的語音直接建模。實際測試中,其端到端延遲低至97毫秒,輸入單個字即可輸出首包音頻,極適用于直播互動、實時翻譯等高時延敏感場景。
在音色克隆方面,僅需3秒?yún)⒖家纛l即可實現(xiàn)高保真復刻,并支持將克隆后的音色無縫遷移至中、英、日、韓等10種主流語言及多種中文方言。此外,模型還具備語音設計功能,用戶通過一句自然語言描述即可生成符合要求的全新音色。為滿足不同需求,團隊同步開源了1.7B和0.6B兩種參數(shù)規(guī)模的模型,供開發(fā)者在性能與效率間自由取舍。
據(jù)悉,該模型家族的完整代碼與權重已在GitHub和Hugging Face平臺開源,支持全參數(shù)微調(diào)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.