PChome 4月24日消息,小米正式發(fā)布MiMo-V2.5全鏈路語音大模型系列,包含三款TTS(語音合成)模型與一款A(yù)SR(語音識別)模型,標(biāo)志著小米在Agent時代的語音交互能力上實(shí)現(xiàn)了從“聽得清”到“說得好”的全面閉環(huán)。目前,TTS系列已在MiMo Studio開放體驗(yàn),ASR模型權(quán)重與代碼已正式開源。
![]()
此次發(fā)布的MiMo-V2.5-TTS系列主打“導(dǎo)演級”語音控制,支持通過自然語言指令精細(xì)調(diào)度語速、情緒與語氣。其中,VoiceDesign功能允許用戶“一句話生成全新音色”,而VoiceClone僅需30秒樣本即可高保真復(fù)刻人聲。作為聽覺基座的MiMo-V2.5-ASR表現(xiàn)同樣強(qiáng)勁,不僅支持吳語、粵語等中文方言及中英混說,還能在強(qiáng)噪音環(huán)境下精準(zhǔn)識別,并原生輸出標(biāo)點(diǎn)符號。
![]()
這一舉措進(jìn)一步完善了小米的全棧AI能力。TTS系列在開放平臺限時免費(fèi),配合ASR的開源策略,將大幅降低開發(fā)者構(gòu)建具備高擬人化交互能力智能體的門檻,加速AI應(yīng)用在真實(shí)場景中的落地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.