12月24日,阿里通義正式宣布升級語音模型家族Qwen3-TTS,同步推出音色創造Qwen3-TTS-VD(VoiceDesign)和音色克隆Qwen3-TTS-VC(VoiceClone)兩款全新模型,實現從“復制聲音”到“創造聲音”的跨越,重新定義人機語音交互邊界。此次升級不僅在技術指標上實現突破,更將深度賦能內容創作、教育培訓、客服營銷等多個行業場景。
![]()
AI制圖
據了解,Qwen3-TTS-VD模型實現了音色創造的核心突破,用戶通過自然語言描述即可完成對音色、韻律、情感、人設的精細化調控。無論是“30歲成熟男性的磁性嗓音”還是“剛畢業女老師的溫柔聲線”,模型都能精準生成符合描述的專屬音色,徹底擺脫傳統語音合成對預設音色的依賴。評測數據顯示,該模型在InstructTTS-Eval綜合表現顯著優于GPT-4o-mini-tts等同類產品,在角色扮演測試中更是超越Gemini-2.5-pro-preview-tts,確立全球領先地位。
另一款Qwen3-TTS-VC模型則將音色克隆技術推向新高度,僅需3秒音頻樣本即可完美復刻原始聲線,較行業常規1分鐘樣本的要求大幅降低使用門檻。值得關注的是,該模型支持中文、英文、德語等10大主流語言及8大方言的跨語種生成,在MiniMaxTTSMultilingualTestSet評測中,平均詞錯誤率全面優于MiniMax、ElevenLabs等競品。這種“復刻聲線+多語言適配”的組合能力,為跨地域、跨語言場景應用提供了核心支撐。
兩款新模型均具備高表現力的擬人化音色,能根據文本語義自動調節語氣節奏,同時擁有強大的復雜文本解析能力,對非規范化文本展現出較強魯棒性。在應用場景上,內容創作者可通過模型獲得多個“聲音分身”,大幅降低配音成本;教育培訓領域可定制專屬AI老師聲音,助力個性化教學;企業則能打造專屬品牌聲音形象,提升客服與營銷的個性化服務水平。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.