作者|子川
來源|AI先鋒官
最近,阿里通義上線了Qwen3-TTS的兩大核心能力——VoiceDesign(VD-Flash)和VoiceClone(VC-Flash)。
此次上新,甩出了兩大核心能力:
VoiceDesign(VD-Flash):告別“選音色”,直接用文設(shè)計(jì)出聲音。
VoiceClone(VC-Flash):僅需3秒,實(shí)現(xiàn)跨語言、甚至跨物種的音色克隆。
據(jù)官方披露的數(shù)據(jù)顯示,其生成速度達(dá)到了驚人的0.1秒級(jí),且在多項(xiàng)核心指標(biāo)上,直接超越了OpenAI的GPT-4o-Audio和目前國(guó)內(nèi)語音霸主MiniMax。
那它的實(shí)際表現(xiàn)如何?我們實(shí)際體驗(yàn)一下。
VoiceDesign(VD-Flash):用文字“設(shè)計(jì)”聲音
過去,你要找一個(gè)合適的配音,得在幾十種預(yù)設(shè)音色里反復(fù)試聽,總覺得“差點(diǎn)意思”。
現(xiàn)在,你只需要用自然語言描述你想要的音色,模型就能從無到有地創(chuàng)造出來。
比如,輸入“展現(xiàn)出悲苦沙啞的聲音質(zhì)感,語速偏慢,情緒濃烈且?guī)в锌耷?以標(biāo)準(zhǔn)普通話緩慢訴說,情感強(qiáng)烈,語調(diào)哀怨高亢,音高起伏大。”
能明顯的聽到聲帶因?yàn)檫煅识o繃的摩擦感。每一句的尾音都帶著無法控制的顫抖,效果非常的逼真。
或者輸入一個(gè)非常簡(jiǎn)潔的指令“邪惡女魔頭”。
效果依舊抗打。
并且紙面實(shí)力也不弱,在 InstructTTS-Eval 中,Qwen3-TTS 綜合表現(xiàn)顯著優(yōu)于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演測(cè)試中也超越 Gemini-2.5-pro-preview-tts。
![]()
VoiceClone(VC-Flash):3秒音頻,跨語言、跨物種級(jí)別的音色克隆。
如果說VoiceDesign是“創(chuàng)造聲音”,那么VoiceClone就是“復(fù)刻聲音”的終極形態(tài)。
只需要上傳一段3-10秒的真人錄音,模型就能捕捉其音色、韻律和發(fā)音特征,生成幾乎一模一樣的克隆語音。
這里克隆一個(gè)大家非常熟悉的聲音——雷總的聲音。
原聲參考:
合成文本:
前方3公里施工路段,為您切換滬昆高速。已為您預(yù)約十七點(diǎn)二十分到達(dá)高鐵站,出口右轉(zhuǎn)有藍(lán)色遮陽棚,導(dǎo)航將持續(xù)為您更新路況。
合成聲音:
可以明顯地感受到,雷總的音色還原度非常高!
它不僅把雷總那股標(biāo)志性的普通話味兒給復(fù)刻了,甚至連說話時(shí)那種“略帶誠(chéng)懇的語氣”習(xí)慣都呈現(xiàn)出來了。
同時(shí) VoiceDesign還有 跨語言能力,比如,你上傳一段自己的中文錄音,模型能讓“你”說出地道的英語、日語或德語,而且保持音色一致性。
比如讓雷總化身英語口語達(dá)人,開口說英語。
再換一個(gè),克隆蔡徐坤的聲音。
原聲參考:
合成文本:
大家好,我是蔡徐坤。1998 年出生,舞臺(tái)是我的主場(chǎng),音樂是我的母語。從《偶像練習(xí)生》C 位斷層出道,到《Hug me》全網(wǎng)刷屏,我一直用原創(chuàng)作品說話。歌手、制作人、演員,多面身份,一樣熾熱。下一束燈光亮起,我會(huì)繼續(xù)用舞臺(tái)炸響每一次心跳。請(qǐng)多關(guān)照!
合成聲音:
音色還原度依舊很高!不過 這次會(huì)明顯感受到聲音的停頓有些許的不自然。
還有很新奇的“跨物種”克隆功能,簡(jiǎn)單來說就是,該模型能捕捉動(dòng)物叫聲的特征,然后讓它說出人類語言(當(dāng)然,這更多是娛樂應(yīng)用)。
再來看紙面實(shí)力,DoiceClone(VC-Flash)的錯(cuò)誤率比 ElevenLabs/GPT-4o 低 15%。
![]()
以前我們還在糾結(jié)AI聲音不夠自然,或許現(xiàn)在我們可能要開始擔(dān)心:電話那頭跟你聊天的,到底是不是真人?
目前,Qwen3-TTS 已在阿里云百煉和魔搭社區(qū)全面上線,感興趣的可以去試玩一番。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.