品玩1月20日訊,無界方舟近日正式推出通用音頻大模型「GPA」。該模型基于統(tǒng)一自回歸 Transformer 架構(gòu),在單一框架內(nèi)集成語音識別(ASR)、語音合成(TTS)與語音轉(zhuǎn)換(VC)三大核心功能,打破傳統(tǒng)語音系統(tǒng)碎片化 Pipeline 設計。
GPA 采用 0.3B 輕量參數(shù)規(guī)模,支持端側(cè)高效部署,并通過統(tǒng)一離散音頻 Token 空間與指令驅(qū)動機制,實現(xiàn)跨任務零樣本切換,無需微調(diào)即可完成語音克隆等操作。其優(yōu)化版本兼容 vLLM、llama.cpp、RKNN 等主流推理框架。
測試顯示,GPA-0.3B 在中文 TTS 零樣本場景下 CER 為 0.95%,優(yōu)于同量級 F5-TTS;ASR 首 Token 延遲低至 157.5ms。目前模型代碼已開源,限學術研究與個人教育用途。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.