品玩3月11日訊,據 MarketChpost 報道,Fish Audio正式推出其旗艦級文本到語音(TTS)模型S2-Pro,標志著語音合成技術向集成化大音頻模型(LAM)演進。該模型采用創新的雙自回歸(Dual-AR)架構,將生成過程分為40億參數的“慢速AR”模塊(負責語言結構與韻律)和4億參數的“快速AR”模塊(處理音色、氣息等高頻細節),實現44.1kHz高保真音頻輸出。
S2-Pro支持零樣本語音克隆,僅需10至30秒參考音頻即可復現說話人身份與情感狀態,并通過內聯自然語言標簽(如[whisper]、[laugh])實現細粒度情緒控制。模型基于殘差矢量量化(RVQ)技術,在多層碼本中高效壓縮音頻信息,保留非語言發聲(如嘆息、停頓)等細節。
在性能方面,S2-Pro在NVIDIA H200硬件上實現約100毫秒的首音頻延遲(TTFA),并集成SGLang框架與RadixAttention機制,通過緩存鍵值狀態顯著降低重復語音生成的預填充開銷,支持多角色對話單次推理。
該模型已在開源生態中提供,訓練數據涵蓋超30萬小時多語種語音,為實時交互式AI應用樹立新標桿。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.