品玩1月20日訊,據 marktechpost 報道,NVIDIA研究院近日推出PersonaPlex-7B-v1,一款基于Moshi架構的70億參數全雙工語音到語音對話模型。該模型摒棄傳統ASR→LLM→TTS級聯流程,采用統一Transformer架構,在單一網絡中同步處理語音理解與生成,支持自然打斷、重疊語音、快速輪轉及上下文感知的反饋詞(backchannels)。
PersonaPlex通過混合提示機制實現精準角色控制:音頻提示定義音色與韻律,文本提示設定角色身份與業務場景,系統提示可包含名稱、機構等結構化信息。模型以Helium為語言主干,訓練數據融合1,217小時真實Fisher對話與2,250小時合成客服/助教場景數據。
在FullDuplexBench與ServiceDuplexBench評測中,其輪轉接管率達90.8%,中斷響應延遲低至240毫秒,顯著優于現有開源及商用系統。代碼已按MIT協議開源,模型權重遵循NVIDIA開放模型許可。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.