品玩3月10日訊,據The Information報道,OpenAI正在開發一款名為“BiDi”(Bidirectional)的新型實時音頻模型,旨在顯著改善ChatGPT語音模式的交互體驗。當前的Advanced Voice Mode采用回合制交互,用戶一旦在AI說話過程中插入“嗯”“好的”等回應,系統便會中斷輸出,導致對話生硬。
BiDi模型將支持持續語音監聽與實時響應調整,使AI能在被用戶打斷時動態修改回復內容,實現更接近人類對話的流暢性。該技術尤其適用于客戶服務場景,例如用戶中途更改訴求時,AI可無縫切換處理邏輯,而非陷入混亂或強制重置。
然而,該模型尚未達到發布標準。知情人士透露,原型系統在持續對話數分鐘后可能出現語音異常或技術故障。原定于2026年第一季度上線的計劃或將推遲至第二季度或更晚。
OpenAI認為,縮小語音與文本模型之間的體驗差距,有助于推動AI在全球范圍內的普及,因多數用戶更傾向于通過語音而非文字與智能助手交互。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.