以文本翻譯工具聞名的 AI 公司 DeepL 今日發布一套語音到語音翻譯產品組合,進軍實時語音翻譯市場,覆蓋線上會議、移動與網頁對話,以及一線員工通過定制應用參與的群組溝通等多種場景。 同時,DeepL 還推出面向開發者和企業的 API,支持在其技術之上為呼叫中心等業務定制專用語音翻譯方案。
![]()
DeepL 首席執行官雅瑞克·庫特洛夫斯基(Jarek Kutylowski)在接受采訪時表示,在深耕文本翻譯多年之后,語音是公司“順理成章的下一步”。 他強調,DeepL 在文本和文檔翻譯上已經走得很遠,但在實時語音翻譯領域,“還缺少一款真正出色的產品”,這也是公司決定切入的原因。
庫特洛夫斯基指出,打造實時翻譯產品的核心難點在于如何在降低延遲和保持準確性之間取得平衡。 所謂延遲,是指從用戶開口說話到譯文語音播放之間的時間差,在會議和對話場景中,這一差值越小,用戶的交流體驗就越接近“同聲對話”。
此次發布中,DeepL 面向 Zoom 和 Microsoft Teams 推出插件,讓聽眾在遠程會議中,可以一邊聽各方用母語發言,一邊實時聽到翻譯語音,或在屏幕上閱讀實時翻譯字幕。 該計劃目前仍處于早期測試階段,DeepL 正邀請企業加入候補名單,以便率先試用這項功能。 此外,公司還提供面向移動端和網頁的對話產品,支持用戶在當面或遠程場景中進行跨語言交流。
對于培訓、研討會等多人的線下或線上群組場景,DeepL 允許參與者通過掃描二維碼加入同一會話,每個人都可以在自己的設備上接收對應語言的翻譯內容。 DeepL 表示,其語音到語音技術還可以學習和適配自定義詞匯,例如垂直行業術語、公司名稱以及個人姓名等,以提升在專業場景中的使用效果。
庫特洛夫斯基認為,AI 正在重塑未來幾年客戶服務行業的形態,一個高質量的翻譯層可以幫助企業在缺乏本地語種人才、招聘成本高企的市場中,依舊提供多語種服務支持。 在這樣的愿景下,DeepL 希望自身的語音技術不僅服務于會議場景,也能成為客服中心和全球化企業的基礎語言基礎設施之一。
在技術路線上,DeepL 稱當前產品由自研的完整“語音到語音”技術棧驅動,但現階段仍采用“語音轉文本—文本翻譯—文本轉語音”的三步流程。 公司認為,正是因為長期深耕文本翻譯,使其在整體翻譯質量上具有優勢。 展望未來,DeepL 計劃開發端到端語音翻譯模型,省略文本中間步驟,以期在延遲和自然度上更進一步。
在語音與翻譯領域,DeepL 面臨來自多家創業公司的競爭。 其中,Sanas 去年從 Quadrille Capital 和 Teleperformance 融資 6500 萬美元,主攻實時修改說話者口音的技術,主要面向呼叫中心坐席。 總部位于迪拜的 Camb.AI 則面向媒體與娛樂公司,提供語音合成及翻譯服務,幫助客戶在大規模內容中完成配音和本地化。 由 Reddit 聯合創始人 Alexis Ohanian 的基金 Seven Seven Six 投資的 Palabra,則打造實時語音翻譯引擎,強調在翻譯過程中盡量保留說話者原本的聲音特征,與 DeepL 正在構建的能力形成更直接的競爭關系。
在文本翻譯市場站穩腳跟之后,DeepL 正試圖通過語音產品擴展自身邊界,將技術延伸到會議協作、客戶服務和一線作業場景中。 隨著更多企業尋求以 AI 降低跨語言溝通成本,實時語音翻譯有望成為新一輪競爭焦點,而 DeepL 正在這一賽道上加速布局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.