從OpenAI的實時電話AI到蘋果的語音指揮棒,語音交互正迎來爆發式創新。大廠們紛紛將語音能力嵌入核心場景,而初創公司則在細分領域打造極致工具。本文將拆解語音交互的最新戰場,看AI如何讓對話從機械應答進化到自然交互。
———— / BEGIN / ————
前幾天寫了一篇關于語音交互的文章,大家有不少討論,于是我特意找了一些聚焦語音交互的 AI 公司和產品,想和大家一起看看,現在做語音交互的公司們都在做什么。
大廠:卷場景,爭入口1. OpenAI:讓 AI 像真人一樣接電話
OpenAI 最近的動作非常快,他們把實時語音對話提升到了核心戰略位置。
打斷式對話:現在的對話模型不再是你一句、我一句的死板對講,你可以在它說話時隨時打斷、糾正,它的反應速度和真人幾乎沒區別。
接管電話網絡:最關鍵的動作是他們發布了支持 SIP(會話發起協議)的 Realtime API。通俗點說,開發者可以直接把 OpenAI 的語音能力接進公司的電話交換機里。
這意味著,你接到的客服電話、預約電話,背后可能就是一個反應極快、邏輯清晰的 AI 智能體。
![]()
2. 蘋果:語音變成指揮棒
蘋果在 Apple Intelligence 蘋果智能里,把語音能力切得很碎,塞進了最常用的溝通場景:
通話與錄音的一條龍服務:現在的 iPhone 不僅能錄音,還能實時轉寫成文字,并自動生成摘要。你打完一個半小時的電話,它直接給你列出三個待辦事項。
AirPods 的實時翻譯:戴上耳機,對方說外語,你聽到的是中文,幾乎沒有感官上的延遲。
快捷指令:以前復雜的“快捷指令”需要手動編排,現在你只要動動嘴,Siri 就能直接調用這些能力幫你完成跨 App 的操作。
![]()
3. 谷歌:一邊搜索,一邊聊天
谷歌把 Gemini Live 的能力深度嵌入到了搜索里,搞出了一個Search Live:
追問式搜索:語音搜索不再是“問一個問題,給一個答案”。你可以邊聊邊找,比如:“幫我找下周去大理的機票。”
搜出來后直接追問:“要下午出發的,價格不要超過一千。”它會根據之前的對話內容持續更新搜索結果。
4. 亞馬遜:Alexa 終于要變聰明了
亞馬遜推出了下一代Alexa+。這次他們很明確,Alexa+ 不再只是控制燈泡的開關,而是要走能聊天、能辦事的路線。
它能記住你的生活習慣,處理更復雜的家務指令,比如“幫我訂一份常吃的那個披薩,要在半小時內送到”。
5. 微軟:Copilot 成了 Windows 的聲卡
微軟開始在 Windows 系統里大規模測試“Hey Copilot”喚醒詞。他們想讓語音成為辦公的常駐入口。
不管是寫 PPT 還是查表格,你不需要到處點菜單,直接說話,Copilot 就能在后臺幫你把活兒干了。
![]()
初創公司:拼效率、搶速度
Product Hunt 2025 年專門做了“AI 聽寫應用”的 Orbit Awards,我梳理了上面風頭最勁的幾家語音初創公司。
![]()
1. Wispr Flow:想讓你徹底扔掉鍵盤
它是做什么的:一個系統級的語音輸入工具。
規模:剛拿到 8100 萬美元融資,估值約 7 億美元。
怎么用:你在電腦上任何能打字的地方(微信、郵件、Word),按下快捷鍵直接說話。
特點:它最厲害的地方在于“自動整理”。你說話的時候可能有口音、有廢話、有重復,但它轉出來的文字是邏輯嚴密、排版工整的。它就像一個全能速記員+文案編輯,目前已經有大量用戶用它替代了 70% 以上的鍵盤輸入。
2. Aqua Voice:專門為寫長文設計
它是做什么的:針對長篇文檔、劇本、報告的語音寫作工具。
怎么用:你坐在椅子上,像講故事一樣把內容說出來。
特點:普通的語音轉文字很難處理分段和語氣。Aqua Voice 擅長捕捉你的情緒和語氣,自動幫你判斷哪里該分段,哪里是重點。它不是簡單地記錄,而是像個影子作者一樣,幫你把零散的思想變成有可讀性的長文章。
3. Superwhisper:主打隱私和本地化
它是做什么的:一個運行在本地設備上的極速語音轉寫工具。
怎么用:適合醫生、律師、財務等對數據安全極度敏感的職業。
特點:它的模型是跑在你自己電腦里的(比如 Mac 的本地芯片),不需要聯網。這意味著你的談話內容永遠不會傳到云端,安全性極高,而且轉寫速度極快,幾乎是話音剛落,文字就出來了。
4. Known:聲音驅動的新社交
它是做什么的:一個基于語音匹配的社交平臺。
規模:最近剛獲得 9700 萬美元融資。
怎么用:拋棄了傳統的“看照片、左右劃”模式。
特點:它讓 AI 識別用戶的聲音特征、語調和表達邏輯,幫你找“聊得來”的人。他們認為聲音包含的信息比文字和照片多得多。
![]()
對比過去,語音交互也在進化:
容錯率變高了:以前你要適應機器,說話得字正腔圓;現在是 AI 適應你,你隨便亂說,它能聽懂意思并幫你整理好。
延遲消失了:現在的實時 API 讓對話延遲降到了毫秒級,你感覺不到是在和機器說話。
有了記憶和上下文:它知道你剛才說了什么,也知道你現在在處理什么任務。
我們也看到目前的語音交互市場,已經分成了兩條明顯的路徑:
大公司在做底座:把語音接進系統、接進搜索、接進電話網,讓它無處不在。
創業公司在做工具:針對寫文檔、防泄密、甚至社交等具體場景,把效率做到極致。
語音交互確實更符合用戶習慣和認知,但我也同樣期待下一個交互的 iPhone 時刻。
本文來自公眾號:Fun AI Everyday 作者:張艾拉
想要第一時間了解行業動態、面試技巧、商業知識等等等?加入產品經理進化營,跟優秀的產品人一起交流成長!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.