![]()
對話式AI賽道火熱,誰在賺錢?
作者 | 張語格
編輯 | 趣解商業·AI力場
語音對話,是用戶與AI交互最常見的方式之一,大模型的語音對話能力已成為AI應用和硬件的關鍵能力。Deepgram 和 Opus Research 的調研顯示,2025年,67% 的企業已將對話式AI 智能體置于戰略核心位置,84% 的企業計劃在未來一年增加相關投入。
此外,“趣解商業”注意到,AI語音賽道正在密集地獲得融資,OpenAI、Google等科技巨頭也在密集發布自己的語音模型或語音產品。
在這個日漸火熱的賽道里,一些為 AI 產品提供底層語音交互技術的平臺型公司,正在AI產業中扮演越來越重要的角色。
01.AI對話的“硬傷”
在生成式 AI 的浪潮下,基于實時互動技術的對話式 AI 正加速在各行各業落地實踐。
對話式AI整合了大語言模型(LLM)、自動語音識別(ASR)、文字轉語音(TTS)、實時互動(RTE)等技術,當前已在情感陪伴、智能硬件、在線教育等場景中實現規模化落地,陪伴類玩具、智能眼鏡、AI耳機等產品紛紛成為消費者爭搶的對象。
然而,伴隨消費熱潮而來的還有居高不下的退貨率。此前有媒體報道,AI毛絨玩具電商退貨率高達30%-40%,有些品牌的AI眼鏡退貨率甚至在40%-50%。
究其原因,仍然當前 AI 硬件普遍面臨交互生硬、情感連接弱、同質化嚴重等問題。有不少消費者表示,AI對話的體驗像是機器人一樣毫無感情“念稿”,沒有真實感且不流暢。有網友在社媒平臺上發帖表示,買的陪伴機器人到手體驗后感覺“好笨、會答錯、交互比較呆”,就退貨了。
![]()
圖源:小紅書截圖
“IT桔子”發布的“AIGC產品降速榜”顯示,今年9月聊天機器人、寫作工具等通用類AI產品的增速集體下降。“趣解商業”注意到,很多情況下AI產品被吐槽都是源于未能準確理解用戶的需求。
行業數據顯示,僅 21% 的用戶對現有 AI 對話體驗滿意,部分服務的用戶流失率高到“不可接受”。
聲智科技副總裁黃赟賀表示,真正的語音交互不止于語言交流,在語言之外,AI還要分析用戶聲音的頻率、振幅、波形,提取出情緒特征、識別不同的聲源、聲源距離、甚至預測用戶的意圖,“語調、音色、節奏、情緒,以及背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)這些環境中的各種非語音信息,也都是AI理解用戶的重要方式。”
但是,想要AI在復雜的環境中理解用戶意圖,并且通過端到端準確傳遞給用戶,還要克服不少技術瓶頸。在近期舉辦的Convo AI&RTE 2025第十一屆實時互聯網大會上,聲網創始人兼CEO趙斌對話式AI的技術挑戰概括為幾點:低延遲響應、自然打斷、上下文管理、情感理解與表達等。
![]()
圖源:罐頭圖庫
人類對話的延遲一般在400毫秒左右;有研究表明,當語音AI的響應延遲超過 500 毫秒時,用戶體驗會顯著下降,導致對話中斷或用戶放棄使用。然而,傳統的語音合成鏈路,從語音識別、大語言模型到語音合成,延遲能達到 2-3 秒,高延遲成了人機交互一大痛點。
AI產品的防干擾能力也很關鍵,如何識別哪些打斷的指令來自用戶,哪些是嘈雜的環境音,被用戶打斷補充后仍能流暢地給出回應,這既需要語音識別有聲學基礎,也要有足夠的上下文記憶和理解能力。
對于用戶來說,期待的不僅僅是一個能提供正確回答的機器,還是一個有“人味”的AI;如何解決這些挑戰,則是對話式AI產品具備擬人感的關鍵。
02.AI浪潮中的“賣鏟人”
聲網聯合 RTE 開發者社區發布的《2025 對話式 AI 應用場景熱力榜單》顯示,AI 語音助手、AI 社交與陪伴、AI 潮玩位列前三,充分說明對話式 AI 在個人助理與情感陪伴領域的強勁需求。而AI語音交互的需求,也帶動了一批平臺型語音技術公司迅速增長。
隨著對話式 AI 技術的快速發展,VoiceAgent 是目前市場上極具代表性的產品形態;當前Voice Agent主要有兩種主流架構方式——傳統的級聯模式和端到端模式。級聯模式是將三個獨立組件(語音識別、大模型推理、語音合成)串聯起來的流水線,開發者可以自由選擇不同公司的組件組裝產品;端到端模式則是由模型內部處理,直接輸出語音回復。
不同模式各有優劣,但無論哪種模式,都離不開穩定低延遲的實時傳輸技術作為底層支持。在此基礎上,一批提供穩定傳輸網絡的實時通信服務商開始迅速增長,例如即構科技、融云、科大訊飛、聲網等。
![]()
圖源:聲網
有行業人士表示,相比大廠的泛用型云服務,這些垂類公司勝在音視頻領域傳輸更穩定。例如聲網,就是在全球搭建了自己的網絡,全球任意兩點之間都能保證傳輸效率,但大廠很難為單一的音頻業務優化得這么細致。
作為“全球實時互動云第一股”,聲網在過去多年持續攻堅“聽到、聽懂、理解”三大難題;據“趣解商業”了解,聲網對話式 AI 相關用量在 2025 年第三季度實現 151% 的環比增長,展現出強勁的市場需求。
聲網近期還推出了對話式 AI 引擎 2.0,對話式 AI 開發套件、對話式 AI 模型評測平臺和對話式 AI Studio,加速對話式 AI 在實時互動行業的應用創新。聲網創始人兼CEO趙斌表示,截至目前,聲網年度服務分鐘數首次突破1萬億分鐘,標志著 RTE 技術已成為數字社會不可或缺的基礎設施。
據“趣解商業”了解,聲網對話式 AI 引擎落地案例豐富,例如為豆神 AI 的互動課提供實時語音交互支撐,實現 AI 教師與學生自然流暢對話;為賦之家庭陪伴機器人打造情感化語音交互,增強陪伴體驗;為珞博智能的 AI 寵物 Fuzozo 優化 AI 交互的實時性和穩定性,帶來個性化情感陪伴體驗。此外,MiniMax Chat、星野的語音對話功能,智譜清言的視頻通話功能、商湯商量的實時音視頻交互,背后都有聲網的技術支撐。
![]()
圖源:微博截圖
聲網推出對話式AI引擎后,將其視作新的增長曲線;然而從聲網母公司Agora, Inc.( NASDAQ:API )發布的財報來看,目前這項業務的收入對公司業績增長的貢獻尚不明顯。
Agora, Inc.是Agora和聲網兩家獨立企業的控股公司,它們的業務通過各自的子公司和可變利益實體進行管理。Agora, Inc.從今年一季度扭虧為盈,今年一季度和二季度分別收入3327萬美元和3425.9萬美元,同比增長0.8%和0.1%。
“趣解商業”注意到,今年上半年,面向中國市場的“聲網中國”和面向海外市場的“Agora”業績顯露出不同的趨勢,公司增長全部由面向海外市場的Agora貢獻,而聲網中國的收入則是連續兩季度同比下降。
財報數據顯示,Agora在2025年第二季度收入為1820萬美元,同比增長16.7%,而聲網中國收入為1.155億元人民幣(約合1610萬美元),同比下降12.4%。Agora, Inc.在財報中解釋,Agora的增長主要得益于業務拓展以及直播購物等領域使用量增長,具體來源于API調用增加還是對話式AI引擎產品的銷售,無法確定;聲網中國的收入減少則源于某些終端銷售產品的停售,如果加上這部分則收入與去年同期基本持平。
“趣解商業”注意到,Agora, Inc.在電話會議中披露了聲網中國的客戶數量,截至3月末和6月末,其活躍客戶數量分別為1994和1997,幾乎沒有增長。
另外值得注意的是,今年二季度,Agora, Inc.的研發費用為1400萬美元,占總收入的40.9%,這對一家剛剛扭虧的公司而言仍是一筆不菲的支出;但相比去年同期的1810萬美元研發費用,同比下降23.0%,主要原因是公司優化全球員工隊伍,導致人員成本下降,其中包括股權激勵費用從2024年第二季度的210萬美元降至2025年第二季度的100萬美元。
![]()
![]()
圖源:聲網財報截圖
值得一提的是,今年Agora的核心高管也出現了人事變動。今年8月,Agora宣布公司董事、首席技術官和首席科學家鐘聲(Shawn)離職,其運營職責被移交給公司創始人、董事長兼首席執行官趙斌;現任公司聲網(Agora)首席營收官、聯合創始人Tony Wang和現任公司首席財務官的王靜波已被任命為公司董事。
在AI浪潮中“賣鏟子”是門好生意,但賺到錢的前提是“鏟子”足夠好用。為了拿出更多定制化、差異化的語音技術服務,聲網這類垂直服務商需要持續的研發投入保持競爭優勢。可以預見的是,隨著多模態AI應用的普及,那些能夠提供低延遲、高穩定性、自然交互體驗的技術平臺,將在下一輪競爭中占據更加有利的位置。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.