前幾天,在AI產(chǎn)品經(jīng)理大會上,聲網(wǎng)對話式AI產(chǎn)品的負(fù)責(zé)人姚光華,被很多人圍住了。
原因是他在大會上分享了聲網(wǎng)去年與OpenAI合作推出全球首個Realtime API背后的故事,大家都很好奇OpenAI為啥會選聲網(wǎng)。
我研究了一下,原來OpenAI很早就公布了3家語音API合作者:Agora、LiveKit、Twilio。
其中,Agora是聲網(wǎng)在美國的兄弟公司,也是OpenAI長期深度的合作伙伴。
![]()
據(jù)說當(dāng)時OpenAI找過不少候選方。有技術(shù)更強(qiáng)的實(shí)驗(yàn)室,也有規(guī)模大的云廠商。但它們都有明顯短板。
實(shí)驗(yàn)室技術(shù)行,可沒什么商業(yè)化落地經(jīng)驗(yàn),扛不住真實(shí)場景的高并發(fā)。
云廠商的RTE服務(wù)大多是“附帶業(yè)務(wù)”,沒把這當(dāng)核心方向發(fā)力。
聲網(wǎng)的優(yōu)勢剛好在這里。
成立于2014年的聲網(wǎng),已經(jīng)在RTE領(lǐng)域深耕11年,早就在真實(shí)場景里受過考驗(yàn)。
比如之前幫新東方扛過百萬師生同時上網(wǎng)課的流量峰值,還幫重慶120做過急救視頻會診的穩(wěn)定支撐。
這種“能扛高并發(fā)、經(jīng)得住實(shí)戰(zhàn)”的穩(wěn)定性,正是OpenAI最需要的。只是交互的對象從人與人之間變成了人與 AI。
01. OpenAI Realtime API 與聲網(wǎng)的結(jié)合
OpenAI 自從推出 GPT-4o 之后,一直在推動模型語音交互能力。
GPT-4o 不僅支持文本,新增了音頻和視覺的推理能力,能更快響應(yīng)音頻輸入,這讓實(shí)時語音交互進(jìn)入到真實(shí)可用階段。
在 2024 年 10 月發(fā)布的 Realtime API 中,OpenAI 選擇了 Agora 作為其中一個集成伙伴,這標(biāo)志著 OpenAI 正試圖把其語言模型的實(shí)時語音交互能力推向更廣泛的開發(fā)者生態(tài)。
通過 Agora 的 Conversational AI SDK,開發(fā)者可以在自己的應(yīng)用里快速構(gòu)建基于 OpenAI Realtime API 的實(shí)時語音交互產(chǎn)品。
![]()
解釋一下到底聲網(wǎng)和OpenAI合作了個啥~有幾個重要設(shè)計(jì)方向值得關(guān)注:
首先一個,是真實(shí)實(shí)時需求。
開發(fā)實(shí)時語音對話應(yīng)用,不能把網(wǎng)絡(luò)延遲和語音處理疊加成可預(yù)期的抖動。
Agora 提供的底層實(shí)時網(wǎng)絡(luò),沒有用普通 HTTP 或 WebSocket 去做請求,是有一套專門針對實(shí)時音視頻設(shè)計(jì)過的協(xié)議和網(wǎng)絡(luò)路由,能把延遲和丟包控制在更低水平。
再一個,是全鏈路優(yōu)化。
為了提高真實(shí)環(huán)境下的語音交互質(zhì)量,Agora 的 SDK 里加入了對環(huán)境噪聲抑制和 AI 回聲消除的支持。
這是典型的工程優(yōu)化需求:用戶在街上、辦公室、家庭不同噪音環(huán)境下交互,需要快速把干擾降到可用水平,這樣模型才能接收到清晰輸入,反應(yīng)才不會出現(xiàn)誤識別。
最后還得有高可擴(kuò)展性。
這套 SDK 并不鎖定某個模型或一個服務(wù)商,開發(fā)者可以根據(jù)具體業(yè)務(wù)需求,將 OpenAI Realtime API 作為其中一個模塊接入使用。
通過標(biāo)準(zhǔn)化的調(diào)用方式,不同業(yè)務(wù)可以復(fù)用一套實(shí)時通信和語音處理能力。
這一整套解決方案的目標(biāo)是減少開發(fā)者在實(shí)時語音對話這件事上的“自定義環(huán)節(jié)”,讓產(chǎn)品團(tuán)隊(duì)能把更多精力投入在業(yè)務(wù)邏輯和產(chǎn)品體驗(yàn)上,不需要再因?yàn)樘幚淼讓訁f(xié)議、丟包重傳、環(huán)境噪音等細(xì)節(jié)問題焦頭爛額。
![]()
02. 不止OpenAI:國內(nèi)AI公司也在用聲網(wǎng)
在當(dāng)下國內(nèi)的AI產(chǎn)業(yè)中,既有摩爾線程、DeepSeek、MiniMax這樣的明星企業(yè),也有很多像聲網(wǎng)這樣在背后默默提供AI底層技術(shù)支撐的企業(yè),搭建起AI產(chǎn)業(yè)的基建,他們也同樣值得敬佩。
想搞懂聲網(wǎng)在AI領(lǐng)域的核心競爭力,看國內(nèi)合作案例就很直觀。
最近MiniMax在沖刺國內(nèi)大模型第一股,其實(shí)聲網(wǎng)去年就和它合作了。
倆家一起發(fā)布了國內(nèi)首個Realtime API,2024年10月在RTE 2024實(shí)時互聯(lián)網(wǎng)大會上首次亮相。
這個API就是為了提升端到端實(shí)時多模態(tài)處理能力,讓延時更低,語音對話更自然。
還有像智譜、商湯等大模型公司,以及國內(nèi)知名的AI應(yīng)用/硬件,例如星野、豆神AI、芙崽Fuzozo等,也都在用聲網(wǎng)的對話式AI技術(shù),構(gòu)建極致的人機(jī)交互體驗(yàn)。
![]()
現(xiàn)在AI陪伴、AI伴侶式應(yīng)用越來越火了,而聲網(wǎng)的底層技術(shù)支撐,成了很多AI伴侶機(jī)器人規(guī)模化應(yīng)用的關(guān)鍵基礎(chǔ)設(shè)施。
像聲網(wǎng)為Fuzozo芙崽提供對話式 AI 引擎,通過低延遲、高穩(wěn)定的實(shí)時互動技術(shù)實(shí)現(xiàn)自然流暢的情感交互。
更早之前,MiniMax、星野、智譜清言,在打造多媒體互動平臺、語音交互體驗(yàn)的時候,背后的技術(shù)支持也是聲網(wǎng)。
可以說,聲網(wǎng)為很先鋒的這批AI公司的核心體驗(yàn),提供了很深入、很細(xì)致的技術(shù)支持。
好比聲網(wǎng)對話式 AI 引擎提供的智能打斷處理技術(shù)賦予了智能體、機(jī)器人靈活的對話能力,能夠根據(jù)用戶的表達(dá)實(shí)時調(diào)整,極大地提升了交互的適應(yīng)性與流暢度,告別機(jī)械式應(yīng)答。
硬件、機(jī)器人公司的需求,也在聲網(wǎng)的技術(shù)服務(wù)射程范圍內(nèi)。
機(jī)器人技術(shù)初創(chuàng)公司Carbon Origins,就已在通過 Agora的技術(shù)以及 OpenAI RealtimeAPI,實(shí)現(xiàn)重型設(shè)備的無接觸操作,提升操作人員的工作效率。
再比如在兒童智能手表場景里,屏幕本身很小,語音交互成為核心的輸入與反饋方式。
實(shí)時語音對話不僅要求聽得清,還需要語義理解準(zhǔn)確,這對于設(shè)備端的處理能力和網(wǎng)絡(luò)調(diào)度提出了要求。
聲網(wǎng)在 IoT 端配合大模型能力,構(gòu)建了一套低延遲語音識別、降噪處理、云端實(shí)時推理和混合多模態(tài)輸入的方案,幫助設(shè)備廠商在終端產(chǎn)品上實(shí)現(xiàn)更自然的語音體驗(yàn)。
客服、娛樂等場景,也是聲網(wǎng)積累多年的優(yōu)勢領(lǐng)域。
而近年和AI深度結(jié)合后,實(shí)時互動、場景拓展,帶來了更真正的效果提升。
![]()
人和人之間的實(shí)時互動和人和 AI 之間的實(shí)時對話從本質(zhì)上有區(qū)別,但考驗(yàn)底層通信穩(wěn)定性的需求是一致的。
不同的是,前者是數(shù)據(jù)傳輸可靠性要求高,后者在此基礎(chǔ)上還需要對接模型推理和語音識別、合成等模塊。
![]()
現(xiàn)在很多人在談 AI 語音時只盯著模型和算法,但對實(shí)時性的要求是層層疊加的工程挑戰(zhàn)。聲網(wǎng)的價值正在于它把這些工程難題,做成了對開發(fā)者可復(fù)用的能力。
任何產(chǎn)業(yè)的崛起從不是單點(diǎn)的勝利,而是生態(tài)的共榮。當(dāng)越來越多的中國企業(yè)通過創(chuàng)新在世界的舞臺上閃耀,我們才能在全球AI的浪潮中勇立潮頭。
03. 從實(shí)時音視頻到對話式交互:聲網(wǎng)的技術(shù)積累
聲網(wǎng)從最早做實(shí)時音視頻切入市場。過去十年,它積累了全球?qū)崟r互動的基礎(chǔ)設(shè)施能力,規(guī)模和影響力已經(jīng)非常明顯。
在教育、遠(yuǎn)程辦公、娛樂直播、社交互動等領(lǐng)域,實(shí)時互動技術(shù)是基礎(chǔ)設(shè)施級別的能力。
這種技術(shù)看上去很靠底層,但實(shí)際上涉及非常多復(fù)雜工程問題。
不同國家、不同運(yùn)營商的網(wǎng)絡(luò)環(huán)境差異很大,移動網(wǎng)絡(luò)的丟包、抖動、本地終端性能的不同,都對實(shí)時通信提出了極高要求。聲網(wǎng)在這部分積累的經(jīng)驗(yàn),成為它進(jìn)入 AI 實(shí)時互動的最大基礎(chǔ)。
到 2025 年10月,聲網(wǎng)的年度服務(wù)時長已經(jīng)突破1 萬億分鐘級別,這說明有大量應(yīng)用在背后持續(xù)使用它的實(shí)時能力。
![]()
一個技術(shù)在實(shí)驗(yàn)室能跑,跟在全球真實(shí)網(wǎng)絡(luò)條件下跑是完全不同的兩個世界。
一個跑一兩百次請求成功,很容易;要在數(shù)千個物理節(jié)點(diǎn)和數(shù)百萬用戶并發(fā)訪問下保持穩(wěn)定,需要的設(shè)計(jì)和工程迭代完全不是一丁點(diǎn)功夫。
這也是為什么 OpenAI 在全球范圍內(nèi)尋找能夠支持 Realtime API 的合作伙伴時,會最終把 Agora 納入清單的一部分原因。
![]()
Agora 的實(shí)時網(wǎng)絡(luò)覆蓋范圍廣,存在多年的運(yùn)營經(jīng)驗(yàn)、本地網(wǎng)絡(luò)調(diào)度優(yōu)化能力,已被全球眾多開發(fā)者在實(shí)際商業(yè)場景中驗(yàn)證過。
在網(wǎng)絡(luò)層、音頻處理和實(shí)時路由上,聲網(wǎng)有一套完整的解決方案,能縮短端到端的延遲,提升語音識別準(zhǔn)確率和穩(wěn)定性。
對企業(yè)和開發(fā)者的吸引力在于,不僅能讓開發(fā)者更快交付產(chǎn)品,還在實(shí)際復(fù)雜使用場景下表現(xiàn)更可靠。
![]()
有幾個我非常喜歡的功能,也是聲網(wǎng)的技術(shù)亮點(diǎn),在實(shí)現(xiàn)人和AI 智能體的自然交互表現(xiàn)很突出:
自動問候:確保實(shí)時感知會話狀態(tài),并提供自然、友好的初始交互體驗(yàn)。
混合模態(tài)交互:支持在單個交互會話內(nèi),實(shí)現(xiàn)語音與文本輸入的無縫切換。
靈活的話輪檢測選項(xiàng):為開發(fā)者提供對對話流程和話輪轉(zhuǎn)換行為的精細(xì)化控制。
無中斷輸入:通過選擇性注意力鎖定技術(shù),可過濾環(huán)境噪音與干擾語音,確保交互過程不中斷。
這套方案不僅能簡化Realtime API的應(yīng)用流程,還能為多模態(tài) AI 智能體解鎖全新功能與應(yīng)用場景。
將 OpenAI的實(shí)時語言模型與聲網(wǎng)的全球?qū)崟r網(wǎng)絡(luò)基礎(chǔ)設(shè)施(SD-RTN)及定制化開發(fā)者工具包相結(jié)合后,開發(fā)者既能縮短產(chǎn)品上市時間、簡化應(yīng)用開發(fā)流程,又能交付更優(yōu)質(zhì)的實(shí)時對話式 AI 體驗(yàn)。
04. 技術(shù)提供者與生態(tài)構(gòu)建者的角色
今天的 AI 技術(shù)發(fā)展已經(jīng)進(jìn)入一個新的階段,從單一模型能力向產(chǎn)品生態(tài)擴(kuò)展推進(jìn)。
開發(fā)者關(guān)注的不只是模型本身,還關(guān)注用戶是什么時間、在什么場景、以什么形式和模型互動。
聲網(wǎng)所處的位置,恰恰是核心基礎(chǔ)設(shè)施。
它長期積累的實(shí)時網(wǎng)絡(luò)能力、弱網(wǎng)適配、跨平臺支持、SDK 開發(fā)套件等,讓大規(guī)模實(shí)時互動成為可能。
不只是與 OpenAI 合作,現(xiàn)在,聲網(wǎng)支撐的實(shí)時互動覆蓋超過 200 多個國家和地區(qū),月服務(wù)分鐘數(shù)已經(jīng)達(dá)到了700億。
IDC 的市場數(shù)據(jù)還表明,在中國實(shí)時音視頻市場,聲網(wǎng)的份額持續(xù)保持著領(lǐng)先。
這種基礎(chǔ)設(shè)施級別的能力,不會因?yàn)槟P透露В鼤S著 AI 越來越多落地行業(yè)而變得更重要。
也許在2026年,隨著AI應(yīng)用/硬件的規(guī)模化落地,AI行業(yè)的聚光燈,將真正打在聲網(wǎng)這樣的「幕后英雄」身上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.