![]()
智東西
編譯|萬貴霞
編輯|云鵬
智東西1月23日消息,谷歌正在通過“引入團隊+技術授權”的方式,加速補齊Gemini在語音與情感理解上的短板。
據TechCrunch與美國《連線》昨日報道,谷歌旗下DeepMind已與AI語音初創公司Hume AI達成授權合作協議。Hume AI創始人兼CEOAlan Cowen將與約7名核心工程師加入DeepMind,直接參與Gemini語音與情感智能的研發。
這筆交易并非整體收購,根據Hume AI新任CEO Andrew Ettinger的說法,谷歌獲得了Hume AI全部知識產權的非獨家使用權,相關技術將被整合進谷歌的模型研發流程,而Hume AI公司主體仍將獨立運營,并繼續向其他AI實驗室提供服務。
Hume AI的核心優勢在于“情感智能”語音模型,該公司專注于通過語音信號識別用戶情緒與心理狀態。2024年其推出“共情語音接口”(Empathetic Voice Interface),并已累計融資約8000萬美元(約合人民幣5.6億元),預計今年營收可達1億美元(約合人民幣7億元)。
谷歌此次引入其核心團隊,被視為在語音體驗上正面迎戰ChatGPT語音模式的關鍵一步。
一、核心團隊加入DeepMind,主打“情感智能”的語音模型
據報道,Hume AI創始人兼前CEOAlan Cowen將與多名工程師加入谷歌DeepMind,主要任務是幫助谷歌將語音與情感智能整合進其前沿模型,提升Gemini在自然對話和情緒理解方面的能力。
![]()
▲Hume AI創始人Alan Cowen(圖源:Alan Cowen個人網站)
Cowen本人擁有心理學博士背景,這也被認為是Hume在“情感建模”方向上的重要優勢。
此次交易的具體金額尚未披露。Hume AI新任CEO、投資人兼科技高管Andrew Ettinger告訴TechCrunch記者,谷歌獲得了Hume AI全部知識產權的非獨家使用權,相關技術將被整合進谷歌的研發流程,但公司并未被整體出售。
![]()
▲Andrew Ettinger繼任Hume AI CEO的消息(圖源:領英Andrew Ettinger個人主頁)
Hume AI將繼續對外提供技術服務,并計劃在未來幾個月內發布新模型。Ettinger預計,Hume AI有望在今年實現約1億美元的營收目標。
Hume AI成立以來,始終聚焦一個相對細分但潛力巨大的方向——理解人類語音中的情緒與心理狀態。
2024年,Hume AI推出“共情語音接口”,其核心能力在于通過語音信號判斷用戶的情緒變化,并據此調整回應方式。與傳統語音助手側重指令識別不同,Hume的模型試圖解決“用戶當下處于什么狀態”這一問題。
![]()
▲Hume AI官網頁面(圖源:Hume AI官網)
WIRED報道中提到,Hume AI在模型訓練過程中投入了數百萬美元,通過專家標注大量真實對話中的情緒線索,使模型能更精細地區分語氣、語調與情緒變化。
PitchBook數據顯示,Hume AI目前累計融資約8000萬美元,投資方包括AEGIS Ventures等機構。
二、谷歌補齊Gemini語音短板,語音賽道全面升溫
對谷歌而言,引入Hume AI團隊并不意外。近年來,谷歌持續推進Gemini Live功能,允許用戶以語音方式與AI進行連續對話。
上個月,谷歌還發布了面向Live API的原生音頻模型,強調其在復雜流程處理方面的能力。但在“自然度”和“情感感知”層面,Gemini仍面臨來自OpenAI等對手的壓力。
![]()
▲谷歌Gemini Live API概覽(圖源:谷歌Cloud)
在此背景下,Hume AI團隊被視為一個“即插即用”的補強方案。多位匿名消息人士向WIRED透露,Cowen及其團隊將在谷歌內部,專注于將情感智能深度嵌入新一代模型。
Hume AI并非孤例。過去一年,語音能力正在成為AI廠商投入資源最多的方向之一。
本月初,AI語音生成公司ElevenLabs披露,其年度經常性收入(ARR)已突破3.3億美元(約合人民幣23.1億元),顯示出市場對高質量語音技術的真實需求。
與此同時,OpenAI被曝正在與前蘋果設計師Jony Ive團隊合作開發一款主打音頻功能的個人設備,為今年發布做準備。近期泄露的消息說,該設備可能是一款耳塞。
Meta同樣在加速布局。去年,Meta收購語音初創公司Play AI,其Ray-Ban智能眼鏡已越來越依賴語音輸入,在嘈雜環境下實現通話、信息與多媒體控制。投資人Vanessa Larco直言:“在可穿戴設備上,語音幾乎是唯一可行的輸入方式。”
![]()
▲Ray-Ban智能眼鏡(圖源:Reddit)
結語:“授權+挖人”成為常態,語音成為AI的“下一層接口”
值得注意的是,Hume AI的交易再次觸及一個監管敏感問題:“收購式招聘”。與直接并購公司不同,大型科技公司通過引入初創團隊、獲取技術授權,往往可以繞開傳統并購所需的反壟斷審查。
類似案例已多次出現,谷歌此前以授權方式引入Character AI相關技術;微軟招募了Inflection團隊;亞馬遜引入Adept核心人員;Meta則挖走了Scale AI的CEO。
從當前趨勢來看,語音正在演變為AI與人類交互的核心入口。對科技公司而言,理解“說了什么”只是第一步,更重要的是理解“為什么這樣說”“說話時的情緒狀態是什么”。
隨著語音、情感與多模態能力進一步融合,AI的競爭焦點正在從模型參數規模,轉向真實交互體驗的細節層面。
來源:《連線》雜志、TechCrunch
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.