來源:市場資訊
(來源:AI信息Gap)
谷歌繼續放大招。
昨天音樂,今天語音。
剛剛,谷歌發布 Gemini 3.1 Flash Live,專為實時對話打造的語音模型。
它能聽、能看,還能原地調用工具。
![]()
谷歌今天還把 Search Live 推到了全球 200 多個國家。
ComplexFuncBench Audio 測試 AI 語音模型在聊天時能不能完成多步工具調用。
比如你說「幫我查明天最早去上海的飛機,然后加到日歷」,它能不能邊聊邊搜索、篩選、寫入日歷。
谷歌上一代實時語音模型 2.5 Flash Native Audio,當時 ComplexFuncBench Audio 的成績是 71.5%。
Gemini 3.1 Flash Live 斷層提升,90.8%。
![]()
谷歌 AI Studio 負責人 Logan Kilpatrick 說,「我們花了一年多,模型、基礎設施、用戶體驗全部推倒重做。」
Gemini 3.1 Flash Live 加了一層背景音過濾。
以前你在馬路邊、電視響著的環境里,模型分不清噪音和人聲,很可能就把電視里的人聲當成你的指令。現在能分清了。
也更聽話了。你給它一套系統提示詞,讓它當客服只聊產品問題。以前可能聊著聊著就跑偏了,現在即使話鋒一轉,它也能遵循原有指令。
響應更快。對話里的尷尬停頓明顯減少。
而且支持 90 多種語言。
Search Live 是今天最重磅的發布之一。
這個功能從 2025 年 7 月上線到現在,一直只在美國和印度能用。今天谷歌一口氣推送到全球 200 多個國家和地區。
打開谷歌 App,搜索欄下面有個 Live 圖標。
點進去,直接和谷歌搜索對話。問完一個問題,它用語音回答你,你可以繼續追問,就像打電話一樣。
還能打開攝像頭。對著一個東西問「這是什么」,它能看到你的畫面,實時回答。
![]()
Google Translate 的「耳機同聲傳譯」也終于登陸你的 iPhone。
我們之前聊過這個功能,當時只有安卓能用。那篇文章結尾我寫道,「iOS 和更多地區要等明年了。」
現在,它來了。
除了 iOS 上線,「同聲傳譯」還擴展到了法國、德國、意大利、日本、西班牙、泰國和英國。
打開 Google Translate,選擇 Live translate。你的耳機直接變身為支持 70 多種語言的實時翻譯。
![]()
打開 Gemini App,Gemini Live 已經換上了剛剛發布的 3.1 Flash Live。
響應更快,尷尬停頓更少,能記住的對話長度翻倍了。
以前聊幾輪可能就忘了之前說過什么,現在能記住更長的上下文。
AI Studio 也已經全面支持 Gemini 3.1 Flash Live,模型 ID gemini-3.1-flash-live-preview。
打開 AI Studio。默認 Playground,選 Real-time 模式,開聊。
![]()
劃重點,免費。
實時語音賽道,OpenAI 有 Realtime API。谷歌是 Gemini Live API。
Anthropic 到今天都沒有語音模型。Claude 死磕推理和編程,語音不是優先級。
OpenAI 在打斷控制上稍微領先。你打斷 AI 說話的時候,它停得更干脆,馬上讓你接話。
谷歌更大的優勢在多模態和多語言。90 種語言,加上視覺輸入,搜索、地圖、翻譯整套自家生態都能調用。
小細節,所有 Gemini 3.1 Flash Live 生成的音頻都帶 SynthID 水印。你聽不出來,但機器能檢測到,防深度偽造。
谷歌這周殺瘋了。
昨天發布 Lyria 3 Pro,AI 音樂從 30 秒升級到 3 分鐘。
今天上線 Gemini 3.1 Flash Live,Search Live 推送到 200 國,耳機實時翻譯登陸 iOS。
兩天。四個產品。
我是木易,Top2 + 美國 Top10 CS 碩,現在是 AI 產品經理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.