![]()
智東西
作者|江宇
編輯|冰倩
智東西3月27日消息,昨日凌晨,谷歌正式推出其最高質量的音頻和語音模型——實時語音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步開放,其中后者以預覽版本向開發者提供。
這一版本的核心在實時語音Agent能力升級:語音已可直接驅動應用開發(vibe coding),Gemini App的實時多模態對話能力同步增強,在多項評測中超過GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview等模型。
模型一出,就被外網網友稱作Siri“救星”。就在昨日,外媒曝2026蘋果WWDC將主打AI并將推新版Siri,蘋果已獲谷歌完整Gemini模型直連權限,將通過蒸餾自研輕量化端側AI部署iPhone。
![]()
這款模型面向實時語音交互,對連續對話進行了整體優化,包括響應延遲、上下文記憶、多語言處理及工具調用等關鍵能力。
Gemini Live中的上下文窗口已提升至此前的2倍,Search Live支持在200多個國家和地區進行多語言實時交互,整體能力面向連續對話和復雜任務場景。
從公開測試結果來看,這一版本在語音Agent關鍵能力上提升顯著。在ComplexFuncBench audio測試中,Gemini 3.1 Flash Live的函數調用準確率達到90.8%,相比Gemini 2.5 Flash Native Audio去年12月版本的71.5%,以及2025年9月版本的66.0%,都有明顯提高。
![]()
在Scale發布的Audio MultiChallenge音頻輸出榜單中,該模型得分36.1%,高于GPT-Realtime-1.5的34.7%、Qwen3 Omni 30B A3B Instruct的24.3%、GPT-4o Audio preview的23.2%等模型。
![]()
與此同時,這一版本重點優化了實時對話體驗。模型在語音識別中對語調、語速和停頓的處理更細;在嘈雜環境下,對背景噪音的過濾能力增強,可以更穩定識別用戶指令并執行任務;在復雜指令場景中,對系統約束的遵循能力也有所提升。
已有獲得更新的用戶開始嘗試新玩法,有人直接用語音指令讓模型生成簡短演唱片段,這類能力已經可以在對話中被觸發。
其API價格也已公布:文本輸入每百萬token約0.5美元、輸出約4.5美元,音頻輸入約3美元、輸出約12美元,支持多模態輸入調用。
![]()
模型一經發布,社區已經出現初步反饋。有網友評價稱,這是一次“強勢更新”,并指出更快的語音響應是一種“用戶體驗層面的關鍵突破”,如果延遲和多輪對話中的連續性能在更長時間的使用中保持穩定,語音交互的采用速度可能會明顯提升。
不過,也有用戶仍然保持謹慎。一位開發者直言,自己此前已經放棄使用語音模型,因為其回復質量明顯不如文本,并反問這一情況是否真的發生了改變。
![]()
智東西也對這一功能進行了初步體驗。其中文語音表現仍偏機械,多輪對話過程中存在中斷情況,暫未能完整體驗其連續交互能力。當前該版本正分批推送,iOS和安卓用戶已開始陸續收到更新。
一、開口就是改代碼:UI、交互、風格一段話全部重做
在這次發布中,谷歌首先展示的是語音驅動應用開發(vibe coding)這一類場景,開發者可以在Google AI Studio里一邊說話一邊做應用,讓開發過程跟上腦暴的節奏。
![]()
▲Live Vibe Coder頁面,用戶可上手實操
用戶可以用語音連續調整界面。對話一開始,用戶直接提出修改:“把麥克風做大一點”,界面隨即發生變化;緊接著補一句“背景加點黃色波點”,頁面背景立刻更新。
隨后用戶繼續疊加需求,例如加入“鼠標懸停時的反饋效果”、讓背景圖案持續滾動,這些改動都在同一段對話中逐步完成。
用戶一邊說,界面一邊變化。中途用戶又臨時調整方向,說“干脆整體做成波普風”,模型就在已有基礎上繼續重做視覺風格,整個過程接近和設計師一對一的實時溝通。
二、設計協作、跨語對話、角色扮演,三類場景同時落地
除了應用開發,谷歌還給出了三類實際使用的場景,包括界面設計協作、跨語言陪伴交流,以及游戲中的角色互動。
在設計工具Stitch的案例中,語音也可直接參與到界面編輯流程。用戶先讓界面跳到“練習模式”,再切到“歌曲庫”,隨后開始具體挑問題:“這些虛線和方形邊框看著有點硬,能不能讓數字更貼合圓形?”界面隨即往更簡潔的方向調整。緊接著又換一套思路:“試一個偏棕色、木質一點的配色”,新的視覺版本便直接生成出來。
在面向老年用戶AI硬件設備Ato的交互案例中,重點放在多語言對話的連續性,對話內容圍繞日常問候和陪伴展開。用戶先用英語聊天,再插入一個條件:“我要跟奶奶說話,但她只會西班牙語”,模型在同一段對話里切換語言繼續交流,對話內容并不會因為語言變化而中斷。
對話中一旦出現真實場景的插入信息,比如提到“剛從醫院出來有點累”,模型會順著語境回應,給出一段連續的交流。
在RPG游戲《Wit’s End》的案例中,語音被用來驅動角色本身。玩家提問時,模型會用帶有設定的語氣回應,例如圍繞“你有沒有實體形態”“你的能力來自哪里”等問題展開,對話始終保持在角色語境里。回答不會跳出設定,會沿著同一世界觀繼續展開,語氣和表達方式也保持一致。
結語:谷歌做“全棧語音Agent”,國內玩家一邊抓用戶,一邊補能力
從這次發布來看,谷歌正在把語音能力做成一套更完整的通用能力體系。無論是編程場景中的vibe coding,還是AI硬件交互、移動端Gemini App入口,多個形態都在同時推進,覆蓋范圍擴展到不同使用場景。
在產品形態上,Gemini App與國內的豆包等產品已有明顯相似之處,都是以對話為核心入口,承接搜索、工具調用和多輪交互。但在實際體驗上,兩者并不相同。豆包在中文表達、語氣風格以及互動感上更為主動,調侃式表達更容易形成用戶黏性,也已經在國內積累了一定用戶規模。
相比之下,谷歌當前的重心仍放在能力拓展上,尤其是在語音驅動開發這一類場景中,vibe coding所體現的連續修改能力和實時交互節奏,已經領先于現有產品形態。
與此同時,國內在語音模型能力上的進展也在加快。階躍星辰Step-Audio R1.1在Artificial Analysis語音推理榜單中拿下第一,以96.4%準確率超過Grok、Gemini、GPT-Realtime等模型,成為當前語音推理方向的代表性成果之一。
一邊是谷歌不斷拉高能力上限,嘗試覆蓋更多場景;另一邊是國內玩家在用戶規模與模型能力兩端同時推進,語音Agent的競爭態勢,正愈演愈烈。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.