網易首頁 > 網易號 > 正文申請入駐

谷歌掀語音Agent新紀元！開口就是生產力，Siri的最強外掛來了？

2026-03-27 23:23:19　來源: 智東西

北京舉報

分享至

智東西
作者｜江宇
編輯｜冰倩

智東西3月27日消息，昨日凌晨，谷歌正式推出其最高質量的音頻和語音模型——實時語音模型Gemini 3.1 Flash Live，并在Gemini App、Search Live以及Google AI Studio中同步開放，其中后者以預覽版本向開發者提供。

這一版本的核心在實時語音Agent能力升級：語音已可直接驅動應用開發（vibe coding），Gemini App的實時多模態對話能力同步增強，在多項評測中超過GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview等模型。

模型一出，就被外網網友稱作Siri“救星”。就在昨日，外媒曝2026蘋果WWDC將主打AI并將推新版Siri，蘋果已獲谷歌完整Gemini模型直連權限，將通過蒸餾自研輕量化端側AI部署iPhone。

這款模型面向實時語音交互，對連續對話進行了整體優化，包括響應延遲、上下文記憶、多語言處理及工具調用等關鍵能力。

Gemini Live中的上下文窗口已提升至此前的2倍，Search Live支持在200多個國家和地區進行多語言實時交互，整體能力面向連續對話和復雜任務場景。

從公開測試結果來看，這一版本在語音Agent關鍵能力上提升顯著。在ComplexFuncBench audio測試中，Gemini 3.1 Flash Live的函數調用準確率達到90.8%，相比Gemini 2.5 Flash Native Audio去年12月版本的71.5%，以及2025年9月版本的66.0%，都有明顯提高。

在Scale發布的Audio MultiChallenge音頻輸出榜單中，該模型得分36.1%，高于GPT-Realtime-1.5的34.7%、Qwen3 Omni 30B A3B Instruct的24.3%、GPT-4o Audio preview的23.2%等模型。

與此同時，這一版本重點優化了實時對話體驗。模型在語音識別中對語調、語速和停頓的處理更細；在嘈雜環境下，對背景噪音的過濾能力增強，可以更穩定識別用戶指令并執行任務；在復雜指令場景中，對系統約束的遵循能力也有所提升。

已有獲得更新的用戶開始嘗試新玩法，有人直接用語音指令讓模型生成簡短演唱片段，這類能力已經可以在對話中被觸發。

其API價格也已公布：文本輸入每百萬token約0.5美元、輸出約4.5美元，音頻輸入約3美元、輸出約12美元，支持多模態輸入調用。

模型一經發布，社區已經出現初步反饋。有網友評價稱，這是一次“強勢更新”，并指出更快的語音響應是一種“用戶體驗層面的關鍵突破”，如果延遲和多輪對話中的連續性能在更長時間的使用中保持穩定，語音交互的采用速度可能會明顯提升。

不過，也有用戶仍然保持謹慎。一位開發者直言，自己此前已經放棄使用語音模型，因為其回復質量明顯不如文本，并反問這一情況是否真的發生了改變。

智東西也對這一功能進行了初步體驗。其中文語音表現仍偏機械，多輪對話過程中存在中斷情況，暫未能完整體驗其連續交互能力。當前該版本正分批推送，iOS和安卓用戶已開始陸續收到更新。

一、開口就是改代碼：UI、交互、風格一段話全部重做

在這次發布中，谷歌首先展示的是語音驅動應用開發（vibe coding）這一類場景，開發者可以在Google AI Studio里一邊說話一邊做應用，讓開發過程跟上腦暴的節奏。

▲Live Vibe Coder頁面，用戶可上手實操

用戶可以用語音連續調整界面。對話一開始，用戶直接提出修改：“把麥克風做大一點”，界面隨即發生變化；緊接著補一句“背景加點黃色波點”，頁面背景立刻更新。

隨后用戶繼續疊加需求，例如加入“鼠標懸停時的反饋效果”、讓背景圖案持續滾動，這些改動都在同一段對話中逐步完成。

用戶一邊說，界面一邊變化。中途用戶又臨時調整方向，說“干脆整體做成波普風”，模型就在已有基礎上繼續重做視覺風格，整個過程接近和設計師一對一的實時溝通。

二、設計協作、跨語對話、角色扮演，三類場景同時落地

除了應用開發，谷歌還給出了三類實際使用的場景，包括界面設計協作、跨語言陪伴交流，以及游戲中的角色互動。

在設計工具Stitch的案例中，語音也可直接參與到界面編輯流程。用戶先讓界面跳到“練習模式”，再切到“歌曲庫”，隨后開始具體挑問題：“這些虛線和方形邊框看著有點硬，能不能讓數字更貼合圓形？”界面隨即往更簡潔的方向調整。緊接著又換一套思路：“試一個偏棕色、木質一點的配色”，新的視覺版本便直接生成出來。

在面向老年用戶AI硬件設備Ato的交互案例中，重點放在多語言對話的連續性，對話內容圍繞日常問候和陪伴展開。用戶先用英語聊天，再插入一個條件：“我要跟奶奶說話，但她只會西班牙語”，模型在同一段對話里切換語言繼續交流，對話內容并不會因為語言變化而中斷。

對話中一旦出現真實場景的插入信息，比如提到“剛從醫院出來有點累”，模型會順著語境回應，給出一段連續的交流。

在RPG游戲《Wit’s End》的案例中，語音被用來驅動角色本身。玩家提問時，模型會用帶有設定的語氣回應，例如圍繞“你有沒有實體形態”“你的能力來自哪里”等問題展開，對話始終保持在角色語境里。回答不會跳出設定，會沿著同一世界觀繼續展開，語氣和表達方式也保持一致。

結語：谷歌做“全棧語音Agent”，國內玩家一邊抓用戶，一邊補能力

從這次發布來看，谷歌正在把語音能力做成一套更完整的通用能力體系。無論是編程場景中的vibe coding，還是AI硬件交互、移動端Gemini App入口，多個形態都在同時推進，覆蓋范圍擴展到不同使用場景。

在產品形態上，Gemini App與國內的豆包等產品已有明顯相似之處，都是以對話為核心入口，承接搜索、工具調用和多輪交互。但在實際體驗上，兩者并不相同。豆包在中文表達、語氣風格以及互動感上更為主動，調侃式表達更容易形成用戶黏性，也已經在國內積累了一定用戶規模。

相比之下，谷歌當前的重心仍放在能力拓展上，尤其是在語音驅動開發這一類場景中，vibe coding所體現的連續修改能力和實時交互節奏，已經領先于現有產品形態。

與此同時，國內在語音模型能力上的進展也在加快。階躍星辰Step-Audio R1.1在Artificial Analysis語音推理榜單中拿下第一，以96.4%準確率超過Grok、Gemini、GPT-Realtime等模型，成為當前語音推理方向的代表性成果之一。

一邊是谷歌不斷拉高能力上限，嘗試覆蓋更多場景；另一邊是國內玩家在用戶規模與模型能力兩端同時推進，語音Agent的競爭態勢，正愈演愈烈。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.