![]()
新智元報道
編輯:YHluck
【新智元導讀】谷歌發布Gemini 2.5 Flash原生音頻模型,不僅能保留語調進行實時語音翻譯,更讓AI在復雜指令和連續對話中像真人一樣自然流暢。這一更新標志著AI從簡單的「文本轉語音」跨越到了真正的「擬人化交互」時代。
想象這樣一個場景:
你戴著耳機走在印度孟買喧鬧的街頭,周圍是嘈雜的叫賣聲和完全聽不懂的印地語。
此時,一位當地大叔急匆匆地用印地語向你詢問路線,他的語速很快,語氣焦急。
若是以前,你可能得手忙腳亂地掏出手機,打開翻譯App,按下按鈕,尷尬地把手機遞到他嘴邊,然后聽著手機里傳出毫無感情的「機翻」電子音。
![]()
Nano Banana Pro制圖
但現在,一切都變了。
你站在原地不動,耳機里直接傳來了流利的中文:「嘿!朋友,麻煩問一下,火車站是不是往這邊走?」
最絕的是,這句中文不僅意思準確,甚至連大叔那種焦急、氣喘吁吁的語調都完美復刻了!
你用中文回答,耳機自動把你的聲音轉化成印地語傳給對方,甚至保留了你熱情的語調。
這不僅是科幻電影里的《巴別塔》重現,這是谷歌本周剛剛扔下的重磅「核彈」——Gemini 2.5 Flash Native Audio(原生音頻模型)。
![]()
今天,我們就來扒一扒這次更新到底有多強。
所謂的「原生音頻」,到底強在哪?
很多人可能會問:「現在的手機不都有朗讀功能嗎?這有啥稀奇的?」
這里有個巨大的誤區。
以前的AI語音交互,流程是這樣的:聽到聲音 -> 轉成文字 -> AI思考文字 -> 生成文字回復 ->轉化成語音讀出來。
這個過程不僅慢,而且在「轉來轉去」的過程中,語氣、停頓、情感這些人類溝通中最微妙的東西,全都丟了。
![]()
而谷歌這次發布的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」這兩個字。
它不需要把聲音轉成文字再轉回來,它是直接聽、直接想、直接說。
舉個栗子,這就好比你和一個老外聊天,以前你需要腦子里瘋狂查字典,現在你已經形成了「語感」,脫口而出。
這次更新,谷歌不僅升級了Gemini 2.5 Pro和Flash的文本轉語音模型,帶來了更強的控制力。
更重要的是,它讓實時語音代理(Live Voice Agents)成真了。
![]()
這意味著什么?
意味著在Google AI Studio、Vertex AI,甚至是搜索(Search Live)里,你不再是和一個冷冰冰的機器對話,而是在和一個有「腦子」、有「耳朵」的智能體進行實時頭腦風暴。
耳機里的「同聲傳譯」
打破語言的巴別塔
這次更新中,最讓普通用戶感到興奮的,絕對是實時語音翻譯(Live Speech Translation)功能。
谷歌這次沒有畫餅,功能已經開始在美國、墨西哥和印度的安卓設備上,通過Google翻譯App進行Beta測試了(iOS用戶稍安勿躁,馬上就來)。
這個功能有兩個殺手锏,直擊痛點:
持續監聽與雙向對話:真正的「無感」翻譯
以前用翻譯軟件,最煩的就是要不停地點「說話」按鈕。
現在,Gemini支持持續監聽。
你可以把手機揣兜里,戴上耳機,Gemini會自動把你周圍聽到的多種語言,實時翻譯成你的母語。
這就相當于隨身帶了個隱形翻譯官。
而在雙向對話模式下,它更聰明。
比如你會說英語,想和一個說印地語的人聊天。
Gemini能自動識別是誰在說話。
你在耳機里聽到的是英語,而當你開口說完話,手機會自動外放印地語給對方聽。
你不需要去設置「現在我說」、「現在他說」,系統全自動切換。
風格遷移:連「情緒」都能翻譯
這是最讓我起雞皮疙瘩的功能——Style Transfer(風格遷移)。
傳統的翻譯是「莫得感情」的朗讀機器。
但Gemini利用其原生音頻能力,能捕捉人類語言的細微差別。
![]()
如果對方說話時語調上揚、節奏輕快,翻譯出來的聲音也會是歡快的;
如果對方語氣低沉、猶豫,翻譯出來的聲音也會帶著遲疑。
它保留了說話者的語調、節奏和音高。
這不僅僅是聽懂意思,這是聽懂態度。
![]()
在商務談判或者吵架的時候,這個功能簡直太重要了!
此外,它還支持:
70多種語言和2000多個語言對:覆蓋了全球絕大多數人的母語。
多語言混輸:即使在一場對話中混雜著幾種不同的語言,它也能同時理解,不用你手動切來切去。
噪聲魯棒性:專門針對嘈雜環境優化,過濾背景音。哪怕你在嘈雜的戶外市場,也能聽得清清楚楚。
開發者狂喜
這個AI終于「聽懂人話」了
如果你是開發者,或者想為企業構建客服AI,這次Gemini 2.5 Flash Native Audio帶來的三個底層能力提升,絕對是「及時雨」。
![]()
函數調用更精準
以前的語音助手,一旦涉及到查天氣、查航班這種需要調用外部數據的操作,很容易卡殼或者回答得很生硬。
現在的Gemini 2.5,知道何時該去獲取實時信息,并且能把查到的數據無縫地編織進語音回復里,不會打斷對話的流暢感。
在專門測試復雜多步驟函數調用的ComplexFuncBench Audio評測中,Gemini 2.5拿下了71.5%的高分,遙遙領先。
![]()
更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上與之前版本及行業競爭對手的性能對比
這意味著,它能真正充當一個靠譜的「辦事員」,而不是一個只會陪聊的「傻白甜」。
指令遵循更聽話
你是不是經常覺得AI聽不懂復雜的指令?
谷歌這次下了狠功夫。
新模型對開發者指令的遵循率從84%提升到了90%!
這意味著,如果你要求AI「用這種特定的格式回答,語氣要嚴厲一點,不要廢話」,它能更精準地執行你的要求。
對于構建企業級服務來說,這種可靠性才是核心競爭力。
對話更絲滑
多輪對話是AI的老大難問題。
聊著聊著,AI就忘了前面說過啥。
Gemini 2.5在檢索上下文方面取得了顯著進步。
它能更有效地記住之前的對話內容,讓整個交流過程不僅連貫,而且具有邏輯性。
配合上原生音頻的低延遲,你會感覺對面真的像坐了一個人。
我們離「賈維斯」還有多遠?
谷歌這次的更新,其實是在傳遞一個明確的信號:
語音交互正在成為下一個時代的入口。
![]()
從Gemini Live到Search Live,再到耳機里的實時翻譯,谷歌正在把AI從屏幕里解放出來,塞進我們的耳朵里。
對于普通用戶:語言的障礙正在被技術鏟平。
明年(2026年),這一功能將通過Gemini API擴展到更多產品中。
未來,也許我們真的不再需要花費數年時間痛苦地背單詞,一個耳機就能讓我們走遍天下。
對于企業:構建一個能聽、能說、能辦事、有情緒的下一代AI客服,門檻正在大幅降低。
彩蛋
除了原生音頻模型外,谷歌還丟出個核彈級實驗產品——Disco。
它是來自Google Labs的新發現工具,用于測試未來網絡的想法。
它內置了基于谷歌最強模型Gemini 3打造的神器GenTabs。
谷歌直言,目前還處于早期階段,并非所有功能都能完美運行。
最牛的地方在于,它能看懂你的需求。
GenTabs通過主動理解復雜任務(通過用戶打開的標簽頁和聊天記錄)并創建交互式網絡應用程序來幫助完成任務,從而幫助瀏覽網絡。
不用寫一行代碼,它直接把你亂七八糟的標簽頁和聊天記錄,「變」成一個專屬的交互式App。
![]()
想做周餐計劃?想教孩子認識行星?
![]()
跟它說人話就行,它自動給你生成工具,所有數據都有據可查,絕不瞎編。
目前macOS版已經開放排隊了,雖然還是早期實驗版,但這絕對是把「瀏覽」變成了「創造」。
趕緊沖,這波未來感拉滿了!
One More Thing
技術進步的速度往往超乎我們的想象。
昨天我們還在嘲笑Siri聽不懂人話,今天Gemini已經開始幫我們進行跨語言的情感交流了。
別光看著,Gemini 2.5 Flash Native Audio現在已經在Vertex AI上全面推出,Google AI Studio里也能試用了。
趕緊去體驗一下吧!
或許在聽到AI用你的語氣說出第一句外語時,你會真切地感受到——未來已來。
參考資料:
https://deepmind.google/blog/
https://x.com/GoogleAI/status/1999560839679082507?s=20
https://blog.google/technology/google-labs/gentabs-gemini-3/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.