網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

奧特曼都點(diǎn)贊，谷歌Gemini 3 Pro到底強(qiáng)在哪？

2025-11-19 21:09:12　來源: 虎嗅APP

北京舉報(bào)

分享至

本文來自微信公眾號(hào)：直面AI，作者：苗正，題圖來自：AI生成

谷歌可算是發(fā)布Gemini 3 Pro了，很突然，而且很“低調(diào)”。

雖然谷歌在Gemini 3 Pro之前發(fā)布了圖片編輯模型Nano Banana，進(jìn)而刷了一波存在感。但是在基座模型方面，谷歌已經(jīng)靜默太久。

過去這大半年，大家都在熱議OpenAI的新動(dòng)作，或者感嘆Claude在代碼領(lǐng)域的統(tǒng)治力，唯獨(dú)沒有人提及8個(gè)月沒有版本號(hào)升級(jí)的Gemini。

縱使谷歌的云業(yè)務(wù)和財(cái)報(bào)再漂亮，可在AI開發(fā)者的核心圈子里，谷歌的存在感仍然被一點(diǎn)點(diǎn)的稀釋。

好在的是，小榜在第一時(shí)間體驗(yàn)過后發(fā)現(xiàn)，Gemini 3 Pro并沒有讓我們失望。

但現(xiàn)在還不能過早下結(jié)論。因?yàn)楝F(xiàn)在的AI賽道早就已經(jīng)過了靠參數(shù)量嚇人的階段，大家都在卷應(yīng)用、卷落地、卷成本。

谷歌能不能適應(yīng)新版本和新環(huán)境，還是個(gè)未知數(shù)。

一

我讓Gemini 3 Pro用一句話來形容自己，它是這么回答我的。

“不再急于向世界證明自己有多聰明，而是開始琢磨如何讓自己變得更有用。”——Gemini 3 Pro

在LMArena排行榜上，Gemini 3 Pro以1501的Elo分?jǐn)?shù)登頂，這是AI模型在綜合能力評(píng)估中的新紀(jì)錄。這是一個(gè)相當(dāng)優(yōu)秀的成績，就連奧特曼也發(fā)推表示祝賀。

數(shù)學(xué)能力測試中，該模型在AIME2025（美國數(shù)學(xué)邀請賽）的代碼執(zhí)行模式下達(dá)到了100%的準(zhǔn)確率。在GPQADiamond科學(xué)知識(shí)測試中，Gemini 3 Pro的準(zhǔn)確率為91.9%。

MathArenaApex數(shù)學(xué)競賽的測試結(jié)果顯示，Gemini 3 Pro獲得了23.4%的得分，而其他主流模型的得分普遍在2%以下。此外，在名為Humanity'sLastExam的測試中，該模型在不使用工具的情況下達(dá)到了37.5%的得分。

Google在此次更新中引入了名為“vibecoding”的代碼生成功能。這項(xiàng)功能允許用戶通過自然語言描述需求，系統(tǒng)隨后生成相應(yīng)的代碼和應(yīng)用程序。

在Canvas編程環(huán)境的測試中，用戶描述“制作一個(gè)可以調(diào)節(jié)轉(zhuǎn)速的電風(fēng)扇”后，系統(tǒng)在約30秒內(nèi)生成了包含旋轉(zhuǎn)動(dòng)畫、速度控制滑塊和開關(guān)按鈕的完整代碼。

官方展示的案例還包括核聚變過程的可視化模擬。

在交互方式上，Gemini 3 Pro增加了“生成式界面”（GenerativeUI）功能。與傳統(tǒng)AI助手只返回文本回答不同，該系統(tǒng)可以根據(jù)查詢內(nèi)容自動(dòng)生成定制化的界面布局。

例如，當(dāng)用戶詢問量子計(jì)算相關(guān)問題時(shí)，系統(tǒng)可能生成包含概念解釋、動(dòng)態(tài)圖表和相關(guān)論文鏈接的交互式界面。

針對不同受眾的同一問題，系統(tǒng)會(huì)生成不同的界面設(shè)計(jì)，舉個(gè)簡單例子，向兒童和成人解釋同一概念時(shí)，會(huì)采用不同的呈現(xiàn)方式。兒童的就會(huì)偏可愛，成人則會(huì)偏簡潔明了。

Google Labs中提供的Visual Layout實(shí)驗(yàn)功能展示了這種界面的應(yīng)用，用戶可以獲得雜志風(fēng)格的視圖布局，包含圖片、模塊和可調(diào)節(jié)的UI元素。

此次發(fā)布還包含了名為Gemini Agent的智能體系統(tǒng)，目前處于實(shí)驗(yàn)階段。該系統(tǒng)可以執(zhí)行多步驟任務(wù)，并連接到Gmail、Google Calendar和Reminders等谷歌服務(wù)。

在收件箱管理場景中，系統(tǒng)可以自動(dòng)篩選郵件、標(biāo)記優(yōu)先級(jí)和起草回復(fù)。旅行規(guī)劃是另一個(gè)應(yīng)用場景，用戶只需提供目的地和大致時(shí)間，系統(tǒng)會(huì)查詢?nèi)諝v、搜索航班和酒店選項(xiàng)，并添加行程安排。而這項(xiàng)功能目前僅向美國地區(qū)的Google AI Ultra訂閱用戶開放。

在多模態(tài)處理方面，Gemini 3 Pro基于稀疏混合專家架構(gòu)構(gòu)建，支持文本、圖像、音頻和視頻輸入。模型的上下文窗口為100萬token，意味著可以處理較長的文檔或視頻內(nèi)容。

加拿大勞瑞爾大學(xué)歷史學(xué)教授Mark Humphries的測試顯示，該模型在識(shí)別18世紀(jì)手寫文稿時(shí)的字符錯(cuò)誤率為0.56%，相比前代版本降低了50%到70%。

Google表示，訓(xùn)練數(shù)據(jù)包括公開網(wǎng)絡(luò)文檔、代碼、圖像、音頻和視頻內(nèi)容，后訓(xùn)練階段使用了強(qiáng)化學(xué)習(xí)技術(shù)。

Google還推出了名為Gemini 3 Deep Think的優(yōu)化版本，專門用于復(fù)雜推理任務(wù)。該模式目前正在進(jìn)行安全評(píng)估，計(jì)劃在未來幾周向Google AI Ultra訂閱者開放。

在Google Search的AI模式中，用戶可以點(diǎn)擊“thinking”選項(xiàng)卡查看該模式的推理過程。與標(biāo)準(zhǔn)模式相比，Deep Think模式會(huì)在生成回答前進(jìn)行更多步驟的分析。

除了官方提供的資料外，我還將Gemini 3 Pro和ChatGPT-5.1進(jìn)行了對比。

第一個(gè)對比就是生成圖片。

提示詞：給我生成一張iPhone17。

ChatGPT-5.1：

Gemini 3 Pro：

主觀上來講，ChatGPT-5.1更符合我的需求，因此這回合是ChatGPT-5.1勝出。

第二個(gè)對比的就是兩者的智能體水平。

提示詞：去給我研究研究字母榜這個(gè)微信公眾號(hào)，然后評(píng)論一下這個(gè)號(hào)的水平。

GPT-5.1：

Gemini 3 Pro：

雖然從主觀上來講，我更喜歡Gemini 3 Pro的解讀，但是太過于鼓吹，ChatGPT-5.1能發(fā)現(xiàn)小榜還有所不足，更客觀真實(shí)。

最后是代碼能力，也是目前所有大模型最關(guān)注的一塊。

我選的項(xiàng)目是GitHub上最近星數(shù)非常高的項(xiàng)目，叫做LightRAG。這是通過整合圖結(jié)構(gòu)來增強(qiáng)上下文感知和高效信息檢索，從而改進(jìn)檢索增強(qiáng)生成，實(shí)現(xiàn)了更高的準(zhǔn)確性和更快的響應(yīng)時(shí)間。（項(xiàng)目地址https://github.com/HKUDS/LightRAG）

提示詞：跟我說說這個(gè)項(xiàng)目如何。

GPT-5.1：

Gemini 3 Pro：

同時(shí)，Gemini 3 Pro也獲得了業(yè)內(nèi)人士的高度評(píng)價(jià)。

二

雖然Gemini 3 Pro發(fā)布的非常低調(diào)，但實(shí)際上谷歌已經(jīng)為Gemini 3 Pro預(yù)熱了很久。

在谷歌第三季度財(cái)報(bào)電話會(huì)上，谷歌CEO皮查伊說了這么一句話：“Gemini 3 Pro將在2025年內(nèi)發(fā)布。”沒有具體日期，沒有更多細(xì)節(jié)，卻拉開了科技行業(yè)一場營銷大戲的序幕。

谷歌不斷釋放信號(hào)，讓整個(gè)AI社區(qū)保持高度關(guān)注，卻始終拒絕給出任何確定的發(fā)布時(shí)間表。

從10月開始，各種“意外泄露”接踵而至。10月23日開始流傳一份日歷，在其11月12日“Gemini 3 Pro Release”的內(nèi)部日歷截圖瘋傳。

而且眼尖的開發(fā)者還在Vertex AI的API文檔中發(fā)現(xiàn)了“gemini-3-pro-preview-11-2025”的字樣。

緊接著，Reddit 和 X上開始出現(xiàn)各種截圖。有用戶聲稱在 Gemini Canvas 工具中看到了新模型的身影，有人在移動(dòng)應(yīng)用的某些版本中發(fā)現(xiàn)了異常的模型標(biāo)識(shí)。

然后就是，下面這張測試數(shù)據(jù)開始在社交媒體流傳。

這些“泄露”看似偶然，實(shí)則構(gòu)成了一場精心編排的預(yù)熱。

每一次泄露都恰到好處地展示了Gemini 3 Pro 的某項(xiàng)核心能力，每一次討論都將期待值推向新的高度。而谷歌官方賬號(hào)的態(tài)度則耐人尋味，他們會(huì)轉(zhuǎn)發(fā)社區(qū)的討論，會(huì)用“即將到來”這樣的措辭吊胃口，甚至谷歌AI實(shí)驗(yàn)室的高層，還在關(guān)于發(fā)布日期預(yù)測的推文下回復(fù)了兩個(gè)“思考”表情符號(hào)，但就是不肯說出一個(gè)準(zhǔn)確日期。

預(yù)熱了將近1個(gè)月，谷歌終于將新鮮的Gemini 3 Pro端了上來。然而Gemini 3 Pro性能雖然強(qiáng)勁，但是谷歌的更新頻率多少讓人有點(diǎn)著急。

早在今年3月份的時(shí)候，谷歌就發(fā)布了Gemini 2.5 Pro的預(yù)覽版本，后續(xù)又陸續(xù)推出了Gemini 2.5 Flash預(yù)覽版等衍生預(yù)覽版本。直至Gemini 3 Pro問世，Gemini系列在此期間無任何版本號(hào)升級(jí)。

可谷歌的對手們并不會(huì)等待Gemini。

OpenAI在8月7日推出了GPT-5，并在11月12日進(jìn)一步升級(jí)到 GPT-5.1。而且這段時(shí)間里，OpenAI還推出了自己的AI瀏覽器Atlas，直指谷歌腹地。

Anthropic 的迭代速度更為密集:2月24日發(fā)布 Claude 3.7 Sonnet(首個(gè)混合推理模型)，5月22日推出 Claude Opus 4 和 Sonnet 4，8月5日發(fā)布 Claude Opus 4.1，9月29日推出 Claude Sonnet 4.5，10月15日又發(fā)布了 Claude Haiku 4.5。

這一系列攻勢打得谷歌有些措手不及，不過目前來看，谷歌頂住了。

三

谷歌之所以耗時(shí)8個(gè)月才更新Gemini 3 Pro，最大的原因可能來自于人員上的變更。

2025年7月至8月前后，微軟對谷歌發(fā)起了一波猛烈的人才攻勢，成功招募了超過20名DeepMind的核心專家和高管。

這其中就包括DeepMind高級(jí)產(chǎn)品總監(jiān)（Senior Director of Product）戴夫·希創(chuàng)（Dave Citron），負(fù)責(zé)其核心AI產(chǎn)品的落地。以及Gemini的工程副總裁（VP of Engineering）阿瑪爾·蘇布拉馬尼亞（Amar Subramanya），他是 Google最重要模型Gemini的核心工程負(fù)責(zé)人之一。

另外一方面，谷歌Nano Banana團(tuán)隊(duì)曾表示，谷歌在發(fā)布Gemini 2.5 Pro后很長一段時(shí)間里，都在糾結(jié)AI生圖領(lǐng)域，進(jìn)而放緩了基座模型的更新。

谷歌認(rèn)為，只有攻克了角色一致性（Character Consistency）、語境編輯（In-context Editing）、文字亂碼（Text Rendering）這三個(gè)生成圖片領(lǐng)域的難關(guān)后，才能讓基座模型的表現(xiàn)更好。

Nano Banana團(tuán)隊(duì)表示，模型不僅能“畫得好看”，更重要的是能“聽懂人話”并“受人控制”，從而讓 AI 生圖真正進(jìn)入商業(yè)落地階段。

這時(shí)回頭來看Gemini 3 Pro，它是一份合格的答卷，但在這個(gè)只爭朝夕的 AI 戰(zhàn)場，及格早已不夠。

谷歌既然選擇了在此時(shí)此刻交卷，就必須準(zhǔn)備好面對最苛刻的閱卷人，那些已經(jīng)被競品“喂刁”了口味的用戶和開發(fā)者。接下來的幾個(gè)月，將不是模型參數(shù)的比拼，而是生態(tài)整合能力的肉搏。谷歌這頭大象不僅要學(xué)會(huì)跳舞，還得跳得比所有人都快。

本文來自微信公眾號(hào)：直面AI，作者：苗正

本內(nèi)容由作者授權(quán)發(fā)布，觀點(diǎn)僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4806992.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.