Gemini 3 Pro 預(yù)覽版上線那一刻,很多人心里的第一反應(yīng)可能是:終于來了。
遛了將近一個月,這里暗示那里路透:參數(shù)更強(qiáng)一點、推理更聰明一點、出圖更花一點,大家已經(jīng)看得心癢癢了。再加上 OpenAI、Gork 輪番出來狙擊,更加是證實了 Gemini 3 將是超級大放送。
![]()
這次 Gemini 3 的主打賣點也很熟悉:更強(qiáng)的推理、更自然的對話、更原生的多模態(tài)理解。官方號稱,在一堆學(xué)術(shù)基準(zhǔn)上全面超越了 Gemini 2.5。
但如果只盯著這些數(shù)字,很容易忽略一個更關(guān)鍵的變化:
Gemini 3 不太像一次模型升級,更像一次圍繞它的 Google 全家桶「系統(tǒng)更新」。
模型升級這一塊的,Google 已經(jīng)把話說得很滿了
先快速把「硬指標(biāo)」過一遍,免得大家心里沒數(shù):
![]()
-推理能力:官方強(qiáng)調(diào) Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高難度推理和數(shù)學(xué)基準(zhǔn)上,全部刷出了新高分,定位就是「博士級推理模型」。
-多模態(tài)理解:不僅看圖、看 PDF,甚至還能在長視頻、多模態(tài)考試(MMMU-Pro、Video-MMMU)上拿到行業(yè)領(lǐng)先成績,說看圖說話、看視頻講重點的能力,提升了一檔。
-Deep Think 模式: ARC-AGI 這類測試證明:打開 Deep Think 后,它在解決新類型問題上的表現(xiàn)會有可見提升。
從這些層面看,很容易把 Gemini 3 歸類為:「比 2.5 更聰明的一代通用模型」。但如果只是這樣,它也就只是排行榜上的新名字。連 Josh Woodward 出來接受采訪都說,這些硬指標(biāo)只能是作為參考。

換句話說,「跑了多少分」只是一種相對直觀的表現(xiàn)手法,真正有意思的地方在于 Google 把它塞進(jìn)了哪些地方,以及打算用它把什么東西連起來。在這一個版本的更新中,「原生多模態(tài)」顯然是重中之重。在這一次的大更新中,「原生多模態(tài)」顯然是重中之重。

如果要為當(dāng)下的大模型找一個分水嶺,那就是:它究竟只是「支持多模態(tài)」,還是從一開始就被設(shè)計成「原生多模態(tài)」。
這是 Google 在 2023 年,即 Gemini 1 時期就提出來的概念,也是一直以來他們的策略核心:在預(yù)訓(xùn)練數(shù)據(jù)里一開始就混合了文本、代碼、圖片、音頻、視頻等多種模態(tài),而不是先訓(xùn)一個文本大模型,再外掛視覺、語音子模型。
后者的做法,是過去很多模型在面對多模態(tài)時的策略,本質(zhì)還是「管線式」的:語音要先丟進(jìn) ASR,再把轉(zhuǎn)好的文本丟給語言模型;看圖要先走一個獨(dú)立的視覺編碼器,再把特征接到語言模型上。
Gemini 3 則試圖把這條流水線折疊起來:同一套大型 Transformer,在預(yù)訓(xùn)練階段就同時看到文本、圖像、音頻乃至視頻切片,讓它在同一個表征空間里學(xué)習(xí)這些信號的共性和差異。
少一條流水線,就少一層信息損耗。對模型來說,原生多模態(tài)不僅僅是「多學(xué)幾種輸入格式」,這背后的意義是,少走幾道工序。少掉那幾道工序,意味著更完整的語氣、更密集的畫面細(xì)節(jié)、更準(zhǔn)確的時間順序可以被保留下來。
更重要的是,這對應(yīng)用層有了革命性的影響:當(dāng)一個模型從一開始就假定「世界就是多模態(tài)的」,它做出來的產(chǎn)品,與單純的問答機(jī)器人相比,更像是一種新的交互形式。
從 Search 到 Antigravity,新總線誕生
這次 Gemini 3 上線,Google 同步在搜索欄的 AI Mode 更新了,在這個模式下,你看到的不再是一排藍(lán)色鏈接,而是一整塊由 Gemini 3 生成的動態(tài)內(nèi)容區(qū)——上面可以有摘要、結(jié)構(gòu)化卡片、時間軸,雖然是有條件觸發(fā),但是模型發(fā)布的同時就直接讓搜索跟上,屬實少見。

更特別的是,AI 模式支持使用 Gemini 3 來實現(xiàn)新的生成式 UI 體驗,例如沉浸式視覺布局、交互式工具和模擬——這些都是根據(jù)查詢內(nèi)容即時生成的。
這個思路將一系列 Google 系產(chǎn)品中發(fā)揚(yáng)光大,官方的說法是更像「思考伙伴」,給出的回答更直接,更少套話,更有「自己看法」,更能「自己行動」。
配合多模態(tài)能力,你可以讓它看一段打球視頻,幫你挑出動作問題、生成訓(xùn)練計劃;聽一段講座音頻,順手出一份帶小測題的學(xué)習(xí)卡片;把幾份手寫筆記、PDF、網(wǎng)頁混在一起,集中整理成一個圖文并茂的摘要。

這部分更多是「超級個人助理」的敘事:Gemini 3 塞進(jìn) App 之后,試圖覆蓋學(xué)習(xí)、生活、輕辦公的日常用例,風(fēng)格是「你少操點心,我多干點活」。
而在 API 側(cè),Gemini 3 Pro 被官方明確掛在「最適合 agentic coding 和 vibe coding」這一檔上:也就是既能寫前端、搭交互,又能在復(fù)雜任務(wù)里調(diào)工具、按步驟實現(xiàn)開發(fā)任務(wù)。
這一次最令人驚艷的也是 Gemini 在「整裝式」生成應(yīng)用工具的能力上。
![]()
這也就來到了這次發(fā)布的新 IDE 產(chǎn)品:Antigravity。在官方的設(shè)想中,這是一個「以 AI 為主角」的開發(fā)環(huán)境。具體實現(xiàn)起來的方式包括:
-多個 AI agent 可以直接訪問編輯器、終端、瀏覽器;
-它們會分工:有人寫代碼,有人查文檔,有人跑測試;
-所有操作會被記錄成 Artifacts:任務(wù)列表、執(zhí)行計劃、網(wǎng)頁截圖、瀏覽器錄屏……方便人類事后檢查「你到底干了啥」。
在一個油管博主連線 Gemini 產(chǎn)品負(fù)責(zé)人的測試中,任務(wù)是設(shè)計一個招聘網(wǎng)站,而命令簡單到只是復(fù)制、復(fù)制、全部復(fù)制,什么都不修改,直接粘貼。

最終 Gemini 獨(dú)立完成對混亂文本的分析,真的做了一個完整的網(wǎng)站出來,前前后后所有的素材配置、部署,都是它自己解決的。
![]()
從這個角度看,Gemini 3 不只是一個「更聰明的模型」,而是 Google 想用來粘住 Search、App、Workspace、開發(fā)者工具的那條新總線。
回到最直覺的感受上:Gemini 3 和上一代相比,最明顯的差別其實是——它更愿意、也更擅長「幫你一起協(xié)作」。這也是 Google 對它賦予的期待。
壓力給到各方
跳出 Google 自身,Gemini 3 的 Preview 版本實際上給整個大模型行業(yè),打開了一局新游戲:多模態(tài)能力應(yīng)用的爆發(fā)勢在必行。
在此之前,多模態(tài)(能看能聽)是加分項;在此之后,“原生多模態(tài)”將基本配置——還不能是瞎糊弄的那種。Gemini 3 這種端到端的視聽理解能力,將迫使 OpenAI、Anthropic(Claude)以及開源社區(qū)加速淘汰舊范式。對于那些還在依賴「截圖+OCR」來理解畫面的模型廠商來說,技術(shù)倒計時已經(jīng)開始。
![]()
「套殼」與中間層也會感到壓力山大,Gemini 3 展現(xiàn)出的強(qiáng)大 Agent 規(guī)劃能力,是對當(dāng)前市場上大量 Agentic Workflow(智能體工作流) 創(chuàng)業(yè)公司的直接擠壓。當(dāng)基礎(chǔ)模型本身就能完美處理「意圖拆解-工具調(diào)用-結(jié)果反饋」的閉環(huán)時,「模型即應(yīng)用」的現(xiàn)實就又靠近了一點。
另外,手機(jī)廠商可能也能感到一絲風(fēng)向的變化,Gemini 3 的輕量化和響應(yīng)速度反映的是 Google 正在為端側(cè)模型蓄力,結(jié)合之前蘋果和幾家不同的模型大廠建立合作,可以猜測行業(yè)競爭將從單純比拼云端參數(shù)的「算力戰(zhàn)」,轉(zhuǎn)向比拼手機(jī)、眼鏡、汽車等終端落地能力的“體驗戰(zhàn)”。
誰最強(qiáng)已經(jīng)沒那么重要了,誰「始終在手邊」才重要
在大模型競爭的上半場,大家還在問:「誰的模型更強(qiáng)?」,參數(shù)、分?jǐn)?shù)、排行榜,爭的是「天賦」。到了 Gemini 3 這一代,問題慢慢變成:「誰的能力真正長在產(chǎn)品上、長在用戶身上?」
Google 這次給出的答案,是一條相對清晰的路徑:從底層的 Gemini 3 模型,往上接工具調(diào)用和 agentic 架構(gòu),再往上接 Search、Gemini App、Workspace 和 Antigravity 這些具體產(chǎn)品界面。
你可以把它理解成 Google 用 Gemini 3 將以原生多模態(tài)為全新的王牌,并且給自己旗下生態(tài)中的所有產(chǎn)品,焊上一條新的「智能總線」,讓同一套能力,在各個層面都得以發(fā)揮。
至于它最終能不能改變你每天用搜索、寫東西、寫代碼的方式,答案不會寫在發(fā)布會里,而是寫在接下來幾個月——看有多少人,會在不經(jīng)意間,把它留在自己的日常工作流中。
如果真到了那一步,排行榜上誰第一,可能就沒那么重要了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.