終于,在吊了大家很久胃口之后,昨晚 Gemini 3 上線。用近乎恐怖的實力,碾壓各大模型。
一句話就能生成 3D 模型、做網站,甚至做一個開放世界游戲……
現在,進入 Google AI Studio,你就能直接體驗 Gemini 3 Pro 預覽版。至于面向更加大眾的 Gemini 網站和 app,也會很快上線。
01
我不是針對誰,
我是說在座的各位……
Gemini 3 Pro 曬出成績單,它不僅完全把前輩 Gemini 2.5 Pro 拍死在沙灘上,還在除“解決真實 GitHub 問題(SWE-Bench Verified)”這一項之外,全面碾壓了 Claude Sonnet 4.5 和 GPT-5.1。
這就好像一個班里有幾個語數外偏科的尖子生,這時候來了一個各科滿分的三好生小霸王,你說氣人不?嚇人不?
![]()
學霸的成績單里,有幾項值得重點關注。
ARC-AGI-2 這一項,Gemini 3 Pro 以 31.1% 的成績斷層領先第二名的 Claude Sonnet 4.5。這是用來檢驗 AI 抽象推理能力的高難度測試,被認為是檢驗通用人工智能水平的重要標準。
AIME 2025 和 MathArena Apex 代表的是解決數學問題的能力。其中,Gemini 3 Pro 在 MathArena Apex 這一項拿下了 23.4% 的分數。別看分數不高,對手們只有不到 2%,可能是連題目都還讀不懂呢。
ScreenSpot-Pro和Vending-Bench 2這兩項就有意思了。前者用來評估 AI 能否像人類一樣看懂 UI 界面并進行操作,而后者則是測試 AI 在復雜長程任務和跨場景下的任務執行能力。
翻譯一下:Gemini 成了 Siri 想而不得的樣子。
假設倒霉老板(我說可是你的)把會議臨時改到了傍晚,你擔心開完會趕不上女兒的演出。這時候你問 AI,AI 調取你手機里的各種數據,比如會議結束時幾點,日歷里演出是幾點,那段時間路況大概如何之后,判斷你能不能順利趕上。
隔壁花了兩年時間還在“預備”,谷歌現在直接給你端上來了。
谷歌全家桶下,開啟 Gemini Agent 模式,并對 Gemini 授權,它就能調動你手里各種谷歌設備里的數據,幫你實現上述的例子。
再比如,你對 Gemini說,“根據我郵件里的信息,幫我預定一輛下周旅行需要租的中型 SUV,租金不超過 80 美元一天。”然后你下了飛機,直接取車就完了。
還有一項,它在被譽為“人類最后一場閉卷考試”的“Humanity's Last Exam”這一項中也拿下目前最高分37.5%,比第二名 GPT-5.1 的 26.5% 高出一大截。
也就是說,Gemini 3 Pro 是目前最接近“人類通才”的模型。
到這還沒完。當開啟 Gemini 3 Deep Think(深度思考模式)后,它在“Humanity's Last Exam”成績還能在不使用工具的情況下將分數提升到 41%。此外,面對需要嚴密邏輯和專業知識的復雜科學問題(GPQA Diamond)時,Gemini 3 Deep Think 拿下了 93.8% 的高分。
上面提到的 ARC-AGI-2,Gemini 3 Deep Think 更是斬獲 45.1% 的高分,把只拿了 4.9% 的 Gemini 2.5 Pro 按在地上摩擦。
02
設計師危險了
過去,如果要開發一款 app 或網頁,就需要設計師先畫出 UI 及各種素材,然后再由程序員用代碼調用,最終實現一個可交互的產品發布。
而現在用一句話,就能讓 Gemini 做出高質量的交互式 SVG。比如下面這個在 X 上很火的“電風扇”,不僅圖像精美,而且還能動、能交互,完全到了可以直接拿來用的程度。
![]()
除此之外,還有網友讓 Gemini 畫“游戲里的水管工”;
![]()
五缸的發動機......
![]()
我也嘗試讓 Gemini 畫了一個燈泡,還給燈泡加了個可以操作的開關,它 35 秒就幫我搞定了;

以及復刻一下我家的貓咪,別說,畫得可還真像。
![]()
可交互的 SVG 不只是讓大家玩得開心。它有更大的意義和野心。
谷歌表示,基于 Gemini 3 強大的推理和多模態能力,他們將在未來的 Gemini App 里推出一個名叫“生成式 UI”的新功能。
簡單來說,Gemini 應用未來可以直接用可交互的 UI 來回答你的問題,響應你的指令。而不再是以往一個模子刻出來,“一問一答”的大模型交互形態和使用方式了。
比如,谷歌官方的例子,讓 Gemini 給你計劃一個明年夏天去羅馬的 3 天旅行。然后,它就會生成一個類似雜志一樣的動態內容,你不僅可以瀏覽,還能點進去和里面的元素交互。

這種多模態的能力大概也是谷歌口中可以”建造任何東西”的底氣了。
03
(部分)程序員又一次更危險了……
某種意義上來說,SVG 畫圖也是編程的一種。說到編程,那可就是 Gemini 的拿手好戲了。
根據 X 上的網友測試,Gemini 3 Pro 在 DesignArena 的好幾個項目里又是斷層第一。
![]()
現在,只要一段不那么長的描述,就能讓 Gemini 3 給你寫個“macOS 操作系統”。點擊運行之后,它不僅會走一遍“開機”的流程,更厲害的是,你還能在它寫的“macOS”里上網沖浪、跑終端……

這還屬于基本操作。有網友讓 Gemini 3 做了個《我的世界》,Gemini 做得像模像樣。
![]()
我自己也實際測了一番。我讓 Gemini 幫我做了個個人網站,要求是有四個頁面,分別是主頁、個人介紹、作品、聯系方式。風格要現代簡約,高端大氣。
Gemini 只用一分半鐘的時間就搞定了。導航欄還用了蘋果同樣的毛玻璃風格,而且連里面的按鈕、輸入框都是有效的狀態,不是純粹的裝飾性內容。
![]()
![]()
不過,目前生成的網頁只能算中規中矩。
于是我和它說,“我想要全球頂尖設計工作室網站的風格,色彩和排版可以更大膽一些。”
45 秒之后,Gemini 3 Pro 的交付讓我驚嘆。
![]()
![]()
至于復刻某個設計,那就更不是難事了。
![]()
![]()
我還看到更離譜的,X 的網友讓 Gemini 3 做了個 3D 樂高編輯器,一次性實現了用戶界面、代碼構建和他需要的各項功能。

在 Gemini 3 Pro 上線不到一個小時的時間,Cursor 這類 vibe coding 軟件就在第一時間提供了支持。
而面對專業的開發者,谷歌也發布了 Antigravity,一個看似是 IDE 實則是 vibe coding 的平臺。它讓 AI 真正成為了程序員的“生產力助手”,能自主跟進開發進展、做任務列表或者 PPT、寫代碼,然后再自己去瀏覽器里驗證代碼的效果,甚至還能自我總結和提升。
在這個過程里,Antigravity 還會學習你的代碼風格和各種開發偏好。
這樣看,或許跑分沒那么重要了,比起切實打破“想”和“做”之間的壁壘。就拿寫代碼來說,技術的門檻已經被鏟地七七八八,寫前端代碼,調框架也許都沒那么重要了,能拉開人和人之間差距的,就只有想象力了。
正如谷歌所說,Gemini 1 打一開始就具備多模態能力,Gemini 2 具備更強的推理能力,讓 AI Agents 能自主思考、編程、行動。Gemini 3 借助全新的生成式 UI 界面,生成用戶想要的各種各樣輸出格式。可以說一路穩扎穩打,套用一句網絡流行語,他們都看好你,恰好,你也挺爭氣的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.