網易首頁 > 網易號 > 正文申請入駐

號稱今年實力最強悍的AI，挑戰“一句話生成一切”

2025-11-21 13:50:53　來源: 陳天宇

安徽舉報

分享至

終于，在吊了大家很久胃口之后，昨晚 Gemini 3 上線。用近乎恐怖的實力，碾壓各大模型。

一句話就能生成 3D 模型、做網站，甚至做一個開放世界游戲……

現在，進入 Google AI Studio，你就能直接體驗 Gemini 3 Pro 預覽版。至于面向更加大眾的 Gemini 網站和 app，也會很快上線。

我不是針對誰，

我是說在座的各位……

Gemini 3 Pro 曬出成績單，它不僅完全把前輩 Gemini 2.5 Pro 拍死在沙灘上，還在除“解決真實 GitHub 問題（SWE-Bench Verified）”這一項之外，全面碾壓了 Claude Sonnet 4.5 和 GPT-5.1。

這就好像一個班里有幾個語數外偏科的尖子生，這時候來了一個各科滿分的三好生小霸王，你說氣人不？嚇人不？

學霸的成績單里，有幾項值得重點關注。

ARC-AGI-2 這一項，Gemini 3 Pro 以 31.1% 的成績斷層領先第二名的 Claude Sonnet 4.5。這是用來檢驗 AI 抽象推理能力的高難度測試，被認為是檢驗通用人工智能水平的重要標準。

AIME 2025 和 MathArena Apex 代表的是解決數學問題的能力。其中，Gemini 3 Pro 在 MathArena Apex 這一項拿下了 23.4% 的分數。別看分數不高，對手們只有不到 2%，可能是連題目都還讀不懂呢。

ScreenSpot-Pro和Vending-Bench 2這兩項就有意思了。前者用來評估 AI 能否像人類一樣看懂 UI 界面并進行操作，而后者則是測試 AI 在復雜長程任務和跨場景下的任務執行能力。

翻譯一下：Gemini 成了 Siri 想而不得的樣子。

假設倒霉老板（我說可是你的）把會議臨時改到了傍晚，你擔心開完會趕不上女兒的演出。這時候你問 AI，AI 調取你手機里的各種數據，比如會議結束時幾點，日歷里演出是幾點，那段時間路況大概如何之后，判斷你能不能順利趕上。

隔壁花了兩年時間還在“預備”，谷歌現在直接給你端上來了。

谷歌全家桶下，開啟 Gemini Agent 模式，并對 Gemini 授權，它就能調動你手里各種谷歌設備里的數據，幫你實現上述的例子。

再比如，你對 Gemini說，“根據我郵件里的信息，幫我預定一輛下周旅行需要租的中型 SUV，租金不超過 80 美元一天。”然后你下了飛機，直接取車就完了。

還有一項，它在被譽為“人類最后一場閉卷考試”的“Humanity's Last Exam”這一項中也拿下目前最高分37.5%，比第二名 GPT-5.1 的 26.5% 高出一大截。

也就是說，Gemini 3 Pro 是目前最接近“人類通才”的模型。

到這還沒完。當開啟 Gemini 3 Deep Think（深度思考模式）后，它在“Humanity's Last Exam”成績還能在不使用工具的情況下將分數提升到 41%。此外，面對需要嚴密邏輯和專業知識的復雜科學問題（GPQA Diamond）時，Gemini 3 Deep Think 拿下了 93.8% 的高分。

上面提到的 ARC-AGI-2，Gemini 3 Deep Think 更是斬獲 45.1% 的高分，把只拿了 4.9% 的 Gemini 2.5 Pro 按在地上摩擦。

設計師危險了

過去，如果要開發一款 app 或網頁，就需要設計師先畫出 UI 及各種素材，然后再由程序員用代碼調用，最終實現一個可交互的產品發布。

而現在用一句話，就能讓 Gemini 做出高質量的交互式 SVG。比如下面這個在 X 上很火的“電風扇”，不僅圖像精美，而且還能動、能交互，完全到了可以直接拿來用的程度。

除此之外，還有網友讓 Gemini 畫“游戲里的水管工”；

五缸的發動機......

我也嘗試讓 Gemini 畫了一個燈泡，還給燈泡加了個可以操作的開關，它 35 秒就幫我搞定了；

以及復刻一下我家的貓咪，別說，畫得可還真像。

可交互的 SVG 不只是讓大家玩得開心。它有更大的意義和野心。

谷歌表示，基于 Gemini 3 強大的推理和多模態能力，他們將在未來的 Gemini App 里推出一個名叫“生成式 UI”的新功能。

簡單來說，Gemini 應用未來可以直接用可交互的 UI 來回答你的問題，響應你的指令。而不再是以往一個模子刻出來，“一問一答”的大模型交互形態和使用方式了。

比如，谷歌官方的例子，讓 Gemini 給你計劃一個明年夏天去羅馬的 3 天旅行。然后，它就會生成一個類似雜志一樣的動態內容，你不僅可以瀏覽，還能點進去和里面的元素交互。

這種多模態的能力大概也是谷歌口中可以”建造任何東西”的底氣了。

（部分）程序員又一次更危險了……

某種意義上來說，SVG 畫圖也是編程的一種。說到編程，那可就是 Gemini 的拿手好戲了。

根據 X 上的網友測試，Gemini 3 Pro 在 DesignArena 的好幾個項目里又是斷層第一。

現在，只要一段不那么長的描述，就能讓 Gemini 3 給你寫個“macOS 操作系統”。點擊運行之后，它不僅會走一遍“開機”的流程，更厲害的是，你還能在它寫的“macOS”里上網沖浪、跑終端……

這還屬于基本操作。有網友讓 Gemini 3 做了個《我的世界》，Gemini 做得像模像樣。

我自己也實際測了一番。我讓 Gemini 幫我做了個個人網站，要求是有四個頁面，分別是主頁、個人介紹、作品、聯系方式。風格要現代簡約，高端大氣。

Gemini 只用一分半鐘的時間就搞定了。導航欄還用了蘋果同樣的毛玻璃風格，而且連里面的按鈕、輸入框都是有效的狀態，不是純粹的裝飾性內容。

不過，目前生成的網頁只能算中規中矩。

于是我和它說，“我想要全球頂尖設計工作室網站的風格，色彩和排版可以更大膽一些。”

45 秒之后，Gemini 3 Pro 的交付讓我驚嘆。

至于復刻某個設計，那就更不是難事了。

我還看到更離譜的，X 的網友讓 Gemini 3 做了個 3D 樂高編輯器，一次性實現了用戶界面、代碼構建和他需要的各項功能。

在 Gemini 3 Pro 上線不到一個小時的時間，Cursor 這類 vibe coding 軟件就在第一時間提供了支持。

而面對專業的開發者，谷歌也發布了 Antigravity，一個看似是 IDE 實則是 vibe coding 的平臺。它讓 AI 真正成為了程序員的“生產力助手”，能自主跟進開發進展、做任務列表或者 PPT、寫代碼，然后再自己去瀏覽器里驗證代碼的效果，甚至還能自我總結和提升。

在這個過程里，Antigravity 還會學習你的代碼風格和各種開發偏好。

這樣看，或許跑分沒那么重要了，比起切實打破“想”和“做”之間的壁壘。就拿寫代碼來說，技術的門檻已經被鏟地七七八八，寫前端代碼，調框架也許都沒那么重要了，能拉開人和人之間差距的，就只有想象力了。

正如谷歌所說，Gemini 1 打一開始就具備多模態能力，Gemini 2 具備更強的推理能力，讓 AI Agents 能自主思考、編程、行動。Gemini 3 借助全新的生成式 UI 界面，生成用戶想要的各種各樣輸出格式。可以說一路穩扎穩打，套用一句網絡流行語，他們都看好你，恰好，你也挺爭氣的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.