網易首頁 > 網易號 > 正文申請入駐

12個Case，帶你看Gemini 3是如何創飛所有競爭對手的

2025-11-19 20:28:27　來源: 頭號AI玩家

上海舉報

分享至

作者 | Kino

編輯 | 石瀨

過去24小時，AI圈的頭條無疑被Gemini 3承包了。

相信大家都已經看過下面這張刷屏的基準測試對比圖了，實話說，我看到這張圖的第一反應是好不真實，差距大得好不真實，我們很少見到如此全面且壓倒性的領先。

在AI領域，SOTA（State-of-the-Art，即最強）的王座總是易主，但排行榜的頭名換來換去，領先的優勢卻往往極其微弱，長期關注LLM軍備競賽的我們，其實已經對SOTA脫敏了。

但這次，Gemini 3 Pro的成績單徹底打破了這種常態，不再是1%或2%的微弱優勢，而是動輒20%甚至40%的斷層式領先（燃起來了）……

我們能直觀地看到，幾乎在所有關鍵指標上，Gemini 3 Pro都遙遙領先前代Gemini 2.5 Pro和競爭對手Claude Sonnet 4.5、GPT-5.1。

這些漂亮的跑分到底意味著什么？在展示我們的實測Case之前，我們先花點時間，解讀一下這張圖，搞懂這些測試的含金量，看看Gemini 3 Pro到底強在哪。

Humanity's Last Exam （人類終極考試）是一個學術推理基準，涵蓋了人文學科到STEM（科學、技術、工程、數學）的各種高難度問題。它的特點是需要模型結合搜索和代碼執行等工具來輔助解答，非常貼近現實世界的開放性問題。Gemini 3 Pro（37.5%）大幅領先所有對手，GPT-5.1（26.5%）次之，而Gemini 2.5 Pro和Claude Sonnet 4.5在此項上能力較弱。

ARC-AGI-2（抽象推理挑戰）測試的是模型的視覺和抽象邏輯推理（看圖找規律），這對AI來說是出了名的困難。而Gemini 3 Pro（31.1%）的表現不僅比Gemini 2.5 Pro（4.9%）強了6倍多，也幾乎是GPT-5.1（17.6%）和Claude Sonnet 4.5（13.6%）的兩倍。

再來看看數學與編程能力。

MathArena （數學競技場）是另一個極具挑戰的數學競賽問題集。Gemini 3 Pro（23.4%）再次實現了斷層領先：比 Gemini 2.5 Pro（0.5%）強了近47倍，也遠遠甩開了Claude Sonnet 4.5（1.6%）和GPT-5.1（1.0%）。

SWE-Bench Verified要求模型在真實的、大型的Github代碼庫中，僅根據用戶提交的Bug報告來自主定位并修復Bug。這是Gemini 3Pro唯一沒有拿到第一的項目，Claude Sonnet 4.5（77.2%）和GPT-5.1（76.3%）以極其微弱的優勢領先Gemini 3 Pro（76.2%）。

再來看多模態理解能力，包括模型理解和推理圖像、圖表、視頻和文檔的能力。

ScreenSpot-Pro （屏幕理解）專門測試模型理解軟件界面（UI）截圖的能力。Gemini 3 Pro（72.7%），而Gemini 2.5 Pro（11.4%）和GPT-5.1（3.5%）在此項上幾乎不可用。簡單來說就是，Gemini 3Pro在理解屏幕上有什么、按鈕在哪里的能力上遙遙領先，這對開發能操作軟件的桌面智能體至關重要。

Video-MMMU （視頻知識獲取）測試模型從視頻內容中學習和獲取知識的能力。Gemini 3 Pro （87.6%）再次領先，表明它是最擅長“看視頻”并理解其中內容的模型。

接下來，就是實戰環節。我們匯總了海內外網友用Gemini 3Pro跑出的各種神仙Case，同時上手實測了一番。這些Case大都集中在編程、前端、網頁設計等場景，能很直觀地體現模型能力，而Gemini 3 Pro的表現實現了一個明顯的用戶體驗層面上的躍升。

先說省流結論：Gemini 3 Pro不僅能寫代碼、生成高保真游戲原型，更能扮演網頁設計師+前端工程師的綜合角色，理解復雜的需求，交付一個審美和功能均在線的完整網站產品。

Dating App

a16z合伙人Justin More用Gemini 3 Pro打造了一個硅谷AI圈戀愛交友App，不僅UI精良，交互流暢，生成的個人簡介也很符合硅谷和AI圈的刻板印象，比如它給Anthropic的研究員打上了Superalignment（超級對齊）的標簽。匹配成功后，你還會收到一份契合度測評，還能和對方的AI分身聊天。

來源X：@venturetwins

“地球Online”游戲原型

我讓Gemini 3 Pro制作一個可交互的“地球Online”游戲界面，畫面元素需要體現游戲特色，并且包含游戲玩法介紹、游戲須知、創建角色/登錄按鈕。

p.s. “地球Online”是把現實世界的生活比作一款大型多人在線角色扮演游戲，玩家就是我們每一個人，服務器就是地球。創建角色/登錄指的是“出生”，很多人會開玩笑說自己的“初始號”沒刷好，比如出生地、家庭背景、天賦等。

可交互網站

我要求它創建一個可交互的、中英雙語的個人作品集網站。網站需包含“關于我”、“作品集”和“聯系方式”三個板塊，風格為極簡藝術，并指定了黃、粉紅、天藍、橙色四種主題色。

Gemini 3 Pro生成的效果堪稱驚艷：一次性交付了一個完整、專業且設計感極強的網站。它不僅完美實現了四色主題和極簡風格，還構建了包括首頁、作品頁、聯系人表單在內的完整多頁面布局，可以實現中英雙語的一鍵切換。

你還可以上傳一張平面圖，讓Gemini 3 Pro變可交互網頁，不僅還原度極高，而且功能齊全，交互流暢。前端已死。

X上一個前端程序員的感慨

更炸裂的還在后面，有網友讓Gemini 3為一個在上海舉辦的虛構AI峰會（Let's Vision 26）創建一個官方網站，其生成的效果、完成度和設計感都達到了新高度。

Gemini 3不僅構建了一個結構完整的商業級Landing頁面，包含導航欄、購票、招募演講者、合作伙伴，而且設計審美極其在線。視頻中展示了流暢的滾動視差動畫、復古的屏幕特效、以及一個包含多檔位并以人民幣計價的完整購票系統。

來源X：crystalsssup

實時智能交互的視頻錄制工具

字節AI產品經理Zara用Gemini 3搞了個智能視頻錄制工具“Sparks”，在錄制視頻時，AI會實時分析你所說的內容，智能地提供接下來的提示和思路，這下再也不怕卡殼了……而且Gemini自帶原生的攝像頭集成能力，能直接導出為MP4格式。

90年代的主題公園游戲

有網友用Gemini 3 Pro花幾個小時重制了一個90年代的主題公園游戲，Gemini 3 Pro連玩家能自己調節薯片咸度都保留了（玩過原版的玩家都懂這個梗）。

來源X：@demishassabis

3D隧道躲避游戲

Gemini 3 Pro不僅理解了游戲的核心玩法（在旋轉的隧道中躲避障礙物），還僅憑一句提示詞就生成了可以直接運行的完整游戲。從視頻中可以看到，這款游戲擁有流暢的3D視覺效果、動態的速度和距離計數器，以及完整的碰撞檢測和“系統失敗”重啟機制。

來源X：@flavioAd

駕駛游戲《霓虹漂移》

這個同樣是Gemini 3一鍵生成的，視覺風格極強，而且擁有功能正常的車速表、可點擊的“TURBO BOOST”（渦輪增壓）按鈕、用于更換車身顏色的“調色板”以及“軌道運鏡”按鈕。

3D樂高編輯器

一位網友利用 Gemini 3.0 Pro，5分鐘構建了一個功能完備的3D樂高編輯器。

Gemini 3 Pro一擊就中了用戶界面、復雜的三維邏輯和所有功能。它擁有一個包含不同規格積木的庫、一個用于搭建的3D網格畫布、一個調色板以及用于切換視角的控制器（3D、頂視、前視）。用戶可以流暢地在3D空間中選擇、放置、旋轉和著色積木。

來源X：@skirano

核電廠工作模擬

Gemini 3 Pro還能將專家級的物理學知識（核反應堆原理）和3D模擬器結合，一鍵生成一個完整的、用于教育和模擬的復雜應用，比如這個核電廠工作原理交互式3D模擬器。

來源X：@sebkrier

設計Agent

國內AI圈KOL“歸藏”用Gemini 3 Pro做了一個設計Agent，可以看到，輸入一句簡單的中文提示“做一個小狗宣傳片”，并設置類型為“視頻”、風格為“現代”，Agent就自動生成了一段8秒鐘的1080P高清視頻。

「AI新榜交流群」進群方式：添加微信“banggebangmei”并備注姓名+職業/公司+進群，歡迎玩家們來群里交流，一起探索見證AI的進化。

歡迎分享、點贊、推薦

一起研究AI

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.