![]()
作者 | Kino
編輯 | 石瀨
過去24小時,AI圈的頭條無疑被Gemini 3承包了。
![]()
相信大家都已經看過下面這張刷屏的基準測試對比圖了,實話說,我看到這張圖的第一反應是好不真實,差距大得好不真實,我們很少見到如此全面且壓倒性的領先。
在AI領域,SOTA(State-of-the-Art,即最強)的王座總是易主,但排行榜的頭名換來換去,領先的優勢卻往往極其微弱,長期關注LLM軍備競賽的我們,其實已經對SOTA脫敏了。
但這次,Gemini 3 Pro的成績單徹底打破了這種常態,不再是1%或2%的微弱優勢,而是動輒20%甚至40%的斷層式領先(燃起來了)……
![]()
我們能直觀地看到,幾乎在所有關鍵指標上,Gemini 3 Pro都遙遙領先前代Gemini 2.5 Pro和競爭對手Claude Sonnet 4.5、GPT-5.1。
這些漂亮的跑分到底意味著什么?在展示我們的實測Case之前,我們先花點時間,解讀一下這張圖,搞懂這些測試的含金量,看看Gemini 3 Pro到底強在哪。
Humanity's Last Exam (人類終極考試)是一個學術推理基準,涵蓋了人文學科到STEM(科學、技術、工程、數學)的各種高難度問題。它的特點是需要模型結合搜索和代碼執行等工具來輔助解答,非常貼近現實世界的開放性問題。Gemini 3 Pro(37.5%)大幅領先所有對手,GPT-5.1(26.5%)次之,而Gemini 2.5 Pro和Claude Sonnet 4.5在此項上能力較弱。
ARC-AGI-2(抽象推理挑戰)測試的是模型的視覺和抽象邏輯推理(看圖找規律),這對AI來說是出了名的困難。而Gemini 3 Pro(31.1%)的表現不僅比Gemini 2.5 Pro(4.9%)強了6倍多,也幾乎是GPT-5.1(17.6%)和Claude Sonnet 4.5(13.6%)的兩倍。
再來看看數學與編程能力。
MathArena (數學競技場)是另一個極具挑戰的數學競賽問題集。Gemini 3 Pro(23.4%)再次實現了斷層領先:比 Gemini 2.5 Pro(0.5%)強了近47倍,也遠遠甩開了Claude Sonnet 4.5(1.6%)和GPT-5.1(1.0%)。
SWE-Bench Verified要求模型在真實的、大型的Github代碼庫中,僅根據用戶提交的Bug報告來自主定位并修復Bug。這是Gemini 3Pro唯一沒有拿到第一的項目,Claude Sonnet 4.5(77.2%)和GPT-5.1(76.3%)以極其微弱的優勢領先Gemini 3 Pro(76.2%)。
再來看多模態理解能力,包括模型理解和推理圖像、圖表、視頻和文檔的能力。
ScreenSpot-Pro (屏幕理解)專門測試模型理解軟件界面(UI)截圖的能力。Gemini 3 Pro(72.7%) ,而Gemini 2.5 Pro(11.4%)和GPT-5.1(3.5%)在此項上幾乎不可用。簡單來說就是,Gemini 3Pro在理解屏幕上有什么、按鈕在哪里的能力上遙遙領先,這對開發能操作軟件的桌面智能體至關重要。
Video-MMMU (視頻知識獲取)測試模型從視頻內容中學習和獲取知識的能力。Gemini 3 Pro (87.6%) 再次領先,表明它是最擅長“看視頻”并理解其中內容的模型。
接下來,就是實戰環節。我們匯總了海內外網友用Gemini 3Pro跑出的各種神仙Case,同時上手實測了一番。這些Case大都集中在編程、前端、網頁設計等場景,能很直觀地體現模型能力,而Gemini 3 Pro的表現實現了一個明顯的用戶體驗層面上的躍升。
先說省流結論:Gemini 3 Pro不僅能寫代碼、生成高保真游戲原型,更能扮演網頁設計師+前端工程師的綜合角色,理解復雜的需求,交付一個審美和功能均在線的完整網站產品。
Dating App
a16z合伙人Justin More用Gemini 3 Pro打造了一個硅谷AI圈戀愛交友App,不僅UI精良,交互流暢,生成的個人簡介也很符合硅谷和AI圈的刻板印象,比如它給Anthropic的研究員打上了Superalignment(超級對齊)的標簽。匹配成功后,你還會收到一份契合度測評,還能和對方的AI分身聊天。
來源X:@venturetwins
“地球Online”游戲原型
我讓Gemini 3 Pro制作一個可交互的“地球Online”游戲界面,畫面元素需要體現游戲特色,并且包含游戲玩法介紹、游戲須知、創建角色/登錄按鈕。
p.s. “地球Online”是把現實世界的生活比作一款大型多人在線角色扮演游戲,玩家就是我們每一個人,服務器就是地球。創建角色/登錄指的是“出生”,很多人會開玩笑說自己的“初始號”沒刷好,比如出生地、家庭背景、天賦等。
可交互網站
我要求它創建一個可交互的、中英雙語的個人作品集網站。網站需包含“關于我”、“作品集”和“聯系方式”三個板塊,風格為極簡藝術,并指定了黃、粉紅、天藍、橙色四種主題色。
Gemini 3 Pro生成的效果堪稱驚艷:一次性交付了一個完整、專業且設計感極強的網站。它不僅完美實現了四色主題和極簡風格,還構建了包括首頁、作品頁、聯系人表單在內的完整多頁面布局,可以實現中英雙語的一鍵切換。
![]()
![]()
![]()
![]()
你還可以上傳一張平面圖,讓Gemini 3 Pro變可交互網頁,不僅還原度極高,而且功能齊全,交互流暢。前端已死。
![]()
![]()
X上一個前端程序員的感慨
更炸裂的還在后面,有網友讓Gemini 3為一個在上海舉辦的虛構AI峰會(Let's Vision 26)創建一個官方網站,其生成的效果、完成度和設計感都達到了新高度。
Gemini 3不僅構建了一個結構完整的商業級Landing頁面,包含導航欄、購票、招募演講者、合作伙伴,而且設計審美極其在線。視頻中展示了流暢的滾動視差動畫、復古的屏幕特效、以及一個包含多檔位并以人民幣計價的完整購票系統。
來源X:crystalsssup
實時智能交互的視頻錄制工具
字節AI產品經理Zara用Gemini 3搞了個智能視頻錄制工具“Sparks”,在錄制視頻時,AI會實時分析你所說的內容,智能地提供接下來的提示和思路,這下再也不怕卡殼了……而且Gemini自帶原生的攝像頭集成能力,能直接導出為MP4格式。
90年代的主題公園游戲
有網友用Gemini 3 Pro花幾個小時重制了一個90年代的主題公園游戲,Gemini 3 Pro連玩家能自己調節薯片咸度都保留了(玩過原版的玩家都懂這個梗)。
來源X:@demishassabis
3D隧道躲避游戲
Gemini 3 Pro不僅理解了游戲的核心玩法(在旋轉的隧道中躲避障礙物),還僅憑一句提示詞就生成了可以直接運行的完整游戲。從視頻中可以看到,這款游戲擁有流暢的3D視覺效果、動態的速度和距離計數器,以及完整的碰撞檢測和“系統失敗”重啟機制。
來源X:@flavioAd
駕駛游戲《霓虹漂移》
這個同樣是Gemini 3一鍵生成的,視覺風格極強,而且擁有功能正常的車速表、可點擊的“TURBO BOOST”(渦輪增壓) 按鈕、用于更換車身顏色的“調色板”以及“軌道運鏡”按鈕。
3D樂高編輯器
一位網友利用 Gemini 3.0 Pro,5分鐘構建了一個功能完備的3D樂高編輯器。
Gemini 3 Pro一擊就中了用戶界面、復雜的三維邏輯和所有功能。它擁有一個包含不同規格積木的庫、一個用于搭建的3D網格畫布、一個調色板以及用于切換視角的控制器(3D、頂視、前視)。用戶可以流暢地在3D空間中選擇、放置、旋轉和著色積木。
來源X:@skirano
核電廠工作模擬
Gemini 3 Pro還能將專家級的物理學知識(核反應堆原理)和3D模擬器結合,一鍵生成一個完整的、用于教育和模擬的復雜應用,比如這個核電廠工作原理交互式3D模擬器。
來源X:@sebkrier
設計Agent
國內AI圈KOL“歸藏”用Gemini 3 Pro做了一個設計Agent,可以看到,輸入一句簡單的中文提示“做一個小狗宣傳片”,并設置類型為“視頻”、風格為“現代”,Agent就自動生成了一段8秒鐘的1080P高清視頻。
![]()
「AI新榜交流群」進群方式:添加微信“banggebangmei”并備注姓名+職業/公司+進群,歡迎玩家們來群里交流,一起探索見證AI的進化。
歡迎分享、點贊、推薦
一起研究AI
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.