網易首頁 > 網易號 > 正文申請入駐

谷歌深夜炸場：Gemini 3正式發布！自ChatGPT發布以來最激動人心的事件

2025-11-19 01:42:12　來源: AI寒武紀

江蘇舉報

分享至

剛剛，谷歌Gemini 3正式發布，我的初步體驗和第一感覺是這玩意完全超越GPT-5 和 Claude sonnet 4.5，強到離譜，編程和寫作都達到了T0級別，可以說這是自從OpenAI 發布ChatGPT以來，最令我心跳不已的事件，現在就可以在Gemini App和 Google AI Studio中使用了

隨手測試：直接看效果（更詳細的測試隨后幾天奉上）

1.制作速度可調的電風扇svg

2.模擬彈力球從空中一層一層掉落并彈起的物理過程（目前我測過的只有Claude sonnet 4.5可以抽卡成功）

3.模擬核聚變過程并添加背景樂（這個是復現谷歌官方的）

官方的發布核心信息要點：

谷歌官方把Gemini 3定義為“通往AGI之路的又一大步”。它不僅在多模態理解上全球領先，更是谷歌迄今為止最強大的Agent（智能體）和“Vibe Coding”模型。

此次發布包含兩個核心版本：Gemini 3 Pro（即日預覽上線）以及增強推理模式的Gemini 3 Deep Think

與此同時，谷歌宣布Gemini 3即刻全面接入谷歌生態——從Search（搜索）到AI Studio，再到全新的Agent開發平臺Google Antigravity

一起來看Gemini 3到底有多強。

數據屠榜：LMArena突破1501分

Gemini 3 Pro主打深度推理和多模態能力，在每一項主流AI基準測試中都大幅超越了Gemini 2.5 Pro

推理與數學：

LMArena Leaderboard：以1501 Elo的突破性得分登頂。

Humanity’s Last Exam（人類最后一次考試）：在不使用工具的情況下得分為37.5%，展現出博士級推理能力

GPQA Diamond：得分91.9%

MathArena Apex：達到23.4%，確立了前沿模型在數學領域的SOTA（State-of-the-art）新標準

多模態與事實性：

MMMU-Pro：81%。
Video-MMMU：87.6%，重新定義多模態推理。
SimpleQA Verified：72.1%（SOTA），在事實準確性上取得重大進展。

官方強調，Gemini 3 Pro不再是簡單的問答，而是能夠理解語境和意圖，“不僅能讀懂文字和圖像，更能讀懂空氣（reading the room）”。它可以摒棄陳詞濫調，提供真知灼見，甚至能通過生成代碼將晦澀的科學概念轉化為高保真的可視化效果

Deep Think模式：推理能力的階躍

除了Pro版本，谷歌還祭出了大殺器——Gemini 3 Deep Think

這是一種增強推理模式，旨在解決最復雜的難題。測試數據顯示，其性能進一步超越了本就強悍的Pro版本：

Humanity’s Last Exam：41.0%（無工具）

GPQA Diamond：93.8%

ARC-AGI-2：取得了前所未有的45.1%（含代碼執行，ARC Prize Verified），證明了其解決新穎挑戰的能力。

Deep Think模式將在未來幾周內向Google AI Ultra訂閱用戶開放。

Google Antigravity：重塑開發者體驗

隨著Gemini 3的發布，谷歌推出了全新的Agent開發平臺——Google Antigravity

這不只是一個AI IDE，它將Agent提升到了核心地位

自主權：Agent擁有對編輯器、終端和瀏覽器的直接訪問權限

能力：利用Gemini 3的推理和工具使用能力，Agent可以自主規劃并執行復雜的端到端軟件任務，同時自我驗證代碼

模型組合：該平臺不僅集成了Gemini 3 Pro，還緊密耦合了最新的Gemini 2.5 Computer Use模型（用于瀏覽器控制）和頂級圖像編輯模型Nano Banana（Gemini 2.5 Image）。

在編碼能力基準測試中，Gemini 3同樣表現出色：

WebDev Arena：1487 Elo，位居榜首。

SWE-bench Verified：76.2%，大幅超越2.5 Pro，這一項沒有超越Claude sonnet 4.5

Terminal-Bench 2.0：54.2%，展示了通過終端操作計算機的能力。

全能助手：從學習到規劃

Gemini 3不僅面向開發者，更旨在幫助普通用戶“學習、構建和規劃一切”。

學習（Learn）：

利用100萬token的上下文窗口，它可以綜合處理文本、圖像、視頻、音頻和代碼

示例： 它可以解讀不同語言的手寫食譜并整理成家庭烹飪書；通過分析匹克球（Pickleball）比賽視頻，生成針對性的訓練計劃。

搜索進化： 在Search的AI模式中，Gemini 3支持生成式UI體驗，能根據查詢即時生成交互式工具和沉浸式視覺布局

規劃（Plan）：

Gemini 3在長時程規劃上取得了長足進步

Vending-Bench 2測試：該測試要求管理模擬自動售貨機業務。Gemini 3 Pro在全年的模擬運營中保持了一致的決策力，未偏離任務，并帶來了更高的回報，位居榜首

這由意味著它能更好地處理預訂服務、整理收件箱等現實生活中的多步驟工作流

谷歌宣布，這是首次在發布首日就將新一代Gemini模型引入搜索（Search）。

具體推出計劃如下：

普通用戶：Gemini App及Search中的AI模式（針對Google AI Pro和Ultra訂閱用戶）即日起可用

開發者：通過Google AI Studio、Google Antigravity、Gemini CLI及Vertex AI訪問

企業用戶：通過Vertex AI和Gemini Enterprise訪問。

Deep Think模式：需等待安全評估，預計數周后向Ultra訂閱用戶開放。

劈柴哥表示，過去兩年，AI Overviews月活已達20億，Gemini App月活超6.5億。Gemini 3的發布，標志著谷歌以“全棧式AI”策略，正式將Gemini部署到了谷歌的每一個角落

參考：

https://blog.google/products/gemini/gemini-3/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=-development

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.