網易首頁 > 網易號 > 正文申請入駐

Gemini 3 終于來了！登頂LMArena，碾壓所有基準

2025-11-19 11:10:12　來源: DeepTech深科技

北京舉報

分享至

終于，千呼萬喚之下，歷經多次“預告”過后，Gemini 3 終于來了。

北京時間 11 月 19 日凌晨，Google 正式發布了其最新一代人工智能模型 Gemini 3。這款被 CEO 桑達爾·皮查伊（Sundar Pichai）稱為“最智能模型”的產品，在發布前就已經在業界掀起了不小的波瀾。事實上，早在10 月中旬，就有爆料稱 Gemini 3 將在 10 月 22 日登場，但那次“狼來了”的傳言最終沒有兌現。

（來源：Google）

到了 11 月中旬，又有敏銳的開發者在移動端 Canvas 功能中發現了端倪：盡管界面顯示仍是 Gemini 2.5 Pro，但輸出質量已經發生了質的飛躍，特別是在 SVG（Scalable Vector Graphics，可縮放矢量圖形）生成和網頁設計方面，效果遠超此前版本。

直到 AI Studio 和 Vertex AI 平臺上開始隱約出現 Gemini 3 的蹤跡，業界才意識到，這次是真的要來了。而現在，靴子終于落地。

此刻距離 Google 首次推出 Gemini 品牌已經過去近兩年。相較于早期的慌亂和匆忙，這一次，Google 顯然做足了準備。Gemini 3 的發布不再是試探性的小步快跑，而是一次全面的、自信的大規模推送——這是 Google 第一次在發布當天就將最新的 Gemini 模型整合進搜索引擎。用 Google 搜索產品副總裁羅比·斯坦（Robby Stein）的話說：“這是我們第一次在搜索中同步發布最新的 Gemini 模型。”對于一家以搜索起家、擁有數十億用戶的科技巨頭而言，這一決策足以說明其對于新模型的自信。

這款稀疏混合專家（sparse MoE, Mixture-of-Experts）架構模型的核心賣點可以用 Google 自己的話來概括:“我們最智能的模型, 幫助你將任何想法變為現實。”

從各項基準測試的結果來看，Gemini 3 確實配得上我們這么久的期待。在 LMArena 排行榜上，它以 1501 分的 ELO 評級登頂。在學術界用來測試 AI 系統是否具備博士級推理能力的“人類最后的考試”（Humanity's Last Exam）中，Gemini 3 在不使用任何工具的情況下達到了 37.5% 的準確率；而在考察研究生水平科學問題理解能力的 GPQA Diamond 基準測試中，它的得分更是高達 91.9%。此外，在專門考察高難度數學問題求解的 MathArena Apex 測試中，Gemini 3 取得了 23.4% 的成績，刷新了前沿模型在這一領域的紀錄。

圖丨Gemini 3 的基準測試結果（來源：Google）

多模態能力是 Gemini 系列的傳統強項，而 Gemini 3 將這一優勢進一步擴大。在 MMMU-Pro（大規模多學科多模態理解）測試中，Gemini 3 得分 81%，在 Video-MMMU（視頻多模態理解）中更是達到 87.6%，這兩項指標都顯著超越了競爭對手。

在 SimpleQA Verified 這一事實準確性測試中，Gemini 3 Pro 達到 72.1%，表明其在事實準確性方面也有長足進步，這對于實際應用場景至關重要。

Google 還推出了一個更強大的變體：Gemini 3 Deep Think。這是一個增強推理模式，旨在將 Gemini 3 的性能推向更高的高度。在測試中，Deep Think 模式在 Humanity's Last Exam 中達到 41.0%（不使用工具），在 GPQA Diamond 中達到 93.8%，在 ARC-AGI-2（Abstraction and Reasoning Corpus，抽象與推理語料庫）中更是創下了 45.1% 的成績。不過，Deep Think 模式目前還不能立即使用。Google 表示，這一模式正在進行額外的安全評估，并征求安全測試員的意見，預計在未來幾周內向 Google AI Ultra 訂閱用戶開放。

（來源：Google）

除了這些性能的提升，Google 還特意強調了模型“性格”的轉變。Gemini 3 的回應被設計得更加“聰明、簡潔、直接，用真知灼見取代陳詞濫調和阿諛奉承。告訴你需要聽的，而不只是你想聽的”。長期以來，為了追求所謂的安全與對齊，許多大模型患上了一種名為“Sycophancy”（阿諛奉承）的通病，即無底線地順從用戶的錯誤前提，或者給出模棱兩可的廢話。Gemini 系列此前在這一問題上似乎尤其明顯，以至于許多網友戲稱 Gemini 非常“自卑”，而 Google 這一次似乎下定決心要矯正這一點。

在具體應用場景上，谷歌著重強調了三個方向：“學習任何東西”、“構建任何東西”和“規劃任何東西”。

在學習領域，依托 1 百萬 token 的上下文窗口 (相當于約 75 萬個單詞), Gemini 3 可以處理長篇學術論文、多小時的視頻講座, 并將其轉化為交互式學習材料。例如，它能夠解析不同語言的手寫食譜并生成可分享的家庭食譜書，可以將學術論文和視頻講座轉化為交互式閃卡和可視化圖表，甚至可以分析你的匹克球比賽視頻，識別需要改進的地方并生成訓練計劃。

構建能力是 Gemini 3 最被看好的領域。在 WebDev Arena 排行榜上 1487 的 Elo 評分，在 Terminal-Bench 2.0（測試通過終端操作計算機的能力）上 54.2% 的得分，尤其是在 SWE-bench Verified 上 76.2% 的表現，都顯示出這是一個在編程方面極具競爭力的模型。Google 稱其為“我們打造過的最好的氛圍編程（vibe coding）和智能體編程模型”。在奧賽級編程基準測試LiveCodeBench Pro 上，Gemini 3 拿下了 2439 的最高分數，比第二名 GPT-5.1-high 高了近 200 分。

LiveCodeBench Pro 團隊的負責人之一、普林斯頓大學博士柴文浩也向 DeepTech 表示，Gemini 3 的進步稱得上是“領先了一個代差”，“方方面面都非常強悍”。

（來源：LiveCodeBench Pro）

為了配合 Gemini 3 的發布，Google 同時推出了一個名為 Antigravity 的全新開發平臺。Antigravity 旨在讓開發者從繁瑣的編碼細節中“懸浮”起來，在更高的任務層面操作。在這個平臺上，智能體（agent）被提升到一個專門的界面，能夠直接訪問編輯器、終端和瀏覽器，自主規劃和執行復雜的端到端軟件任務，同時還能驗證自己生成的代碼。Antigravity 內置了最新的 Computer Use 模型（用于瀏覽器控制）和圖像編輯模型 Nano Banana，構成了一個完整的智能體開發生態。

規劃能力則體現在 Gemini 3 對長期任務的把控上。在 Vending-Bench 2 這個基準測試中，Gemini 3 需要經營一家模擬的自動售貨機生意整整一年，在這個過程中保持一致的工具使用和決策，不偏離任務目標，最終產生更高的回報。這一過程實際上反映了現實世界中許多需要長期規劃、中途調整策略的場景。對于 Google AI Ultra 訂閱用戶，一個名為 Gemini Agent 的新功能已經上線，可以幫助處理諸如預訂本地服務、整理 Gmail 收件箱等多步驟工作流程。

（來源：Google）

縱覽目前各大廠商的模型，相比于 Claude 那樣明確聚焦編程，和 GPT-5 那樣強調統一架構，Gemini 3 的策略顯然是求全，試圖在推理、多模態、編程、長上下文等各個維度都達到頂尖水平。這種“全能選手”可能在某些特定任務上面臨激烈競爭，但 Google 有一張王牌：生態整合。

這種生態優勢首先體現在硬件基礎設施上。Gemini 3 基于 Google 最新的 Trillium TPU（Tensor Processing Unit，張量處理單元）芯片訓練，這是 Google 自研的 AI 專用處理器的第六代產品。每顆 Trillium 芯片可提供 512 TOPS（萬億次運算每秒）的 AI 算力，相比上一代 TPU v5e 性能提升了 4 倍，而能耗卻降低了 67%。這種從底層硅片到上層模型的垂直整合，讓 Google 能夠針對自家模型特點優化硬件設計，反過來也讓模型訓練更加高效，這是 OpenAI 依賴英偉達 GPU、Anthropic 租用云計算資源目前所難以企及的優勢。

在軟件和服務層面，Gemini 3 同步登陸 Google 搜索的 AI 模式、Gemini 應用、AI Studio、Vertex AI 以及 Antigravity 平臺。特別是此次更新的 AI 模式搜索，能夠做到根據查詢動態生成沉浸式視覺布局、交互工具和模擬器，將搜索從“尋找信息”提升到“理解信息”。當你搜索“RNA 聚合酶如何工作”時，不再是一堆靜態鏈接，而是交互式的動畫演示和可操作的模擬器——這是只有掌控搜索入口的 Google 才能做到的整合。

在發布后不久的采訪中，DeepMind CEO 德米斯·哈薩比斯就表示，Gemini 3 在推理能力上實現了“顯著的跨越”。但他同時強調，Google 的野心遠不止于此。在通往 AGI（通用人工智能）的道路上，Google 正在“深入個性化、記憶和語境（Context）”。哈薩比斯認為，正是通過與 Gmail、日歷以及整個 Google 生態系統的深度連接，AI 助手才能在 AGI 正式到來之前，就已經變得“真正不可或缺”。

參考資料：

https://blog.google/products/gemini/gemini-3/#note-from-ceo

https://x.com/rowancheung/status/1990814463428059597

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.