網易首頁 > 網易號 > 正文申請入駐

ZPedia｜Gemini 3全面斷崖式領先，單個模型橫掃多模態、推理、Agent三大戰場，Google王者歸來

2025-11-19 03:35:30　來源: ZFinance

北京舉報

分享至

過去一年，Google 的進步肉眼可見。

ChatGPT 橫掃全球時，Google 一度像被打了個措手不及的巨頭。但短短不到一年，Veo 3、Nano Banana、Genie 3 接連發布，一個被外界質疑“落后”的公司，突然又展現出定義時代的力量。

今天，在全球技術圈幾乎屏住呼吸的等待中，Google 終于推出了最新一代 AI 模型——Gemini 3。

遙遙領先，Gemini 3化身無情的屠榜機器

如果只看數字，Gemini 3 這一代的成績幾乎去全面碾壓。它不是在一個榜單上領先，而是把能刷的榜單都刷了一遍；不是以某一項特色出圈，而是把多模態、推理、Agent 三條最難突破的線路，一次性拉到行業天花板。

先看推理能力。

在開放評測平臺 LMArena 上，Gemini 3 Pro 以 1501 分的成績站到通用模型第一梯隊的最前列。在 SimpleQA Verified 這種強調事實性與復雜問答準確度的測試里，它達到 72.1%，意味著幻覺率和知識錯誤率被顯著壓低。

在更加嚴苛的人類“終極試卷” Humanity’s Last Exam 中，它在不借用任何外部工具的情況下拿到 37.5%；在博士級科學問答 GPQA Diamond 上更是達到 91.9%；在數學難題集 MathArena Apex 上刷新最新記錄，拿下 23.4%，為數學推理模型樹立了新的基準線。

真正具有象征意義的，是它的 Deep Think 模式。當模型能夠分配更多 token、延長推理鏈路后，它在 Humanity’s Last Exam 上躍升至 41%，在 GPQA Diamond 上攀升到 93.8%，在 ARC-AGI 上突破 45%。

這些都是傳統 scaling law 被認為“撞墻”的任務，而上一代 Gemini 2.5 在 ARC-AGI 上還不到 5%。在 2025 年這樣一個對推理悲觀論甚囂塵上的時期，這種接近 10 倍的跨越無疑刺破了行業的認知天花板。

再來看多模態表現。

Gemini 3 Pro 在 MMMU-Pro 上取得 81%，在 Video-MMMU 上達到 87.6%，幾乎把這幾年所有主流多模態模型的紀錄重新洗牌。這兩項被業內視為真正的“硬試卷”，考驗的不是看圖回答，而是在跨圖像、跨學科、跨語境的混合任務中，保持一條不被打斷的推理鏈條。

真正讓行業震動的，并不是這些高分本身，而是它如何得到這些分數：Gemini 3 首次把“視覺理解”與“邏輯推理”合成同一種能力。

谷歌展示了一個場景——一個手寫、符號混雜、排版混亂的本子，模型不僅能精準 OCR，還能自動消解符號不一致帶來的歧義，最終給出的答案甚至比受過訓練的學生更穩定。

更關鍵的是，這些表現全部來自一個通用模型，而不是圖像或視頻方向的專精模型。這意味著多模態不再是外掛能力，而是模型內部原生的一部分。

隨著這些能力被整合在一起，Gemini 3 逐漸顯露出一種超出語言層面的“操作心智”：它不僅能理解視覺結構，也能讀懂界面變化、預測用戶操作，甚至推斷環境動態。推理不再只是答題，而開始向“理解世界如何運作”邁一步。

最后看 Agent 能力。

Gemini 3 Pro 的進步已經不是“更強一點”，而是直接跨到一個新的層級。

在 t2-bench 這項工具與系統操作測試中，它拿到 85.4% 的高分，意味著模型不僅能理解你的指令，還能像工程師一樣在真實軟件環境里調用 API、處理文件、執行系統命令。這是檢驗 Agent 真本事的關鍵，一旦失誤就無法偽裝，而 Gemini 3 Pro 展現出了頂尖的穩定性。

真正體現智能體“耐力”的，是 Vending-Bench 2。這項測試模擬一個自動售貨機一整年的運營，考驗模型能否長期記住目標、保持策略不跑偏。Gemini 3 Pro 最終獲得 5478 分，明顯領先所有同級模型，展現出罕見的長鏈任務穩態能力。

在 Terminal-Bench 2.0 中，它還需要在 Unix 環境里讀日志、改配置、跑驗證，模擬一次真實的自動化修復流程。它的 54.2% 得分說明，它不僅會“說”，也真的會“修”。

這些數字背后的共性其實只有一個：

Gemini 3 不再是“某個維度特別強”的模型，而是第一次在推理、多模態、Agent 三個最難突破的方向上，同時達成了可觀的領先優勢，而且全部集中在同一個通用模型里。

從模型到產品：Gemini 3 把“答案”變成了“界面”和“行動”

如果說榜單告訴我們的是“能力”，那產品呈現的則是這些能力如何被組織起來、如何被普通人真正用到手里的。

在 Gemini 3 身上，谷歌做了兩件過去很少有人認真做的事：

第一，把模型的輸出從“文本”升級成“界面”；

第二，讓模型從“對話參與者”變成“任務執行者”。

在日常使用中，最直觀的變化發生在 Gemini App 自身。新版應用已經不再是一個單一對話框，而更像是一個“由模型驅動的工作空間”。在這里，你可以在 Canvas 中用自然語言構建完整的程序、應用或原型——Gemini 3 Pro 負責多步驟的規劃、代碼生成、界面生成和調試，你只需要不斷描述你想要的效果。

另一條非常關鍵的產品線，是所謂的“生成式界面”（Generative Interfaces）。在 Google 的研究與產品博客中，這被稱為一類全新的交互體驗：用戶發出一個自然語言請求，模型不是直接返回一段答案，而是即時生成一個結構化的、視覺化的界面。

Google 把這種能力分成兩類實驗形態：視覺布局負責“把復雜信息排版成一篇好讀的雜志頁”，而 Dynamic View 則直接生成可以操作的計算器、圖形、模擬器、圖廊甚至完整的小工具，讓回答本身就變成一個“能動”的界面。這些體驗已經開始在 Search 的 AI Mode 中出現，用戶可以在搜索里直接見到動態布局、交互組件和實時模擬。

與此同時，Gemini Agent 作為一項仍在實驗階段的能力，負責把這些“理解”和“界面”延伸到行動層面。在 Gemini App 中，它可以連接 Gmail、Calendar 等 Workspace 應用，自動為你整理郵箱、歸類任務、提煉行動項，甚至根據郵件中的航班信息和預算需求，主動比較租車、預訂酒店，再把決策節點交給用戶確認。

對開發者而言，Google Antigravity 則是另一個意義重大的新物種。The Verge 和 TechCrunch 的報道都指出，這個 IDE 本質上是一個“agent-first”的開發環境：多個 Gemini 3 驅動的代理可以同時在編輯器、終端、瀏覽器三處操作，生成代碼、執行命令、打開網頁、做驗證，并把整個過程記錄為 Artifact 供人類復盤。

整條產品線串起來，會發現 Gemini 3 正在做一件非常有野心的事。

它試圖把“答案”升級為“可操作的界面”，再進一步升級為“真實執行的行動”，最終把模型變成一個“能替你做完一件事”的系統，而不僅僅是一個“告訴你怎么做”的顧問。

Gemini 3 到底改變了什么？

從表面看，Gemini 3 只是把一堆 benchmark 刷到了新高，把搜索、App、IDE 同步做了升級；但如果把這些碎片放在一起看，就會發現它其實踩中了幾個關鍵的技術與產品轉折點。

第一，統一模型路線第一次有了清晰的技術樣本。

過去幾年，業界在多模態這件事上有一個隱形共識：想要圖像強，就做一個圖像向的專精模型；想要推理強，就做一個思考向的推理模型；想要 Agent 能力，就往工具調用上拼命堆安全與流程。結果就是，每條賽道上都有一些強模型，但真正能在同一個模型里把三件事都做好的，幾乎沒有。

Gemini 3 給出的答案是：不拆分、不堆疊，而是真正做一個原生多模態、原生推理、原生 Agent 的統一架構。也就是說，這不是“多模型拼盤”，而是一個統一心智在面對不同任務。

第二，“scaling law 撞墻”這句話，恐怕要重新討論了。

過去一年，大家對于 scaling law 的悲觀，主要來自兩個現實：其一是預訓練數據逼近上限，其二是參數繼續往上堆卻難以換來線性可感知的推理提升。但 Gemini 3 在 ARC-AGI、Humanity’s Last Exam 等極難基準上的跳躍式表現說明，真正起決定性作用的，很可能并不是“堆多大”，而是“結構、訓練范式和任務設計有沒有跟著一起升級”

第三，交互范式正在從“對話式 AI”邁向“界面式 AI”。

ChatGPT 把整個行業帶入了“對話優先”的交互世界，大家開始習慣在一個大輸入框里問所有問題。但 Gemini 3 的 generative UI、Dynamic View 等能力表明，谷歌相信的下一步，是讓模型直接生成界面、頁面、控制面板、模擬器，而不再把“答案”局限在一條條文本里。

當模型可以根據你的問題即時構造出一個適配任務的 UI 時，人與 AI 的關系就從“問—答”變成了“設定任務—共同操作界面”。AI 不再只是在語言層面輔佐你，而是開始和你共享一個可操作的工作環境。

第四，谷歌拿到了Nano Banana之后又一次“產品側翻盤窗口”。

OpenAI 在 GPT-5 / GPT-5.1 這一代上并沒有像 GPT-4 那樣形成壓倒性優勢，反而給了競爭對手喘息空間。而谷歌這次的打法非常明確：模型端用統一架構“屠榜”，產品端在 Search、Gemini App、Workspace、Antigravity 全線鋪開，交互上又用 generative UI 和 Agent 拉開與傳統對話式 AI 的差異。

如果這些能力在接下來半年到一年里持續穩定，不只是開發者，普通用戶也會真切地感受到“這代產品不太一樣了”。那時，誰在消費級 AI 上更有優勢，很可能就要重新算賬。

全面反攻——Google AI 戰略的真正底牌

Google的轉變并不是爆發，而是一次漫長沉淀后的結構性反攻。

在 Google 內部，“AI-first”已經不再是口號，而是一次痛下決心的自我改造。皮查伊多次在公開采訪中強調：Google 正在進入“AI-first 的第二階段”。這句話意味著公司核心身份悄然改變——它不再把自己視為一家搜索公司，而是要成為下一代計算平臺的創建者。搜索、Android、Chrome、Workspace、YouTube、Cloud 等所有核心業務都在圍繞 Gemini 重構，甚至連公司 2025 年接近 900 億美元的資本開支，幾乎都指向同一件事：為模型供電，為未來鋪路。

組織結構上的調整是這次反攻的起點。Google Brain 與 DeepMind 的合并，讓全公司的模型路線首次“統一指揮”。DeepMind CEO Demis Hassabis 負責整條模型主線，Jeff Dean 轉向長期研究；所有頂級芯片、TPU 和工程資源開始向 Gemini 集中。這種集中讓 Google 結束了過去那種“研究多、產品慢”的狀態，第一次把十多年積累的基礎研究能力真正整合成可落地的產品。Gemini 3 的推理能力、Veo 3 的視頻建模、Nano Banana 的圖像編輯、Genie 3 的世界模擬——這些并不是奇跡，而是論文體系第一次系統化落地。

更關鍵的是，Google 不再滿足于“模型更強一點”，而是想重新定義用戶與信息的關系。外界習慣把這場競爭描述為“Google 對 OpenAI”；但從 Google 的戰略動作來看，它要的不是一個更強的 ChatGPT，而是一個新的入口體系。

Gemini Agent 成為新的工作入口，AI Mode 重塑搜索入口，Gemini App 成為移動入口，NotebookLM 成為知識入口，Veo 3、Nano Banana 是視覺內容入口，Genie 3 則是未來智能體訓練的虛擬入口。Google 不準備圍繞某個產品競爭，而是試圖重構“AI 時代的操作系統”。

為什么 Google 這次變得如此激進？

答案很簡單：這是一場生死局。AI 生成答案讓搜索的護城河開始變薄，廣告模式面臨潛在風險，用戶的第一觸點也可能遷移到 AI 通道。如果不能重新定義入口，Google 的核心商業模式就會動搖。對于一個過去二十年靠搜索主導互聯網的巨頭來說，這不是“贏不贏”的問題，而是“能不能留在桌上”的問題。

也正因為此，Google 過去的謹慎正在被新的節奏所取代。內部開始出現跨部門座位混編的合作方式，搜索工程師與 DeepMind 的研究者一起調試 AI Mode，Android 團隊與 Labs 共同推進 Gemini App 的 UI 迭代。曾經開放、松散、鼓勵長期研究的文化，正在被一種更集中、更執行導向的節奏替代。甚至連高層人事安排也指向同一個方向——讓更懂產品、懂用戶、懂節奏的人接手關鍵業務。NotebookLM 背后的 Josh Woodward 接掌 Gemini，就是典型例子。

今天的 Google 不僅恢復了工程速度，也重新找回了“用產品定義技術”的能力。Gemini 3 讓人看到它仍然具備構建頂級模型的硬實力；Veo 3、Nano Banana 證明 Google 在多模態領域依舊有別人無法復制的深度；Genie 3 則是 Google 對世界模型的押注，這些都是指向未來十年的關鍵方向。

未來的格局尚未定型，但有一點幾乎可以確定——當一家公司同時掌握搜索入口、移動系統、瀏覽器、辦公套件、云和世界模型，它一旦重新踩住節奏，力量會呈指數級回流。

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層，

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群，優秀者將成為簽約作者，00后更有機會成為Z Finance的早期共創成員。

我們正在招募新一期的實習生

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.