網易首頁 > 網易號 > 正文申請入駐

谷歌官宣Gemini 3，團隊揭秘模型訓練的兩個“啊哈時刻” 哈薩比斯：“又向AGI邁進一步” |【經緯低調分享】

2025-11-19 11:54:01　來源: 經緯創投

北京舉報

分享至

太平洋時間11月18日，谷歌正式推出Gemini 3，宣告在通用人工智能（AGI）探索之路上再進一步。

新一代模型憑借推理、多模態理解與編碼三大核心能力的突破性提升，重新定義了AI與人類協作的邊界，其訓練過程中的兩大“啊哈時刻”更直觀展現了智能進化的飛躍——既能通過簡單自然語言指令生成可交互3D游戲，又能深度解讀古吉拉特語詩歌并完成創意二次創作，彰顯出接近人類直覺的理解與創造能力。

在核心性能上，Gemini 3 Pro以1501分登頂LMSys Elo Arena排行榜，GPQA Diamonds測試準確率達91.9%，深度推理模式更將表現進一步提升；多模態領域憑借81%的MMMU-Pro分數與87.6%的Video-MMMU分數，成為全球頂尖多模態理解模型，可無縫處理長視頻、混合語言食譜等復雜場景。編碼層面創新推出“可視化編碼”與“代理式編碼”，前者實現想法到交互界面的直接轉化，后者賦予AI自主拆解任務、調用工具的執行能力，讓開發與日常事務處理效率倍增。

此次發布更標志著AI體驗的全面重構：谷歌搜索首次同步接入Gemini 3，生成式UI實現從“答案引擎”到“發現創造引擎”的升級，讓抽象知識可交互體驗；Gemini應用新增動態視圖、視覺布局等功能，Ultra訂閱用戶更可體驗多任務自主處理的Gemini Agent。以下，Enjoy：

作者 | 周雅

來源 |科技行者

“Gemini 3的發布，代表團隊在通往AGI（通用人工智能）路上邁出的又一步。”太平洋時間11月18日8:00，谷歌正式發布Gemini 3，Google DeepMind 首席執行官 Demis Hassabis 在谷歌博客中寫道。

而就在一天前，谷歌舉行了全球媒體溝通會，當被問及模型訓練過程中的“啊哈時刻”時，Google DeepMind Gemini產品管理高級總監Tulsee Doshi，負責Gemini研發工作的她分享了兩個瞬間。

第一個瞬間，是她第一次嘗試可視化編碼時，僅用非常簡單的自然語言提示詞，Gemini 3就能創造出一款游戲，甚至是可交互的3D可視化效果，還能在那個環境里“真的玩起來”。

第二個瞬間則更具人文色彩。Tulsee嘗試讓模型處理一首用“古吉拉特語”寫成的詩，那是她父母的母語，不僅要求模型做翻譯，還讓它二次創作。“你能看到模型的細膩感、創造力、以及寫作風格，我當時就覺得：哇，這個模型真的很聰明，能把很多元素融會貫通。”

這兩個時刻，一個關乎創造，一個關乎理解，似乎都在指向這是一種更接近人類直覺的智能。Tulsee告訴我們，“當你把多模態輸入、復雜推理問題，以及你想要的輸出形式結合起來時，Gemini 3 的魔力就顯現出來了。”

01

解構Gemini 3

梳理Gemini 3 的核心進步，可以概括為三個層面：推理能力、多模態理解能力、編碼能力。

Google DeepMind首席技術官Koray Kavukcuoglu在媒體溝通會上這樣描述Gemini 3的交流風格——“Gemini 3給出的回答聰明、簡潔、直截了當。”

這種質變建立在「推理能力」之上。

在LMSys Elo Arena排行榜上，Gemini 3 Pro 以1501分的突破性分數登頂，比其前代 Gemini 2.5 Pro 高出50個等級分；此外，在更考驗深層理解的基準測試中，它的表現同樣突出：在GPQA Diamonds（一個衡量研究生水平推理與知識的基準測試）達到91.9%的準確率；在Humanity’s Last Exam（一個要求多步邏輯和專家級推理的基準測試），不使用任何外部工具，Gemini 3 Pro 取得了37.5%的成績。

這些數字背后，是模型正在往解決復雜問題的能力躍遷，它意味著 Gemini 3/Pro 在處理科學、數學等專業領域的復雜問題時，具備了更高可靠性。

為了進一步突破，谷歌還推出了一個名為Gemini 3 Deep Think（深度思考）的增強推理模式。在內部測試中，Gemini 3 Deep Think 在Humanity's Last Exam（未使用工具時為 41.0%）和 GPQA Diamond（93.8%）中的表現，甚至還要優于 Gemini 3 Pro。

我們再來看Gemini 3的多模態理解能力。

Google與 Alphabet 首席執行官 Sundar Pichai 在谷歌博客中寫道：“近兩年前，我們開啟了Gemini時代，這是我們公司有史以來最大的科學和產品項目之一。僅僅兩年時間，人工智能就從單純閱讀文本和圖像發展到能夠讀懂房間。”

“讀懂房間”（reading the room）這個比喻，精準描述了 Gemini 3 在多模態理解上的進步。它不再是單一地處理文本、圖像或音頻，而是能夠原生且無縫地理解這些信息模態之間的內在聯系和細微差別。

根據官方數據，Gemini 3 Pro在衡量多模態能力的基準MMMU-Pro和Video-MMMU上，分別取得了81%和87.6%的分數，成為“世界上最先進的多模態理解模型”。

這意味著什么？在實際應用中，用戶可以向 Gemini 3 提供一段長達數小時的視頻講座，讓它生成交互式的抽認卡幫助學習；可以上傳一張手寫的，甚至混雜著不同語言的家庭食譜照片，讓它整理并翻譯成可分享的電子版；甚至可以上傳一段自己打球的視頻，讓模型分析動作并生成改進的訓練計劃。

這種能力，是谷歌從 Gemini 1.0 時代就確立的原則——原生多模態與長上下文，它讓AI的輸入和輸出變得靈活，從而適應用戶的個性化需求。

我們最后來看Gemini的編碼能力。

如果說推理和多模態是 Gemini 3 的“大腦”，那么其強大的編碼和規劃能力就是它的“雙手”，谷歌將此定義為“代理式編碼（Agentic Coding）”和“可視化編碼（Vibe Coding）”，借此重新定義用戶與信息的交互方式、開發者與機器的協作模式。

“Vibe Coding”，也就是大家常說的氛圍編程，這里的關鍵在于“Vibe”——一個模糊、感性的詞，它指向的是一種全新的創造流程：用戶提供一個抽象的想法、一種“感覺”或“氛圍”，而AI則將其直接翻譯成一個功能完備、視覺豐富、可交互的數字實體，可以理解為讓開發“所見即所得”。

正如Tulsee的“啊哈時刻”所展示的，這指的是模型僅通過自然語言描述，就能生成豐富、美觀、可交互的前端界面或應用。Gemini 3 Pro 在這方面實現了飛躍，能夠處理更復雜的指令，渲染出更具交互性的網頁。

如果說“可視化編碼”（Agentic Coding）是Gemini 3引人注目的前臺魔術，那么“代理式編碼”（Agentic Coding）則是驅動其自主行動的后臺引擎。

代理式編碼（Agentic Coding），核心是賦予AI模型規劃、拆解復雜任務、并自主調用工具（APIs、瀏覽器、本地文件系統）來完成任務的能力，它不再是一個被動回答問題的聊天機器人，而是一個可以被授權代表用戶執行多步驟工作流的“數字代理”。

Google Gemini應用產品管理副總裁Chris Shuhar在溝通會上舉例說：“像買演唱會門票這類事，以前要到處找各種信息，現在我可以讓「代理」去找，幫我配好合適的組合，把流程推進到可以買票的那一步，然后我只需要一鍵確認就行。”

對于企業而言，“代理式編碼”的意義更為深遠。谷歌云AI副總裁兼總經理Saurabh Tiwary在谷歌博客中指出：“企業現在可以利用Gemini 3執行財務規劃、供應鏈調整和合同評估等任務。”

谷歌的合作伙伴也印證了這一點。Shopify首席技術官Mikhail Parakhin表示：“這一進步加速了Shopify構建代理式AI工具的能力，解決我們商戶復雜的商業挑戰。”湯森路透首席技術官Joel Harlon則提到，他們在法律推理和復雜合同理解方面取得了“可衡量的、顯著的進展”。

綜合來看，Gemini 3 不只是一個被動響應指令的工具，它被設計成一個主動的、有規劃能力的“伙伴”或“代理”，能夠理解復雜目標，拆解多步任務，并自主執行。這一特性，正是谷歌重塑其核心產品與開發者生態的基石。

02

體驗的重構：AI如何進入你的日常？

擁有了如此強大的智能，接下來的關鍵問題是：谷歌打算如何將其交付給數十億用戶？答案并非簡單地更新一個應用，而是從根本上重構用戶與信息交互的“體驗”。谷歌搜索和 Gemini 應用，成為了這場變革的前沿陣地。

1、當Gemini 3引入谷歌搜索：從“答案引擎”到“發現與創造引擎”。

“這是我們首次從第一天起就在谷歌搜索中上線Gemini 3。” 谷歌搜索部門產品副總裁Robby Stein在會上強調。這一舉動意義重大，它標志著谷歌最核心的產品，正在被最前沿的AI模型深度重塑。

首先，Gemini 3讓搜索不再只是“回答問題”。

舉個例子：一個關于沖浪的問題，涉及天氣、海況、租賃、去哪兒、時間安排等多個方面，Gemini 3會進行推理、做檢索、構建整頁信息，從谷歌地圖數據庫中直接拉取地點信息，給到出行安排建議。

那么，Gemini是如何找到這些可靠信息的呢？谷歌有個技術叫“查詢扇出（query fan）”：當用戶提出一個復雜問題，Gemini 3 不再只是尋找單一答案，它會將這個問題“扇出”數十個更細分的查詢，在底層進行大量檢索，綜合來自全網、知識圖譜（包含萬億級事實）、谷歌地圖（數億地點）和谷歌產品數據庫（數十億產品）的信息，最終構建出一個包含地點建議、時間安排、地圖信息的完整規劃頁面。這讓搜索從“回答”走向了“規劃”。

其次，Gemini 3讓搜索實現了“生成式用戶界面”（Generative UI）。

這是我認為 Gemini 3 帶來的最具變革性的體驗，AI 不再只是生成內容，它開始實時動態生成一個為你的搜索量身定制的可視化界面。

假如你正在搜索“受力分析背后的物理原理”時，傳統的搜索引擎會給你鏈接、文本和視頻。而由Gemini 3驅動的搜索引擎則更進一步，它不僅生成文字解釋，更實時編寫并渲染了一個交互式模擬器：比如“三個行星在海洋中”的系統，展示它們的物理運行機制，甚至包括當你向環境引入“混沌”時會發生什么。“借助 Gemini 3，你將‘看見并交互’以往無法做到的抽象概念，從而學習任何東西。”Robby指出。

谷歌搜索副總裁 Elizabeth Reid 指出，這些由Gemini 3實時生成的動態布局、互動工具和模擬，正在將搜索變成一個強大的“發現引擎”和“學習引擎”，讓用戶能夠“看見并交互”以往無法做到的抽象概念。

對于普通用戶，這意味著信息獲取從“閱讀”升級為“體驗”。學習物理定律不再是背誦公式，而是親手操作模擬器；規劃旅行不再是整理列表，而是瀏覽一本動態生成的旅行手冊。這極大地提升了用戶粘性和產品體驗的豐富度。

對于開發者和創作者，這意味著原型設計的門檻被無限拉低。一個獨立開發者或產品經理，可以在幾秒鐘內將一個模糊的想法變成一個可點擊、可演示的應用，極大地加速了創新迭代的速度。

2、當Gemini 3引入Gemini應用：邁向真正的通用代理。

作為谷歌AI能力的集中體現，Gemini應用的月活躍用戶已從上一季度的4.5億增長至6.5億。Gemini 3 的到來，則為其注入了更強大的動力，并帶來了兩個實驗性的新方向。

第一個是動態視圖（Dynamic Views）。在Gemini應用中，當用戶提出一個需求，比如“為每件作品解釋梵高畫廊的生活背景”，Gemini 3會利用其“代理式編碼”能力，實時設計并編寫一個定制化的用戶界面。用戶得到的不再是靜態文本，而是一個可以點擊、滾動來探索的交互式畫廊。

第二個是視覺布局（Visual Layouts）。同樣在Gemini應用中，當用戶提出“計劃明年夏天去羅馬三天的旅行”時，模型會生成一個沉浸式的、雜志風格的可視化行程，其中包含圖片、地圖模塊和可交互的日程。

第三個是Gemini Agent。這項面向 Google AI Ultra 訂閱用戶的實驗性功能，允許 Gemini 直接處理多步驟任務，它連接用戶的 Google 應用，完成管理日歷、添加提醒、整理收件箱等瑣事，且經過你批準后可以優先處理待辦事項和草擬回復。你也可以給出具體指示，比如：“用郵件里的信息幫我預訂一輛中型 SUV，價格在每天 80 美元以下。”Gemini 會查找你的航班信息，在預算內安排預訂。

谷歌方面指出，即日起，美國的 Google AI Pro 和 Ultra 用戶可以通過在 AI Mode模式的下拉菜單中選擇“思考（Thinking）”，即可體驗 Gemini 3 系列首款型號 Gemini 3 Pro，包括生成式UI等體驗。很快，將在美國所有用戶中推出 Gemini 3 的 AI Mode模式。

03

開發者和企業的“谷歌反重力”

如果說在消費端，Gemini 3 致力于重構“用戶體驗”；那么在開發者和企業端，它的目標則是重塑“生產力范式”。為此，谷歌推出了一個全新的、命名極具野心的平臺——Google AntiGravity（谷歌反重力）。

“我們想推動‘模型與IDE（集成開發環境）如何協同工作’的前沿，讓軟件工程師的生產力顯著提升。”Koray Kavukcuoglu 強調。

“谷歌反重力”不是對現有IDE的簡單改良，而是一個全新的“智能體開發平臺”。平臺中，“代理或智能體”被提升到一個專門的界面，擁有與開發者平等的地位，它不再是編輯器里的一個插件，而是一個可以自主訪問編輯器、終端、甚至內置瀏覽器的“伙伴”。

有了該平臺，開發者不再需要逐行編寫或調試代碼，而是可以在更高的抽象層級下達“任務”。例如，開發者只需給出一個高層級的提示：“創建一個航班跟蹤的Web應用”。接到任務后，“谷歌反重力”平臺中的 Gemini 3 會自主將其分解為子任務，規劃執行路徑，并開始編碼，它會在 Chrome 瀏覽器中啟動應用來自我校驗，并在關鍵節點生成進度報告，向開發者尋求確認。隨著使用，系統會學習開發者的架構偏好和編碼風格，在后續項目中變得越來越默契。

Koray進一步向我們闡明了“谷歌反重力”的戰略定位。它是谷歌與開發者直接互動、理解其工作流與挑戰的“觸點”，通過這個平臺收集到的反饋，將反過來打磨谷歌的模型，使其更適合“以智能體為中心”的開發模式。這形成了一個研發閉環。

除了“谷歌反重力”這一旗艦項目，Gemini 3 的編碼能力也通過 API 全面開放，并已集成到 Cursor、GitHub、JetBrains、Replit 等第三方平臺。Shopify 首席技術官 Mikhail Parakhin 對此表示：“這一進步加速了 Shopify 構建代理型 AI 工具的能力，以解決我們商戶復雜的商業挑戰。”

這也標志著軟件開發的邏輯正在發生深刻變化，開發者正在從“代碼的編寫者”轉變為“代理的指揮者”，工作的重心從繁瑣的實現細節，轉移到更高層級的架構設計和創意構想。

04

谷歌的全棧賭注與速度之爭

在發布會的每一個環節，從模型研發到產品落地，谷歌的發言人反復強調一個詞：“全棧”（full-stack）。這是一個技術術語，也是理解谷歌AI戰略、乃至其在激烈競爭中保持領先的關鍵鑰匙。

所謂“全棧”，通俗解釋是指一個從硬件到軟件、從研究到產品的垂直整合體系。對應到谷歌是四個層面的能力：在硬件層，谷歌自研的 TPU 芯片和專為大規模訓練設計的數據中心與計算集群（Pod）。在研究層，以 Google DeepMind 為核心的世界級前沿研究，產出如 AlphaFold 等諾貝爾獎級別的成果。在模型與工具層，谷歌基于強大的硬件和研究能力，開發出像 Gemini 這樣的基礎模型。在產品與平臺層，谷歌將模型能力迅速、深度地整合到谷歌搜索、云、Gemini應用等觸達數十億用戶的產品中。

這種“全棧”路徑的最大優勢在于“速度”和“協同”。正如Robby所說，它能“大幅縮短‘模型開發完成’與‘在產品中展示給大量用戶’之間的時間”。Gemini 3 在發布首日即進入谷歌搜索，就是這一優勢的直接證明。

Koray認為，衡量大模型進步的最好方式是看AI對各行業的實際影響。“在越來越多行業，越來越多職業中，員工用模型來輔助工作，學生用模型來輔助學習……模型在我們的日常生活中影響越來越大。”

他的言下之意是，單純的模型參數或基準分數的增長曲線或許會變化，但由模型能力提升所驅動的“應用創新”和“價值創造”的速度并未放緩。谷歌的全棧路徑，確保了模型能力的每一次提升，都能迅速轉化為產品體驗的改進和用戶價值的增長，這本身就是一種速度。

這種速度與協同最終服務于商業。在企業端，Gemini 3 通過 Vertex AI 和 Gemini Enterprise 平臺提供給企業客戶。來自 Box、湯森路透、樂天集團等首發合作伙伴，驗證了其在法律推理、合同分析、多模態數據處理等復雜商業場景中的價值。

通過將最強大的模型能力打包成企業級解決方案，谷歌正在構建一個從消費者洞察到企業服務的完整商業閉環。消費級產品（如搜索和Gemini應用）提供了海量用戶數據和真實應用場景，用于迭代模型；而企業級服務，則將這些經過驗證的強大能力商業化，創造直接收入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.