<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ZPedia|Gemini 3全面斷崖式領先,單個模型橫掃多模態、推理、Agent三大戰場,Google王者歸來

      0
      分享至

      過去一年,Google 的進步肉眼可見。

      ChatGPT 橫掃全球時,Google 一度像被打了個措手不及的巨頭。但短短不到一年,Veo 3、Nano Banana、Genie 3 接連發布,一個被外界質疑“落后”的公司,突然又展現出定義時代的力量。

      今天,在全球技術圈幾乎屏住呼吸的等待中,Google 終于推出了最新一代 AI 模型——Gemini 3。

      遙遙領先,Gemini 3化身無情的屠榜機器

      如果只看數字,Gemini 3 這一代的成績幾乎去全面碾壓。它不是在一個榜單上領先,而是把能刷的榜單都刷了一遍;不是以某一項特色出圈,而是把多模態、推理、Agent 三條最難突破的線路,一次性拉到行業天花板。


      先看推理能力。

      在開放評測平臺 LMArena 上,Gemini 3 Pro 以 1501 分的成績站到通用模型第一梯隊的最前列。在 SimpleQA Verified 這種強調事實性與復雜問答準確度的測試里,它達到 72.1%,意味著幻覺率和知識錯誤率被顯著壓低。

      在更加嚴苛的人類“終極試卷” Humanity’s Last Exam 中,它在不借用任何外部工具的情況下拿到 37.5%;在博士級科學問答 GPQA Diamond 上更是達到 91.9%;在數學難題集 MathArena Apex 上刷新最新記錄,拿下 23.4%,為數學推理模型樹立了新的基準線。

      真正具有象征意義的,是它的 Deep Think 模式。當模型能夠分配更多 token、延長推理鏈路后,它在 Humanity’s Last Exam 上躍升至 41%,在 GPQA Diamond 上攀升到 93.8%,在 ARC-AGI 上突破 45%。

      這些都是傳統 scaling law 被認為“撞墻”的任務,而上一代 Gemini 2.5 在 ARC-AGI 上還不到 5%。在 2025 年這樣一個對推理悲觀論甚囂塵上的時期,這種接近 10 倍的跨越無疑刺破了行業的認知天花板。


      再來看多模態表現。

      Gemini 3 Pro 在 MMMU-Pro 上取得 81%,在 Video-MMMU 上達到 87.6%,幾乎把這幾年所有主流多模態模型的紀錄重新洗牌。這兩項被業內視為真正的“硬試卷”,考驗的不是看圖回答,而是在跨圖像、跨學科、跨語境的混合任務中,保持一條不被打斷的推理鏈條。

      真正讓行業震動的,并不是這些高分本身,而是它如何得到這些分數:Gemini 3 首次把“視覺理解”與“邏輯推理”合成同一種能力。

      谷歌展示了一個場景——一個手寫、符號混雜、排版混亂的本子,模型不僅能精準 OCR,還能自動消解符號不一致帶來的歧義,最終給出的答案甚至比受過訓練的學生更穩定。


      更關鍵的是,這些表現全部來自一個通用模型,而不是圖像或視頻方向的專精模型。這意味著多模態不再是外掛能力,而是模型內部原生的一部分。

      隨著這些能力被整合在一起,Gemini 3 逐漸顯露出一種超出語言層面的“操作心智”:它不僅能理解視覺結構,也能讀懂界面變化、預測用戶操作,甚至推斷環境動態。推理不再只是答題,而開始向“理解世界如何運作”邁一步。

      最后看 Agent 能力。

      Gemini 3 Pro 的進步已經不是“更強一點”,而是直接跨到一個新的層級。

      在 t2-bench 這項工具與系統操作測試中,它拿到 85.4% 的高分,意味著模型不僅能理解你的指令,還能像工程師一樣在真實軟件環境里調用 API、處理文件、執行系統命令。這是檢驗 Agent 真本事的關鍵,一旦失誤就無法偽裝,而 Gemini 3 Pro 展現出了頂尖的穩定性。

      真正體現智能體“耐力”的,是 Vending-Bench 2。這項測試模擬一個自動售貨機一整年的運營,考驗模型能否長期記住目標、保持策略不跑偏。Gemini 3 Pro 最終獲得 5478 分,明顯領先所有同級模型,展現出罕見的長鏈任務穩態能力。


      在 Terminal-Bench 2.0 中,它還需要在 Unix 環境里讀日志、改配置、跑驗證,模擬一次真實的自動化修復流程。它的 54.2% 得分說明,它不僅會“說”,也真的會“修”。

      這些數字背后的共性其實只有一個:

      Gemini 3 不再是“某個維度特別強”的模型,而是第一次在推理、多模態、Agent 三個最難突破的方向上,同時達成了可觀的領先優勢,而且全部集中在同一個通用模型里。

      從模型到產品:Gemini 3 把“答案”變成了“界面”和“行動”

      如果說榜單告訴我們的是“能力”,那產品呈現的則是這些能力如何被組織起來、如何被普通人真正用到手里的。

      在 Gemini 3 身上,谷歌做了兩件過去很少有人認真做的事:

      第一,把模型的輸出從“文本”升級成“界面”;

      第二,讓模型從“對話參與者”變成“任務執行者”。

      在日常使用中,最直觀的變化發生在 Gemini App 自身。新版應用已經不再是一個單一對話框,而更像是一個“由模型驅動的工作空間”。在這里,你可以在 Canvas 中用自然語言構建完整的程序、應用或原型——Gemini 3 Pro 負責多步驟的規劃、代碼生成、界面生成和調試,你只需要不斷描述你想要的效果。

      另一條非常關鍵的產品線,是所謂的“生成式界面”(Generative Interfaces)。在 Google 的研究與產品博客中,這被稱為一類全新的交互體驗:用戶發出一個自然語言請求,模型不是直接返回一段答案,而是即時生成一個結構化的、視覺化的界面。

      Google 把這種能力分成兩類實驗形態:視覺布局負責“把復雜信息排版成一篇好讀的雜志頁”,而 Dynamic View 則直接生成可以操作的計算器、圖形、模擬器、圖廊甚至完整的小工具,讓回答本身就變成一個“能動”的界面。這些體驗已經開始在 Search 的 AI Mode 中出現,用戶可以在搜索里直接見到動態布局、交互組件和實時模擬。

      與此同時,Gemini Agent 作為一項仍在實驗階段的能力,負責把這些“理解”和“界面”延伸到行動層面。在 Gemini App 中,它可以連接 Gmail、Calendar 等 Workspace 應用,自動為你整理郵箱、歸類任務、提煉行動項,甚至根據郵件中的航班信息和預算需求,主動比較租車、預訂酒店,再把決策節點交給用戶確認。

      對開發者而言,Google Antigravity 則是另一個意義重大的新物種。The Verge 和 TechCrunch 的報道都指出,這個 IDE 本質上是一個“agent-first”的開發環境:多個 Gemini 3 驅動的代理可以同時在編輯器、終端、瀏覽器三處操作,生成代碼、執行命令、打開網頁、做驗證,并把整個過程記錄為 Artifact 供人類復盤。

      整條產品線串起來,會發現 Gemini 3 正在做一件非常有野心的事。

      它試圖把“答案”升級為“可操作的界面”,再進一步升級為“真實執行的行動”,最終把模型變成一個“能替你做完一件事”的系統,而不僅僅是一個“告訴你怎么做”的顧問。

      Gemini 3 到底改變了什么?

      從表面看,Gemini 3 只是把一堆 benchmark 刷到了新高,把搜索、App、IDE 同步做了升級;但如果把這些碎片放在一起看,就會發現它其實踩中了幾個關鍵的技術與產品轉折點。

      第一,統一模型路線第一次有了清晰的技術樣本。

      過去幾年,業界在多模態這件事上有一個隱形共識:想要圖像強,就做一個圖像向的專精模型;想要推理強,就做一個思考向的推理模型;想要 Agent 能力,就往工具調用上拼命堆安全與流程。結果就是,每條賽道上都有一些強模型,但真正能在同一個模型里把三件事都做好的,幾乎沒有。

      Gemini 3 給出的答案是:不拆分、不堆疊,而是真正做一個原生多模態、原生推理、原生 Agent 的統一架構。也就是說,這不是“多模型拼盤”,而是一個統一心智在面對不同任務。

      第二,“scaling law 撞墻”這句話,恐怕要重新討論了。

      過去一年,大家對于 scaling law 的悲觀,主要來自兩個現實:其一是預訓練數據逼近上限,其二是參數繼續往上堆卻難以換來線性可感知的推理提升。但 Gemini 3 在 ARC-AGI、Humanity’s Last Exam 等極難基準上的跳躍式表現說明,真正起決定性作用的,很可能并不是“堆多大”,而是“結構、訓練范式和任務設計有沒有跟著一起升級”

      第三,交互范式正在從“對話式 AI”邁向“界面式 AI”。

      ChatGPT 把整個行業帶入了“對話優先”的交互世界,大家開始習慣在一個大輸入框里問所有問題。但 Gemini 3 的 generative UI、Dynamic View 等能力表明,谷歌相信的下一步,是讓模型直接生成界面、頁面、控制面板、模擬器,而不再把“答案”局限在一條條文本里。

      當模型可以根據你的問題即時構造出一個適配任務的 UI 時,人與 AI 的關系就從“問—答”變成了“設定任務—共同操作界面”。AI 不再只是在語言層面輔佐你,而是開始和你共享一個可操作的工作環境。

      第四,谷歌拿到了Nano Banana之后又一次“產品側翻盤窗口”。

      OpenAI 在 GPT-5 / GPT-5.1 這一代上并沒有像 GPT-4 那樣形成壓倒性優勢,反而給了競爭對手喘息空間。而谷歌這次的打法非常明確:模型端用統一架構“屠榜”,產品端在 Search、Gemini App、Workspace、Antigravity 全線鋪開,交互上又用 generative UI 和 Agent 拉開與傳統對話式 AI 的差異。

      如果這些能力在接下來半年到一年里持續穩定,不只是開發者,普通用戶也會真切地感受到“這代產品不太一樣了”。那時,誰在消費級 AI 上更有優勢,很可能就要重新算賬。

      全面反攻——Google AI 戰略的真正底牌

      Google的轉變并不是爆發,而是一次漫長沉淀后的結構性反攻。

      在 Google 內部,“AI-first”已經不再是口號,而是一次痛下決心的自我改造。皮查伊多次在公開采訪中強調:Google 正在進入“AI-first 的第二階段”。這句話意味著公司核心身份悄然改變——它不再把自己視為一家搜索公司,而是要成為下一代計算平臺的創建者。搜索、Android、Chrome、Workspace、YouTube、Cloud 等所有核心業務都在圍繞 Gemini 重構,甚至連公司 2025 年接近 900 億美元的資本開支,幾乎都指向同一件事:為模型供電,為未來鋪路。

      組織結構上的調整是這次反攻的起點。Google Brain 與 DeepMind 的合并,讓全公司的模型路線首次“統一指揮”。DeepMind CEO Demis Hassabis 負責整條模型主線,Jeff Dean 轉向長期研究;所有頂級芯片、TPU 和工程資源開始向 Gemini 集中。這種集中讓 Google 結束了過去那種“研究多、產品慢”的狀態,第一次把十多年積累的基礎研究能力真正整合成可落地的產品。Gemini 3 的推理能力、Veo 3 的視頻建模、Nano Banana 的圖像編輯、Genie 3 的世界模擬——這些并不是奇跡,而是論文體系第一次系統化落地。

      更關鍵的是,Google 不再滿足于“模型更強一點”,而是想重新定義用戶與信息的關系。外界習慣把這場競爭描述為“Google 對 OpenAI”;但從 Google 的戰略動作來看,它要的不是一個更強的 ChatGPT,而是一個新的入口體系。

      Gemini Agent 成為新的工作入口,AI Mode 重塑搜索入口,Gemini App 成為移動入口,NotebookLM 成為知識入口,Veo 3、Nano Banana 是視覺內容入口,Genie 3 則是未來智能體訓練的虛擬入口。Google 不準備圍繞某個產品競爭,而是試圖重構“AI 時代的操作系統”。

      為什么 Google 這次變得如此激進?

      答案很簡單:這是一場生死局。AI 生成答案讓搜索的護城河開始變薄,廣告模式面臨潛在風險,用戶的第一觸點也可能遷移到 AI 通道。如果不能重新定義入口,Google 的核心商業模式就會動搖。對于一個過去二十年靠搜索主導互聯網的巨頭來說,這不是“贏不贏”的問題,而是“能不能留在桌上”的問題。

      也正因為此,Google 過去的謹慎正在被新的節奏所取代。內部開始出現跨部門座位混編的合作方式,搜索工程師與 DeepMind 的研究者一起調試 AI Mode,Android 團隊與 Labs 共同推進 Gemini App 的 UI 迭代。曾經開放、松散、鼓勵長期研究的文化,正在被一種更集中、更執行導向的節奏替代。甚至連高層人事安排也指向同一個方向——讓更懂產品、懂用戶、懂節奏的人接手關鍵業務。NotebookLM 背后的 Josh Woodward 接掌 Gemini,就是典型例子。

      今天的 Google 不僅恢復了工程速度,也重新找回了“用產品定義技術”的能力。Gemini 3 讓人看到它仍然具備構建頂級模型的硬實力;Veo 3、Nano Banana 證明 Google 在多模態領域依舊有別人無法復制的深度;Genie 3 則是 Google 對世界模型的押注,這些都是指向未來十年的關鍵方向。

      未來的格局尚未定型,但有一點幾乎可以確定——當一家公司同時掌握搜索入口、移動系統、瀏覽器、辦公套件、云和世界模型,它一旦重新踩住節奏,力量會呈指數級回流。

      歡迎掃碼加群參與討論

      我們相信認知能夠跨越階層,

      致力于為年輕人提供高質量的科技和財經內容。

      稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

      我們正在招募新一期的實習生

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      炸鍋了!春節前夜茅臺價格“大崩盤”,一天跌出一臺紅米K70

      炸鍋了!春節前夜茅臺價格“大崩盤”,一天跌出一臺紅米K70

      白淺娛樂聊
      2026-02-14 18:07:21
      劉少昂、孫龍被帶倒,揪出罪魁禍首!中國隊大滑坡,歐洲包攬4金

      劉少昂、孫龍被帶倒,揪出罪魁禍首!中國隊大滑坡,歐洲包攬4金

      侃球熊弟
      2026-02-15 06:10:59
      建筑行業已經恐怖如斯?

      建筑行業已經恐怖如斯?

      黯泉
      2026-02-14 22:39:14
      純電新能源所剩無幾,其他集體塞回發動機,這事到底誰在“打臉”

      純電新能源所剩無幾,其他集體塞回發動機,這事到底誰在“打臉”

      過期少女致幻錄
      2026-02-09 14:20:53
      梁安琪回廣州見發小,跳廣場舞超接地氣,腿細肚子大狀態真實

      梁安琪回廣州見發小,跳廣場舞超接地氣,腿細肚子大狀態真實

      月下守候
      2026-02-13 09:12:26
      高云翔花20元在地庫剪發節儉,45歲胡須已白,小酒窩和繼父三亞玩

      高云翔花20元在地庫剪發節儉,45歲胡須已白,小酒窩和繼父三亞玩

      離離言幾許
      2026-02-13 16:43:00
      又攤事了,蔡正元放狠話遭舉報:若我在北京,明天導彈就到凱道

      又攤事了,蔡正元放狠話遭舉報:若我在北京,明天導彈就到凱道

      雪中風車
      2026-02-14 16:52:10
      王燦兮曬情人節杜淳送的一大束玫瑰花并獲老公狂贊新發型短發好看

      王燦兮曬情人節杜淳送的一大束玫瑰花并獲老公狂贊新發型短發好看

      君笙的拂兮
      2026-02-14 18:08:01
      風向突變!立陶宛之后,法國突然發瘋掀桌?揚言:不對中國妥協

      風向突變!立陶宛之后,法國突然發瘋掀桌?揚言:不對中國妥協

      徐醇老表哥
      2026-02-14 00:05:03
      王耀武特赦后,有人勸許世友原諒他,許:只要我沒死,就不會原諒

      王耀武特赦后,有人勸許世友原諒他,許:只要我沒死,就不會原諒

      歷史龍元閣
      2026-02-14 08:40:18
      華國鋒孫女華真,目前擔任蘇富比亞洲區副主席,此前系李云迪妻子

      華國鋒孫女華真,目前擔任蘇富比亞洲區副主席,此前系李云迪妻子

      老杉說歷史
      2026-02-03 00:39:20
      大衣哥女兒婚禮寒酸,背靠廁所拜父母,新郎愁容滿面,親戚白眼多

      大衣哥女兒婚禮寒酸,背靠廁所拜父母,新郎愁容滿面,親戚白眼多

      北緯的咖啡豆
      2026-02-14 19:29:25
      向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認文明歸屬

      向美國捐8億被罵叛徒!無錫唐氏21代掌門:我的錢只認文明歸屬

      談史論天地
      2026-02-10 08:16:24
      國米的算盤打丟了?29歲中衛轉會出現難題,1500萬回款打水漂了

      國米的算盤打丟了?29歲中衛轉會出現難題,1500萬回款打水漂了

      里芃芃體育
      2026-02-15 00:10:09
      自由式滑雪女子大跳臺預賽:谷愛凌170.75分,鎖定決賽名額

      自由式滑雪女子大跳臺預賽:谷愛凌170.75分,鎖定決賽名額

      懂球帝
      2026-02-15 04:50:08
      莊則棟走了,穆鐵柱走了,聶衛平走了,體育界4大脊梁就剩他了

      莊則棟走了,穆鐵柱走了,聶衛平走了,體育界4大脊梁就剩他了

      珺瑤婉史
      2026-02-05 19:25:06
      亞伯拉罕:這個結果確實讓人難以接受,但我為隊友們感到自豪

      亞伯拉罕:這個結果確實讓人難以接受,但我為隊友們感到自豪

      懂球帝
      2026-02-15 05:11:11
      和機器人發生關系?有調查顯示:近一半美國男性對此表示十分樂意

      和機器人發生關系?有調查顯示:近一半美國男性對此表示十分樂意

      就像當初啊
      2026-02-11 08:44:02
      短短1小時,速滑隊雙重打擊!冬奧會獎牌榜:中國仍0金,掉到第19

      短短1小時,速滑隊雙重打擊!冬奧會獎牌榜:中國仍0金,掉到第19

      侃球熊弟
      2026-02-15 06:39:05
      為什么領導很少生病請假,總是精力充沛?主要有這4點

      為什么領導很少生病請假,總是精力充沛?主要有這4點

      細說職場
      2026-02-11 17:27:08
      2026-02-15 08:52:49
      ZFinance
      ZFinance
      Z世代的一站式AI、科技和財經資訊
      123文章數 2關注度
      往期回顧 全部

      數碼要聞

      華碩主板再現R7 9800X3D故障案例:低負載過夜后發現電腦已死機

      頭條要聞

      被美軍用于綁架委內瑞拉總統馬杜羅 美國AI公司很不滿

      頭條要聞

      被美軍用于綁架委內瑞拉總統馬杜羅 美國AI公司很不滿

      體育要聞

      最戲劇性的花滑男單,冠軍為什么是他?

      娛樂要聞

      春晚第五次聯排路透 明星積極飯撒互動

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      科技要聞

      字節跳動官宣豆包大模型今日進入2.0階段

      汽車要聞

      星光730新春促銷開啟 80天銷量破2.6萬臺

      態度原創

      教育
      藝術
      游戲
      本地
      數碼

      教育要聞

      院校代號5747揭秘!快速鎖定目標院校

      藝術要聞

      一組罕見年畫,藏著我的童年

      逆水寒新春版本、延期一個月的年度大更,誰才是春節檔贏家

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      數碼要聞

      AirTag太貴?小米Tag來了:更薄更強,還支持蘋果查找

      無障礙瀏覽 進入關懷版