<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini 3 終于來了!登頂LMArena,碾壓所有基準

      0
      分享至

      終于,千呼萬喚之下,歷經多次“預告”過后,Gemini 3 終于來了。

      北京時間 11 月 19 日凌晨,Google 正式發布了其最新一代人工智能模型 Gemini 3。這款被 CEO 桑達爾·皮查伊(Sundar Pichai)稱為“最智能模型”的產品,在發布前就已經在業界掀起了不小的波瀾。事實上,早在10 月中旬,就有爆料稱 Gemini 3 將在 10 月 22 日登場,但那次“狼來了”的傳言最終沒有兌現。


      (來源:Google)

      到了 11 月中旬,又有敏銳的開發者在移動端 Canvas 功能中發現了端倪:盡管界面顯示仍是 Gemini 2.5 Pro,但輸出質量已經發生了質的飛躍,特別是在 SVG(Scalable Vector Graphics,可縮放矢量圖形)生成和網頁設計方面,效果遠超此前版本。

      直到 AI Studio 和 Vertex AI 平臺上開始隱約出現 Gemini 3 的蹤跡,業界才意識到,這次是真的要來了。而現在,靴子終于落地。

      此刻距離 Google 首次推出 Gemini 品牌已經過去近兩年。相較于早期的慌亂和匆忙,這一次,Google 顯然做足了準備。Gemini 3 的發布不再是試探性的小步快跑,而是一次全面的、自信的大規模推送——這是 Google 第一次在發布當天就將最新的 Gemini 模型整合進搜索引擎。用 Google 搜索產品副總裁羅比·斯坦(Robby Stein)的話說:“這是我們第一次在搜索中同步發布最新的 Gemini 模型。”對于一家以搜索起家、擁有數十億用戶的科技巨頭而言,這一決策足以說明其對于新模型的自信。

      這款稀疏混合專家(sparse MoE, Mixture-of-Experts)架構模型的核心賣點可以用 Google 自己的話來概括:“我們最智能的模型, 幫助你將任何想法變為現實。”

      從各項基準測試的結果來看,Gemini 3 確實配得上我們這么久的期待。在 LMArena 排行榜上,它以 1501 分的 ELO 評級登頂。在學術界用來測試 AI 系統是否具備博士級推理能力的“人類最后的考試”(Humanity's Last Exam)中,Gemini 3 在不使用任何工具的情況下達到了 37.5% 的準確率;而在考察研究生水平科學問題理解能力的 GPQA Diamond 基準測試中,它的得分更是高達 91.9%。此外,在專門考察高難度數學問題求解的 MathArena Apex 測試中,Gemini 3 取得了 23.4% 的成績,刷新了前沿模型在這一領域的紀錄。


      圖丨Gemini 3 的基準測試結果(來源:Google)

      多模態能力是 Gemini 系列的傳統強項,而 Gemini 3 將這一優勢進一步擴大。在 MMMU-Pro(大規模多學科多模態理解)測試中,Gemini 3 得分 81%,在 Video-MMMU(視頻多模態理解)中更是達到 87.6%,這兩項指標都顯著超越了競爭對手。

      在 SimpleQA Verified 這一事實準確性測試中,Gemini 3 Pro 達到 72.1%,表明其在事實準確性方面也有長足進步,這對于實際應用場景至關重要。

      Google 還推出了一個更強大的變體:Gemini 3 Deep Think。這是一個增強推理模式,旨在將 Gemini 3 的性能推向更高的高度。在測試中,Deep Think 模式在 Humanity's Last Exam 中達到 41.0%(不使用工具),在 GPQA Diamond 中達到 93.8%,在 ARC-AGI-2(Abstraction and Reasoning Corpus,抽象與推理語料庫)中更是創下了 45.1% 的成績。不過,Deep Think 模式目前還不能立即使用。Google 表示,這一模式正在進行額外的安全評估,并征求安全測試員的意見,預計在未來幾周內向 Google AI Ultra 訂閱用戶開放。


      (來源:Google)

      除了這些性能的提升,Google 還特意強調了模型“性格”的轉變。Gemini 3 的回應被設計得更加“聰明、簡潔、直接,用真知灼見取代陳詞濫調和阿諛奉承。告訴你需要聽的,而不只是你想聽的”。長期以來,為了追求所謂的安全與對齊,許多大模型患上了一種名為“Sycophancy”(阿諛奉承)的通病,即無底線地順從用戶的錯誤前提,或者給出模棱兩可的廢話。Gemini 系列此前在這一問題上似乎尤其明顯,以至于許多網友戲稱 Gemini 非常“自卑”,而 Google 這一次似乎下定決心要矯正這一點。

      在具體應用場景上,谷歌著重強調了三個方向:“學習任何東西”、“構建任何東西”和“規劃任何東西”。

      在學習領域,依托 1 百萬 token 的上下文窗口 (相當于約 75 萬個單詞), Gemini 3 可以處理長篇學術論文、多小時的視頻講座, 并將其轉化為交互式學習材料。例如,它能夠解析不同語言的手寫食譜并生成可分享的家庭食譜書,可以將學術論文和視頻講座轉化為交互式閃卡和可視化圖表,甚至可以分析你的匹克球比賽視頻,識別需要改進的地方并生成訓練計劃。

      構建能力是 Gemini 3 最被看好的領域。在 WebDev Arena 排行榜上 1487 的 Elo 評分,在 Terminal-Bench 2.0(測試通過終端操作計算機的能力)上 54.2% 的得分,尤其是在 SWE-bench Verified 上 76.2% 的表現,都顯示出這是一個在編程方面極具競爭力的模型。Google 稱其為“我們打造過的最好的氛圍編程(vibe coding)和智能體編程模型”。在奧賽級編程基準測試LiveCodeBench Pro 上,Gemini 3 拿下了 2439 的最高分數,比第二名 GPT-5.1-high 高了近 200 分。

      LiveCodeBench Pro 團隊的負責人之一、普林斯頓大學博士柴文浩也向 DeepTech 表示,Gemini 3 的進步稱得上是“領先了一個代差”,“方方面面都非常強悍”。


      (來源:LiveCodeBench Pro)

      為了配合 Gemini 3 的發布,Google 同時推出了一個名為 Antigravity 的全新開發平臺。Antigravity 旨在讓開發者從繁瑣的編碼細節中“懸浮”起來,在更高的任務層面操作。在這個平臺上,智能體(agent)被提升到一個專門的界面,能夠直接訪問編輯器、終端和瀏覽器,自主規劃和執行復雜的端到端軟件任務,同時還能驗證自己生成的代碼。Antigravity 內置了最新的 Computer Use 模型(用于瀏覽器控制)和圖像編輯模型 Nano Banana,構成了一個完整的智能體開發生態。

      規劃能力則體現在 Gemini 3 對長期任務的把控上。在 Vending-Bench 2 這個基準測試中,Gemini 3 需要經營一家模擬的自動售貨機生意整整一年,在這個過程中保持一致的工具使用和決策,不偏離任務目標,最終產生更高的回報。這一過程實際上反映了現實世界中許多需要長期規劃、中途調整策略的場景。對于 Google AI Ultra 訂閱用戶,一個名為 Gemini Agent 的新功能已經上線,可以幫助處理諸如預訂本地服務、整理 Gmail 收件箱等多步驟工作流程。


      (來源:Google)

      縱覽目前各大廠商的模型,相比于 Claude 那樣明確聚焦編程,和 GPT-5 那樣強調統一架構,Gemini 3 的策略顯然是求全,試圖在推理、多模態、編程、長上下文等各個維度都達到頂尖水平。這種“全能選手”可能在某些特定任務上面臨激烈競爭,但 Google 有一張王牌:生態整合。

      這種生態優勢首先體現在硬件基礎設施上。Gemini 3 基于 Google 最新的 Trillium TPU(Tensor Processing Unit,張量處理單元)芯片訓練,這是 Google 自研的 AI 專用處理器的第六代產品。每顆 Trillium 芯片可提供 512 TOPS(萬億次運算每秒)的 AI 算力,相比上一代 TPU v5e 性能提升了 4 倍,而能耗卻降低了 67%。這種從底層硅片到上層模型的垂直整合,讓 Google 能夠針對自家模型特點優化硬件設計,反過來也讓模型訓練更加高效,這是 OpenAI 依賴英偉達 GPU、Anthropic 租用云計算資源目前所難以企及的優勢。

      在軟件和服務層面,Gemini 3 同步登陸 Google 搜索的 AI 模式、Gemini 應用、AI Studio、Vertex AI 以及 Antigravity 平臺。特別是此次更新的 AI 模式搜索,能夠做到根據查詢動態生成沉浸式視覺布局、交互工具和模擬器,將搜索從“尋找信息”提升到“理解信息”。當你搜索“RNA 聚合酶如何工作”時,不再是一堆靜態鏈接,而是交互式的動畫演示和可操作的模擬器——這是只有掌控搜索入口的 Google 才能做到的整合。

      在發布后不久的采訪中,DeepMind CEO 德米斯·哈薩比斯就表示,Gemini 3 在推理能力上實現了“顯著的跨越”。但他同時強調,Google 的野心遠不止于此。在通往 AGI(通用人工智能)的道路上,Google 正在“深入個性化、記憶和語境(Context)”。哈薩比斯認為,正是通過與 Gmail、日歷以及整個 Google 生態系統的深度連接,AI 助手才能在 AGI 正式到來之前,就已經變得“真正不可或缺”。

      參考資料:

      https://blog.google/products/gemini/gemini-3/#note-from-ceo

      https://x.com/rowancheung/status/1990814463428059597

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      原來有這么多不體面但掙錢的小生意!原來都是悶聲發大財啊!

      原來有這么多不體面但掙錢的小生意!原來都是悶聲發大財啊!

      另子維愛讀史
      2025-12-06 22:09:07
      輸球又輸人?戴維斯:特魯姆普第11局解球失誤理應判塞爾比自由球

      輸球又輸人?戴維斯:特魯姆普第11局解球失誤理應判塞爾比自由球

      世界體壇觀察家
      2025-12-08 10:13:30
      關于楊蘭蘭,終于破解出幾條她的關鍵信息

      關于楊蘭蘭,終于破解出幾條她的關鍵信息

      熱點菌本君
      2025-10-01 17:24:05
      雅迪、臺鈴這2款新車沒有限速25,載物空間也很大,續航150-200公里!

      雅迪、臺鈴這2款新車沒有限速25,載物空間也很大,續航150-200公里!

      木瓜新車指南
      2025-12-08 15:06:26
      性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

      性能力與壽命關系被發現!男性40歲后,睪酮越高,死亡風險越低

      藥師說健康
      2025-12-05 09:47:10
      重要信號,8次提及房地產!

      重要信號,8次提及房地產!

      博聞財經
      2025-12-05 21:22:24
      2026央視春晚主持人陣容,全網呼聲最高的6位主持人

      2026央視春晚主持人陣容,全網呼聲最高的6位主持人

      斷翼的鳥兒
      2025-12-06 22:17:50
      我軍百艘戰艦封死第一島鏈,賴清德連夜開會,要求做好最壞的打算

      我軍百艘戰艦封死第一島鏈,賴清德連夜開會,要求做好最壞的打算

      趣文說娛
      2025-12-08 16:43:36
      烏克蘭議員:美國對烏克蘭的導彈供應存量告急

      烏克蘭議員:美國對烏克蘭的導彈供應存量告急

      每日經濟新聞
      2025-12-08 16:11:54
      越來越不對勁,小縣城的工資開始崩塌了

      越來越不對勁,小縣城的工資開始崩塌了

      詩意世界
      2025-11-13 10:25:43
      成都虹吸西藏的好日子,快要到頭了

      成都虹吸西藏的好日子,快要到頭了

      云石
      2025-12-07 21:31:11
      吳千語抄襲風波升級,直播銷售額破億惹質疑,一件毛衣2000割韭菜

      吳千語抄襲風波升級,直播銷售額破億惹質疑,一件毛衣2000割韭菜

      古希臘掌管月桂的神
      2025-12-08 11:41:03
      日本咬住不撒口?甩出崇禎皇帝圣旨:琉球是中國藩屬國

      日本咬住不撒口?甩出崇禎皇帝圣旨:琉球是中國藩屬國

      文史微鑒
      2025-12-04 22:28:04
      分走劉鑾雄資產,終成人生贏家,如今卻開賬號勾毛線 判若兩人

      分走劉鑾雄資產,終成人生贏家,如今卻開賬號勾毛線 判若兩人

      以茶帶書
      2025-11-19 23:13:35
      2000年到2043年大學畢業人數天梯

      2000年到2043年大學畢業人數天梯

      微微熱評
      2025-11-13 09:58:24
      消防隊脫離武警后,如今是軍還是警?看完才知國家的良苦用心

      消防隊脫離武警后,如今是軍還是警?看完才知國家的良苦用心

      小莜讀史
      2025-12-08 13:06:39
      硬抗大國30天,特朗普4字評價高市早苗:日本真正擔心的事來了?

      硬抗大國30天,特朗普4字評價高市早苗:日本真正擔心的事來了?

      趣文說娛
      2025-12-08 16:42:13
      江疏影與富商海外產子真相大白6個月,面相變了?近照太意外!

      江疏影與富商海外產子真相大白6個月,面相變了?近照太意外!

      智凌縱橫
      2025-12-08 11:11:00
      《內幕》宣發擺爛,票房慘敗英皇巨虧,正式敲響港片喪鐘

      《內幕》宣發擺爛,票房慘敗英皇巨虧,正式敲響港片喪鐘

      光影新天地
      2025-12-08 12:40:33
      泰國轟炸柬埔寨!辛苦一場的特朗普,又白忙了……

      泰國轟炸柬埔寨!辛苦一場的特朗普,又白忙了……

      曼谷老漢碎碎念
      2025-12-08 16:44:14
      2025-12-08 17:48:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15961文章數 514352關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發聲

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發聲

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      數碼
      本地
      教育
      家居
      公開課

      數碼要聞

      華為MateBook Pro / Fold鴻蒙電腦HarmonyOS 6正式版本發布

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      教育要聞

      是不是只有我在內耗?補習班,到底該不該跟別人分享?

      家居要聞

      有限無界 打破慣有思維

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美激情精品久久久久久| 日韩精品无码中文字幕一区二区| 久久草网站| 让少妇高潮无乱码高清在线观看| 青青操影院| 99久久伊人精品综合观看| 日本丰满妇人成熟免费中文字幕| 亚洲综合中文| 欧美大胆老熟妇乱子伦视频 | 综合Av| 无码人妻中文字幕| 中文a片| 国内自拍av在线免费| 久久本道综合久久伊人| 国产偷窥熟妇高潮呻吟| 亚洲国产精品久久青草无码| 色欲人妻无码| 久久久久女人精品毛片| 国内性爱短视频精选不卡| 亚洲一本大道无码av天堂| 国内在线视频一区二区三区| 欧美607080| 色婷婷婷丁香亚洲综合| 女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 | 少妇愉情理伦片高潮日本| 欧美精品99无码一区二区| 老司机精品视频一区二区 | 色婷婷狠狠久久综合五月| 一区二区三区四区亚洲自拍| 正在播放酒店约少妇高潮| 中文有码视频| 又黄又爽又色的少妇毛片| 国产一区二区精品久久岳| 久久福利导航| 一区二区三区精品| 免费视频国产在线观看| 色香色欲综合网| 日本三级网站| 国产又色又爽又刺激在线观看| 耒阳市| 欧美日韩一线|