<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI

      0
      分享至


      新王登基了。


      作者|Li Yuan

      來了。

      預熱了快一個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續上線Google的各項產品中。

      沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓

      按照 Google 披露的測試數據,Gemini 3 Pro 毫無懸念地成為了目前地球上數學最強的 AI。在數學競賽的「地獄模式」MathArena 里,當包括 GPT-5.1 在內的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接干到了23.4%

      編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調用和終端操作基準測試中更是名列第一。

      真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

      但這還沒完,Google 今晚還順手扔出了一個小王炸:自家的 Agentic 編程平臺——Google Antigravity

      此前網傳 Gemini 3 能實現「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統工程實現端到端編程。

      如果說 Cursor 是目前最強的「外骨骼」,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器,而是一個智能體優先(Agent-first)發環境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發現報錯自己修。

      不講故事,只拼肌肉。

      Google 用這一波硬核發布宣告:新王已至

      有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)


      01

      霸榜的暴力美學:不止是智商洗榜,更是 Agent 能力的變化

      在 AI 圈子里,大家習慣了模型之間你追我趕的微弱優勢,但 Gemini 3 Pro 拋出的這份成績單,可以說十分耀眼。

      根據 Model Card 披露的數據,Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基準上,實現了全方位的霸榜。


      讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam(人類最終大考)。這是一個衡量學術推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復雜學術問題時,已經具備了完全不同的理解深度。

      但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進一步飆升至41.0%。看起來人類最后的堡壘也并不能持續很久了。


      數理方面的每一個領域,都能看出它的統治力。

      AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的準確率達到了驚人的100%。沒錯,是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

      MathArena Apex(數學競賽地獄模式):當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領域,Gemini 3 已經開始解題了。

      而更關鍵的是 Agent 相關能力的提升。

      Gemini 一向在多模態能力上領先,這一代更是專門優化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關鍵。

      ScreenSpot-Pro這一欄數據:

      • GPT-5.1:3.5%(這基本意味著它是個「瞎子」)。

      • Gemini 3 Pro:72.7%

      這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是一個單純的對話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復雜的操作系統界面。

      在一些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的「原生支持」、長視頻和多語言處理等等。



      有一個很有趣的標準也被 Google 掛了上來:在 一個模擬開店賺錢的基準 Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產,而 GPT-5.1 僅賺了 $1,473.43。

      不過關于之前網傳「徹底端到端終結程序員」的編程能力,Gemini 3 Pro 的狀態是在 AI 屆頂尖,但并沒有「顛覆編程」。

      在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復雜的后端邏輯時,它依然有局限性。

      這也很合理。每一個大模型目前都在全力卷編程的情況下,想要在這個領域一騎絕塵確實比較難。

      目前 Gemini 的能力更偏向于,還不能幫你重構整個后端架構,但如果你想寫一個極具現代設計美學的網站、一個 3D 飛船游戲,或者生成復雜的 SVG 交互動畫,它能通過一次提示就給出極其驚艷的、可直接運行的結果。

      02

      Antigravity,Agentic 編程的探索

      有了最強的模型和算力,谷歌開始在應用層「掀桌子」了。今晚,谷歌扔出了一個「小王炸」——Google Antigravity

      前一陣新聞的風向還是模型公司努力收購 AI 編程應用公司呢,而 Google 這次則這么快的就發了自己的開發平臺。

      這不僅僅是一個新的 IDE,它是谷歌定義的Agent-first(智能體優先)開發平臺。在這里,開發者從「碼農」升級為「架構師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的「執行合伙人」。

      為了達成這種體驗,谷歌甚至在后臺配置了一個「模型軍團」協同作戰:

      • Gemini 3:作為大腦,負責高級推理和代碼編寫。

      • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。

      • Nano Banana:作為美工,負責生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環體驗,對于 Cursor 等現有 AI 編輯器來說,無疑是一次降維打擊。


      Antigravity 最有趣的能力在于并行。官方材料明確提到,開發者可以與多個智能 Agent 協作,而這些 Agent 能夠代表你同時 自主規劃并執行復雜的端到端軟件任務。

      想象一下這種工作流:你下達一個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負責寫后端邏輯,Agent B 負責在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖,像是一個配合默契的敏捷開發小組,而你只需要驗收它們提交的「工件」。

      Antigravity 是是一個免費平臺,網絡上目前對于 Antigravity 的使用體驗不多,但基本上都是好評。

      要達到替代 Cursor 本身,肯定不太行——端到端的復雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。

      03

      全家桶齊發力:TPU 與搜索

      在大模型發展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數據更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點是很特別的:Gemini 3 Pro 是使用 Google TPU 訓練的

      當全世界的 AI 公司都在苦苦等待英偉達 GPU 的發貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓練設計,擁有極高的高帶寬內存(HBM),這讓它能夠輕松處理海量的模型參數和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數規模的底氣。

      有了算力,還要有「燃料」。Gemini 3 Pro 的訓練數據是全維度的覆蓋:它吞噬了公共網絡文檔、代碼庫、圖像、音頻和視頻。更關鍵的是,谷歌明確提到使用了User Data(用戶數據)——當然是在隱私協議框架下,來自谷歌龐大產品生態的用戶交互數據。

      最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當你搜索一個復雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動圖表或模擬工具。


      從底層的 TPU 硅基霸權,到中間層的模型智能,再到頂層的 Antigravity 開發生態與生成式搜索——谷歌這一夜展示的,不僅僅是一個滿分模型,而是一個只有巨頭才能構建的、嚴絲合縫的未來。

      04

      實測體驗

      最后讓我們看看網上的一些實測體驗吧。

      出名的六邊形測試的升級款。


      不少帖子提及了設計上的美感。


      一些物理世界的建模。


      前面提到的,Gemini 對于用戶界面數據這塊做了特別的優化。


      開發應用。


      在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復雜的前沿基準測試,其測量精度也開始失效。如何科學地量化模型之間的微妙差距,已經成為了一門專門的「量化科學」,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。

      實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態。

      Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

      當模型直出能力越來越好,對于開發者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。

      *頭圖來源:視覺中國

      本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

      極客一問

      你覺得人類的審美跑的過

      AI 的直出審美嗎?

      扎克伯格:傲慢就會失敗,創造應該服務群眾

      點贊關注 極客公園視頻號 ,

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      沙特可能將6月對亞洲的官方原油售價從創紀錄水平下調

      沙特可能將6月對亞洲的官方原油售價從創紀錄水平下調

      財聯社
      2026-04-28 16:24:28
      日本廣島發生爆炸

      日本廣島發生爆炸

      南方都市報
      2026-04-28 18:26:24
      經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

      經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

      芹姐說生活
      2026-04-25 16:12:39
      238元買不到 微信15周年限量皮膚衣開賣

      238元買不到 微信15周年限量皮膚衣開賣

      快科技
      2026-04-27 18:59:35
      云南一方丈意外身亡,整理遺物銀行卡有498萬,方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

      云南一方丈意外身亡,整理遺物銀行卡有498萬,方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

      大愛三湘
      2026-04-28 19:39:12
      東南亞隱藏的“電詐大佬”,一個個正在浮出水面

      東南亞隱藏的“電詐大佬”,一個個正在浮出水面

      現實的聲音
      2026-04-27 20:36:14
      阿聯酋退出OPEC,“對沙特的重大打擊”

      阿聯酋退出OPEC,“對沙特的重大打擊”

      觀察者網
      2026-04-28 22:35:11
      毛曉彤深夜爆料陳翔出軌門,整容耍大牌知三當三引反轉

      毛曉彤深夜爆料陳翔出軌門,整容耍大牌知三當三引反轉

      阿鉤科普記錄
      2026-04-27 22:44:25
      中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

      中方必須無條件割讓領土?美發話后,馬來西亞叫囂:中國放棄南海

      詩酒趁的年華
      2026-04-22 05:07:02
      放話了,太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

      放話了,太陽隊老板在球隊被雷霆隊首輪橫掃后稱已開始籌劃下一步

      好火子
      2026-04-29 00:26:37
      曼聯改寫英超大局!2-1后差2分進歐冠,幫熱刺保級,阿森納利好

      曼聯改寫英超大局!2-1后差2分進歐冠,幫熱刺保級,阿森納利好

      體育知多少
      2026-04-28 06:23:36
      女大學生泰國旅游被轉賣緬甸園區,照片流出長這么好看被折磨太慘

      女大學生泰國旅游被轉賣緬甸園區,照片流出長這么好看被折磨太慘

      老貓觀點
      2026-04-27 07:20:19
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      消息稱Meta為撤銷收購Manus做準備 騰訊等投資者計劃配合

      消息稱Meta為撤銷收購Manus做準備 騰訊等投資者計劃配合

      鳳凰網科技
      2026-04-28 11:58:06
      辟謠帖:日本對公職人員巨額財產來源不明,有哪些刑事處罰?

      辟謠帖:日本對公職人員巨額財產來源不明,有哪些刑事處罰?

      生活時尚導刊
      2026-04-28 11:14:39
      降薪之風吹進了這5個央國企

      降薪之風吹進了這5個央國企

      職場資深秘書
      2026-04-28 22:18:21
      美伊大戰,暴露了中國家底!特朗普終于明白,為啥中國人底氣十足

      美伊大戰,暴露了中國家底!特朗普終于明白,為啥中國人底氣十足

      小蘭聊歷史
      2026-04-29 01:48:11
      李湘瘦脫相了,這腰身哪像當媽的,直接跟王詩齡站成了姐妹花。

      李湘瘦脫相了,這腰身哪像當媽的,直接跟王詩齡站成了姐妹花。

      科學發掘
      2026-04-28 08:59:52
      上海地鐵互毆后續:央媒發聲定調,女子工作恐不保,知情人曝更多

      上海地鐵互毆后續:央媒發聲定調,女子工作恐不保,知情人曝更多

      以茶帶書
      2026-04-27 19:23:12
      阿聯酋發表聲明:自5月1日起退出歐佩克及歐佩克+,將逐步提高石油產量

      阿聯酋發表聲明:自5月1日起退出歐佩克及歐佩克+,將逐步提高石油產量

      魯中晨報
      2026-04-28 20:40:06
      2026-04-29 03:15:00
      極客公園
      極客公園
      讓最棒的創新成為頭條
      11995文章數 78872關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

      體育要聞

      魔術黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      中央政治局會議定調,八大看點速覽!

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      健康
      親子
      家居
      本地
      軍事航空

      干細胞治療燒燙傷三大優勢!

      親子要聞

      有一點點近視,到底要不要戴眼鏡?

      家居要聞

      江景風格 流動的秩序

      本地新聞

      用青花瓷的方式,打開西溪濕地

      軍事要聞

      德國總理默茨:美國正遭受伊朗領導層的羞辱

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人另类稀缺在线观看| 国产精品一亚洲AV日韩AV欧| 91视频网址| 精品无码av一区二区三区不卡| 波多野结衣乳喷高潮视频| 久久亚洲人妻| 日韩不卡手机视频在线观看| 日本熟妇浓毛| 亚洲人妻在线一区二区| 乱熟女高潮一区二区在线| 少妇被爽到高潮喷水久久欧美精品| 高清无码午夜福利视频| 亚洲国产精品久久久久秋霞影院| 天堂在线中文网www| 亚洲性网| 精品久久久中文字幕人妻 | 国内综合精品午夜久久资源| 精品日韩在线视频网站 | 亚洲精品揄拍自拍首页一| 色欲人妻无码| 精品素人AV无码不卡在线观看| 国产丝袜视频一区二区三区| 四虎永久地址www成人| 天天日夜夜| 99精品全国免费观看视频| 999久久久| 中文字幕日韩精品人妻| 蜜臂AV| 日韩人妻无码网站| 色窝窝免费一区二区三区| 亚洲二级片| 亚洲成人A∨| 亚洲精品自拍| 亚洲无码天天| 亚洲欧美视频| 黄又色又污又爽又高潮| 欧美丰满熟妇bbb久久久| 91嫩草尤物在线观看| 国产精品人妻在线观看| 精品视频无码一区二区三区| 日韩久久无码免费毛片软件|