![]()
剛剛,谷歌Gemini 3正式發布,我的初步體驗和第一感覺是這玩意完全超越GPT-5 和 Claude sonnet 4.5,強到離譜,編程和寫作都達到了T0級別,可以說這是自從OpenAI 發布ChatGPT以來,最令我心跳不已的事件,現在就可以在Gemini App和 Google AI Studio中使用了
隨手測試:直接看效果(更詳細的測試隨后幾天奉上)
1.制作速度可調的電風扇svg

2.模擬彈力球從空中一層一層掉落并彈起的物理過程(目前我測過的只有Claude sonnet 4.5可以抽卡成功)

3.模擬核聚變過程并添加背景樂(這個是復現谷歌官方的)
官方的發布核心信息要點:
谷歌官方把Gemini 3定義為“通往AGI之路的又一大步”。它不僅在多模態理解上全球領先,更是谷歌迄今為止最強大的Agent(智能體)和“Vibe Coding”模型。
此次發布包含兩個核心版本:Gemini 3 Pro(即日預覽上線)以及增強推理模式的Gemini 3 Deep Think
與此同時,谷歌宣布Gemini 3即刻全面接入谷歌生態——從Search(搜索)到AI Studio,再到全新的Agent開發平臺Google Antigravity
一起來看Gemini 3到底有多強。
數據屠榜:LMArena突破1501分
Gemini 3 Pro主打深度推理和多模態能力,在每一項主流AI基準測試中都大幅超越了Gemini 2.5 Pro
![]()
推理與數學:
LMArena Leaderboard:以1501 Elo的突破性得分登頂。
Humanity’s Last Exam(人類最后一次考試):在不使用工具的情況下得分為37.5%,展現出博士級推理能力
GPQA Diamond:得分91.9%
MathArena Apex:達到23.4%,確立了前沿模型在數學領域的SOTA(State-of-the-art)新標準
多模態與事實性:
MMMU-Pro:81%。
Video-MMMU:87.6%,重新定義多模態推理。
SimpleQA Verified:72.1%(SOTA),在事實準確性上取得重大進展。
官方強調,Gemini 3 Pro不再是簡單的問答,而是能夠理解語境和意圖,“不僅能讀懂文字和圖像,更能讀懂空氣(reading the room)”。它可以摒棄陳詞濫調,提供真知灼見,甚至能通過生成代碼將晦澀的科學概念轉化為高保真的可視化效果
Deep Think模式:推理能力的階躍
除了Pro版本,谷歌還祭出了大殺器——Gemini 3 Deep Think
這是一種增強推理模式,旨在解決最復雜的難題。測試數據顯示,其性能進一步超越了本就強悍的Pro版本:
![]()
Humanity’s Last Exam:41.0%(無工具)
GPQA Diamond:93.8%
ARC-AGI-2:取得了前所未有的45.1%(含代碼執行,ARC Prize Verified),證明了其解決新穎挑戰的能力。
Deep Think模式將在未來幾周內向Google AI Ultra訂閱用戶開放。
Google Antigravity:重塑開發者體驗
隨著Gemini 3的發布,谷歌推出了全新的Agent開發平臺——Google Antigravity
這不只是一個AI IDE,它將Agent提升到了核心地位
自主權:Agent擁有對編輯器、終端和瀏覽器的直接訪問權限
能力:利用Gemini 3的推理和工具使用能力,Agent可以自主規劃并執行復雜的端到端軟件任務,同時自我驗證代碼
模型組合:該平臺不僅集成了Gemini 3 Pro,還緊密耦合了最新的Gemini 2.5 Computer Use模型(用于瀏覽器控制)和頂級圖像編輯模型Nano Banana(Gemini 2.5 Image)。
在編碼能力基準測試中,Gemini 3同樣表現出色:
WebDev Arena:1487 Elo,位居榜首。
SWE-bench Verified:76.2%,大幅超越2.5 Pro,這一項沒有超越Claude sonnet 4.5
Terminal-Bench 2.0:54.2%,展示了通過終端操作計算機的能力。
全能助手:從學習到規劃
Gemini 3不僅面向開發者,更旨在幫助普通用戶“學習、構建和規劃一切”。
學習(Learn):
利用100萬token的上下文窗口,它可以綜合處理文本、圖像、視頻、音頻和代碼
示例: 它可以解讀不同語言的手寫食譜并整理成家庭烹飪書;通過分析匹克球(Pickleball)比賽視頻,生成針對性的訓練計劃。
搜索進化: 在Search的AI模式中,Gemini 3支持生成式UI體驗,能根據查詢即時生成交互式工具和沉浸式視覺布局
規劃(Plan):
Gemini 3在長時程規劃上取得了長足進步
Vending-Bench 2測試: 該測試要求管理模擬自動售貨機業務。Gemini 3 Pro在全年的模擬運營中保持了一致的決策力,未偏離任務,并帶來了更高的回報,位居榜首
這由意味著它能更好地處理預訂服務、整理收件箱等現實生活中的多步驟工作流
谷歌宣布,這是首次在發布首日就將新一代Gemini模型引入搜索(Search)。
具體推出計劃如下:
普通用戶:Gemini App及Search中的AI模式(針對Google AI Pro和Ultra訂閱用戶)即日起可用
開發者:通過Google AI Studio、Google Antigravity、Gemini CLI及Vertex AI訪問
企業用戶: 通過Vertex AI和Gemini Enterprise訪問。
Deep Think模式:需等待安全評估,預計數周后向Ultra訂閱用戶開放。
劈柴哥表示,過去兩年,AI Overviews月活已達20億,Gemini App月活超6.5億。Gemini 3的發布,標志著谷歌以“全棧式AI”策略,正式將Gemini部署到了谷歌的每一個角落
參考:
https://blog.google/products/gemini/gemini-3/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=-development
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.