北京時間11月19日凌晨,谷歌正式推出全新的Gemini 3系列模型,并將其定位為迄今“最智能”“事實最可靠”的AI系統。該模型發布即登頂LMArena,展現出了強大的性能。
![]()
Gemini 3在LMArena排行榜上以1501分的歷史最高分登頂,成為首個突破1500分的模型。在衡量通用推理能力的Humanity's Last Exam基準測試中獲得37.5%的最高分,超越了此前由GPT-5 Pro保持的31.64%紀錄。同時,它還在數學、多模態理解和事實準確性等多個維度刷新了行業標準。
Gemini 3在推理能力上取得了顯著進步,在多項學術級基準測試中展現出博士水平的表現。其在GPQA Diamond測試中獲得91.9%的高分,在數學領域的MathArena Apex基準測試中取得23.4%的新成績,在事實準確性方面于SimpleQA Verified測試中達到72.1%的得分。此外,谷歌還推出了Gemini 3 Deep Think增強推理模式,該模式在Humanity's Last Exam測試中達到41.0%的成績,展現了強大的解決新穎挑戰的能力。
Gemini 3能夠無縫處理文本、圖像、視頻、音頻和代碼等多種模態信息,并配備100萬token的上下文窗口。例如,它可以破譯并翻譯不同語言的手寫食譜,制作成可分享的家庭食譜書,還能分析用戶匹克球比賽的視頻,識別改進空間并生成整體動作改善的訓練計劃。
Gemini 3被谷歌稱為“迄今構建的最佳vibe coding和智能體編碼模型”。該模型在WebDev Arena排行榜上以1487分的高分登頂,在衡量模型通過終端操作計算機能力的Terminal - Bench 2.0測試中獲得54.2%的分數,在評估代碼智能體的SWE - bench Verified基準測試中達到76.2%,遠超Gemini 2.5 Pro的表現。
Gemini 3在測試長期規劃能力的Vending - Bench 2排行榜上位居榜首。它能夠在整整一年的模擬運營中保持一致的工具使用和決策能力,在不偏離任務的情況下實現更高回報。這意味著Gemini 3能夠代表用戶導航更復雜的多步驟工作流程,例如預訂本地服務或整理收件箱。
Gemini 3是谷歌迄今最安全的模型,經歷了谷歌AI模型史上最全面的安全評估。該模型顯示出更低的諂媚性、更強的提示注入抵抗力,以及更好的網絡攻擊濫用防護能力。
目前,Gemini 3 Pro已在Gemini應用內向所有用戶開放,美國地區的Google AI Pro和Ultra訂閱用戶也可在搜索的AI Mode中選擇“Thinking”使用這一模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.