網易首頁 > 網易號 > 正文申請入駐

谷歌推出全新Gemini 3系列模型

2025-11-23 13:01:10　來源: 商業網

河南舉報

分享至

北京時間11月19日凌晨，谷歌正式推出全新的Gemini 3系列模型，并將其定位為迄今“最智能”“事實最可靠”的AI系統。該模型發布即登頂LMArena，展現出了強大的性能。

Gemini 3在LMArena排行榜上以1501分的歷史最高分登頂，成為首個突破1500分的模型。在衡量通用推理能力的Humanity's Last Exam基準測試中獲得37.5%的最高分，超越了此前由GPT-5 Pro保持的31.64%紀錄。同時，它還在數學、多模態理解和事實準確性等多個維度刷新了行業標準。

Gemini 3在推理能力上取得了顯著進步，在多項學術級基準測試中展現出博士水平的表現。其在GPQA Diamond測試中獲得91.9%的高分，在數學領域的MathArena Apex基準測試中取得23.4%的新成績，在事實準確性方面于SimpleQA Verified測試中達到72.1%的得分。此外，谷歌還推出了Gemini 3 Deep Think增強推理模式，該模式在Humanity's Last Exam測試中達到41.0%的成績，展現了強大的解決新穎挑戰的能力。

Gemini 3能夠無縫處理文本、圖像、視頻、音頻和代碼等多種模態信息，并配備100萬token的上下文窗口。例如，它可以破譯并翻譯不同語言的手寫食譜，制作成可分享的家庭食譜書，還能分析用戶匹克球比賽的視頻，識別改進空間并生成整體動作改善的訓練計劃。

Gemini 3被谷歌稱為“迄今構建的最佳vibe coding和智能體編碼模型”。該模型在WebDev Arena排行榜上以1487分的高分登頂，在衡量模型通過終端操作計算機能力的Terminal - Bench 2.0測試中獲得54.2%的分數，在評估代碼智能體的SWE - bench Verified基準測試中達到76.2%，遠超Gemini 2.5 Pro的表現。

Gemini 3在測試長期規劃能力的Vending - Bench 2排行榜上位居榜首。它能夠在整整一年的模擬運營中保持一致的工具使用和決策能力，在不偏離任務的情況下實現更高回報。這意味著Gemini 3能夠代表用戶導航更復雜的多步驟工作流程，例如預訂本地服務或整理收件箱。

Gemini 3是谷歌迄今最安全的模型，經歷了谷歌AI模型史上最全面的安全評估。該模型顯示出更低的諂媚性、更強的提示注入抵抗力，以及更好的網絡攻擊濫用防護能力。

目前，Gemini 3 Pro已在Gemini應用內向所有用戶開放，美國地區的Google AI Pro和Ultra訂閱用戶也可在搜索的AI Mode中選擇“Thinking”使用這一模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.