網易首頁 > 網易號 > 正文申請入駐

姚順宇參與，谷歌最強Gemini推理模型發布！測評碾壓Opus 4.6、GPT-5.2

2026-02-13 12:27:47　來源: 智東西

北京舉報

分享至

智東西
作者云鵬
編輯李水青

智東西2月13日消息，今天凌晨，谷歌發布了Gemini 3 Deep Think專用推理模式的重磅升級，其在“人類終極測試”、競技編程測試、國際數學奧林匹克競賽，以及國際物理、化學等多領域奧賽中均創下新記錄，全面超越了Claude Opus 4.6和GPT-5.2，也超越了自家Gemini 3 Pro Preview。

▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測試（Humanity’s Last Exam）競技編程基準測試Codeforces、2025年國際數學奧林匹克競賽四項測試中的成績，得分均超過Claude Opus 4.6和GPT-5.2

毫無疑問，谷歌祭出了當前地表最強AI推理大模型。在Deep Think模式下，一張設計草圖可以快速轉化為3D打印文件，圖紙分析、復雜三維建模一氣呵成，用戶將3D打印文件交付給打印機就可以完成實體生產：

▲在Deep Think模式下，一張設計草圖可以快速轉化為3D打印文件

谷歌CEO Sundar Pichai和相關高管都在X平臺發文宣布了這一重磅發布，此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇（Shunyu Yao）也發文號召大家體驗他們開發的新模式。

▲谷歌CEO（左）、姚順宇（右）X平臺發文

此姚順宇非彼姚順雨，后者是姚班出身、今年剛剛加入騰訊混元擔任首席AI科學家的另一位“學神”。前一位姚順宇現任谷歌DeepMind高級研究員，曾在Anthropic的Claude團隊擔任研究員，是拿過清華物理系傳奇特獎的另一位“學神”。

此次的Deep Think模式升級也是姚順宇加入后參與的首個重磅項目。

▲姚順宇（左）和姚順雨（右）

總體來看，Deep Think模式主要用于解決科學、研究和工程領域的挑戰，目前只向Google AI Ultra訂閱用戶開放，不過科研人員、工程師和企業可以提交申請加入早期測試。

一、高難度基準測試猛刷記錄，碾壓Claude Opus 4.6、GPT-5.2

去年，谷歌已證實Deep Think模式的定制版本能攻克諸多高難度推理難題，在國際數學和編程錦標賽中達到金牌水準。而這次升級則讓Deep Think模式更進一步支持研發人員開展研究級（research-level）的數學探索工作。

升級的Deep Think模式在各類高難度學術基準測試中創下了新紀錄，具體包括：

·在“人類終極測試（Humanity’s Last Exam）”基準測試中，無工具輔助狀態下取得48.4%的成績，刷新該測試的最佳紀錄（該測試專為檢驗前沿大模型的能力極限設計）；

·在ARC-AGI-2基準測試中獲84.6%高正確率，成績經ARC獎基金會認證；

·在競技編程基準測試平臺Codeforces中，Elo評分3455分；

·在2025年國際數學奧林匹克競賽中，達到金牌水準；

從排名中我們看到，Deep Think模式在上述四項基準測試中，全部領先于Claude Opus 4.6和GPT-5.2。

除數學和競技編程領域外，升級后的Gemini 3 Deep Think在化學、物理等眾多科學領域同樣表現不錯。

▲Gemini 3 Deep Think在各類測試中的成績表現，所有測試項目均優于Claude Opus 4.6和GPT-5.2

根據谷歌公布測試成績，Deep Think在2025年國際物理奧林匹克競賽和國際化學奧林匹克競賽的筆試環節中，均取得金牌水準的成績；在高等理論物理領域也具備出色的應用能力，在凝聚態理論基準測試CMT-Benchmark中取得50.5%的成績。

同樣，在這些測試項目中，Deep Think的成績全部高于Claude Opus 4.6和GPT-5.2。

二、推動實際應用落地，成為深度專業研究領域的最強助手

谷歌提到，除了強勁性能表現，Deep Think模式的研發核心目的是推動實際應用，也就是助力研究人員解析復雜數據、幫助工程師通過代碼構建物理系統模型。

簡單來說，這些領域的問題往往缺乏明確的指導原則或唯一的正確答案，數據也通常是雜亂無章或不完整的。Deep Think可以將深厚的科學知識與日常工程實踐相結合，去解決這些復雜難題。

目前，谷歌正致力于讓Deep Think模式覆蓋科研和從業者的核心工作場景。

借助升級后的Deep Think模式，用戶可以很快將一張設計草圖轉化為可3D打印的實體模型——Deep Think能自動分析圖紙內容、構建復雜的三維形狀模型，并生成對應的3D打印文件，實現實體物件的制作。

▲從文件草圖到3D實體模型

此外，從谷歌給出的演示中我們看到，Deep Think可以識別出高專業度數學論文中一個此前人工同行評審從未發現的細微邏輯缺陷。

▲科學家利用Deep Think識別專業論文中的細節邏輯缺陷

Deep Think還可以用來優化復雜晶體生長的制備方法，用來探索新的半導體材料，在杜克大學的案例中，其設計的方案培育出了尺寸超過100微米的薄膜，技術指標超過此前所有方法。

谷歌研發主管、前Liftware CEO也用Deep Think來加速物理組件的設計。

可以說，Deep Think是真能搞定復雜的科學、研究和工程領域挑戰。

結語：推理大模型專業化進一步加深，AI沖向科研最前線

Gemini 3 Deep Think模式的升級，重點提升了其在諸多科研專業學術領域解決復雜專業問題的能力，令其在頂尖專業領域加速技術研發的價值進一步凸顯。

目前，AI模型與產業融合進一步加深，行業都在思索如何讓模型能更好地在專業領域提升生產力，AI推理大模型的競爭，跑在了技術與學術的最前沿。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.