網易首頁 > 網易號 > 正文申請入駐

姚順宇谷歌首秀，Gemini新模型刷爆SOTA：僅剩7人捍衛碳基編程

2026-02-13 14:50:09　來源: 量子位

北京舉報

分享至

面對Claude Opus 4.6和GPT Codex 5.3的猛烈攻勢，谷歌反手就是一個Gemini 3 Deep Think的重大升級。

在Codeforces（一個包含各種競技編程挑戰的基準測試平臺）上，它取得了驚人的3455Elo分數，相當于世界第8名

這下子，全球只有7人的編程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。

Gemini 3 Deep Think的實力不止于此，它還直接把ARC-AGI-2——這個公認測試AI推理能力的前沿基準，給刷到了史無前例的84.6%

要知道，之前最強模型的得分在60%-70%之間徘徊，Claude Opus 4.6的成績也只有68.8%。

人類最后考試（HLE）上，Gemini 3 Deep Think也刷新SOTA，拿下了48.4%的成績。

官方表示，新版Deep Think是谷歌專門開發的推理模式，旨在推動智能前沿發展，并解決科學、研究和工程領域的現代挑戰。

另一位“堯舜禹”——清華物理系傳奇特獎得主姚順宇（Shunyu Yao），去年9月加入谷歌DeepMind，也是這次Deep Think新模型的參與者。

新版DeepThink已經走進了實驗室

升級后的Gemini 3 Deep Think實力究竟有多強？

它的野心不止于贏得基準測試，而是要走進科研和工程領域，幫助工程師處理復雜任務。

新版Deep Think可以分析草圖，對復雜形狀進行建模，并直接生成用于3D打印的實體文件。這是它打印的一個筆記本電腦支架：

谷歌VP Josh Woodward 在X上曬出了打印的成果，看起來對草圖相當還原：

羅格斯大學的數學家Lisa Carbone，利用Gemini 3 Deep Think審閱了一篇高度專業的數學論文。

結果Gemini 3 Deep Think成功地識別出了一個細微的邏輯缺陷，而這個缺陷在此前的人工同行評審中均未被發現。

杜克大學的王安實驗室，利用Gemini 3 Deep Think技術優化了復雜晶體生長的制備方法，以期發現新的半導體材料。

結果Gemini 3 Deep Think成功設計了一種能夠生長厚度大于 100 微米薄膜的工藝，達到了以往方法難以企及的精確目標。

在X上，DeepSeek多模態團隊研究員XiaoKang Chen也表示：Gemini 3 Deep Think非常擅長處理科學領域中的長尾任務。

他給Deep Think輸入了一張復雜分子結構的圖片，隨后模型便準確地計算出了分子式。

勇奪三項新SOTA，推理成本降低82%

去年Deep Think專門版已經IMO等國際競賽中奪下金牌。現在，全新升級后的Deep Think又在多項高難度的基準測試中全面刷新SOTA：

不使用任何工具，在HLE中取得新SOTA——48.4%
在ARC-AGI-2測試中取得前所未有的84.6%的成績，并經 ARC Prize 基金會驗證；
在Codeforces上取得了驚人的3455Elo分數；
在2025年國際數學奧林匹克競賽中達到金牌水平。

其中，ARC-AGI-2被譽為AI界的“圖靈測試”，旨在衡量模型處理從未見過的新穎推理任務的能力

要知道，去年12月剛發布的初代Deep Think得分還是45.1%，不到三個月時間已經飆升到84.6%，比Opus 4.6還要強出一截。

而在ARC-AGI-1上，Gemini 3 Deep Think取得了96%的成績，直接頂到天花板了。

性能提升的同時，推理成本也在大幅下降。初代Deep Think執行每項任務的成本為77.16美元。此次升級讓成本降低了82%，每項任務僅需13.62美元

由于1和2都被Gemini刷爆了，現在ARC Prize已經在構建ARC-AGI-3了……

除了數學和編程，升級后的Deep Think在化學和物理等廣泛的科學領域同樣表現出色。

在2025年國際物理奧林匹克競賽和化學奧林匹克競賽中，Gemini 3 Deep Think在筆試部分取得了金牌級別的成績。

此外，它還展現了在高等理論物理方面的能力，在CMT-Benchmark測試中取得了50.5%的分數。

華人帶隊，打造最強推理模型

Gemini 3 Deep Think的研發團隊中，有不少華人身影。

核心成員包括95后華人科學家Yi Tay，他在Gemini團隊中從事強化學習和推理方向的研究工作。

此前，他曾在Google Brain共同領導早期大語言模型項目，包括PaLM-2、UL2和Flan-2。

在Google Brain工作3年多之后，2023–2024 年間，Yi Tay曾短暫離開谷歌，作為聯合創始人創辦了一家獨角獸AI初創公司——Reka。

Reka AI由DeepMind、谷歌和Meta的研究人員創立，其創辦初衷是打造功能強大且高效的基礎模型，現在也開發界面設計、應用邏輯以及其他應用方面的工具。

在創業一年半后，Yi Tay便重返谷歌DeepMind，擔任高級資深研究科學家，繼續從事人工智能和大語言模型的研究。

去年剛從Anthropic跳槽到谷歌DeepMind的清華校友姚順宇，也參與了Deep think新模型的開發。

姚順宇本科就讀于清華大學物理系，曾拿下過清華本科生特等獎學金（清華授予在校優秀本科生的最高獎學金榮譽）

本科期間，他就已在《Physical Review Letters》（國際物理學領域最頂級的學術期刊之一）發表高水平論文，首次在國際上給出了關于非厄米系統的拓撲能帶理論，不僅準確預測了相關現象，還定義了兩個新的物理概念。

本科畢業后，他赴斯坦福大學繼續攻讀博士，專注于量子多體混沌、開放量子系統動力學等前沿問題，師從Douglas Stanford（美國理論物理學家，被同行視為頂尖且有潛力改變物理學發展方向的年輕科學家之一）、Zhenbin Yang（楊振斌，華裔美國科學家，公認的20世紀最重要的物理學家之一）等知名學者。

博士畢業后，他先是去UC伯克利做博士后研究，隨后加入了Anthropic。在Anthropic工作的一年時間里，他參與組建了強化學習基礎團隊，負責了Claude 3.7 Sonnet框架，以及Claude 4系列背后的基本強化學習理論。

離開Anthropic之后，姚順宇轉戰谷歌DeepMind，繼續從事AI方面的研究。這次Deep Think新模型發布，也是他在谷歌的首秀之作

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[2]https://x.com/ShunyuYao14/status/2022013770843967900
[3]https://x.com/YiTayML/status/2021988841142534287
[4]https://x.com/NoamShazeer/status/2021988459519652089
[5]https://x.com/PKUCXK/status/2022144532272623990

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.