面對Claude Opus 4.6和GPT Codex 5.3的猛烈攻勢,谷歌反手就是一個Gemini 3 Deep Think的重大升級。
![]()
在Codeforces(一個包含各種競技編程挑戰的基準測試平臺)上,它取得了驚人的3455Elo分數,相當于世界第8名
![]()
這下子,全球只有7人的編程水平能排在它前面了。而此前最高分是一年前o3拿下的2727 Elo。
![]()
Gemini 3 Deep Think的實力不止于此,它還直接把ARC-AGI-2——這個公認測試AI推理能力的前沿基準,給刷到了史無前例的84.6%
要知道,之前最強模型的得分在60%-70%之間徘徊,Claude Opus 4.6的成績也只有68.8%。
人類最后考試(HLE)上,Gemini 3 Deep Think也刷新SOTA,拿下了48.4%的成績。
![]()
官方表示,新版Deep Think是谷歌專門開發的推理模式,旨在推動智能前沿發展,并解決科學、研究和工程領域的現代挑戰。
另一位“堯舜禹”——清華物理系傳奇特獎得主姚順宇(Shunyu Yao),去年9月加入谷歌DeepMind,也是這次Deep Think新模型的參與者。
![]()
新版DeepThink已經走進了實驗室
升級后的Gemini 3 Deep Think實力究竟有多強?
它的野心不止于贏得基準測試,而是要走進科研和工程領域,幫助工程師處理復雜任務。
新版Deep Think可以分析草圖,對復雜形狀進行建模,并直接生成用于3D打印的實體文件。這是它打印的一個筆記本電腦支架:

谷歌VP Josh Woodward 在X上曬出了打印的成果,看起來對草圖相當還原:
![]()
羅格斯大學的數學家Lisa Carbone,利用Gemini 3 Deep Think審閱了一篇高度專業的數學論文。
結果Gemini 3 Deep Think成功地識別出了一個細微的邏輯缺陷,而這個缺陷在此前的人工同行評審中均未被發現。

杜克大學的王安實驗室,利用Gemini 3 Deep Think技術優化了復雜晶體生長的制備方法,以期發現新的半導體材料。
結果Gemini 3 Deep Think成功設計了一種能夠生長厚度大于 100 微米薄膜的工藝,達到了以往方法難以企及的精確目標。

在X上,DeepSeek多模態團隊研究員XiaoKang Chen也表示:Gemini 3 Deep Think非常擅長處理科學領域中的長尾任務。
他給Deep Think輸入了一張復雜分子結構的圖片,隨后模型便準確地計算出了分子式。
![]()
勇奪三項新SOTA,推理成本降低82%
去年Deep Think專門版已經IMO等國際競賽中奪下金牌。現在,全新升級后的Deep Think又在多項高難度的基準測試中全面刷新SOTA:
- 不使用任何工具,在HLE中取得新SOTA——48.4%
- 在ARC-AGI-2測試中取得前所未有的84.6%的成績,并經 ARC Prize 基金會驗證;
- 在Codeforces上取得了驚人的3455Elo分數;
- 在2025年國際數學奧林匹克競賽中達到金牌水平。
![]()
其中,ARC-AGI-2被譽為AI界的“圖靈測試”,旨在衡量模型處理從未見過的新穎推理任務的能力
要知道,去年12月剛發布的初代Deep Think得分還是45.1%,不到三個月時間已經飆升到84.6%,比Opus 4.6還要強出一截。
而在ARC-AGI-1上,Gemini 3 Deep Think取得了96%的成績,直接頂到天花板了。
![]()
性能提升的同時,推理成本也在大幅下降。初代Deep Think執行每項任務的成本為77.16美元。此次升級讓成本降低了82%,每項任務僅需13.62美元
![]()
由于1和2都被Gemini刷爆了,現在ARC Prize已經在構建ARC-AGI-3了……
除了數學和編程,升級后的Deep Think在化學和物理等廣泛的科學領域同樣表現出色。
在2025年國際物理奧林匹克競賽和化學奧林匹克競賽中,Gemini 3 Deep Think在筆試部分取得了金牌級別的成績。
此外,它還展現了在高等理論物理方面的能力,在CMT-Benchmark測試中取得了50.5%的分數。
![]()
華人帶隊,打造最強推理模型
Gemini 3 Deep Think的研發團隊中,有不少華人身影。
核心成員包括95后華人科學家Yi Tay,他在Gemini團隊中從事強化學習和推理方向的研究工作。
![]()
此前,他曾在Google Brain共同領導早期大語言模型項目,包括PaLM-2、UL2和Flan-2。
在Google Brain工作3年多之后,2023–2024 年間,Yi Tay曾短暫離開谷歌,作為聯合創始人創辦了一家獨角獸AI初創公司——Reka。
Reka AI由DeepMind、谷歌和Meta的研究人員創立,其創辦初衷是打造功能強大且高效的基礎模型,現在也開發界面設計、應用邏輯以及其他應用方面的工具。
在創業一年半后,Yi Tay便重返谷歌DeepMind,擔任高級資深研究科學家,繼續從事人工智能和大語言模型的研究。
去年剛從Anthropic跳槽到谷歌DeepMind的清華校友姚順宇,也參與了Deep think新模型的開發。
![]()
姚順宇本科就讀于清華大學物理系,曾拿下過清華本科生特等獎學金(清華授予在校優秀本科生的最高獎學金榮譽)
本科期間,他就已在《Physical Review Letters》(國際物理學領域最頂級的學術期刊之一)發表高水平論文,首次在國際上給出了關于非厄米系統的拓撲能帶理論,不僅準確預測了相關現象,還定義了兩個新的物理概念。
本科畢業后,他赴斯坦福大學繼續攻讀博士,專注于量子多體混沌、開放量子系統動力學等前沿問題,師從Douglas Stanford(美國理論物理學家,被同行視為頂尖且有潛力改變物理學發展方向的年輕科學家之一)、Zhenbin Yang(楊振斌,華裔美國科學家,公認的20世紀最重要的物理學家之一)等知名學者。
博士畢業后,他先是去UC伯克利做博士后研究,隨后加入了Anthropic。在Anthropic工作的一年時間里,他參與組建了強化學習基礎團隊,負責了Claude 3.7 Sonnet框架,以及Claude 4系列背后的基本強化學習理論。
離開Anthropic之后,姚順宇轉戰谷歌DeepMind,繼續從事AI方面的研究。這次Deep Think新模型發布,也是他在谷歌的首秀之作
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[2]https://x.com/ShunyuYao14/status/2022013770843967900
[3]https://x.com/YiTayML/status/2021988841142534287
[4]https://x.com/NoamShazeer/status/2021988459519652089
[5]https://x.com/PKUCXK/status/2022144532272623990
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.