2 月 12 日,谷歌上線 Gemini 3 Deep Think 的重大升級。這次升級的背后,也站著一位在 2025 年 9 月因為不滿前東家 Anthropic 言論而辭職加入谷歌的清華物理系傳奇校友姚順宇。
![]()
圖 | 姚順宇(來源:資料圖)
作為一款推理模型,Gemini 3 Deep Think 在多項基準測試中刷新紀錄:ARC-AGI-2 測試達 84.6%,Codeforces 編程平臺獲 3,455 分(世界排名第 8,僅 7 人能超越),并在數學、物理、化學奧賽中達金牌水平。然而,其每項任務成本僅為 13.62 美元,比 OpenAI o3 降低大約 280-420 倍。目前,新模型已被用于數學論文審閱、晶體生長工藝優化等科研場景,現已通過 Gemini 應用和 API 向訂閱用戶及部分研究者開放。
![]()
(來源:Google)
如果你對 2025 年 Gemini Deep Think 在 IMO 摘金的印象還停留在這是一個很會解題的學霸,那么這次升級可能會讓你重新認識它。學霸和科學家的區別在于:前者擅長回答帶有標準答案的問題,但是后者敢于跳進沒有邊界、數據殘缺、甚至沒有人知道終點在哪里的渾水。這正是此次 Deep Think 升級最本質的跨越。
![]()
(來源:Google)
谷歌在官方博客中反復強調的關鍵詞是:“messy or incomplete。”現實世界的科研難題,從來不像奧數題那樣會給你完美的已知條件。一個凝聚態物理的實驗數據可能包含無法復現的噪聲,一個化學生物學交叉課題的文獻綜述可能需要橫跨幾十年的幾十個互斥的假說。新版 Deep Think 的核心突破,則是學會了在這種混沌之中保持推理的優雅。
有這樣一組數據也許足以讓同行沉默。在被稱為人類最后考試(Humanity‘s Last Exam)的極限基準測試中,Deep Think 在不借助任何外部工具的情況下拿下 48.4% 的準確率。這個數字的厲害之處在于,它不僅甩開了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味著 AI 首次在橫跨數百個尖端學科的長尾難題中,逼近了人類博士候選人的中位線。
而在 ARC-AGI-2 這個被公認為是抽象推理試金石的測試中,84.6% 的得分是一個代際斷層的表現。ARC Prize Foundation 的獨立驗證,更是讓這個數字褪去了營銷成分。
可能會讓一部分人感到脊背發涼的是 Codeforces 那行小小的數字:3455Elo。關注競技編程的讀者知道,2,700 分已經是國際特級大師的表現,3,000 分是人類窮盡職業生涯也難以觸摸的神域。更可怕的是,3,455 分這個分數是不借助任何工具取得的,既不是純文本生成,也沒有代碼執行輔助。這意味著 Deep Think 對于算法本質的理解,已經內化成為某種超越代碼本身的直覺。
![]()
(來源:Google)
然而,如果把這次升級僅僅解讀為跑分更強,就完全錯過了谷歌布下的那盤大棋。這個棋局藏在兩個看似不抬起眼的場景描述里。
第一個場景是把手繪草圖直接生成 3D 打印文件。從模糊的線條到精密的物理模型,中間橫亙著幾何建模、結構力學分析、打印路徑優化等多道專業壁壘。Deep Think 做到了在理解繪圖這意圖的基礎之上,主動補全了那些草圖上沒有畫出來的受力邏輯。
第二個場景是羅格斯大學的數學家 Lisa Carbone 用它審稿,Deep Think 發現了一處人類審稿人集體遺漏的微秒邏輯漏洞,這意味著 AI 能在前沿研究的模糊地帶捕捉到推理鏈的斷裂,也意味著 AI 告別了只是復述教科書式的錯誤的階段。
這兩件事的共同點在于,AI 不再只是等待指令,開始主動介入創造與驗證的閉環。這也正是姚順宇在那篇廣為流傳的離職博文中反復提到的命題。這位當年清華物理系的特獎得主,大二開始選修研究生課程,先后成為美國斯坦福大學博士和美國加州大學伯克利分校博士后,卻在傳統理論物理最光鮮的學術坦途選擇了轉彎。他曾在博文里寫道,一個沒有實驗指引的領域,很難客觀評判理論工作的價值。他看到的困局,其實也是 AI 行業自身的影像。
過去兩年,有時人們沉迷于在封閉基準上比拼小數點后的精度,卻越來越遠離使用智能解決真實問題的初心。姚順宇把當下的 AI 研究比作 17 世紀的熱力學。那時,人們甚至不知道熱是什么,燃素說依然是主流,但是這并不妨礙波義爾通過系統實驗總結出定律,并最終催生了蒸汽機。Deep Think 此次升級的野望,或許正是要成為AI世界的波義爾。
因此,與其說 Gemini 3 Deep Think 是一個模型,不如說它是一個正在快速進化的科研操作系統。3455 Elo 是它的左腦,84.6% 的抽象推理是它的右腦,而從草圖到實物的 3D 打印能力是它伸向物理世界的一只手臂。幾百年前,牛頓用自己在蘋果樹下的思考解釋宇宙,AI 時代的今天,無論如何都得換種方法了。
參考資料:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.