網易首頁 > 網易號 > 正文申請入駐

谷歌全線開掛！Gemini 3 Deep Think奪多項推理SOTA，Gemini亞洲新團隊也官宣了

2025-12-05 16:50:24　來源: AI前線

北京舉報

分享至

作者｜木子、高允毅

剛剛，Gemini 3的Deep Think 模式終于正式上線了。

顧名思義，這是 Gemini 3 的深度思考模式，推理能力顯著加強，能處理復雜、多步驟，以及更多創(chuàng)新的問題，還可以搞定超難的科學問題和數學題！

是 ARC-AGI、HLE 等

多項權威測評中的第一名

先來看看Gemini 3 Deep Think是怎么一回事。

在公認的大模型最難測試之一、全球最接近“通用智能（AGI）核心能力”驗證的基準測試ARC-AGI中，Gemini 3 Deep Think 在 2 個榜單中均拔得頭籌。

其中，ARC-AGI-1主要測模型的基礎抽象推理。在這項測試中，Gemini 3 Deep Think 的答題正確率排第一，達到了 87.5%，打敗了 GPT-5 系列、Claude Opus 4.5 等。

ARC-AGI-2則將任務升級為多步驟、遞歸、隱藏規(guī)則等，是更接近“類人智慧”的高階推理場景。

其中，Gemini 3 Deep Think 正確率達45.1%，比非深度思考模式的 Gemini 3 Pro（正確率 31.1%）高出了 14%。而在這項測試中，GPT-5 Pro 的正確率僅有18.3%。

此外，Gemini 3 Deep Think 在人類最后考試（Humanity’s Last Exam，HLE）和GPQA Diamond這兩個高難度評測中也都取得了第一名。

HLE 是谷歌 DeepMind 設計的一項綜合性推理測試，用于檢驗模型在跨學科問題、復雜邏輯、多步驟推理等方面的真實智能水平，難度遠高于傳統(tǒng)選擇題式的 benchmark。

而 GPQA Diamond 則聚焦量子物理、統(tǒng)計力學等高階科學問題，被視為檢驗模型是否具備“研究級科學理解力”的金標準。

Deep Think 在這兩項測試中都取得領先成績，說明它不僅在抽象推理上顯著提升，還具備更強的科學知識推斷與深度理解能力。

不過，目前 Gemini 3 的 Deep Think 模式只向 Google AI Ultra 訂閱用戶開放。

在社交媒體上，Gemini 3 的這個新功能引起了網友的熱議。

有網友對其 Deep Think 模式的測試成果豎起大拇指：

“HLI 和 ARC 的收益率都超過 40%，這很棒。”

有網友表示，Deep Think 的調試與代碼推理能力，已經超過現有大多數模型：

“Gemini 3 Deep Think 成功解決了那個讓我耗費好幾天的 stack underflow bug。它給出的答案比 Opus 4.5 更明確，而后者是唯一一個也能解出這個問題的公開模型（甚至 Gemini 3 Pro 都失敗了）。

Deep Think 甚至能自信地指出 bug 的確切位置。不過，它運行確實很慢......”

還有人大贊 Gemini 3 Deep Think““創(chuàng)意場景推理””能力：

“這是我在這個提示（創(chuàng)意場景推理）上獲得過的最佳輸出之一，完全是前所未見的水準。”

不過也有人提出，雖然 Gemini 3 的實際使用效果并沒有那么好，希望能趕緊優(yōu)化 AGI 的相關功能。

DeepMind 將成立新的

Gemini 研究團隊

今天谷歌 DeepMind 宣布，將在新加坡成立全新的 Gemini 研究團隊。

帶隊人是 95 后華人科學家 Yi Tay，他分享稱，這個新團隊將專注于高級推理、LLM/RL 以及改進 Gemini、Gemini Deep Think 等前沿 SOTA 模型。

這個團隊，將向 Google Brain（現在 Google DeepMind 的前身之一）的創(chuàng)始成員之一 Quoc Le 匯報。

他還提到，谷歌 DeepMind 在美國總部 Mountain View 的團隊，近期已經憑借 Gemini Deep Think，在 IMO 和 ICPC 兩項國際數學奧林匹克競賽中斬獲金牌，并在 Gemini 項目的其他諸多重要進展中發(fā)揮了關鍵作用。

有趣的是，Yi Tay 還分享了一張他用 Nano Banana 生成的一張新加坡 Gemini 新團隊“辦公大樓”的趣味插畫。圖中匯集了新加坡的標志性建筑：濱海灣花園、魚尾獅、濱海灣金沙酒店... 以及“Gemini Team”大樓。

關于 Yi Tay 其人：他不僅是一位“高產”的學術研究者，在 Google Scholar 上的論文引用量達數萬次，還在 Gemini 項目的諸多進展中發(fā)揮關鍵作用。

至于這個新團隊，據 Yi Tay 介紹，團隊的規(guī)模不會很大，但人才密度極高，過去幾個月正在招募全球最頂尖的人才。

同時，他們還將與 AI 領域的不少傳奇大佬合作，包括 Google Brain 傳奇科學家 Quoc Le、“推理之王”Denny Zhou；以及深度架構大師 Mostafa Dehghani，就是 nano banana 背后的男人，還有 Transformers 發(fā)明人之一 Noam Shazeer 等等。

此外，不少當代行業(yè)頂尖人才輸送新鮮血液，如生成式檢索共同奠基者 Victor Tran、IMO 金牌紀錄保持者 Lê Minh Thang、自洽性與 CoT 提出者薛之、以及日本代表性 AI 學者 Shane Gu 等，可謂星光熠熠。

雖然新團隊的具體成員還未暴露，但回顧 Gemini 團隊的誕生始末，也能略窺一二。

Gemini 團隊誕生于 2023 年谷歌的 AI 大重組——當時 Google 將負責大模型研究的Google Brain，與負責通用智能探索DeepMind，合并為新的 Google DeepMind。

旨在把最強科研與最強工程整合，打造可與 GPT 系列正面競爭的下一代基礎模型。

合并后首個戰(zhàn)略動作，就是成立 Gemini 團隊：一個覆蓋算法設計、超大規(guī)模訓練、多模態(tài)系統(tǒng)構建，到產品化落地的全鏈路超級團隊。

Gemini 團隊一口氣推出 Ultra、Pro、Flash 三大全系模型，將 Gemini 推向全球數十億用戶，正式成為谷歌 AI 的王牌引擎。

One More Thing

還有值得一提的，谷歌最近新動作頻頻，昨天還正式推出的Google Workspace Studio。

以前，郵件看不過來、日程排不完、文檔數據要手動整理...... 這些每天都在消耗上班族的注意力。但從現在開始，它們都可以被 AI 接管。

Workspace Studio 深度整合了谷歌的辦公全家桶（Gmail 郵件、Docs 文檔、Sheets 表格、Drive 云端硬盤、Chat 聊天、Calendar 日歷），不寫代碼、幾分鐘就能做出自己的 AI Agent——從簡單提醒到跨系統(tǒng)流程自動化，全都可以交給 AI 跑。

Workspace Studio 基于谷歌最強大的Gemini 3，具備推理、多模態(tài)理解和跨應用調用能力。你只需給它一個示例，它就能自動執(zhí)行復雜辦公任務：情感分析、內容生成、優(yōu)先級排序、智能通知……統(tǒng)統(tǒng)自動化。

網友們紛紛表示贊嘆，確實解決了痛點問題，恨不得馬上使用。

傳送門：

https://x.com/YiTayML/status/1996640869584445882

https://blog.google/products/gemini/gemini-3-deep-think/

https://arcprize.org/leaderboard

https://www.reddit.com/r/singularity/comments/1pec4zg/gemini\_3\_deep\_think\_benchmarks\_released\_hits\_451/

https://workspace.google.com/blog/product-announcements/introducing-google-workspace-studio-agents-for-everyday-work

會議預告

12 月 19～20 日，AICon 2025 年度收官站在北京舉辦。現已開啟 9 折優(yōu)惠。

兩天時間，聊最熱的 Agent、上下文工程、AI 產品創(chuàng)新等等話題，與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經驗與思考。2025 年最后一場，不容錯過。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.