谷歌的深度思考模型Gemini 3 Deep Think迎來重大升級,將其專業推理能力從抽象理論推進至實際應用場景。這一升級聚焦于解決現代科學研究與工程領域的復雜挑戰,標志著谷歌在企業級AI市場的戰略性押注。
美東時間12日周四,谷歌官宣Gemini 3 Deep Think升級,稱升級后的模型在多項行業基準測試中取得突破性成績,包括在“人類的最后考試”Humanity's Last Exam(HLE)基準測試、ARC-AGI-2測試中獲得84.6%的成績,經ARC Prize基金會驗證;在競技編程平臺Codeforces上,Gemini 3 Deep Think獲得3455的Elo評分。
![]()
升級后的深度思考模式即日起面向Google AI Ultra訂閱用戶開放,同時通過Gemini API向部分研究人員、工程師及企業用戶提供早期訪問權限。谷歌表示,該模型已在實際研究中展現應用價值,從發現研究論文中的邏輯漏洞到優化半導體材料生長工藝。
這一發布使谷歌在AI推理模型競爭中與OpenAI的o1系列和Anthropic的Claude正面交鋒。隨著通用AI能力日趨商品化,專業推理能力成為企業級市場的新戰場,而深度思考模式的推出顯示谷歌不愿在這一高價值領域讓步。
從基準測試到金牌表現
谷歌在其官方博客中強調了深度思考模式在嚴格學術基準測試中的表現。除前述成績外,Gemini 3深度思考模型在2025年國際物理奧林匹克和化學奧林匹克的筆試部分均達到金牌水平,并在CMT-Benchmark高級理論物理測試中取得50.5%的分數。
谷歌提供的成績對比可見,本月Gemini 3深度思考模型的多種測試結果均超過Anthropic和OpenAI各自的最強模型思維模式,也強于Gemini 3 Pro預覽版的思考模式。
例如,在ARC-AGI-2測試中,Gemini 3深度思考的準確率為84.6%,Anthropic的Claude Opus 4.6 Thinking Max測試成績為68.8%,OpenAI的GPT-5.2 Thinking xhigh為52.9%。
![]()
谷歌團隊稱,這次升級是與科學家和研究人員密切合作完成的,目標是應對“缺乏明確邊界或單一正確答案,且數據往往雜亂或不完整”的研究挑戰。該模型通過將深厚的科學知識與實用工程能力結合,實現了從抽象理論到實際應用的跨越。
在數學和編程能力的突破之外,深度思考模式的表現范圍已擴展至化學、物理(包括理論物理)等多個科學領域。這種廣度意味著該模型不再局限于特定學科,而是成為跨領域研究工具。
實際應用案例驗證價值
早期測試用戶的使用場景展示了該模型的實際應用潛力。羅格斯大學數學家Lisa Carbone在研究高能物理所需數學結構時,利用深度思考模式審閱一篇高度專業的數學論文。該模型成功識別出一處此前通過人類同行評審但未被發現的細微邏輯缺陷。
在杜克大學,Wang實驗室利用深度思考模式優化復雜晶體生長的制造方法,用于潛在半導體材料的發現。該模型成功設計出一套配方,生長出超過100微米的薄膜,達到了先前方法難以實現的精確目標。
谷歌平臺與設備部門的研發負責人、Liftware前CEOAnupam Pathak測試了新版深度思考模式,以加速物理組件的設計。
谷歌展示的另一應用場景顯示,借助升級后的Gemini 3 Deep Think,用戶可以將草圖轉化為可3D打印的實體模型。該模型能分析圖紙,對復雜形狀進行建模,并生成用于3D打印的實體模型文件。
![]()
企業級市場的戰略布局
這次升級體現了AI行業的轉向趨勢——從通用聊天機器人轉向能夠處理專業級問題的專業推理引擎。對于企業客戶而言,評估標準正在改變,不再僅關注哪個AI能最快編寫代碼或總結文檔,而是聚焦推理能力——模型能否處理復雜財務模型、分析實驗數據并識別方法論缺陷、協助專利研究或藥物發現。
谷歌的優勢在于整合能力。深度思考模式不是孤立存在,而是更廣泛的Gemini生態系統的一部分,這意味著它可能利用谷歌龐大的知識圖譜、科學數據集和研究合作伙伴關系。通過Google Cloud使用深度思考模式的研究人員,理論上可以訪問獨立AI服務無法匹敵的計算能力和數據源。
該公司周四在X平臺發文稱:“升級后的深度思考模式已經在推動發現并幫助研究人員解決'不可解'的問題——從發現研究論文中的缺陷到優化半導體(晶體)生長。” 這一表述強調了模型從測試基準到實際應用的轉化能力。
從產品策略看,谷歌同時面向消費者和企業用戶開放訪問權限。Google AI Ultra訂閱用戶可通過Gemini應用程序立即使用,而科學家、工程師和企業用戶則可通過早期訪問計劃申請使用Gemini API。這種分層策略反映出谷歌既要保持消費市場存在感,又要爭奪高價值企業客戶的雙重目標。
推理模型競賽升溫
深度思考模式的推出使谷歌在AI推理競賽中正面對抗OpenAI和Anthropic。OpenAI的o1模型據報道在生成響應前花費更多時間“思考”,使用強化學習改進推理鏈。Anthropic的Claude 3則在研究和分析任務中占據了一席之地。現在谷歌在同一領域插旗,背后是集成到Workspace和Cloud Platform帶來的基礎設施和分銷優勢。
對于專業用戶而言,這意味著在快速通用響應與較慢的深度推理之間做出選擇,成為新的架構決策。應用程序可能將簡單查詢路由到標準模型,同時將復雜問題上報到推理模式,創建分層AI推理方法。
谷歌周四在X平臺發文稱:"Gemini 3深度思考模式在推動智能前沿的基準測試中表現突出。具體數據:在'人類最后的考試'中達到48.4%(無工具),在ARC-AGI-2中達到84.6%(經ARC Prize基金會驗證),在Codeforces競技編程中獲得3455 Elo評分。"
谷歌同時指出,模型現在在化學和物理等科學領域表現出色。
這場競爭的真正考驗不在于發布聲明,而在于實際采用率。如果研究機構和工程公司開始通過深度思考模式處理復雜工作,將驗證谷歌的判斷——企業AI的未來在于深度而非速度。目前,該公司已明確表態:它正在爭奪AI市場的高端領域,在那里思考比對話更重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.