網易首頁 > 網易號 > 正文申請入駐

Gemini最強版本上線：推理斷層領先，姚順宇預告更強版本還在路上

2026-02-20 18:35:08　來源: DeepTech深科技

河南舉報

分享至

就在上周谷歌發布 Gemini Deep Think 重大更新后，谷歌于今日正式推出新一代基礎大模型 Gemini 3.1 Pro。

谷歌 CEO 桑達爾·皮查伊(Sundar Pichai)在社交平臺上確認了這一消息。他表示，Gemini 3.1 Pro 相較前代 Gemini 3 Pro 的 31.1% 提升顯著。新模型在處理復雜概念可視化、多源數據整合、創意項目落地等任務時表現更為出色，目前已逐步接入消費者與開發者產品。

去年9月加入谷歌 DeepMind 的清華大學校友、AI 研究員姚順宇也在社交平臺分享了相關進展，并暗示后續還有更強模型正在籌備中。

(來源：X)

從“.5”到“.1”的版本策略調整

按照谷歌以往的發布節奏，重大更新多集中在年中（如 Google I/O 大會），且常以“.5”后綴標識中期升級。但此次距離 Gemini 3 Pro 發布僅三個月，便推出了帶“.1”后綴的 3.1 Pro，可見谷歌底層技術迭代加速，以及推動最新研究成果落地的節奏調整。

支撐這一節奏的，是新模型在核心推理能力上的提升。關鍵在于 ARC-AGI（抽象與推理語料庫）基準測試。該測試不依賴知識記憶，而是考察模型面對陌生視覺與邏輯謎題時的多步推演能力，被視作衡量 AI 泛化與流體智力的重要參考。

在官方驗證的 ARC-AGI-2 測試中，Gemini 3.1 Pro 得分為 77.1%，而數月前的 3 Pro 為 31.1%。橫向對比，Anthropic 的 Claude Opus 4.6 得分為 68.8%，OpenAI 的 GPT-5.2 為 52.9%。這一差距說明，大模型在處理非結構化、未見過的推理任務時，正逐步從模式匹配向邏輯推演演進。

（來源：Google）

多項測試占優，細分場景仍存差距

除抽象推理外，谷歌公布的技術文檔顯示，Gemini 3.1 Pro 在 16 項主流基準測試中，有 12 項位列第一（含并列），覆蓋學術知識、科學問答、代碼生成、智能體協作及長上下文理解等方向。

在學術與科學能力方面，它在無外部工具輔助的 Humanity's Last Exam（人類終極考試）測試中準確率達 44.4%，在高難度科學知識測試 GPQA Diamond 中得分 94.3%。這兩項成績均以較高幅度優于當前主流競品，體現出模型在知識儲備與邏輯推導上的優勢。

（來源：Google）

在開發者關注的代碼與工程能力上，Terminal-Bench 2.0（終端操作代理測試）成功率達 68.5%，SWE-Bench Verified（真實 GitHub 問題求解）單次嘗試得分 80.6%，與 Claude Opus 4.6 處于同一梯隊；LiveCodeBench Pro 的 Elo 評分更是達到 2,887 分，顯著領先于 GPT-5.2 的 2,393 分。

在多模態與長上下文理解方面，MCP Atlas（多步驟工作流）得分 69.2%，BrowseComp（代理搜索）85.9%，MMMLU（多語種問答）92.6%；在 128k 上下文的 MRCR v2 檢索測試中，與 Claude Sonnet 4.6 并列第一（84.9%）。整體來看，新模型在多個維度展現出較為均衡的能力儲備，而非單一維度的"偏科"優勢。

盡管綜合表現突出，當前大模型賽道已進入差異化競爭階段，各模型在特定場景下仍各有側重。

例如在面向實際工程場景的 SWE-Bench Pro 測試中，OpenAI 專為代碼優化的 GPT-5.3-Codex 以 56.8% 領先，Gemini 3.1 Pro 為 54.2%；在評估商業流程操作的 GDPval-AA 測試中，Claude Sonnet 4.6 以 1633 分顯著高于 Gemini 3.1 Pro 的 1317 分。

此外，在允許調用搜索與代碼工具的 HLE 測試中，Claude Opus 4.6 略優于 Gemini 3.1 Pro；而在多模態理解測試 MMMU Pro 中，3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露該模型的具體參數規模與訓練數據細節。

從深度推理到日常應用

此次 Gemini 3.1 Pro 的性能飛躍，源于此前推出的 Gemini 3 Deep Think 模型。后者專攻科學計算與復雜工程，其卓越的推理能力已在國際奧賽等場景中得到實證。Gemini 3.1 Pro 則進一步將這種‘專家級’的核心能力拓展至通用領域，從而能夠服務于更廣泛的開發與用戶需求。

谷歌官方博客列舉了若干應用場景：

首先在基于代碼的動畫生成方面，3.1 Pro 能夠直接根據文本提示生成適用于網站的 SVG 動畫。由于此類動畫由純代碼而非像素位圖構成，因此具備無損縮放特性，在任何分辨率下均能保持清晰，且文件體積遠小于先前形式。

其次是數據處理場景。 Gemini 3.1 Pro 展現了卓越的“工具使用（Tool Use）”能力。以國際空間站（ISS）軌道追蹤為例，模型不僅能自主研讀 NASA 復雜的 API 文檔、編寫數據抓取腳本，還能實時處理回傳的流式遙測數據。令人吃驚的是，它能同步調用 D3.js 等可視化庫，快速搭建出包含實時經緯度、軌道投影及速度指標的交互式儀表盤。

還有創意編程能力。模型能夠深入理解文學名著（如海明威作品），提煉文字背后隱含的風格特征，轉換成具體的交互界面細節。例如將簡潔有力的短句轉化為“極簡主義”排版，將硬朗的情感基調映射為“高對比度”配色。最終，這些抽象的美學特征被精準轉譯為 CSS/HTML 代碼。這種跨模態轉換能力，使得文字創作者能以極低的成本，將抽象的文學內核注入數字產品的交互界面之中。

最后是深度交互設計。3.1 Pro 能夠構建復雜的三維“椋鳥低語”模擬場景。這不僅僅是視覺代碼的生成，更是沉浸式體驗的營造：用戶可通過手勢追蹤操控鳥群，并聆聽隨鳥類動作實時變化的生成式樂譜。對于研究人員和設計師而言，這為原型化多感官豐富的界面提供了強有力的工具。

此外，為加速能力落地，谷歌此次采取了分層部署策略。

普通用戶可通過更新后的 Gemini 應用體驗基礎功能；高階訂閱用戶在 NotebookLM 平臺可獨家接入 3.1 Pro 并享受更高調用額度。開發者可通過 Google AI Studio 申請 API 預覽權限，Gemini CLI 與 Android Studio 已完成首批適配；企業客戶則支持通過 Vertex AI 與 Gemini Enterprise 集成至私有業務流。這種"由淺入深"的推進方式，有助于不同層級的用戶按需接入。

目前，3.1 Pro 已以預覽版形式上線谷歌代理式開發平臺 Antigravity。谷歌表示，此舉旨在復雜多步任務場景中進一步驗證與優化模型表現，為后續全面推廣積累經驗。

總體來看，Gemini 3.1 Pro 在推理能力與多維度任務表現上確有提升，尤其在抽象邏輯與代碼工程方向優勢明顯。但大模型競爭已進入"場景適配"階段，技術選型需結合具體需求理性評估。對于關注成本、穩定性與落地效率的用戶而言，持續觀察其在真實業務中的表現，或許比基準測試分數更具參考價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.