網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Gemini最強(qiáng)版本上線(xiàn)：推理斷層領(lǐng)先，姚順宇預(yù)告更強(qiáng)版本還在路上

2026-02-20 18:35:08　來(lái)源: DeepTech深科技

河南舉報(bào)

分享至

就在上周谷歌發(fā)布 Gemini Deep Think 重大更新后，谷歌于今日正式推出新一代基礎(chǔ)大模型 Gemini 3.1 Pro。

谷歌 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)在社交平臺(tái)上確認(rèn)了這一消息。他表示，Gemini 3.1 Pro 相較前代 Gemini 3 Pro 的 31.1% 提升顯著。新模型在處理復(fù)雜概念可視化、多源數(shù)據(jù)整合、創(chuàng)意項(xiàng)目落地等任務(wù)時(shí)表現(xiàn)更為出色，目前已逐步接入消費(fèi)者與開(kāi)發(fā)者產(chǎn)品。

去年9月加入谷歌 DeepMind 的清華大學(xué)校友、AI 研究員姚順宇也在社交平臺(tái)分享了相關(guān)進(jìn)展，并暗示后續(xù)還有更強(qiáng)模型正在籌備中。

(來(lái)源：X)

從“.5”到“.1”的版本策略調(diào)整

按照谷歌以往的發(fā)布節(jié)奏，重大更新多集中在年中（如 Google I/O 大會(huì)），且常以“.5”后綴標(biāo)識(shí)中期升級(jí)。但此次距離 Gemini 3 Pro 發(fā)布僅三個(gè)月，便推出了帶“.1”后綴的 3.1 Pro，可見(jiàn)谷歌底層技術(shù)迭代加速，以及推動(dòng)最新研究成果落地的節(jié)奏調(diào)整。

支撐這一節(jié)奏的，是新模型在核心推理能力上的提升。關(guān)鍵在于 ARC-AGI（抽象與推理語(yǔ)料庫(kù)）基準(zhǔn)測(cè)試。該測(cè)試不依賴(lài)知識(shí)記憶，而是考察模型面對(duì)陌生視覺(jué)與邏輯謎題時(shí)的多步推演能力，被視作衡量 AI 泛化與流體智力的重要參考。

在官方驗(yàn)證的 ARC-AGI-2 測(cè)試中，Gemini 3.1 Pro 得分為 77.1%，而數(shù)月前的 3 Pro 為 31.1%。橫向?qū)Ρ龋珹nthropic 的 Claude Opus 4.6 得分為 68.8%，OpenAI 的 GPT-5.2 為 52.9%。這一差距說(shuō)明，大模型在處理非結(jié)構(gòu)化、未見(jiàn)過(guò)的推理任務(wù)時(shí)，正逐步從模式匹配向邏輯推演演進(jìn)。

（來(lái)源：Google）

多項(xiàng)測(cè)試占優(yōu)，細(xì)分場(chǎng)景仍存差距

除抽象推理外，谷歌公布的技術(shù)文檔顯示，Gemini 3.1 Pro 在 16 項(xiàng)主流基準(zhǔn)測(cè)試中，有 12 項(xiàng)位列第一（含并列），覆蓋學(xué)術(shù)知識(shí)、科學(xué)問(wèn)答、代碼生成、智能體協(xié)作及長(zhǎng)上下文理解等方向。

在學(xué)術(shù)與科學(xué)能力方面，它在無(wú)外部工具輔助的 Humanity's Last Exam（人類(lèi)終極考試）測(cè)試中準(zhǔn)確率達(dá) 44.4%，在高難度科學(xué)知識(shí)測(cè)試 GPQA Diamond 中得分 94.3%。這兩項(xiàng)成績(jī)均以較高幅度優(yōu)于當(dāng)前主流競(jìng)品，體現(xiàn)出模型在知識(shí)儲(chǔ)備與邏輯推導(dǎo)上的優(yōu)勢(shì)。

（來(lái)源：Google）

在開(kāi)發(fā)者關(guān)注的代碼與工程能力上，Terminal-Bench 2.0（終端操作代理測(cè)試）成功率達(dá) 68.5%，SWE-Bench Verified（真實(shí) GitHub 問(wèn)題求解）單次嘗試得分 80.6%，與 Claude Opus 4.6 處于同一梯隊(duì)；LiveCodeBench Pro 的 Elo 評(píng)分更是達(dá)到 2,887 分，顯著領(lǐng)先于 GPT-5.2 的 2,393 分。

在多模態(tài)與長(zhǎng)上下文理解方面，MCP Atlas（多步驟工作流）得分 69.2%，BrowseComp（代理搜索）85.9%，MMMLU（多語(yǔ)種問(wèn)答）92.6%；在 128k 上下文的 MRCR v2 檢索測(cè)試中，與 Claude Sonnet 4.6 并列第一（84.9%）。整體來(lái)看，新模型在多個(gè)維度展現(xiàn)出較為均衡的能力儲(chǔ)備，而非單一維度的"偏科"優(yōu)勢(shì)。

盡管綜合表現(xiàn)突出，當(dāng)前大模型賽道已進(jìn)入差異化競(jìng)爭(zhēng)階段，各模型在特定場(chǎng)景下仍各有側(cè)重。

例如在面向?qū)嶋H工程場(chǎng)景的 SWE-Bench Pro 測(cè)試中，OpenAI 專(zhuān)為代碼優(yōu)化的 GPT-5.3-Codex 以 56.8% 領(lǐng)先，Gemini 3.1 Pro 為 54.2%；在評(píng)估商業(yè)流程操作的 GDPval-AA 測(cè)試中，Claude Sonnet 4.6 以 1633 分顯著高于 Gemini 3.1 Pro 的 1317 分。

此外，在允許調(diào)用搜索與代碼工具的 HLE 測(cè)試中，Claude Opus 4.6 略?xún)?yōu)于 Gemini 3.1 Pro；而在多模態(tài)理解測(cè)試 MMMU Pro 中，3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露該模型的具體參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)細(xì)節(jié)。

從深度推理到日常應(yīng)用

此次 Gemini 3.1 Pro 的性能飛躍，源于此前推出的 Gemini 3 Deep Think 模型。后者專(zhuān)攻科學(xué)計(jì)算與復(fù)雜工程，其卓越的推理能力已在國(guó)際奧賽等場(chǎng)景中得到實(shí)證。Gemini 3.1 Pro 則進(jìn)一步將這種‘專(zhuān)家級(jí)’的核心能力拓展至通用領(lǐng)域，從而能夠服務(wù)于更廣泛的開(kāi)發(fā)與用戶(hù)需求。

谷歌官方博客列舉了若干應(yīng)用場(chǎng)景：

首先在基于代碼的動(dòng)畫(huà)生成方面，3.1 Pro 能夠直接根據(jù)文本提示生成適用于網(wǎng)站的 SVG 動(dòng)畫(huà)。由于此類(lèi)動(dòng)畫(huà)由純代碼而非像素位圖構(gòu)成，因此具備無(wú)損縮放特性，在任何分辨率下均能保持清晰，且文件體積遠(yuǎn)小于先前形式。

其次是數(shù)據(jù)處理場(chǎng)景。 Gemini 3.1 Pro 展現(xiàn)了卓越的“工具使用（Tool Use）”能力。以國(guó)際空間站（ISS）軌道追蹤為例，模型不僅能自主研讀 NASA 復(fù)雜的 API 文檔、編寫(xiě)數(shù)據(jù)抓取腳本，還能實(shí)時(shí)處理回傳的流式遙測(cè)數(shù)據(jù)。令人吃驚的是，它能同步調(diào)用 D3.js 等可視化庫(kù)，快速搭建出包含實(shí)時(shí)經(jīng)緯度、軌道投影及速度指標(biāo)的交互式儀表盤(pán)。

還有創(chuàng)意編程能力。模型能夠深入理解文學(xué)名著（如海明威作品），提煉文字背后隱含的風(fēng)格特征，轉(zhuǎn)換成具體的交互界面細(xì)節(jié)。例如將簡(jiǎn)潔有力的短句轉(zhuǎn)化為“極簡(jiǎn)主義”排版，將硬朗的情感基調(diào)映射為“高對(duì)比度”配色。最終，這些抽象的美學(xué)特征被精準(zhǔn)轉(zhuǎn)譯為 CSS/HTML 代碼。這種跨模態(tài)轉(zhuǎn)換能力，使得文字創(chuàng)作者能以極低的成本，將抽象的文學(xué)內(nèi)核注入數(shù)字產(chǎn)品的交互界面之中。

最后是深度交互設(shè)計(jì)。3.1 Pro 能夠構(gòu)建復(fù)雜的三維“椋鳥(niǎo)低語(yǔ)”模擬場(chǎng)景。這不僅僅是視覺(jué)代碼的生成，更是沉浸式體驗(yàn)的營(yíng)造：用戶(hù)可通過(guò)手勢(shì)追蹤操控鳥(niǎo)群，并聆聽(tīng)隨鳥(niǎo)類(lèi)動(dòng)作實(shí)時(shí)變化的生成式樂(lè)譜。對(duì)于研究人員和設(shè)計(jì)師而言，這為原型化多感官豐富的界面提供了強(qiáng)有力的工具。

此外，為加速能力落地，谷歌此次采取了分層部署策略。

普通用戶(hù)可通過(guò)更新后的 Gemini 應(yīng)用體驗(yàn)基礎(chǔ)功能；高階訂閱用戶(hù)在 NotebookLM 平臺(tái)可獨(dú)家接入 3.1 Pro 并享受更高調(diào)用額度。開(kāi)發(fā)者可通過(guò) Google AI Studio 申請(qǐng) API 預(yù)覽權(quán)限，Gemini CLI 與 Android Studio 已完成首批適配；企業(yè)客戶(hù)則支持通過(guò) Vertex AI 與 Gemini Enterprise 集成至私有業(yè)務(wù)流。這種"由淺入深"的推進(jìn)方式，有助于不同層級(jí)的用戶(hù)按需接入。

目前，3.1 Pro 已以預(yù)覽版形式上線(xiàn)谷歌代理式開(kāi)發(fā)平臺(tái) Antigravity。谷歌表示，此舉旨在復(fù)雜多步任務(wù)場(chǎng)景中進(jìn)一步驗(yàn)證與優(yōu)化模型表現(xiàn)，為后續(xù)全面推廣積累經(jīng)驗(yàn)。

總體來(lái)看，Gemini 3.1 Pro 在推理能力與多維度任務(wù)表現(xiàn)上確有提升，尤其在抽象邏輯與代碼工程方向優(yōu)勢(shì)明顯。但大模型競(jìng)爭(zhēng)已進(jìn)入"場(chǎng)景適配"階段，技術(shù)選型需結(jié)合具體需求理性評(píng)估。對(duì)于關(guān)注成本、穩(wěn)定性與落地效率的用戶(hù)而言，持續(xù)觀察其在真實(shí)業(yè)務(wù)中的表現(xiàn)，或許比基準(zhǔn)測(cè)試分?jǐn)?shù)更具參考價(jià)值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.