網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Gemini 3.1 Pro低調(diào)上場(chǎng)：谷歌的“小版本更新”與AI競(jìng)賽的“長(zhǎng)跑邏輯”

2026-02-20 17:24:30　來(lái)源: CNMO科技

北京舉報(bào)

分享至

　　【CNMO】馬年春節(jié)的熱鬧勁兒還沒(méi)完全過(guò)去，國(guó)內(nèi)的大模型戰(zhàn)場(chǎng)正打得火熱，硅谷那邊也沒(méi)閑著。就在行業(yè)還在消化上周Gemini 3 Deep Think、Claude Sonnet 4.6等一系列密集更新時(shí)，北京時(shí)間2月19日深夜，谷歌又毫無(wú)預(yù)兆地?cái)S出了一枚“核彈”——Gemini 3.1 Pro正式上線(xiàn)。

　　對(duì)于關(guān)注AI動(dòng)態(tài)的人來(lái)說(shuō)，這個(gè)消息來(lái)得既突然，又在情理之中。畢竟，距離去年11月Gemini 3 Pro發(fā)布才剛過(guò)三個(gè)月。但真正耐人尋味的，不是發(fā)布節(jié)奏的加快，而是谷歌這次打出的牌：一個(gè)“.1”的小版本迭代，卻實(shí)現(xiàn)了讓競(jìng)爭(zhēng)對(duì)手大版本更新都汗顏的性能躍升。

“.1”背后的野心：推理能力翻倍與“思考模式”的進(jìn)化

　　Gemini 3.1 Pro的官方敘事非常聚焦：專(zhuān)為復(fù)雜任務(wù)而生，將機(jī)器的核心推理能力推向新高度。

　　數(shù)據(jù)是最直觀(guān)的佐證。在衡量AI應(yīng)對(duì)全新邏輯問(wèn)題能力的 ARC-AGI-2 基準(zhǔn)測(cè)試中，Gemini 3.1 Pro拿下了77.1% 的實(shí)測(cè)得分。這是什么概念？上一代Gemini 3 Pro的得分是31.1%。雖然業(yè)內(nèi)對(duì)于ARC-AGI測(cè)試集是否可能出現(xiàn)在訓(xùn)練數(shù)據(jù)中仍存有謹(jǐn)慎的討論，但超過(guò)一倍的增長(zhǎng)，即便剔除“刷題”水分，其底層邏輯能力的精進(jìn)也是不容小覷的。

　　另一個(gè)值得關(guān)注的維度是幻覺(jué)控制。在AA-Omniscience Index（衡量模型對(duì)自身知識(shí)邊界認(rèn)知能力的指標(biāo)）上，Gemini 3.1 Pro從前代的13分躍升至30分，在主流模型中排名第一。這或許比單純的跑分更具現(xiàn)實(shí)意義——在大模型從“玩具”走向“工具”的過(guò)程中，知道“我不知道”往往比強(qiáng)行生成一個(gè)似是而非的答案更重要。

　　如果說(shuō)跑分只是紙上談兵，那么“三層思考模式”（Low/Medium/High）的引入，則是谷歌在工程落地層面的一次精妙設(shè)計(jì)。這相當(dāng)于給模型裝了一個(gè)可調(diào)節(jié)的“算力旋鈕”。

　　過(guò)去的模型是“一勺燴”，簡(jiǎn)單問(wèn)答和復(fù)雜推理消耗的資源一樣，成本和效率都不經(jīng)濟(jì)。現(xiàn)在，用戶(hù)可以根據(jù)任務(wù)難度自主選擇：日常閑聊用Low模式追求極速響應(yīng)；復(fù)雜的數(shù)據(jù)分析或代碼調(diào)試用High模式，讓模型進(jìn)入類(lèi)似Deep Think的狀態(tài)，花幾分鐘時(shí)間進(jìn)行深度推理。這種對(duì)“計(jì)算-質(zhì)量-成本”三角關(guān)系的顯式化管理，體現(xiàn)的正是AI進(jìn)入生產(chǎn)環(huán)境后的成熟度思維。

不止于“手搓”Demo：從代碼生成到“氛圍編程”

　　當(dāng)然，技術(shù)參數(shù)的進(jìn)步最終要回歸到用戶(hù)體驗(yàn)。這次谷歌及其合作方展示的一系列案例，比以往任何時(shí)候都更具“殺傷力”。

　　最直觀(guān)的進(jìn)化體現(xiàn)在視覺(jué)生成上。同樣是生成“鵜鶘騎自行車(chē)”的SVG動(dòng)畫(huà)，Gemini 3 Pro生成的結(jié)果可能只是元素的堆砌，而Gemini 3.1 Pro生成的畫(huà)面中，鵜鶘的身體結(jié)構(gòu)、騎行姿態(tài)不僅更符合物理常識(shí)，甚至連自行車(chē)的鏈條、腳踏這些細(xì)節(jié)都清晰可見(jiàn)。

　　但這不僅僅是畫(huà)質(zhì)的提升，更是對(duì)復(fù)雜指令理解能力的躍遷。開(kāi)發(fā)者們用實(shí)測(cè)證明了這一點(diǎn)：

　　有人讓Gemini 3.1 Pro生成一個(gè)Windows 11風(fēng)格的Web操作系統(tǒng)，結(jié)果它直接返回了一個(gè)包含完整圖標(biāo)、開(kāi)始菜單和基礎(chǔ)交互邏輯的可運(yùn)行界面，與之前3.0 Pro生成的簡(jiǎn)陋形態(tài)形成鮮明對(duì)比。

　　還有人要求它為《呼嘯山莊》設(shè)計(jì)一個(gè)現(xiàn)代風(fēng)格的個(gè)人作品集網(wǎng)站。模型不僅完成了代碼編寫(xiě)，更令人驚嘆的是，它似乎“讀懂了”小說(shuō)中那種陰郁、狂野的文學(xué)氛圍，并將其轉(zhuǎn)化為了網(wǎng)站的色彩、排版和整體視覺(jué)語(yǔ)言。這被一些開(kāi)發(fā)者稱(chēng)為“氛圍編程”的開(kāi)始——模型不再只是執(zhí)行指令的工具，而是能理解意圖的創(chuàng)意伙伴。

　　在更硬核的工程領(lǐng)域，Gemini 3.1 Pro也展示了其接入現(xiàn)實(shí)世界的能力。無(wú)論是直接接入公開(kāi)遙測(cè)數(shù)據(jù)流，實(shí)時(shí)追蹤國(guó)際空間站軌道的儀表盤(pán)，還是可交互的3D椋鳥(niǎo)群飛模擬，都證明了它在處理復(fù)雜API、構(gòu)建完整應(yīng)用方面的成熟度。

競(jìng)賽進(jìn)入下半場(chǎng)：谷歌開(kāi)始“卷”了，但卷的是“長(zhǎng)跑”

　　面對(duì)Gemini 3.1 Pro的發(fā)布，技術(shù)社區(qū)的評(píng)價(jià)呈現(xiàn)出有趣的分化。樂(lè)觀(guān)派看到了它在硬核基準(zhǔn)上的全面領(lǐng)先：在Artificial Analysis的綜合智能維度以57分居首，超越Claude Opus 4.6的53分；在科學(xué)知識(shí)測(cè)試GPQA Diamond上更是拿下94.3%的高分。

　　但質(zhì)疑聲同樣存在。Gartner分析師William McKeon-White的評(píng)價(jià)代表了一種審慎態(tài)度：“這是好的持續(xù)進(jìn)步，但沒(méi)有什么根本性的游戲規(guī)則改變者。 ” 華盛頓大學(xué)教授Chirag Shah則進(jìn)一步指出，更好的推理能力是處理復(fù)雜任務(wù)的必要條件，但并非充分條件，更何況“復(fù)雜”本身就是一個(gè)模糊的定義。

　　然而，如果我們跳出單純的性能對(duì)比，從行業(yè)戰(zhàn)略層面審視這次發(fā)布，會(huì)發(fā)現(xiàn)一個(gè)更值得關(guān)注的信號(hào)：谷歌的迭代策略開(kāi)始變得空前激進(jìn)。

　　這是谷歌首次在Gemini系列中使用“.1”作為版本增量。此前無(wú)論是從1.0到1.5，還是2.0到2.5，都是0.5的跨度。現(xiàn)在改為0.1的細(xì)粒度更新，意味著谷歌放棄了過(guò)去追求“大版本震撼”的發(fā)布模式，轉(zhuǎn)向更貼近工程實(shí)際、更快速的持續(xù)迭代。

　　這種轉(zhuǎn)變本身就說(shuō)明了AI競(jìng)賽的殘酷性：?jiǎn)未伪l(fā)的窗口期正在急劇收窄。在Anthropic發(fā)布Sonnet 4.6僅兩天后，谷歌就攜3.1 Pro正面回?fù)簟ｎ^部廠(chǎng)商的技術(shù)差距正在肉眼可見(jiàn)地縮小，大家拼的不再是誰(shuí)能憋出“王炸”，而是誰(shuí)能以更快的速度、更穩(wěn)的步伐進(jìn)行“長(zhǎng)跑”。

　　更耐人尋味的是定價(jià)。Gemini 3.1 Pro預(yù)覽版的API價(jià)格與上一代完全持平：輸入每百萬(wàn)tokens 2美元起，輸出12美元起。這在一眾漲價(jià)的競(jìng)品中顯得尤為突出。Artificial Analysis算了一筆賬：跑完其智能指數(shù)測(cè)試集，Gemini 3.1 Pro的花費(fèi)還不到Claude Opus 4.6的一半。

當(dāng)最強(qiáng)的模型不再伴隨最高的溢價(jià)，這意味著大模型行業(yè)的競(jìng)爭(zhēng)已經(jīng)從“性能溢價(jià)”階段，進(jìn)入了“性能普惠”的新階段。

結(jié)語(yǔ)：重新定義“王座”

　　有人說(shuō)Gemini 3.1 Pro是來(lái)“搶王座”的。但在我看來(lái)，在這樣一個(gè)每周都有新王登基的時(shí)代，“王座”本身的概念正在被消解。

　　過(guò)去，我們習(xí)慣于用一兩個(gè)基準(zhǔn)測(cè)試的榜首來(lái)定義王者。但今天，當(dāng)谷歌用一個(gè)“.1”版本就實(shí)現(xiàn)了推理能力翻倍、幻覺(jué)率大幅下降，并將最強(qiáng)能力以最低價(jià)格推向市場(chǎng)時(shí)，它傳遞的信息其實(shí)是：AI競(jìng)賽的下一程，比的不是誰(shuí)在領(lǐng)獎(jiǎng)臺(tái)上站得更高，而是誰(shuí)能構(gòu)建一個(gè)讓開(kāi)發(fā)者和企業(yè)真正愿意扎根的生態(tài)。

　　Gemini 3.1 Pro或許不是一個(gè)顛覆性的“游戲規(guī)則改變者”，但它清晰地劃出了谷歌的賽道：憑借Google Cloud和Workspace構(gòu)成的企業(yè)基礎(chǔ)設(shè)施，以及對(duì)核心推理能力的持續(xù)打磨，谷歌正在向外界證明，它要做的是那個(gè)能滿(mǎn)足企業(yè)所有模型需求的“一站式商店”。

　　AI的2026年，就這樣在硅谷的你追我趕中拉開(kāi)了序幕。DeepSeek們何時(shí)會(huì)再次出場(chǎng)“殺死比賽”仍是未知數(shù)，但可以確定的是，這場(chǎng)游戲的節(jié)奏，已經(jīng)快到讓所有人都必須屏住呼吸。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.