【CNMO】馬年春節(jié)的熱鬧勁兒還沒(méi)完全過(guò)去,國(guó)內(nèi)的大模型戰(zhàn)場(chǎng)正打得火熱,硅谷那邊也沒(méi)閑著。就在行業(yè)還在消化上周Gemini 3 Deep Think、Claude Sonnet 4.6等一系列密集更新時(shí),北京時(shí)間2月19日深夜,谷歌又毫無(wú)預(yù)兆地?cái)S出了一枚“核彈”——Gemini 3.1 Pro正式上線(xiàn)。
![]()
對(duì)于關(guān)注AI動(dòng)態(tài)的人來(lái)說(shuō),這個(gè)消息來(lái)得既突然,又在情理之中。畢竟,距離去年11月Gemini 3 Pro發(fā)布才剛過(guò)三個(gè)月。但真正耐人尋味的,不是發(fā)布節(jié)奏的加快,而是谷歌這次打出的牌:一個(gè)“.1”的小版本迭代,卻實(shí)現(xiàn)了讓競(jìng)爭(zhēng)對(duì)手大版本更新都汗顏的性能躍升。
“.1”背后的野心:推理能力翻倍與“思考模式”的進(jìn)化
Gemini 3.1 Pro的官方敘事非常聚焦:專(zhuān)為復(fù)雜任務(wù)而生,將機(jī)器的核心推理能力推向新高度。
數(shù)據(jù)是最直觀(guān)的佐證。在衡量AI應(yīng)對(duì)全新邏輯問(wèn)題能力的 ARC-AGI-2 基準(zhǔn)測(cè)試中,Gemini 3.1 Pro拿下了77.1% 的實(shí)測(cè)得分。這是什么概念?上一代Gemini 3 Pro的得分是31.1%。雖然業(yè)內(nèi)對(duì)于ARC-AGI測(cè)試集是否可能出現(xiàn)在訓(xùn)練數(shù)據(jù)中仍存有謹(jǐn)慎的討論,但超過(guò)一倍的增長(zhǎng),即便剔除“刷題”水分,其底層邏輯能力的精進(jìn)也是不容小覷的。
另一個(gè)值得關(guān)注的維度是幻覺(jué)控制。在AA-Omniscience Index(衡量模型對(duì)自身知識(shí)邊界認(rèn)知能力的指標(biāo))上,Gemini 3.1 Pro從前代的13分躍升至30分,在主流模型中排名第一。這或許比單純的跑分更具現(xiàn)實(shí)意義——在大模型從“玩具”走向“工具”的過(guò)程中,知道“我不知道”往往比強(qiáng)行生成一個(gè)似是而非的答案更重要。
如果說(shuō)跑分只是紙上談兵,那么“三層思考模式”(Low/Medium/High)的引入,則是谷歌在工程落地層面的一次精妙設(shè)計(jì)。這相當(dāng)于給模型裝了一個(gè)可調(diào)節(jié)的“算力旋鈕”。
過(guò)去的模型是“一勺燴”,簡(jiǎn)單問(wèn)答和復(fù)雜推理消耗的資源一樣,成本和效率都不經(jīng)濟(jì)。現(xiàn)在,用戶(hù)可以根據(jù)任務(wù)難度自主選擇:日常閑聊用Low模式追求極速響應(yīng);復(fù)雜的數(shù)據(jù)分析或代碼調(diào)試用High模式,讓模型進(jìn)入類(lèi)似Deep Think的狀態(tài),花幾分鐘時(shí)間進(jìn)行深度推理。這種對(duì)“計(jì)算-質(zhì)量-成本”三角關(guān)系的顯式化管理,體現(xiàn)的正是AI進(jìn)入生產(chǎn)環(huán)境后的成熟度思維。
不止于“手搓”Demo:從代碼生成到“氛圍編程”
當(dāng)然,技術(shù)參數(shù)的進(jìn)步最終要回歸到用戶(hù)體驗(yàn)。這次谷歌及其合作方展示的一系列案例,比以往任何時(shí)候都更具“殺傷力”。
最直觀(guān)的進(jìn)化體現(xiàn)在視覺(jué)生成上。同樣是生成“鵜鶘騎自行車(chē)”的SVG動(dòng)畫(huà),Gemini 3 Pro生成的結(jié)果可能只是元素的堆砌,而Gemini 3.1 Pro生成的畫(huà)面中,鵜鶘的身體結(jié)構(gòu)、騎行姿態(tài)不僅更符合物理常識(shí),甚至連自行車(chē)的鏈條、腳踏這些細(xì)節(jié)都清晰可見(jiàn)。
但這不僅僅是畫(huà)質(zhì)的提升,更是對(duì)復(fù)雜指令理解能力的躍遷。開(kāi)發(fā)者們用實(shí)測(cè)證明了這一點(diǎn):
有人讓Gemini 3.1 Pro生成一個(gè)Windows 11風(fēng)格的Web操作系統(tǒng),結(jié)果它直接返回了一個(gè)包含完整圖標(biāo)、開(kāi)始菜單和基礎(chǔ)交互邏輯的可運(yùn)行界面,與之前3.0 Pro生成的簡(jiǎn)陋形態(tài)形成鮮明對(duì)比。
還有人要求它為《呼嘯山莊》設(shè)計(jì)一個(gè)現(xiàn)代風(fēng)格的個(gè)人作品集網(wǎng)站。模型不僅完成了代碼編寫(xiě),更令人驚嘆的是,它似乎“讀懂了”小說(shuō)中那種陰郁、狂野的文學(xué)氛圍,并將其轉(zhuǎn)化為了網(wǎng)站的色彩、排版和整體視覺(jué)語(yǔ)言。這被一些開(kāi)發(fā)者稱(chēng)為“氛圍編程”的開(kāi)始——模型不再只是執(zhí)行指令的工具,而是能理解意圖的創(chuàng)意伙伴。
在更硬核的工程領(lǐng)域,Gemini 3.1 Pro也展示了其接入現(xiàn)實(shí)世界的能力。無(wú)論是直接接入公開(kāi)遙測(cè)數(shù)據(jù)流,實(shí)時(shí)追蹤國(guó)際空間站軌道的儀表盤(pán),還是可交互的3D椋鳥(niǎo)群飛模擬,都證明了它在處理復(fù)雜API、構(gòu)建完整應(yīng)用方面的成熟度。
競(jìng)賽進(jìn)入下半場(chǎng):谷歌開(kāi)始“卷”了,但卷的是“長(zhǎng)跑”
面對(duì)Gemini 3.1 Pro的發(fā)布,技術(shù)社區(qū)的評(píng)價(jià)呈現(xiàn)出有趣的分化。樂(lè)觀(guān)派看到了它在硬核基準(zhǔn)上的全面領(lǐng)先:在Artificial Analysis的綜合智能維度以57分居首,超越Claude Opus 4.6的53分;在科學(xué)知識(shí)測(cè)試GPQA Diamond上更是拿下94.3%的高分。
但質(zhì)疑聲同樣存在。Gartner分析師William McKeon-White的評(píng)價(jià)代表了一種審慎態(tài)度:“這是好的持續(xù)進(jìn)步,但沒(méi)有什么根本性的游戲規(guī)則改變者。 ” 華盛頓大學(xué)教授Chirag Shah則進(jìn)一步指出,更好的推理能力是處理復(fù)雜任務(wù)的必要條件,但并非充分條件,更何況“復(fù)雜”本身就是一個(gè)模糊的定義。
然而,如果我們跳出單純的性能對(duì)比,從行業(yè)戰(zhàn)略層面審視這次發(fā)布,會(huì)發(fā)現(xiàn)一個(gè)更值得關(guān)注的信號(hào):谷歌的迭代策略開(kāi)始變得空前激進(jìn)。
這是谷歌首次在Gemini系列中使用“.1”作為版本增量。此前無(wú)論是從1.0到1.5,還是2.0到2.5,都是0.5的跨度。現(xiàn)在改為0.1的細(xì)粒度更新,意味著谷歌放棄了過(guò)去追求“大版本震撼”的發(fā)布模式,轉(zhuǎn)向更貼近工程實(shí)際、更快速的持續(xù)迭代。
這種轉(zhuǎn)變本身就說(shuō)明了AI競(jìng)賽的殘酷性:?jiǎn)未伪l(fā)的窗口期正在急劇收窄。 在Anthropic發(fā)布Sonnet 4.6僅兩天后,谷歌就攜3.1 Pro正面回?fù)簟n^部廠(chǎng)商的技術(shù)差距正在肉眼可見(jiàn)地縮小,大家拼的不再是誰(shuí)能憋出“王炸”,而是誰(shuí)能以更快的速度、更穩(wěn)的步伐進(jìn)行“長(zhǎng)跑”。
更耐人尋味的是定價(jià)。Gemini 3.1 Pro預(yù)覽版的API價(jià)格與上一代完全持平:輸入每百萬(wàn)tokens 2美元起,輸出12美元起。這在一眾漲價(jià)的競(jìng)品中顯得尤為突出。Artificial Analysis算了一筆賬:跑完其智能指數(shù)測(cè)試集,Gemini 3.1 Pro的花費(fèi)還不到Claude Opus 4.6的一半。
當(dāng)最強(qiáng)的模型不再伴隨最高的溢價(jià),這意味著大模型行業(yè)的競(jìng)爭(zhēng)已經(jīng)從“性能溢價(jià)”階段,進(jìn)入了“性能普惠”的新階段。
結(jié)語(yǔ):重新定義“王座”
有人說(shuō)Gemini 3.1 Pro是來(lái)“搶王座”的。但在我看來(lái),在這樣一個(gè)每周都有新王登基的時(shí)代,“王座”本身的概念正在被消解。
過(guò)去,我們習(xí)慣于用一兩個(gè)基準(zhǔn)測(cè)試的榜首來(lái)定義王者。但今天,當(dāng)谷歌用一個(gè)“.1”版本就實(shí)現(xiàn)了推理能力翻倍、幻覺(jué)率大幅下降,并將最強(qiáng)能力以最低價(jià)格推向市場(chǎng)時(shí),它傳遞的信息其實(shí)是:AI競(jìng)賽的下一程,比的不是誰(shuí)在領(lǐng)獎(jiǎng)臺(tái)上站得更高,而是誰(shuí)能構(gòu)建一個(gè)讓開(kāi)發(fā)者和企業(yè)真正愿意扎根的生態(tài)。
Gemini 3.1 Pro或許不是一個(gè)顛覆性的“游戲規(guī)則改變者”,但它清晰地劃出了谷歌的賽道:憑借Google Cloud和Workspace構(gòu)成的企業(yè)基礎(chǔ)設(shè)施,以及對(duì)核心推理能力的持續(xù)打磨,谷歌正在向外界證明,它要做的是那個(gè)能滿(mǎn)足企業(yè)所有模型需求的“一站式商店”。
AI的2026年,就這樣在硅谷的你追我趕中拉開(kāi)了序幕。DeepSeek們何時(shí)會(huì)再次出場(chǎng)“殺死比賽”仍是未知數(shù),但可以確定的是,這場(chǎng)游戲的節(jié)奏,已經(jīng)快到讓所有人都必須屏住呼吸。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.