讀完文章
領(lǐng)取 APPSO 2026 年馬年春節(jié)
限定紅包 封面
剛在印度 AI 峰會上經(jīng)歷了最尷尬的一幕,Google CEO Sundar Pichai 轉(zhuǎn)頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。
![]()
時機選得,相當精準(doge)。
![]()
OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手,而是高舉拳頭。
雖然距離上周 Gemini 3 Deep Think 的更新沒幾天,但 3.1 Pro 的定位,Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務(wù)而設(shè)計,是解決復(fù)雜問題的基礎(chǔ)底座。
按慣例,0.1 的版本號更新通常意味著小修小補,然而, 在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的兩倍多,同時壓過了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。
![]()
其它方面,科學(xué)知識測試 GPQA Diamond 拿了 94.3%,智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。
![]()
編程能力方面,競爭性編程基準 LiveCodeBench Pro 的 Elo 評分達到 2887,超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。
當然,3.1 Pro 也不是處處碾壓。
多模態(tài)基準 MMMU Pro 上,上代 3 Pro 反而略勝(81.0% vs 80.5%);啟用工具支持的 Humanity's Last Exam 里,Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手,這次還是沒能完全堵上嘴。
第三方知名分析機構(gòu) Artificial Analysis 則給出了相當實在的評價。
![]()
3.1 Pro 在他們的智能指數(shù)里排名第一,比 Opus 4.6 高 4 分;整個測試跑下來總計使用約 5700 萬 tokens,完成測試的成本不到 Opus 4.6 的一半。能打又省錢,這個組合還是很香的。
Google DeepMind 首席科學(xué)家 Jeff Dean 也轉(zhuǎn)發(fā)了一個是用 3.1 Pro 模擬城市規(guī)劃、設(shè)計全新城市的應(yīng)用,從零生成可交互的規(guī)劃界面 demo。

Google 官方博客則展示了幾個更日常的方向。代碼動畫方面,3.1 Pro 可以直接根據(jù)文字提示生成動態(tài) SVG,因為是純代碼生成而非像素,任意縮放都不失真,文件體積也遠小于傳統(tǒng)視頻。

復(fù)雜系統(tǒng)方面,模型直接接入公開遙測數(shù)據(jù)流,搭出了一個實時追蹤國際空間站軌道的航天儀表盤。

更有意思的是兩個創(chuàng)意類 demo。
一個是 3D 椋鳥群模擬,不只是生成視覺代碼,還支持用手勢操控鳥群,并配有隨鳥群動態(tài)變化的生成音樂;

另一個是把《呼嘯山莊》的文學(xué)氛圍轉(zhuǎn)化成一個現(xiàn)代個人網(wǎng)站,模型沒有簡單概括情節(jié),而是分析了小說的整體基調(diào),設(shè)計出了貼合主人公氣質(zhì)的界面風(fēng)格。

此外,網(wǎng)友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態(tài) SVG 循環(huán)動畫,結(jié)果直接看呆,評價是「Google 這次是認真的」。
![]()
還有網(wǎng)友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的交互動畫,每個生長階段的過渡都順滑自然,說這是見過最好的同類效果。

去年從 Anthropic 轉(zhuǎn)投 Google DeepMind 的清華物理系特獎得主姚順宇也站臺宣傳:「Gemini 不僅是一個優(yōu)秀的模型,而且更好的模型正以不可阻擋的方式到來。」
![]()
當然,這些 demo 加在一起說的是同一件事:模型能做的事,已經(jīng)從單純的回答問題延伸到完成一整套專業(yè)或創(chuàng)意工作流了。
價格方面,API 按分級付費,整體和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比還是相對便宜的。
20 萬 tokens 以內(nèi),輸入 2 美元 / 每百萬 tokens,輸出 12 美元;超過 20 萬 tokens,輸入漲到 4 美元,輸出 18 美元。搜索功能每月前 5000 次免費,之后每 1000 次查詢收費 14 美元。
![]()
現(xiàn)在,開發(fā)者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發(fā)平臺 Google Antigravity 以及 Android Studio;企業(yè)用戶在 Vertex AI 和 Gemini Enterprise;普通用戶在 Gemini 應(yīng)用和 NotebookLM 都能用,后者僅限 Pro 和 Ultra 訂閱。
值得注意的是,3.1 Pro 目前只是預(yù)覽版,Google 大概率是要繼續(xù)打磨好智能體工作流再推正式版,向外界展示出一副還沒使全力的姿態(tài)。
至于這種能力滲透到個人層面會發(fā)生什么,這讓我聯(lián)想到了 OpenAI 聯(lián)創(chuàng) Andrej Karpathy 剛剛發(fā)布的推文:
他想用 8 周時間把靜息心率從 50 降到 45,計劃是設(shè)定 Zone 2 有氧總時長目標,配合每周一次 HIIT。為了追蹤進展,他花了 1 小時用 vibe coding 做了一個專屬儀表盤。
![]()
上下滑動查看更多內(nèi)容
過程比想象中麻煩,Claude 需要對 Woodway 跑步機的云 API 進行逆向工程,提取原始數(shù)據(jù),處理篩選,搭出 Web 前端界面,中間還有公制英制單位混用、日歷日期對不上這些 bug 需要手動發(fā)現(xiàn)并要求修復(fù)。
Karpathy 的感嘆很直接,兩年前這事得花 10 小時,現(xiàn)在 1 小時。但他更在意的是:這本來應(yīng)該只需要 1 分鐘。
他的判斷是,應(yīng)用商店模式正在過時。
300 行代碼、LLM 幾秒生成的專屬工具,沒必要變成一個正經(jīng) App 讓你去搜索下載。他同時也點了行業(yè)的問題:99% 的產(chǎn)品仍然沒有 AI 原生的 CLI,還在維護給人看的前端界面,而不是直接提供便于 Agent 調(diào)用的 API。
Woodway 跑步機本質(zhì)上就是個傳感器,結(jié)果還得讓 LLM 去逆向工程它,完全沒必要。
把 Jeff Dean 的城市規(guī)劃 demo 和 Karpathy 的跑步儀表盤放在一起看,其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定制的專屬工具,由 AI 原生傳感器和執(zhí)行器構(gòu)成、LLM 負責(zé)編排、即興生成高度定制專屬應(yīng)用的時代,就已經(jīng)近在眼前了。
附官方博客:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
歡迎點擊下方領(lǐng)取 APPSO 紅包封面
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.