同一天，OpenAI 和 Google 各甩出一張牌——但你知道自己在用哪個模型嗎？

2026-03-04 16:14:42　來源: 硅星GenAI

上海舉報

分享至

今天，AI 圈又熱鬧了。

北京時間3月4日，OpenAI 正式推送 GPT-5.3 Instant，覆蓋全量 ChatGPT 用戶；同一天，Google 也發(fā)布了 Gemini 3.1 Flash-Lite，宣稱這是 Gemini 3 系列"速度最快、最具成本效益"的模型。

兩場發(fā)布，相差不到兩小時。

技術(shù)媒體在刷屏，X 上的 AI 博主在解讀基準(zhǔn)測試，開發(fā)者群里在討論 API 價格。與此同時，Reddit 上有人直接發(fā)帖：“GPT-5.3 is awful”，101 人點贊，好評率 98%。

這就是 2026 年 AI 圈的日常：發(fā)布密度比手機廠商還高，社區(qū)永遠(yuǎn)兩極分化，普通用戶被淹沒在一堆從沒聽說過的模型名字里。

但在吐槽之前，我們還是得先把事情講清楚——今天到底發(fā)了什么。

一、GPT-5.3 Instant：終于不說教了

OpenAI 這次發(fā)布，罕見地沒有端出一堆跑分圖表。官方博客的重點只有一個詞：tone（語氣）。

用 OpenAI 官方的說法，GPT-5.2 Instant 有時會"對本可以安全回答的問題拒絕作答"，在涉及敏感話題時"過于保守，帶著說教色彩"。就是那種你問它"幫我寫一段反派臺詞"，它先用三句話告訴你"暴力內(nèi)容可能……"然后再寫，或者干脆拒絕的感覺。

更多案例在這里查看：https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/

GPT-5.3 Instant 的主要改動有三點：

① 去掉"AI腔"式開場白。不再以"這是個很好的問題！""首先，我想提醒你……"等免責(zé)宣言開頭，能直接回答的就直接回答。減少了不必要的拒絕，削減了過度防御式的說教鋪墊。

② 幻覺率顯著下降。OpenAI 在醫(yī)療、法律、金融等高風(fēng)險領(lǐng)域做了內(nèi)部測試，聯(lián)網(wǎng)模式下幻覺率降低26.8%，僅依靠自身知識庫時降低19.7%。在基于用戶真實反饋的評估中，聯(lián)網(wǎng)下降 22.5%，非聯(lián)網(wǎng)下降 9.6%。這次沒有拿 benchmark 說話，而是用"真實對話中被用戶標(biāo)記為事實錯誤的樣本"做的測試，更接地氣。

③ 聯(lián)網(wǎng)搜索整合更聰明。以前的版本有時會把搜索結(jié)果直接堆砌出來，像個鏈接收集器。現(xiàn)在它能用自己的知識圖譜為實時信息提供背景，不再是"我?guī)湍闼训搅耍娜缦?。

GPT-5.3 Instant 即日起面向所有 ChatGPT 用戶開放，API 標(biāo)識符為 gpt-5.3-chat-latest。舊版 GPT-5.2 Instant 將保留至2026 年 6 月 3 日后退役。

再來個彩蛋：GPT-5.4即將到來。（評論區(qū)有說是明天）

二、Google 最近其實發(fā)了兩個模型

GPT-5.3 Instant 的聲量蓋住了 Google 這邊的動靜，但 Google 最近其實發(fā)了兩張牌。

這是這波升級的核心。Google 在發(fā)布時直接給出了一個震撼的數(shù)字：在 ARC-AGI-2 基準(zhǔn)測試中，Gemini 3.1 Pro 得分77.1%，而上一代 Gemini 3 Pro 只有31.1%——推理能力翻超兩倍。

ARC-AGI-2 不是知識型考題，考的是模型面對"從沒見過的邏輯模式"時能否推理出正確答案，是目前公認(rèn)最難刷分的測試之一。77.1% 是經(jīng)過 ARC Prize 官方驗證的數(shù)據(jù)。

其他核心指標(biāo)：

SWE-Bench Verified（代碼能力）：80.6%
Terminal-Bench 2.0：68.5%
在 16 項主流基準(zhǔn)測試中，Gemini 3.1 Pro 贏了 13 項（對比 GPT-5.2 和 Claude Opus 4.6）

模型現(xiàn)已面向開發(fā)者、企業(yè)和消費者全面鋪開，可通過 Gemini API、Vertex AI、AI Studio、Gemini Enterprise、NotebookLM 以及 Gemini CLI 訪問，消費端則需要 Google AI Pro 或 Ultra 訂閱。

第二張：Gemini 3.1 Flash-Lite（3月4日，今天）

定位完全不同：這是給開發(fā)者用的"量大管飽"版本。

核心參數(shù)：

輸出速度363 tokens/s，比 Gemini 2.5 Flash 快 45%
首字符響應(yīng)時間比 Gemini 2.5 Flash快 2.5 倍
支持最大 100 萬 token 輸入、6.4 萬 token 輸出
多模態(tài)：文本、圖像、視頻、音頻全支持
定價：輸入$0.25/百萬 tokens，輸出$1.50/百萬 tokens，約為 Pro 版的八分之一

GPQA Diamond 測試達到 86.9%，MMMU Pro 達到 76.8%，在多項指標(biāo)上超越了上一代 Gemini 2.5 Flash。

它還內(nèi)置了可調(diào)節(jié)的"思考層級（thinking levels）"——開發(fā)者可以根據(jù)任務(wù)復(fù)雜度自由控制模型的推理深度，高頻簡單任務(wù)省算力，復(fù)雜任務(wù)加預(yù)算，相當(dāng)實用。

三、但社區(qū)并不買賬

說完優(yōu)點，來說說用戶怎么看。

GPT-5.3 Instant 推送當(dāng)天，Reddit 上的 r/ChatGPTcomplaints 版塊迅速出現(xiàn)了一篇熱帖，標(biāo)題直接：“GPT-5.3 is awful”。帖子獲得 101 個點贊，好評率 98%，評論區(qū)清一色在罵。

原帖作者寫道：

“Arrogant: Often sounds like an annoying teacher correcting a student（傲慢：聽起來像個煩人的老師在糾正學(xué)生）。Condescending: Uses phrases like ‘take a breath, writer…’ in a patronizing tone（居高臨下：用’停一下，深呼吸，寫作者……'這種居高臨下的語氣）。”

評論區(qū)有人補刀：

“我真以為他們造不出比 5.2 更爛的模型了。結(jié)果 OpenAI 再次超越了我的預(yù)期。” “5.3 本質(zhì)上就是 5.2，沒用、有限制、情感操控，但是多加了一些 emoji。”

當(dāng)然，也有理性的聲音。一位用戶寫道：“回答確實更直接了，少了很多修飾語和限定詞，我覺得是有進步的。”

Hacker News 上的討論更有意思。一位自稱 OpenAI 員工的用戶親自下場回復(fù)，澄清了一個很多人不知道的事實：ChatGPT 后臺實際上運行的是兩個系列——Instant 系列（更快但更弱）和 Thinking 系列（更準(zhǔn)但更慢），系統(tǒng)會自動切換。

討論鏈接：https://news.ycombinator.com/item?id=47236169

然后就有另一個企業(yè)用戶回復(fù)說：

“我們公司用 ChatGPT Enterprise，每次有人抱怨效果差，回頭一查，全都是在用 Instant 模型。”

還有人一針見血：

“我感覺 OpenAI 又要回到 GPT-5 之前那個狀態(tài)了——一堆不同的選項，沒人知道該用哪個。”

四、模型命名，正在成為行業(yè)公害

這句話值得展開聊。

先來做個測試。請問以下這串名字，你能全部對上號嗎：

GPT-5 / GPT-5.1 / GPT-5.2 / GPT-5.2 Pro / GPT-5.2-Codex / GPT-5.3 Instant / GPT-5.3-Codex / GPT-5.3-Codex-Spark…… Gemini 3 / Gemini 3 Pro / Gemini 3 Deep Think / Gemini 3.1 Pro / Gemini 3.1 Flash-Lite / Gemini 3.1 Flash-Image……

順便提一句，Gemini 3 Pro Preview 將于3月9日正式下線，取而代之的是 Gemini 3.1 Pro——就在用戶剛剛搞清楚 3 和 3.1 的區(qū)別之前，F(xiàn)lash-Lite 又來了。

這還只是過去三個月內(nèi)的變化。

科技媒體 The Verge 有一篇文章，標(biāo)題用的是"Google’s AI product names are confusing as hell（Google 的 AI 產(chǎn)品名字亂得要命）"，文中直接用了"diabolical（魔鬼級混亂）"來形容 Google 的命名邏輯。文章里列出的一串名字讀起來像是在背咒語：Deep Think、Deep Search、AI Pro、AI Ultra、Gemini Live、Project Astra、Project Mariner、Veo、Flow、Lyria、Imagen……

Anthropic CEO Dario Amodei 曾在公開場合自嘲說：“我們可能在學(xué)會命名模型之前，就先造出 AGI 了。”

這句話是個玩笑，但背后的現(xiàn)實不好笑：普通用戶面對這張越來越密的模型矩陣，早已失去了辨別的動力。

五、這么頻繁發(fā)布，究竟是為了什么？

公平起見，我們不該只是嘲笑。

這種高頻迭代不是沒有原因的。Google 和 OpenAI 都清楚地知道對方在做什么——Gemini 3.1 Flash-Lite 發(fā)布兩小時內(nèi)，GPT-5.3 Instant 就上線了；GPT-5.3 Instant 推送當(dāng)天，GitHub 上已經(jīng)出現(xiàn)了 GPT-5.4 相關(guān)代碼的泄露痕跡。在這種實時博弈的節(jié)奏下，沒人敢停下來。

同時，這兩次發(fā)布也對應(yīng)著不同的競爭邏輯。

Google 用 Flash-Lite 打的是 B 端成本戰(zhàn)：$0.25 的輸入價格擺在那里，對于每天要跑數(shù)百萬次調(diào)用的開發(fā)者來說，這比性能分?jǐn)?shù)更有說服力。

OpenAI 用 GPT-5.3 打的是 C 端留存戰(zhàn)：就在發(fā)布前后，因為與美國軍方合作的風(fēng)波，網(wǎng)上正在蔓延一場運動，Anthropic 甚至趁勢推出了"一鍵遷移 ChatGPT 對話記錄"的服務(wù)。在這個時間節(jié)點優(yōu)化用戶體驗，有多少是技術(shù)驅(qū)動，有多少是公關(guān)救火，恐怕只有內(nèi)部人士才清楚。

但無論背后動機如何，頻繁發(fā)布本身開始變成一種信息噪音。

當(dāng)每次發(fā)布都叫"最強"“突破性”“全面領(lǐng)先”，當(dāng)版本號以小數(shù)點 0.1 的速度疊加，當(dāng)用戶連自己在用第幾代模型都說不清楚的時候——這場軍備競賽的受益者，可能已經(jīng)不是用戶了。

結(jié)語

今天兩家公司的發(fā)布，有真進步，也有真問題。

GPT-5.3 Instant 在體驗層上做了有意義的改進，幻覺率下降的數(shù)據(jù)如果屬實，對實際使用是有價值的；Gemini 3.1 Flash-Lite 的價格策略很有攻擊性，對開發(fā)者生態(tài)的影響會慢慢顯現(xiàn)。

但我們也應(yīng)該正視：當(dāng)"發(fā)布新模型"本身成為一種競爭信號，而不只是技術(shù)成熟的標(biāo)志時，這個行業(yè)的敘事節(jié)奏已經(jīng)跑偏了一點。

你現(xiàn)在打開 ChatGPT，用的是 Instant 還是 Thinking？你上次問 Gemini 問題，用的是 3 還是 3.1？

大概率，你也不確定。

整理：周華香

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.