這周 OpenAI 打了一套密集到離譜的組合拳——4天4個重磅發布
模型、應用、桌面端、企業工具全面鋪開,看得人目不暇接
一、GPT-5.3 Instant:不"cringe"了
3月3日上線,替代 GPT-5.2 Instant 成為 ChatGPT 的默認日常模型。
這次改了什么?一句話:說人話了。
之前的 GPT-5.2 Instant 有個毛病——動不動就來一句"讓我們停下來,深呼吸",或者在你問個正常問題時給你貼一堆免責聲明。用戶吐槽這叫"cringe"(尬),OpenAI 這次直接把這個當核心問題來修。
關鍵數據:
高風險領域(醫療、法律、金融)幻覺率降低 **26.8%**(聯網模式)
用戶反饋場景幻覺率降低 **22.5%**(聯網模式)
大幅削減不必要的拒答和說教式開場白
寫作能力也有提升,小說、潤色這些創意場景更好用了
3月4日,Codex 桌面應用正式上線 Windows
之前只有 macOS 版,上線第一周下載量就破了100萬,目前周活160萬
50萬人排隊等 Windows 版,這次終于來了。
核心亮點:
原生沙盒:和微軟合作打造,操作系統級隔離,不需要退回 WSL 或虛擬機。沙盒已開源
多智能體并行:多個 Agent 同時跑,各自在獨立工作樹里干活,互不沖突
技能系統(Skills):把 Figma 設計稿轉代碼、Linear 項目管理、一鍵部署到 Cloudflare/Vercel,甚至用 GPT 圖像生成做游戲素材——全打包成可復用的技能包
自動化:設好時間表,Agent 在后臺自動跑 bug 分流、CI 總結、發布簡報
IDE 支持:新增 Visual Studio、Rider、PhpStorm、Git Bash、GitHub Desktop、Sublime Text
有個演示案例挺瘋的:僅憑一個初始提示,Agent 獨立消耗超過700萬個 Token構建了一款賽車游戲。
定價:ChatGPT Free 用戶也能試用。付費用戶在4月2日前速率額度翻倍。不過說實話,AI 編程 Agent 吃 Token 的速度,Plus 的額度可能撐不了多久。
三、ChatGPT for Excel:AI 進入金融腹地
同一天,OpenAI 放出了 ChatGPT for Excel(Beta),直接把 ChatGPT 嵌入到 Excel 工作簿里。
這不是那種幫你寫個 VLOOKUP 的簡單助手。它能:
自然語言建模:你說"幫我做一個三年期的 DCF 估值模型",它直接在工作簿里建
跨工作簿推理:理解 Sheet 之間的公式關聯,追蹤假設如何在模型中流動
透明可審計:每一步操作都解釋在做什么,鏈接到具體單元格,修改前請求許可
配套的金融數據集成更猛:FactSet、Moody's、MSCI、S&P Global、Dow Jones Factiva全接進來了。咨詢合作伙伴包括麥肯錫、貝恩、BCG、埃森哲、普華永道。
在內部投行基準測試上,模型從 GPT-5 的 43.7% 飆到 GPT-5.4 Thinking 的 **87.3%**。這意味著初級分析師的電子表格建模工作,AI 已經能做到接近九成的水平。
目前限美國、加拿大、澳大利亞的 Business/Enterprise/Pro/Plus 用戶
Google Sheets 版即將推出
四、GPT-5.4:真正的重頭戲
3月5日,GPT-5.4 正式發布
這是 OpenAI 目前最強的模型,也是這波密集發布的壓軸
一句話概括:編碼能力 + 推理能力 + 計算機操控,三合一。
核心升級
100萬 Token 上下文窗口:API 版本支持最高 1M tokens,OpenAI 有史以來最大
原生 Computer Use:能通過 Playwright 寫代碼操控電腦,也能看截圖發鼠標鍵盤指令。這是 OpenAI 第一次在通用模型里做原生計算機操控
Tool Search:不再把所有工具定義都塞進提示詞,按需查找。在 Scale MCP Atlas 基準上減少47% token 用量,準確率不變
事實準確性:單條錯誤降低 33%,完整回復含錯誤降低 18%
基準
GPT-5.4
GPT-5.2
OSWorld(計算機操控)
75.0%
47.3%
人類表現 72.4%,GPT-5.4 超越人類
GDPval(知識工作)
83.0%
70.9%
在44個職業中匹配/超過行業專家
ARC-AGI-2(抽象推理)
73.3%
52.9%
+20.4%
BrowseComp(網絡搜索)
82.7%
65.8%
Pro版達到 89.3%
IB 建模(投行任務)
87.3%
68.4%
+18.9%
SWE-Bench Pro(編碼)
57.7%
55.6%
整合了 5.3-Codex 的編碼能力
MMMU Pro(視覺理解)
81.2%
79.5%
超過 Gemini 3.1 Pro 的 80.5%
OSWorld 超越人類表現這個事,我覺得是這次發布最值得關注的數據點。計算機操控這個領域,從"能用"到"超過人",GPT-5.4 邁了一大步。
定價
模型
輸入
輸出
gpt-5.4
$2.50/M tokens
$15/M tokens
gpt-5.4-pro
$30/M tokens
$180/M tokens
比 GPT-5.2 貴了一點點(輸入 2.50),但考慮到 token 效率提升,實際成本可能差不多。
安全評估
OpenAI 同步發布了詳細的安全評估報告。幾個值得關注的點:
網絡安全能力被評為 High:這是第一個部署了 High 級別網絡安全緩解措施的通用模型
生物/化學能力也是 High:超過中位數專家基準
思維鏈可監控性在下降:這被標記為需要持續關注的脆弱性
思維鏈可控性仍然很低:模型很難故意混淆自己的推理過程,對安全而言是好事
說完產品,聊聊背景。
根據36氪報道,Anthropic(Claude)的年化收入已接近200億美元,兩周內增長50億。Claude Code 單產品年化收入突破25億美元。更夸張的是,2026年2月 Anthropic 在美國市場份額飆升至近 70%,OpenAI 降到約 30%。一年前這個比例還是反的。
API 花費方面,Anthropic 占據90%份額。全球 GitHub 上4%的公開代碼提交由 Claude Code 生成。
所以你能理解 OpenAI 為什么一周四連發了——市場份額在流失,必須快速刷存在感。GPT-5.4 + Codex 桌面端 + Excel 插件 + 金融數據生態,這套組合拳打的就是"從模型到應用到生態"的全棧覆蓋。
有意思的是,與此同時 Anthropic 因為堅持 AI 安全準則被美國國防部封殺,被定性為"供應鏈風險"。OpenAI 則迅速填補了這個缺口。全球已有約250萬人加入了 QuitGPT 抵制運動,社交媒體相關帖子播放量突破3600萬。奧特曼自己都承認"吃相難看"。
一邊是產品力的狂飆,一邊是輿論場的反噬。2026年的 AI 競爭,比以往任何時候都更像一場多維度的戰爭。
總結
這周 OpenAI 的發布密度確實罕見。簡單排個優先級:
最該關注的:GPT-5.4 的 Computer Use 能力和 1M 上下文,這代表下一代 AI Agent 的基礎設施
最實用的:Codex Windows 客戶端,如果你是 Windows 開發者,現在就可以用了
最有想象力的:ChatGPT for Excel + 金融數據集成,這是 AI 深入垂直行業的信號
最被低估的:GPT-5.3 Instant 的"反cringe"更新,日常使用體驗提升明顯
OpenAI 能不能靠這波追回來?還是說 Claude 的勢頭已經不可逆?我覺得短期看產品力,長期看生態。這場仗,遠沒打完。
.4
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.