網易首頁 > 網易號 > 正文申請入駐

OpenAI一周四連發

2026-03-06 13:42:26　來源: Ai學習的老章

北京舉報

分享至

這周 OpenAI 打了一套密集到離譜的組合拳——4天4個重磅發布

模型、應用、桌面端、企業工具全面鋪開，看得人目不暇接

一、GPT-5.3 Instant：不"cringe"了

3月3日上線，替代 GPT-5.2 Instant 成為 ChatGPT 的默認日常模型。

這次改了什么？一句話：說人話了。

之前的 GPT-5.2 Instant 有個毛病——動不動就來一句"讓我們停下來，深呼吸"，或者在你問個正常問題時給你貼一堆免責聲明。用戶吐槽這叫"cringe"（尬），OpenAI 這次直接把這個當核心問題來修。

關鍵數據：

高風險領域（醫療、法律、金融）幻覺率降低 **26.8%**（聯網模式）
用戶反饋場景幻覺率降低 **22.5%**（聯網模式）
大幅削減不必要的拒答和說教式開場白
寫作能力也有提升，小說、潤色這些創意場景更好用了

二、Codex 登陸 Windows：50萬人等的那個

3月4日，Codex 桌面應用正式上線 Windows

之前只有 macOS 版，上線第一周下載量就破了100萬，目前周活160萬

50萬人排隊等 Windows 版，這次終于來了。

核心亮點：

原生沙盒：和微軟合作打造，操作系統級隔離，不需要退回 WSL 或虛擬機。沙盒已開源
多智能體并行：多個 Agent 同時跑，各自在獨立工作樹里干活，互不沖突
技能系統（Skills）：把 Figma 設計稿轉代碼、Linear 項目管理、一鍵部署到 Cloudflare/Vercel，甚至用 GPT 圖像生成做游戲素材——全打包成可復用的技能包
自動化：設好時間表，Agent 在后臺自動跑 bug 分流、CI 總結、發布簡報
IDE 支持：新增 Visual Studio、Rider、PhpStorm、Git Bash、GitHub Desktop、Sublime Text

有個演示案例挺瘋的：僅憑一個初始提示，Agent 獨立消耗超過700萬個 Token構建了一款賽車游戲。

定價：ChatGPT Free 用戶也能試用。付費用戶在4月2日前速率額度翻倍。不過說實話，AI 編程 Agent 吃 Token 的速度，Plus 的額度可能撐不了多久。

三、ChatGPT for Excel：AI 進入金融腹地

同一天，OpenAI 放出了 ChatGPT for Excel（Beta），直接把 ChatGPT 嵌入到 Excel 工作簿里。

這不是那種幫你寫個 VLOOKUP 的簡單助手。它能：

自然語言建模：你說"幫我做一個三年期的 DCF 估值模型"，它直接在工作簿里建
跨工作簿推理：理解 Sheet 之間的公式關聯，追蹤假設如何在模型中流動
透明可審計：每一步操作都解釋在做什么，鏈接到具體單元格，修改前請求許可

ChatGPT for Excel 界面

配套的金融數據集成更猛：FactSet、Moody's、MSCI、S&P Global、Dow Jones Factiva全接進來了。咨詢合作伙伴包括麥肯錫、貝恩、BCG、埃森哲、普華永道。

在內部投行基準測試上，模型從 GPT-5 的 43.7% 飆到 GPT-5.4 Thinking 的 **87.3%**。這意味著初級分析師的電子表格建模工作，AI 已經能做到接近九成的水平。

目前限美國、加拿大、澳大利亞的 Business/Enterprise/Pro/Plus 用戶

Google Sheets 版即將推出

四、GPT-5.4：真正的重頭戲

3月5日，GPT-5.4 正式發布

這是 OpenAI 目前最強的模型，也是這波密集發布的壓軸

一句話概括：編碼能力 + 推理能力 + 計算機操控，三合一。

核心升級

100萬 Token 上下文窗口：API 版本支持最高 1M tokens，OpenAI 有史以來最大
原生 Computer Use：能通過 Playwright 寫代碼操控電腦，也能看截圖發鼠標鍵盤指令。這是 OpenAI 第一次在通用模型里做原生計算機操控
Tool Search：不再把所有工具定義都塞進提示詞，按需查找。在 Scale MCP Atlas 基準上減少47% token 用量，準確率不變
事實準確性：單條錯誤降低 33%，完整回復含錯誤降低 18%

Benchmark 炸場

基準

GPT-5.4

GPT-5.2

OSWorld（計算機操控）

75.0%

47.3%

人類表現 72.4%，GPT-5.4 超越人類

GDPval（知識工作）

83.0%

70.9%

在44個職業中匹配/超過行業專家

ARC-AGI-2（抽象推理）

73.3%

52.9%

+20.4%

BrowseComp（網絡搜索）

82.7%

65.8%

Pro版達到 89.3%

IB 建模（投行任務）

87.3%

68.4%

+18.9%

SWE-Bench Pro（編碼）

57.7%

55.6%

整合了 5.3-Codex 的編碼能力

MMMU Pro（視覺理解）

81.2%

79.5%

超過 Gemini 3.1 Pro 的 80.5%

OSWorld 超越人類表現這個事，我覺得是這次發布最值得關注的數據點。計算機操控這個領域，從"能用"到"超過人"，GPT-5.4 邁了一大步。

定價

模型

輸入

輸出

gpt-5.4

$2.50/M tokens

$15/M tokens

gpt-5.4-pro

$30/M tokens

$180/M tokens

比 GPT-5.2 貴了一點點（輸入 2.50），但考慮到 token 效率提升，實際成本可能差不多。

安全評估

OpenAI 同步發布了詳細的安全評估報告。幾個值得關注的點：

網絡安全能力被評為 High：這是第一個部署了 High 級別網絡安全緩解措施的通用模型
生物/化學能力也是 High：超過中位數專家基準
思維鏈可監控性在下降：這被標記為需要持續關注的脆弱性
思維鏈可控性仍然很低：模型很難故意混淆自己的推理過程，對安全而言是好事

背景：為什么這么急？

說完產品，聊聊背景。

根據36氪報道，Anthropic（Claude）的年化收入已接近200億美元，兩周內增長50億。Claude Code 單產品年化收入突破25億美元。更夸張的是，2026年2月 Anthropic 在美國市場份額飆升至近 70%，OpenAI 降到約 30%。一年前這個比例還是反的。

API 花費方面，Anthropic 占據90%份額。全球 GitHub 上4%的公開代碼提交由 Claude Code 生成。

所以你能理解 OpenAI 為什么一周四連發了——市場份額在流失，必須快速刷存在感。GPT-5.4 + Codex 桌面端 + Excel 插件 + 金融數據生態，這套組合拳打的就是"從模型到應用到生態"的全棧覆蓋。

有意思的是，與此同時 Anthropic 因為堅持 AI 安全準則被美國國防部封殺，被定性為"供應鏈風險"。OpenAI 則迅速填補了這個缺口。全球已有約250萬人加入了 QuitGPT 抵制運動，社交媒體相關帖子播放量突破3600萬。奧特曼自己都承認"吃相難看"。

一邊是產品力的狂飆，一邊是輿論場的反噬。2026年的 AI 競爭，比以往任何時候都更像一場多維度的戰爭。

總結

這周 OpenAI 的發布密度確實罕見。簡單排個優先級：

最該關注的：GPT-5.4 的 Computer Use 能力和 1M 上下文，這代表下一代 AI Agent 的基礎設施
最實用的：Codex Windows 客戶端，如果你是 Windows 開發者，現在就可以用了
最有想象力的：ChatGPT for Excel + 金融數據集成，這是 AI 深入垂直行業的信號
最被低估的：GPT-5.3 Instant 的"反cringe"更新，日常使用體驗提升明顯

OpenAI 能不能靠這波追回來？還是說 Claude 的勢頭已經不可逆？我覺得短期看產品力，長期看生態。這場仗，遠沒打完。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.