網易首頁 > 網易號 > 正文申請入駐

ChatGPT-5.4發布：和OpenClaw兼容，AI第一次比人類更會操作電腦

2026-03-06 10:47:43　來源: DeepTech深科技

北京舉報

分享至

自從各大模型廠商開始以 0.1 的小版本更新模型后，模型更新的頻率越來越快了，3 月 5 日，就在 GPT-5.3 Instant 剛更新完畢后兩天，GPT-5.4 也來了。

這款模型被 OpenAI 定位為“面向專業工作的最強前沿模型”。它以 GPT-5.4 Thinking 的形式進入 ChatGPT，同時上線 API 和代碼開發平臺 Codex。此外還有一個 GPT-5.4 Pro 版本，面向需要極致復雜任務性能的用戶，僅對 ChatGPT Pro（月費 200 美元）和 Enterprise 訂閱者開放。Plus 用戶可以使用 GPT-5.4 Thinking，免費用戶則只能在系統自動路由時偶爾被分配到該模型。

（來源：OpenAI）

GPT-5.4 在 API 和 Codex 中支持最高 100 萬 token（標記）的上下文窗口（Context Window，即模型單次處理文本的長度上限），這是目前 OpenAI 提供的最大上下文窗口。不過超過 272,000 token 的請求，輸入價格翻倍、輸出加收 50%。標準輸入單價從 GPT-5.2 時代的每百萬 token 1.75 美元漲到了 2.50 美元，漲幅 43%。

OpenAI 給出的解釋是，模型能力更強，研究投入更大，同時推理效率更高——用更少的 token 解決同樣的問題，所以總成本未必上升。作為參考，Anthropic 的 Claude Opus 4.6 輸入價格是每百萬 token 5 美元，輸出 25 美元，GPT-5.4 Pro 的定價實際上還要更貴。

（來源：OpenAI）

跑分方面，在 OSWorld-Verified 基準測試中，GPT-5.4 的成功率達到 75.0%，遠超 GPT-5.2 的 47.3%，也超過了該測試報告的人類表現 72.4%。在 OpenAI 的官方演示中，通過 Playwright Interactive（一種瀏覽器自動化工具）與圖像生成結合，僅憑單條提示詞就構建出了一個主題樂園模擬游戲，涵蓋瓦片路徑布置、游樂設施建造、游客路徑尋路和實時公園指標。

在 BrowseComp（衡量 AI 代理在網頁上持續檢索難以定位信息的能力）上，GPT-5.4 比 GPT-5.2 提升了 17 個百分點，Pro 版本達到 89.3%。OpenAI 自己的 GDPval 測試（覆蓋美國 GDP 貢獻最大的 9 個行業、44 種職業的知識工作任務）給出了 83% 的得分，意味著在這些任務上模型的表現達到或超過了行業從業者水平。

在電子表格建模任務中，得分從 GPT-5.2 的 68.4% 跳到了 87.3%；人類評審者在 68% 的情況下更偏好 GPT-5.4 生成的演示文稿。

（來源：OpenAI）

這些數字背后有一個關鍵能力：原生計算機使用（Native Computer Use）。GPT-5.4 是 OpenAI 發布的第一個內置原生計算機操控能力的通用模型，可以通過編寫代碼（比如使用 Playwright 庫）來操控計算機，也可以直接根據屏幕截圖發出鼠標和鍵盤指令。這讓它能夠在軟件環境中執行“構建 - 運行 - 驗證 - 修復”的循環，完成需要跨多個應用的多步驟工作流。

另一個對開發者影響較大的新特性是 Tool Search（工具搜索）。過去，在 API 中使用工具時，所有工具的定義需要一次性塞進提示詞里，隨著工具越來越多，這造成了巨大的 token 開銷和上下文污染。GPT-5.4 引入了一個結構性的優化：模型只接收一個輕量級工具列表，需要用到某個工具時再動態檢索其完整定義。

在 Scale 公司的 MCP Atlas 基準測試中，使用 36 個 MCP 服務器執行 250 項任務，工具搜索將 token 消耗降低了 47%，同時保持了準確率。對于構建大型智能體（Agent）系統的開發者來說，這直接意味著更低的成本和更快的響應。

幻覺（Hallucination，即模型編造事實）的改善也被重點提及。OpenAI 表示，GPT-5.4 在單條聲明中出錯的概率比 GPT-5.2 降低了 33%，整體回復包含錯誤的概率降低了 18%。

不過需要注意的是，在 HealthBench 醫療健康評測中，GPT-5.4 的得分是 62.6%，反而略低于 GPT-5.2 的 63.3%。模型回復的平均長度也更長了，從 GPT-5.2 的 2,676 字符增加到 3,311 字符。更長的回復有時候意味著更全面，也有時候意味著更啰嗦，用戶體驗如何還有待觀察。

在抽象推理方面，進步幅度較為顯著。ARC-AGI-2 從 52.9% 躍升至 73.3%，Pro 版本達到 83.3%。FrontierMath Tier 4（最高難度的數學推理測試）從 18.8% 提升至 27.1%，Pro 版本為 38.0%。

一些拿到早期測試權限的用戶已經在 X 上密集發布體驗報告。AI 創業者 Matt Shumer 稱自己測試 GPT-5.4 長達一周，認為其標準版配合深度思考模式的表現已經超過了此前其他模型的 Pro 版本，以至于他幾乎不再需要切換到 Pro 模式。

（來源：X）

其編碼能力尤其突出，Shumer 稱在 Codex 中使用 GPT-5.4 的可靠性極高，編碼問題“基本上已經被解決了”。Pro 版本則能攻克其他模型完全無法處理的難題，但對日常任務來說屬于“過剩火力”。而且的確和 OpenAI 官方宣稱的一樣，其標準思考版本使用的推理 token 比以前更少，響應速度明顯加快。

不過 Shumer 也指出了幾個短板：前端設計品味遠不如 Claude Opus 4.6 和 Gemini 3.1 Pro；模型有時候會忽略顯而易見的現實世界語境，比如為他規劃旅行行程時選了一堆春假期間會被游客擠爆的地點。在 OpenClaw 中測試 GPT-5.4 時，模型經常在任務完成之前就停下來。

OpenAI 同時宣布了一套面向金融行業的企業產品，核心是 ChatGPT for Excel 和 Google Sheets（測試版）。OpenAI 將其描述為 ChatGPT 直接嵌入電子表格，用于構建、分析和更新復雜的財務模型。

配套的還有與 FactSet、MSCI、Moody's 等金融數據提供商的集成，以及可復用的“Skills”（技能模板），用于盈利預覽、可比公司分析、DCF（折現現金流）分析等標準化金融工作。

在 OpenAI 內部的投資銀行基準測試中，GPT-5.4 Thinking 的表現從 GPT-5 時代的 43.7% 提升到了 88.0%。這組產品的對手毫無疑問是 Anthropic 剛推出的 Cowork 桌面工具和 Claude 的文件管理能力，以及 Google 在 Workspace 中持續深入的 AI 集成。

綜合來看，GPT-5.4 稱得上是一種在多個維度上的整合性進步。原生計算機操控、工具搜索、更大的上下文窗口、更強的推理能力，這些合在一起構成了一個更完整的“AI 工作助手”，也為 OpenClaw 這類智能體框架提供了更強的底層引擎。

日常聊天和寫郵件的改進可能體現在細節上，真正能感受到跨代差異的，是那些用 AI 做 PPT、建財務模型、在 Codex 里跑自動化流程的重度用戶，以及正在把 OpenClaw 當成個人數字助手的那批早期采納者。

參考資料：

1.https://openai.com/index/introducing-gpt-5-4/

2.https://x.com/mattshumer_/status/2029620518249508950

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.