ChatGPT-5.4發(fā)布：和OpenClaw兼容，AI第一次比人類更會操作電腦

2026-03-06 10:47:43　來源: DeepTech深科技

北京舉報(bào)

分享至

自從各大模型廠商開始以 0.1 的小版本更新模型后，模型更新的頻率越來越快了，3 月 5 日，就在 GPT-5.3 Instant 剛更新完畢后兩天，GPT-5.4 也來了。

這款模型被 OpenAI 定位為“面向?qū)I(yè)工作的最強(qiáng)前沿模型”。它以 GPT-5.4 Thinking 的形式進(jìn)入 ChatGPT，同時上線 API 和代碼開發(fā)平臺 Codex。此外還有一個 GPT-5.4 Pro 版本，面向需要極致復(fù)雜任務(wù)性能的用戶，僅對 ChatGPT Pro（月費(fèi) 200 美元）和 Enterprise 訂閱者開放。Plus 用戶可以使用 GPT-5.4 Thinking，免費(fèi)用戶則只能在系統(tǒng)自動路由時偶爾被分配到該模型。

（來源：OpenAI）

GPT-5.4 在 API 和 Codex 中支持最高 100 萬 token（標(biāo)記）的上下文窗口（Context Window，即模型單次處理文本的長度上限），這是目前 OpenAI 提供的最大上下文窗口。不過超過 272,000 token 的請求，輸入價格翻倍、輸出加收 50%。標(biāo)準(zhǔn)輸入單價從 GPT-5.2 時代的每百萬 token 1.75 美元漲到了 2.50 美元，漲幅 43%。

OpenAI 給出的解釋是，模型能力更強(qiáng)，研究投入更大，同時推理效率更高——用更少的 token 解決同樣的問題，所以總成本未必上升。作為參考，Anthropic 的 Claude Opus 4.6 輸入價格是每百萬 token 5 美元，輸出 25 美元，GPT-5.4 Pro 的定價實(shí)際上還要更貴。

（來源：OpenAI）

跑分方面，在 OSWorld-Verified 基準(zhǔn)測試中，GPT-5.4 的成功率達(dá)到 75.0%，遠(yuǎn)超 GPT-5.2 的 47.3%，也超過了該測試報(bào)告的人類表現(xiàn) 72.4%。在 OpenAI 的官方演示中，通過 Playwright Interactive（一種瀏覽器自動化工具）與圖像生成結(jié)合，僅憑單條提示詞就構(gòu)建出了一個主題樂園模擬游戲，涵蓋瓦片路徑布置、游樂設(shè)施建造、游客路徑尋路和實(shí)時公園指標(biāo)。

在 BrowseComp（衡量 AI 代理在網(wǎng)頁上持續(xù)檢索難以定位信息的能力）上，GPT-5.4 比 GPT-5.2 提升了 17 個百分點(diǎn)，Pro 版本達(dá)到 89.3%。OpenAI 自己的 GDPval 測試（覆蓋美國 GDP 貢獻(xiàn)最大的 9 個行業(yè)、44 種職業(yè)的知識工作任務(wù)）給出了 83% 的得分，意味著在這些任務(wù)上模型的表現(xiàn)達(dá)到或超過了行業(yè)從業(yè)者水平。

在電子表格建模任務(wù)中，得分從 GPT-5.2 的 68.4% 跳到了 87.3%；人類評審者在 68% 的情況下更偏好 GPT-5.4 生成的演示文稿。

（來源：OpenAI）

這些數(shù)字背后有一個關(guān)鍵能力：原生計(jì)算機(jī)使用（Native Computer Use）。GPT-5.4 是 OpenAI 發(fā)布的第一個內(nèi)置原生計(jì)算機(jī)操控能力的通用模型，可以通過編寫代碼（比如使用 Playwright 庫）來操控計(jì)算機(jī)，也可以直接根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤指令。這讓它能夠在軟件環(huán)境中執(zhí)行“構(gòu)建 - 運(yùn)行 - 驗(yàn)證 - 修復(fù)”的循環(huán)，完成需要跨多個應(yīng)用的多步驟工作流。

另一個對開發(fā)者影響較大的新特性是 Tool Search（工具搜索）。過去，在 API 中使用工具時，所有工具的定義需要一次性塞進(jìn)提示詞里，隨著工具越來越多，這造成了巨大的 token 開銷和上下文污染。GPT-5.4 引入了一個結(jié)構(gòu)性的優(yōu)化：模型只接收一個輕量級工具列表，需要用到某個工具時再動態(tài)檢索其完整定義。

在 Scale 公司的 MCP Atlas 基準(zhǔn)測試中，使用 36 個 MCP 服務(wù)器執(zhí)行 250 項(xiàng)任務(wù)，工具搜索將 token 消耗降低了 47%，同時保持了準(zhǔn)確率。對于構(gòu)建大型智能體（Agent）系統(tǒng)的開發(fā)者來說，這直接意味著更低的成本和更快的響應(yīng)。

幻覺（Hallucination，即模型編造事實(shí)）的改善也被重點(diǎn)提及。OpenAI 表示，GPT-5.4 在單條聲明中出錯的概率比 GPT-5.2 降低了 33%，整體回復(fù)包含錯誤的概率降低了 18%。

不過需要注意的是，在 HealthBench 醫(yī)療健康評測中，GPT-5.4 的得分是 62.6%，反而略低于 GPT-5.2 的 63.3%。模型回復(fù)的平均長度也更長了，從 GPT-5.2 的 2,676 字符增加到 3,311 字符。更長的回復(fù)有時候意味著更全面，也有時候意味著更啰嗦，用戶體驗(yàn)如何還有待觀察。

在抽象推理方面，進(jìn)步幅度較為顯著。ARC-AGI-2 從 52.9% 躍升至 73.3%，Pro 版本達(dá)到 83.3%。FrontierMath Tier 4（最高難度的數(shù)學(xué)推理測試）從 18.8% 提升至 27.1%，Pro 版本為 38.0%。

一些拿到早期測試權(quán)限的用戶已經(jīng)在 X 上密集發(fā)布體驗(yàn)報(bào)告。AI 創(chuàng)業(yè)者 Matt Shumer 稱自己測試 GPT-5.4 長達(dá)一周，認(rèn)為其標(biāo)準(zhǔn)版配合深度思考模式的表現(xiàn)已經(jīng)超過了此前其他模型的 Pro 版本，以至于他幾乎不再需要切換到 Pro 模式。

（來源：X）

其編碼能力尤其突出，Shumer 稱在 Codex 中使用 GPT-5.4 的可靠性極高，編碼問題“基本上已經(jīng)被解決了”。Pro 版本則能攻克其他模型完全無法處理的難題，但對日常任務(wù)來說屬于“過剩火力”。而且的確和 OpenAI 官方宣稱的一樣，其標(biāo)準(zhǔn)思考版本使用的推理 token 比以前更少，響應(yīng)速度明顯加快。

不過 Shumer 也指出了幾個短板：前端設(shè)計(jì)品味遠(yuǎn)不如 Claude Opus 4.6 和 Gemini 3.1 Pro；模型有時候會忽略顯而易見的現(xiàn)實(shí)世界語境，比如為他規(guī)劃旅行行程時選了一堆春假期間會被游客擠爆的地點(diǎn)。在 OpenClaw 中測試 GPT-5.4 時，模型經(jīng)常在任務(wù)完成之前就停下來。

OpenAI 同時宣布了一套面向金融行業(yè)的企業(yè)產(chǎn)品，核心是 ChatGPT for Excel 和 Google Sheets（測試版）。OpenAI 將其描述為 ChatGPT 直接嵌入電子表格，用于構(gòu)建、分析和更新復(fù)雜的財(cái)務(wù)模型。

配套的還有與 FactSet、MSCI、Moody's 等金融數(shù)據(jù)提供商的集成，以及可復(fù)用的“Skills”（技能模板），用于盈利預(yù)覽、可比公司分析、DCF（折現(xiàn)現(xiàn)金流）分析等標(biāo)準(zhǔn)化金融工作。

在 OpenAI 內(nèi)部的投資銀行基準(zhǔn)測試中，GPT-5.4 Thinking 的表現(xiàn)從 GPT-5 時代的 43.7% 提升到了 88.0%。這組產(chǎn)品的對手毫無疑問是 Anthropic 剛推出的 Cowork 桌面工具和 Claude 的文件管理能力，以及 Google 在 Workspace 中持續(xù)深入的 AI 集成。

綜合來看，GPT-5.4 稱得上是一種在多個維度上的整合性進(jìn)步。原生計(jì)算機(jī)操控、工具搜索、更大的上下文窗口、更強(qiáng)的推理能力，這些合在一起構(gòu)成了一個更完整的“AI 工作助手”，也為 OpenClaw 這類智能體框架提供了更強(qiáng)的底層引擎。

日常聊天和寫郵件的改進(jìn)可能體現(xiàn)在細(xì)節(jié)上，真正能感受到跨代差異的，是那些用 AI 做 PPT、建財(cái)務(wù)模型、在 Codex 里跑自動化流程的重度用戶，以及正在把 OpenClaw 當(dāng)成個人數(shù)字助手的那批早期采納者。

參考資料：

1.https://openai.com/index/introducing-gpt-5-4/

2.https://x.com/mattshumer_/status/2029620518249508950

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.