OpenClaw絕配！GPT-5.4問世，AI能力開始大一統(tǒng)，就是太貴

2026-03-06 12:00:27　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

周五凌晨，OpenAI 正式發(fā)布 GPT-5.4，引入了一種新模式：原生的計算機使用。

有意思的是，這次 GPT-5.4 的上新，恰好發(fā)生在知名開發(fā)者 Peter Steinberger 加入 OpenAI 不久之后。這很難不讓人猜測，Peter 的加入會對 OpenAI 在計算機使用和開發(fā)者工具方向上的布局產(chǎn)生多少影響。Peter 本人也進行了宣傳：

還有網(wǎng)友表示：GPT-5.4 的發(fā)布，到處都有 Peter Steinberger 的「爪印」！GPT-5.4 看起來就像是 OpenClaw 的架構(gòu)文檔被直接做成了一個前沿模型，而這一切發(fā)生在 Peter 加入 OpenAI 僅僅 3 周之后。該網(wǎng)友還進行了一些對比，比如以前所有工具定義都必須塞進 prompt 里，浪費成千上萬的 token，現(xiàn)在是 GPT-5.4 可以按需查找工具定義，token 使用量減少 47%。而 OpenClaw 從第一天起就通過描述匹配動態(tài)加載技能（skills）。

又比如，過去，模型本身并沒有原生能力去直接操作軟件或執(zhí)行完整的開發(fā)流程。而在 GPT-5.4 中，智能體已經(jīng)可以在不同應(yīng)用之間自動運行「構(gòu)建 → 運行 → 驗證 → 修復(fù)」的循環(huán)，實現(xiàn)較為完整的任務(wù)閉環(huán)。值得注意的是，這種工作模式與 OpenClaw 的設(shè)計非常相似。

而這些變化，也正好引出了 GPT-5.4 最核心的一點：原生計算機使用能力（Computer Use）。

新一代大模型在知識工作和網(wǎng)絡(luò)搜索方面表現(xiàn)更出色，具備原生的計算機使用能力。GPT-5.4 現(xiàn)在可以直接操作軟件、使用工具、瀏覽網(wǎng)頁、執(zhí)行工作流程，并規(guī)劃跨應(yīng)用程序的復(fù)雜任務(wù)，最多可處理 100 萬個上下文 token。

推理 + 編碼 + 智能體 + 計算機控制，全都融合在同一個前沿模型里。

目前，GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供，并正在 ChatGPT 中逐步推出（面向 ChatGPT Plus、Team 和 Pro 用戶開放），取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro（面向 Pro 和企業(yè)版用戶開放），其專為那些希望在復(fù)雜任務(wù)中實現(xiàn)極致性能的用戶設(shè)計。

在 API 中，GPT-5.4 的 token 價格高于 GPT-5.2，批量處理和靈活處理的價格為標(biāo)準(zhǔn) API 費率的一半，而優(yōu)先處理的價格為標(biāo)準(zhǔn) API 費率的兩倍。

在評測基準(zhǔn)上，GPT 5.4 Pro 以 38% 的成績輕松擊敗了最難的數(shù)學(xué)基準(zhǔn)測試 FrontierMath Tier 4—— 該基準(zhǔn)包含 50 道研究級別的數(shù)學(xué)題，數(shù)學(xué)家可能需要幾周時間才能解決。僅僅在一年前，最佳成績?yōu)?2% (o3) ，目前最佳的開源模型分?jǐn)?shù)為 4.2% (Kimi K2.5)。

作為通用模型，GPT-5.4 具備原生的計算機使用能力，這對于開發(fā)者和智能體而言是一次重大飛躍。

OpenAI 表示，新模型能在各種計算機工作負載下保持高性能。它非常擅長編寫代碼來操作計算機（例如通過 Playwright 等庫），也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。它的行為可以通過開發(fā)者消息進行控制，這意味著開發(fā)者可以根據(jù)特定用例調(diào)整其行為。開發(fā)者甚至可以通過指定自定義確認(rèn)策略來配置模型的安全行為，以適應(yīng)不同的風(fēng)險承受能力。

該模型的性能和靈活性體現(xiàn)在各項基準(zhǔn)測試中，在 OSWorld-Verified 測試中，該測試通過屏幕截圖和鍵盤 / 鼠標(biāo)操作來衡量模型在桌面環(huán)境中導(dǎo)航的能力，GPT-5.4 取得了 75.0% 的領(lǐng)先成功率，遠超 GPT-5.2 的 47.3%，也超越了人類的 72.4%。

在 GDPval 測試中，GPT-5.4 在 83.0% 的比較中達到或超過了行業(yè)專業(yè)人士的水平，而 GPT-5.2 的這一比例為 70.9%。

GPT-5.4 計算機性能的提升得益于其增強的通用視覺感知能力。在 MMMU-Pro 測試中，GPT-5.4 在不使用任何工具的情況下取得了 81.2% 的成功率，優(yōu)于 GPT-5.2 的 79.5%。

視覺感知能力的提升也體現(xiàn)在其文檔解析能力的增強上。在 OmniDocBench 測試中，GPT-5.4 在不使用任何推理工具的情況下，平均誤差為 0.109，優(yōu)于 GPT-5.2 的 0.140。

代碼生成方面，GPT-5.4 結(jié)合了 GPT-5.3-Codex 的編碼優(yōu)勢，并具備領(lǐng)先的知識處理和計算機使用能力，這在長時間運行的任務(wù)中尤為重要，因為模型可以利用工具、迭代并推進工作，從而減少人工干預(yù)。在 SWE-Bench Pro 測試中，GPT-5.4 的性能與 GPT-5.3-Codex 持平或更優(yōu)，同時在推理過程中延遲更低。

啟用 Codex 中的 /fast 模式后，GPT-5.4 的 token 處理速度最高可提升 1.5 倍。它采用的是相同的模型和智能，只是速度更快。這意味著用戶可以更流暢地完成編碼任務(wù)、迭代和調(diào)試，保持高效的工作流程。

使用 GPT-5.4 生成的 RPG 游戲，經(jīng)過多回合迭代開發(fā)。

根據(jù)一個簡單的提示，制作的金門大橋飛行體驗。

在 API 中，GPT-5.4 引入了工具搜索功能。這使得模型能夠在擁有眾多工具的情況下高效運行。

以前，當(dāng)給模型分配工具時，所有工具的定義都會預(yù)先包含在請求請求中。對于擁有大量工具的系統(tǒng)，這可能會在每個請求中增加數(shù)千甚至數(shù)萬 token，從而增加成本、降低響應(yīng)速度，并使上下文信息過于擁擠，而這些信息模型可能永遠不會用到。

通過工具搜索，GPT-5.4 會收到一個輕量級的可用工具列表以及相應(yīng)的工具搜索功能。當(dāng)模型需要使用某個工具時，它可以查找該工具的定義，并將其添加到當(dāng)前的對話中。

這種方法顯著減少了工具密集型工作流程所需的 token 數(shù)量。它還使智能體能夠可靠地與規(guī)模更大的工具生態(tài)系統(tǒng)協(xié)同工作。對于可能包含數(shù)萬個工具定義令牌的 MCP 服務(wù)器而言，效率提升可能非常顯著。

OpenAI 評估了 Scale 的 MCP Atlas 中的 250 項任務(wù)，工具搜索配置在保持相同準(zhǔn)確率的同時，將總 token 使用量減少了 47%。

GPT-5.4 改進了工具調(diào)用，使其在推理過程中（尤其是在 API 調(diào)用中）能夠更準(zhǔn)確、更高效地決定何時以及如何使用工具。與 GPT-5.2 相比，它在 Toolathlon 測試中以更少的回合數(shù)實現(xiàn)了更高的準(zhǔn)確率。

GPT-5.4 在自主網(wǎng)絡(luò)搜索方面也表現(xiàn)更佳。在 BrowseComp 測試中，GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 則達到了 89.3%，創(chuàng)下了新的最高水平。

這意味著 GPT-5.4 Thinking 更擅長回答需要整合網(wǎng)絡(luò)上多個信息源的問題。它可以更持久地進行多輪搜索，以識別最相關(guān)的信息源，尤其適用于「大海撈針」式的問題，并將它們綜合成清晰、論證充分的答案。

在 ChatGPT 中，GPT-5.4 Thinking 現(xiàn)在可以預(yù)先提供其思考計劃，你可以在它運行過程中隨時調(diào)整方向，最終無需額外迭代即可獲得更符合需求的答案。GPT-5.4 Thinking 還改進了深度網(wǎng)絡(luò)搜索，尤其是在處理高度具體的查詢時，同時能夠更好地保留需要長時間思考的問題的上下文信息。這些改進共同作用，意味著能夠更快地獲得更高質(zhì)量、更貼合當(dāng)前任務(wù)的答案。

在 Codex 和 API 中，GPT-5.4 是首個具備原生、最先進的計算機使用能力的通用模型，它使智能體能夠操作計算機并在各種應(yīng)用程序中執(zhí)行復(fù)雜的流程。GPT-5.4 還通過工具搜索功能改進了模型在大型工具和連接器生態(tài)系統(tǒng)中的運行方式，幫助智能體更高效地找到并使用合適的工具，同時又不犧牲智能水平。

GPT-5.4 也是目前 OpenAI token 效率最高的推理模型，與 GPT-5.2 相比，它解決問題所需的 token 數(shù)量顯著減少，這意味著更少的費用和更快的速度。

結(jié)合通用推理、編碼和專業(yè)知識工作的進步，GPT-5.4 能夠?qū)崿F(xiàn)更可靠的智能體、更快的開發(fā)者工作流程以及 ChatGPT、API 和 Codex 的更高質(zhì)量輸出。

OpenAI 重點提升了 GPT-5.4 創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。在一系列演示文稿評估提示中，由于 GPT-5.4 的演示文稿具有更強的美觀性、更豐富的視覺效果以及更高效的圖像生成功能，獲得了人類評分者的青睞。

OpenAI 研究科學(xué)家，德?lián)?AI Libratus 的發(fā)明者 Noam Brown 表示，GPT-5.4 在計算機應(yīng)用和經(jīng)濟價值任務(wù)（例如 GDPval）上已取得了巨大進步。鑒于此，科學(xué)家們認(rèn)為人工智能的發(fā)展前景廣闊，預(yù)計今年內(nèi) AI 能力將繼續(xù)大幅提升。

智力的指數(shù)增長還在繼續(xù)。有人表示，ChatGPT 很快就會比最好的咨詢公司、最好的投資銀行和最好的律師事務(wù)所都更出色。

最后，很多人已經(jīng)在使用 GPT-5.4 嘗試各種任務(wù)了，不知道新一代模型具體表現(xiàn)如何。

有人已經(jīng)認(rèn)為，GPT-5.4 Pro 達到了 AGI 級別的智能?，F(xiàn)在，你有什么 AGI 級別的問題要問嗎？

參考內(nèi)容：

https://openai.com/index/introducing-gpt-5-4/

https://openai.com/index/gpt-5-4-thinking-system-card/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.