網易首頁 > 網易號 > 正文申請入駐

OpenAI最強模型GPT-5.4重磅發布首次支持原生操控電腦超越人類

2026-03-06 07:18:08　來源: 快科技

河南舉報

分享至

快科技3月6日消息，今日，OpenAI正式發布全新大模型GPT-5.4，號稱目前能力最強、效率最高的專業工作前沿模型。

相比此前的GPT-5.2，GPT-5.4在推理能力、編程能力以及處理專業辦公任務方面都有明顯提升，尤其是在電子表格、PPT等復雜辦公場景中的表現更加出色。

此次更新帶來了兩個版本：更擅長復雜推理任務的GPT-5.4 Thinking，以及性能更強、面向企業高端需求的GPT-5.4 Pro。

其中，GPT-5.4 Thinking主要提供給付費用戶使用，而GPT-5.4 Pro則針對企業級客戶。

GPT-5.4最大亮點之一是OpenAI首次在通用模型中引入原生電腦操控能力。

模型不僅可以生成文本或代碼，還能根據屏幕截圖直接操作電腦軟件、瀏覽網頁，并通過控制鼠標和鍵盤完成任務，同時還可與電子表格、金融分析工具等企業應用進行深度整合。

在計算機操控基準測試OSWorld-Verified中，GPT-5.4取得了75.0%的任務成功率，超過人類平均水平72.4%，相較GPT-5.2的47.3%實現了大幅提升。

編程能力方面，在Codex開啟快速模式后，GPT-5.4的token生成速度可提升約1.5倍，大幅提高代碼編寫和調試效率。

據了解，GPT-5.4在API及Codex可同時支持最高100萬token的上下文窗口，是OpenAI迄今提供的最大上下文容量，適合跨步驟長鏈路任務的規劃、執行與驗證。

價格方面，API接口中GPT-5.4的單token定價較GPT-5.2略有上漲：每百萬輸入token為2.5美元，輸出token為15美元。

至于更高性能的GPT-5.4 Pro，每百萬輸入token價格為30美元，輸出token價格為180美元。

不過，由于token效率提升，許多任務的總成本反而會降低。

目前，GPT-5.4 Thinking已向Plus、Team以及Pro訂閱用戶開放，并取代此前的GPT-5.2 Thinking。

GPT-5.2 Thinking則計劃于2026年6月5日正式下線。

相關報道：OpenAI GPT-5.4發布：編碼超越前代，知識工作接近人類專家水平

IT之家3月6日消息，OpenAI 今日正式發布了 GPT-5.4系列模型，包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本，以及面向復雜任務的 GPT-5.4 Pro 版本。

這是 OpenAI 首次將前沿推理、編碼和智能體能力整合至單一模型中，旨在提升專業工作的效率和準確性。

核心功能升級

在 ChatGPT 中，GPT-5.4 Thinking 新增“思考過程預覽”功能，模型會在處理復雜查詢時預先展示其推理思路，用戶可在模型響應過程中實時調整方向，從而減少來回溝通，更快獲得符合需求的結果。IT之家從官方獲悉，該功能已在網頁版和 Android 應用上線，iOS 版本即將推出。

新模型還增強了深度網絡研究能力，特別是在處理高度具體的查詢時，能夠更好地保持長上下文連貫性。對于需要較長時間思考的問題，GPT-5.4 Thinking 可維持對對話前序步驟的更強意識，確保答案在整個過程中保持相關性和連貫性。

在 Codex 和 API 層面，GPT-5.4是 OpenAI 首個具備原生計算機使用能力（computer-use capabilities）的通用模型，支持通過截圖和鍵盤鼠標指令操作計算機，完成跨應用的復雜工作流程。

GPT-5.4系列模型支持高達100萬 tokens 的上下文窗口，使智能體能夠規劃、執行和驗證長周期任務。

知識工作表現顯著提升

據介紹，GPT-5.4在專業工作領域實現了大幅突破。在 OpenAI 所測試的44個職業領域的 GDPval 基準中，GPT-5.4在83.0% 項目上可達到或超過行業專業水平，而前代 GPT-5.2為70.9%。

在內部投行級電子表格建模任務測試中，GPT-5.4的平均得分為87.3%，遠高于 GPT-5.2的68.4%。在演示文稿評估中，評審者更偏好 GPT-5.4生成的演示文稿（68.0% vs. GPT-5.2的32.0%），主要優勢在于更強的美學設計、更豐富的視覺變化以及更有效的圖像生成運用。

在減少錯誤方面，GPT-5.4已成為 OpenAI 迄今為止最“ factual”的模型。相比 GPT-5.2，其單個陳述的錯誤率降低33%，完整回答中出現任一錯誤的可能性降低18%。

計算機使用與視覺能力

GPT-5.4在計算機使用基準測試中表現優異。在 OSWorld-Verified 基準（通過截圖和鍵盤鼠標操作 PC 桌面環境）上，GPT-5.4實現了75.0% 的成功率，遠超 GPT-5.2的47.3%，甚至超過人類表現（72.4%）。

在 WebArena-Verified 瀏覽器使用測試中，GPT-5.4結合 DOM 和截圖驅動交互時成功率達67.3%（GPT-5.2為65.4%）；在 Online-Mind2Web 測試中，其僅憑觀察截圖即可實現92.8% 的成功率，顯著高于 ChatGPT Atlas 智能體模式的70.9%。

視覺感知能力方面，GPT-5.4在 MMMU-Pro 視覺理解與推理測試中取得81.2% 的成功率，優于 GPT-5.2的79.5%。在 OmniDocBench 文檔解析測試中，GPT-5.4的平均錯誤率降至0.109（GPT-5.2為0.140）。

編碼能力與工具生態

另外，GPT-5.4還融合了 GPT-5.3-Codex 的編碼優勢，在 SWE-Bench Pro 基準上與之持平或表現更優，同時延遲更低。Codex 中的“/fast”模式可提升1.5倍 token 速度，保持同等智能水平。

5.4新增的“工具搜索”（tool search）功能使該系列模型能夠高效處理各種工具。在 Scale 的 MCP Atlas 基準測試中，啟用工具搜索后，在保持相同準確率的前提下，其總 token 消耗量減少47%。同時，GPT-5.4在 Toolathlon 基準（測試智能體使用真實世界工具和 API 完成多步驟任務的能力）上，它也能用更少的交互輪次實現更高準確率。

同時，GPT-5.4網絡搜索能力也得到增強。在 BrowseComp 基準（測試智能體持續瀏覽網絡尋找難以定位信息的能力）上，GPT-5.4性能較 GPT-5.2提升了17個百分點，而 GPT-5.4 Pro 更是創下了89.3% 的新高。

安全性與可用性

OpenAI 表示，GPT-5.4延續了 GPT-5.3-Codex 的安全防護措施，并引入新的開源評估“CoT 可控性”（CoT controllability），測試發現 GPT-5.4 Thinking 控制其思維鏈的能力較低，這有利于安全監控。

在定價方面，GPT-5.4 API 的每 token 價格高于 GPT-5.2，但其更高的 token 效率可降低許多任務的總 token 消耗。批量處理（Batch）和 Flex 定價為標準 API 費率的一半，優先處理（Priority）為兩倍。

發布計劃

GPT-5.4 Thinking 即日起面向 ChatGPT Plus、Team 和 Pro 用戶開放，取代 GPT-5.2 Thinking。GPT-5.2 Thinking 將在模型選擇器的“遺留模型”部分保留三個月，直至2026年6月5日退役。Enterprise 和 Edu 計劃用戶可通過管理員設置啟用早期訪問。GPT-5.4 Pro 面向 Pro 和 Enterprise 計劃用戶開放。

在 API 中，GPT-5.4將以 gpt-5.4名稱提供支持，GPT-5.4 Pro 則以 gpt-5.4-pro 名稱提供給需要極致性能的開發者；Codex 中的 GPT-5.4支持1M 上下文窗口的實驗性功能。

OpenAI 表示，GPT-5.4是首個融合前沿編碼能力并在 ChatGPT、API 和 Codex 同步推出的主流推理模型，未來 Instant 模型和 Thinking 模型將以不同速度演進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.