快科技3月6日消息,今日,OpenAI正式發布全新大模型GPT-5.4,號稱目前能力最強、效率最高的專業工作前沿模型。
相比此前的GPT-5.2,GPT-5.4在推理能力、編程能力以及處理專業辦公任務方面都有明顯提升,尤其是在電子表格、PPT等復雜辦公場景中的表現更加出色。
此次更新帶來了兩個版本:更擅長復雜推理任務的GPT-5.4 Thinking,以及性能更強、面向企業高端需求的GPT-5.4 Pro。
其中,GPT-5.4 Thinking主要提供給付費用戶使用,而GPT-5.4 Pro則針對企業級客戶。
GPT-5.4最大亮點之一是OpenAI首次在通用模型中引入原生電腦操控能力。
模型不僅可以生成文本或代碼,還能根據屏幕截圖直接操作電腦軟件、瀏覽網頁,并通過控制鼠標和鍵盤完成任務,同時還可與電子表格、金融分析工具等企業應用進行深度整合。
![]()
在計算機操控基準測試OSWorld-Verified中,GPT-5.4取得了75.0%的任務成功率,超過人類平均水平72.4%,相較GPT-5.2的47.3%實現了大幅提升。
編程能力方面,在Codex開啟快速模式后,GPT-5.4的token生成速度可提升約1.5倍,大幅提高代碼編寫和調試效率。
據了解,GPT-5.4在API及Codex可同時支持最高100萬token的上下文窗口,是OpenAI迄今提供的最大上下文容量,適合跨步驟長鏈路任務的規劃、執行與驗證。
價格方面,API接口中GPT-5.4的單token定價較GPT-5.2略有上漲:每百萬輸入token為2.5美元,輸出token為15美元。
至于更高性能的GPT-5.4 Pro,每百萬輸入token價格為30美元,輸出token價格為180美元。
不過,由于token效率提升,許多任務的總成本反而會降低。
![]()
目前,GPT-5.4 Thinking已向Plus、Team以及Pro訂閱用戶開放,并取代此前的GPT-5.2 Thinking。
GPT-5.2 Thinking則計劃于2026年6月5日正式下線。
![]()
相關報道:OpenAI GPT-5.4發布:編碼超越前代,知識工作接近人類專家水平
IT之家3月6日消息,OpenAI 今日正式發布了 GPT-5.4系列模型,包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本,以及面向復雜任務的 GPT-5.4 Pro 版本。
這是 OpenAI 首次將前沿推理、編碼和智能體能力整合至單一模型中,旨在提升專業工作的效率和準確性。
![]()
核心功能升級
在 ChatGPT 中,GPT-5.4 Thinking 新增“思考過程預覽”功能,模型會在處理復雜查詢時預先展示其推理思路,用戶可在模型響應過程中實時調整方向,從而減少來回溝通,更快獲得符合需求的結果。IT之家從官方獲悉,該功能已在網頁版和 Android 應用上線,iOS 版本即將推出。
![]()
新模型還增強了深度網絡研究能力,特別是在處理高度具體的查詢時,能夠更好地保持長上下文連貫性。對于需要較長時間思考的問題,GPT-5.4 Thinking 可維持對對話前序步驟的更強意識,確保答案在整個過程中保持相關性和連貫性。
在 Codex 和 API 層面,GPT-5.4是 OpenAI 首個具備原生計算機使用能力(computer-use capabilities)的通用模型,支持通過截圖和鍵盤鼠標指令操作計算機,完成跨應用的復雜工作流程。
GPT-5.4系列模型支持高達100萬 tokens 的上下文窗口,使智能體能夠規劃、執行和驗證長周期任務。
知識工作表現顯著提升
據介紹,GPT-5.4在專業工作領域實現了大幅突破。在 OpenAI 所測試的44個職業領域的 GDPval 基準中,GPT-5.4在83.0% 項目上可達到或超過行業專業水平,而前代 GPT-5.2為70.9%。
![]()
在內部投行級電子表格建模任務測試中,GPT-5.4的平均得分為87.3%,遠高于 GPT-5.2的68.4%。在演示文稿評估中,評審者更偏好 GPT-5.4生成的演示文稿(68.0% vs. GPT-5.2的32.0%),主要優勢在于更強的美學設計、更豐富的視覺變化以及更有效的圖像生成運用。
![]()
在減少錯誤方面,GPT-5.4已成為 OpenAI 迄今為止最“ factual”的模型。相比 GPT-5.2,其單個陳述的錯誤率降低33%,完整回答中出現任一錯誤的可能性降低18%。
計算機使用與視覺能力
GPT-5.4在計算機使用基準測試中表現優異。在 OSWorld-Verified 基準(通過截圖和鍵盤鼠標操作 PC 桌面環境)上,GPT-5.4實現了75.0% 的成功率,遠超 GPT-5.2的47.3%,甚至超過人類表現(72.4%)。
![]()
在 WebArena-Verified 瀏覽器使用測試中,GPT-5.4結合 DOM 和截圖驅動交互時成功率達67.3%(GPT-5.2為65.4%);在 Online-Mind2Web 測試中,其僅憑觀察截圖即可實現92.8% 的成功率,顯著高于 ChatGPT Atlas 智能體模式的70.9%。
![]()
視覺感知能力方面,GPT-5.4在 MMMU-Pro 視覺理解與推理測試中取得81.2% 的成功率,優于 GPT-5.2的79.5%。在 OmniDocBench 文檔解析測試中,GPT-5.4的平均錯誤率降至0.109(GPT-5.2為0.140)。
![]()
編碼能力與工具生態
另外,GPT-5.4還融合了 GPT-5.3-Codex 的編碼優勢,在 SWE-Bench Pro 基準上與之持平或表現更優,同時延遲更低。Codex 中的“/fast”模式可提升1.5倍 token 速度,保持同等智能水平。
![]()
5.4新增的“工具搜索”(tool search)功能使該系列模型能夠高效處理各種工具。在 Scale 的 MCP Atlas 基準測試中,啟用工具搜索后,在保持相同準確率的前提下,其總 token 消耗量減少47%。同時,GPT-5.4在 Toolathlon 基準(測試智能體使用真實世界工具和 API 完成多步驟任務的能力)上,它也能用更少的交互輪次實現更高準確率。
![]()
同時,GPT-5.4網絡搜索能力也得到增強。在 BrowseComp 基準(測試智能體持續瀏覽網絡尋找難以定位信息的能力)上,GPT-5.4性能較 GPT-5.2提升了17個百分點,而 GPT-5.4 Pro 更是創下了89.3% 的新高。
![]()
安全性與可用性
OpenAI 表示,GPT-5.4延續了 GPT-5.3-Codex 的安全防護措施,并引入新的開源評估“CoT 可控性”(CoT controllability),測試發現 GPT-5.4 Thinking 控制其思維鏈的能力較低,這有利于安全監控。
![]()
在定價方面,GPT-5.4 API 的每 token 價格高于 GPT-5.2,但其更高的 token 效率可降低許多任務的總 token 消耗。批量處理(Batch)和 Flex 定價為標準 API 費率的一半,優先處理(Priority)為兩倍。
發布計劃
GPT-5.4 Thinking 即日起面向 ChatGPT Plus、Team 和 Pro 用戶開放,取代 GPT-5.2 Thinking。GPT-5.2 Thinking 將在模型選擇器的“遺留模型”部分保留三個月,直至2026年6月5日退役。Enterprise 和 Edu 計劃用戶可通過管理員設置啟用早期訪問。GPT-5.4 Pro 面向 Pro 和 Enterprise 計劃用戶開放。
在 API 中,GPT-5.4將以 gpt-5.4名稱提供支持,GPT-5.4 Pro 則以 gpt-5.4-pro 名稱提供給需要極致性能的開發者;Codex 中的 GPT-5.4支持1M 上下文窗口的實驗性功能。
OpenAI 表示,GPT-5.4是首個融合前沿編碼能力并在 ChatGPT、API 和 Codex 同步推出的主流推理模型,未來 Instant 模型和 Thinking 模型將以不同速度演進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.