網易首頁 > 網易號 > 正文申請入駐

GPT-5.4深夜登場！能操控電腦，編程超Opus 4.6，開發者直呼“離譜”

2026-03-06 08:54:12　來源: 智東西

北京舉報

分享至

智東西
編譯程茜
編輯李水青

智東西3月6日消息，今日凌晨，OpenAIGPT-5.4系列模型來了，ChatGPT、API和Codex同步上線，這是其首款具備原生、最先進計算機使用能力的通用模型。

根據OpenAI的官方測評結果，GPT-5.4在電腦操控、知識工作、工具使用等綜合任務上全面領先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等頂尖模型。

OpenAI聯合創始人、CEO薩姆·阿爾特曼（Sam Altman）在社交平臺X上稱，GPT-5.4在知識工作和網頁搜索方面做得更好。OpenAI高級研究科學家、德撲AI之父Noam Brown也發帖稱，GPT?5.4在電腦操控能力與具備經濟價值的任務上實現了巨大飛躍，他們看不到能力天花板，預計今年AI的整體性能仍將持續大幅提升。

GPT-5.4今天將逐步上線ChatGPT、Codex、API，但其思考模型僅正式向ChatGPT Plus、Team及Pro用戶開放，替代原有GPT?5.2思考模式。GPT?5.2思考模式將在模型選擇器的舊版模型專區為付費用戶再保留三個月，隨后將于2026年6月5日下線。

GPT-5.4 Pro適合需要在復雜任務中達到最大性能的開發者，將為Pro與企業版用戶提供。

定價方面，GPT-5.4的單token定價高于GPT?5.2，但OpenAI博客提到，它更高的token效率可降低多數任務的總token消耗量。

值得一提的是，Codex中的GPT?5.4已實驗性支持100萬上下文窗口，超出標準272K上下文窗口的請求，將按正常用量的2倍計入使用額度。此外，批量處理與彈性計費價格為標準API費率的一半，優先處理則為標準費率的2倍。

輸入價格，GPT-5.4相對GPT-5.2漲幅超過40%，輸出價格漲幅為7.14%。

參與早期測試的開發者、AI寫作助手公司HyperWrite CEO Matt Shumer對GPT-5.4開啟了夸夸夸模式，稱其是世界上最好的模型，并且相比Pro更常用GPT-5.4的標準版，編程能力好到離譜。

還有網友稱蘋果發了MacBook Neo，OpenAI轉頭就上線100萬token上下文+原生電腦操控，“筆記本正經歷存在主義危機”。但有開發者吐槽，GPT-5.4的價格太瘋狂了，完全沒法基于它做開發。

一、OpenAI首個能原生操作電腦的模型上線，token使用效率更高

GPT?5.4繼承了OpenAI近期在推理、代碼生成與智能體工作流領域的頂尖技術成果。

該模型繼承了GPT?5.3?Codex的編程能力，并優化了模型在各類工具、軟件環境及專業任務中的協同表現，涵蓋表格、演示文稿與文檔處理等場景。這使得GPT?5.4能夠精準、高效、可靠地完成復雜的實際工作，直接交付用戶想要的結果。

ChatGPT的推理模式中，GPT-5.4思考模式可以提前展示思考規劃，用戶可以在模型運行過程中調整方向，無需額外交互輪次，就能實現更符合需求的輸出。

面對更長、更復雜的查詢，ChatGPT中的GPT?5.4思考模式會先以一段前置說明來規劃解題步驟。用戶可以在回復過程中補充指令或調整方向，無需重新開始或多輪追問，就能引導模型得到你想要的精確結果。

針對復雜任務，該模型能進行更長時間的思考，同時更好地記住對話前期步驟。這使其能夠處理更長的工作流與更復雜的提示詞，并始終保持回答連貫、切題。

GPT?5.4思考模式增強了深度網絡檢索能力，尤其針對高度專業化的查詢，同時在需要更長思考過程的問題上更好地維持上下文連貫性。

在Codex和API中，GPT-5.4是OpenAI首個具備原生、最先進計算機使用能力的通用模型，使Agent可以操作計算機并執行跨應用的復雜工作流。

其支持100萬個token的上下文，允許Agent執行長時間的規劃、執行和驗證任務，其還能通過工作搜索提升模型在大型工具和連接器生態系統中的工作，幫Agent高效找到和使用工具。

GPT-5.4是OpenAI迄今為止最高效的token推理模型，相比GPT-5.2，新模型用的token數量明顯更少，從而能減少token使用并加快速度。

▲GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業任務上的性能對比表：

二、知識工作成果：PPT生成效果更強，單個錯誤出現概率降低33%

GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業任務上的性能對比表，

評估模型在真實經濟價值任務的GDPval測試上，大模型需在44個職業中產出規范的知識工作成果，GPT-5.4在83.0%的比較率下，其表現達到或超越了行業專業人士的水平，而GPT?5.2的這一比例為70.9%。

對于創建和編輯電子表格、PPT、文檔的任務，在一項模擬初級投行分析師所做的電子表格建模任務內部基準測試中，GPT?5.4的平均得分達到87.3%，GPT?5.2為68.4%。在一組PPT評估任務中，人類評審在68.0%的情況下更偏好GPT?5.4生成的演示文稿，原因是其美學表現更強、視覺形式更豐富，且圖像生成的運用更具效果。

在消除幻覺方面，OpenAI官方稱，OpenAI是其迄今事實準確性最高的模型：在一組用戶標記過事實錯誤的去標識化提示測試中，與GPT?5.2相比，GPT?5.4的單個事實陳述出現錯誤的概率降低了33%，整段回答包含任何錯誤的概率降低了18%。

三、計算機使用與視覺：操控電腦超人類水平，視覺輸入支持最高1024萬像素

GPT?5.4是OpenAI首款具備原生計算機操作能力的通用模型，OpenAI稱其是目前開發者構建可在各類網站與軟件系統中完成真實任務的智能體時，可選用的最佳模型。

該模型擅長通過Playwright等庫編寫控制計算機的代碼，也能根據截圖下達鼠標與鍵盤指令。模型行為可通過開發者指令靈活調控，開發者可根據具體場景調整其行為邏輯。開發者還能通過自定義確認策略，配置模型的安全行為，以適配不同的風險容忍等級。

GPT?5.4在各類計算機操作場景的基準測試中，成績相較前代模型都有所提升。在通過截圖與鍵鼠操作評估模型在桌面環境中的執行能力的OSWorld?Verified測試中，GPT?5.4的成功率達到75.0%，遠超GPT?5.2的47.3%，同時超過了人類水平的72.4%。

在測試瀏覽器使用能力的WebArena-Verified基準中，GPT?5.4在同時采用DOM與截圖交互時，成功率達到67.3%的，GPT?5.2為65.4%。

GPT?5.4更強的計算機操作能力，建立在模型通用視覺感知能力的提升之上。在測試模型視覺理解與推理能力的MMMU?Pro基準中，GPT?5.4在不使用工具的情況下達到81.2%的成功率，優于GPT?5.2的79.5%。

▲GPT?5.4解析瀏覽器界面截圖，并通過基于坐標的點擊操作與UI元素交互，完成發送郵件、創建日歷日程等任務

其視覺感知能力的提升也轉化為更出色的文檔解析能力。在OmniDocBench測試中，不啟用深度推理的GPT?5.4平均誤差為0.109，優于GPT?5.2的0.140。

OpenAI還針對高分辨率、信息密集型圖像優化了視覺理解能力，確保完整保真度。

從GPT?5.4開始，OpenAI將推出原始圖像輸入精度模式，支持最高1024萬像素或最大邊長6000像素（取較低值）的全保真感知；原有的高圖像輸入精度模式現已支持最高256萬像素或最大邊長2048像素。

在面向API用戶的早期測試中，研究人員觀察到，使用原始精度或高精度模式時，模型在定位能力、圖像理解與點擊準確率上均有顯著提升。

四、編程：表現超越GPT?5.3?Codex，token生成速度最高可提升1.5倍

GPT?5.4融合了GPT?5.3?Codex的代碼能力優勢，以及知識工作與計算機操作能力，這些能力在長時間運行的任務中尤為關鍵，模型可自主調用工具、迭代推進任務，大幅減少人工干預。

在SWE?Bench Pro測試中，GPT?5.4的表現持平甚至超越GPT?5.3?Codex，同時在各類推理任務中延遲更低。

在Codex中開啟/fast模式后，GPT?5.4的token生成速度最高可提升1.5倍。模型與智能水平保持不變，僅速度更快。這意味著用戶可以在編碼、迭代與調試過程中保持流暢狀態。

開發者可通過API的優先處理功能，以同等高速體驗使用GPT?5.4。

在評估和內部測試中，研究人員發現GPT-5.4在復雜的前端任務中表現出色，其美觀效果和功能性均優于我們之前發布的任何模型。

為展示模型計算機操作能力與代碼能力協同提升的效果，OpenAI還同步推出一項實驗性Codex技能，名為“Playwright（交互式）”。該功能讓Codex能夠以視覺方式調試網頁與Electron應用，甚至可以在應用開發過程中，邊構建邊測試。

▲一款僅通過簡短提示詞、由GPT?5.4生成的主題公園模擬游戲，開發過程中使用 Playwright Interactive 進行瀏覽器端實機測試，并通過圖像生成創建等距視角美術資源。

五、工具使用：能快速搜索調用，完成長時間多輪復雜任務

基于GPT-5.4，智能體現在可在更龐大的工具生態中運行，更可靠地選擇合適工具，并以更低成本、更低延遲完成多步驟工作流。

在API中，GPT-5.4引入了工具搜索功能，使模型在擁有多種工具時能夠高效工作。借助工具搜索功能，GPT?5.4會先獲取一份輕量化的可用工具列表，并具備工具檢索能力。當模型需要使用某一工具時，可實時查詢該工具的定義，并將其即時加入對話上下文。

這可以減少工具密集型工作流所需的token數量，并能有效利用緩存，讓請求更快、成本更低。智能體也可以能夠穩定適配規模更龐大的工具生態系統。

為展示效率提升效果，OpenAI選取了Scale旗下MCP Atlas基準測試中的250項任務，在啟用全部36臺MCP服務器的情況下，采用兩種模式進行評估：將所有MCP函數直接暴露在模型上下文、將所有MCP服務器置于工具搜索機制之后，對比結果如下：

GPT-5.4還改進了工具調用，在測試AI智能體如何使用真實工具與API完成多步驟任務的Toolathlon基準測試中，相比GPT?5.2，GPT?5.4以更少的交互輪次實現了更高的準確率。其任務包含智能體需要讀取郵件、提取任務附件、上傳文件、進行評分，并將結果記錄到電子表格中。

對于偏好無推理模式、對延遲敏感的應用場景，GPT?5.4相比前代模型實現了進一步優化。

網頁搜索中，在衡量AI智能體持續瀏覽網頁以尋找難以定位信息能力的指標BrowseComp上，GPT-5.4躍升了17%，GPT-5.4 Pro達到89.3%。這意味著GPT-5.4可以更持久地跨多輪搜索，找出最相關的來源。

結語：OpenAI鞏固行業主導權

GPT-5.4此次在計算機操作能力上、GDPval 83%的勝率都說明，AI在執行經濟價值任務、原生電腦操控方面的天花板進一步被拉高，讓進一步證明AI已能穩定完成高價值的知識工作，如數據分析、客戶服務、業務流程處理等，直接產生經濟效益。

從當前的測評表現來看，GPT?5.4的發布進一步鞏固了OpenAI的行業頭部地位，其測評表現遠超前代模型及競對公司的頂尖模型，或為其規模化商業化與AGI路線圖奠定關鍵基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.