出品 | 網易智能
作者 | 小小
編輯 | 王鳳枝
OpenAI又毫無征兆地發布了新模型。
![]()
距離GPT-5.3 Instant上線僅僅過去兩天,GPT-5.4便被正式推出。它在API層面首次獲得了原生電腦操作能力,讓AI能夠像人類一樣自主控制鍵鼠,跨越各類應用軟件執行具體任務。
不僅如此,ChatGPT也正式與Excel和Google Sheets等生產力工具實現了深度綁定。你可以在電子表格中直接調用它,將數據更新和財務分析全盤交由它來處理。
對于每天周旋于表格與文檔之間的職場人來說,這個模型的現實意義極其明確:AI不再僅僅是個聊天工具,它已經正式下場替你干活了。
雖然有早期測試者吐槽它的前端交互體驗依然略遜于核心競品,但在這種極具統治力的自動化執行力面前,這點UI層面的短板已經顯得無足輕重。
01兩個版本,覆蓋不同需求
GPT-5.4這次分兩個版本上線。
![]()
GPT-5.4 Thinking面向付費訂閱用戶,ChatGPT Plus(20美元/月)、Team和Pro用戶現在就能用。它會在回答問題前先展示思考計劃,用戶可以中途打斷、調整方向,不用從頭再來。對于復雜問題,它能思考更長時間,同時保持上下文理解不跑偏。
GPT-5.4 Pro則留給需求更硬的用戶,包括ChatGPT Pro(200美元/月)和Enterprise企業版。OpenAI的說法是,這是為最復雜任務準備的,追求性能上限。免費用戶也有機會體驗它,但只有系統覺得必要時才會自動路由過去。
在API端,GPT-5.4支持100萬token上下文窗口,是OpenAI目前給到的最大容量。整本代碼庫、整份長合同可以一次性扔進去。
但有個細節要注意:輸入一旦超過27.2萬token,超出的部分按兩倍費率計費。
02原生電腦操控,AI開始像人一樣用電腦
這次最核心的升級,是GPT-5.4在API和Codex里第一次內置了原生電腦操作能力。
以前AI只能生成文本、代碼讓你自己拿去用。現在它可以自己調用Playwright這類庫寫代碼操控電腦,也可以直接看屏幕截圖,發出鼠標和鍵盤指令。開發者還能配置自定義確認策略,針對不同風險場景調整它的行為。
OpenAI表示,這是他們首個具備這種能力的通用模型,對于開發智能體的開發者來說,這是目前可用的最佳選擇。
幾個基準測試最能說明問題:
在測試桌面導航能力的OSWorld-Verified上,GPT-5.4的成功率達到75.0%,不僅遠超GPT-5.2的47.3%,還超過了72.4%的人類基準水平。這個測試衡量的是模型通過屏幕截圖加鍵盤鼠標操作在桌面環境里導航的能力。
![]()
在瀏覽器操控測試WebArena-Verified上,同時用DOM和截圖驅動交互時,它做到了67.3%的成功率,GPT-5.2是65.4%。而在Online-Mind2Web上,只靠截圖觀察,它的成功率達到了92.8%,遠高于ChatGPT Atlas智能體模式的70.9%。
計算機使用能力的提升,跟視覺感知能力的改進分不開。在測試模型視覺理解和推理的MMMU-Pro上,GPT-5.4在不使用工具的情況下達到81.2%的成功率,高于GPT-5.2的79.5%。在文檔解析測試OmniDocBench上,GPT-5.4的平均誤差是0.109,優于GPT-5.2的0.140,而且這是在沒開推理努力的情況下跑出來的,反映的是低成本、低延遲狀態下的性能。
![]()
高分辨率圖像的理解也有升級。從GPT-5.4開始,OpenAI引入了一個原始圖像輸入細節級別,支持最高1024萬總像素或6000像素最大維度的全保真感知。高細節級別現在也支持到256萬總像素或2048像素最大維度。早期測試里,使用原始或高細節時,定位能力、圖像理解、點擊準確性都有明顯提升。
在GDPval這個測試覆蓋44個職業的知識工作任務中,GPT-5.4在83.0%的比較里達到或超過行業專業人士水平,其中69.2%是勝出,13.8%是打平。GPT-5.2是70.9%(49.8%勝,21.1%平)。GPT-5.4 Pro的勝率為82.0%,GPT-5.2 Pro是74.1%。測試里包含的行業覆蓋了美國GDP貢獻前9大行業。
![]()
在SWE-Bench Pro編碼測試里,GPT-5.4得分57.7%,GPT-5.3 Codex是56.8%,GPT-5.2是55.6%。更重要的是延遲表現:在達到相似或更高準確率的情況下,GPT-5.4的估計延遲在500至800秒左右,而GPT-5.3 Codex是1800秒以上。延遲估計考慮了工具調用時間、采樣token和輸入token。
![]()
OpenAI拿用戶之前標記過事實錯誤的去標識化提示詞跑了一遍。GPT-5.4的單項陳述錯誤率比GPT-5.2低了33%,完整回應里出現任意錯誤的概率低了18%。OpenAI說這是他們迄今最具事實準確性的模型。
GitHub首席產品官馬里奧·羅德里格斯(Mario Rodriguez)的評價是,GPT-5.4在邏輯推理和執行復雜多步驟工具依賴工作流方面表現突出,是企業第一天就該采用的模型。
房地產科技公司Mainstay的CEO多德·弗雷澤(Dod Fraser)透露,在覆蓋約3萬個房產稅門戶的測試中,GPT-5.4首次嘗試成功率95%,三次內成功率100%,而之前的計算機操控模型只有73%到79%。GPT-5.4的完成速度快了大概3倍,token消耗少了約70%。
![]()
AI招聘與專家訓練平臺Mercor的聯合創始人兼CEO布倫丹·富迪(Brendan Foody)也給了評價,APEX-Agents最新測試顯示,GPT-5.4平均得分首次突破50%,三個月飆升15.7%。而一年前,頂尖模型連Excel都改不好,得分不足5%。AI能力正以超預期速度逼近頂級專業機構水平。
![]()
OpenClaw創始人彼得·斯坦伯格(Peter Steinberger)的看法更偏務實,GPT-5.4在延續編碼優勢的基礎上,實現了全方位的均衡提升,文檔編寫更專業,通用代理能力更強,整體體驗也更友好。
![]()
Cursor的開發者教育副總裁李·羅賓遜(Lee Robinson)說,GPT-5.4在他們內部基準測試里處于領先地位。“我們的工程師發現它比以前模型更自然、更果斷。它會處理模糊的問題而不自我懷疑,會主動并行化工作保持進展。”
03工具搜索,把token盡量省下來
在工具調用方面,以前有個痛點:模型每次請求都得把所有工具定義塞進提示詞里。如果系統里工具多,一次請求可能多花幾千甚至幾萬token,成本高、速度慢、還把上下文塞得滿滿的。
GPT-5.4在API里引入了工具搜索(Tool Search)機制,徹底改變了這套玩法。
現在模型只接收一個輕量級的工具列表,配一個搜索功能。真需要使用時,它再去檢索完整定義,按需拉取。這對那些可能包含幾萬token工具定義的MCP服務器來說,效率提升很明顯。
OpenAI給出的數據顯示,在Scale的MCP Atlas基準測試里跑了250個任務,啟用全部36個MCP服務器。工具搜索模式跟把所有MCP功能直接暴露在上下文里的模式相比,準確率一樣,但總token用量少了47%。
具體數字是這樣的:不用工具搜索的情況下,平均總token消耗為123139,用了之后降到65320。
工具調用的準確率和效率也有提升。在Toolathlon測試里,它測的是AI智能體用真實世界工具和API完成多步驟任務的能力,比如讀郵件、提取附件、上傳、評分、記到表格里等,GPT-5.4用更少的工具讓步(Tool Yields)達到了更高的準確率。
![]()
所謂工具讓步,是指當AI在等待工具響應時會讓出控制權,這叫一次讓步。如果并行調用3個工具,再并行調用3個,讓步次數是2。它比工具調用次數更能反映延遲,因為體現了并行化的好處。在Toolathlon上,GPT-5.4在約10次讓步時準確率55%左右,GPT-5.2只有46%左右。
對于延遲敏感、不想開推理的場景,GPT-5.4也有提升。在τ2-bench電信測試里,模型要用工具完成客戶服務任務,不開推理的情況下,GPT-5.4準確率64.3%,GPT-5.2是57.2%,GPT-5.1是45.2%,GPT-4.1是43.6%。
![]()
自動化軟件服務公司Zapier的CEO韋德·福斯特(Wade Foster)說,GPT-5.4在他們跨幾百個真實工作流的工具使用基準測試里表現很好。“GPT-5.4 xhigh是多步驟工具使用的新標桿,它完成了之前模型放棄的任務,是迄今為止最持久的模型。”
04 Excel深度集成,金融場景先落地
跟GPT-5.4同步上線的,還有一套面向企業和金融機構的OpenAI金融服務套件。
核心產品是ChatGPT for Excel和Google Sheets測試版。ChatGPT直接嵌進電子表格的單元格里,你可以讓它幫你搭財務模型、做分析、更新數據。OpenAI表示,這是用團隊已經依賴的公式和結構來工作。
套件還整合了FactSet、MSCI、Third Bridge、Moody's這些數據源,推出一套可復用的Skills功能,覆蓋盈利預覽、可比公司分析、DCF估值分析、投資備忘錄撰寫這些高頻場景。
OpenAI特別專注于改進GPT-5.4創建和編輯電子表格、演示文稿和文檔的能力。
OpenAI自己有個內部投行基準測試。GPT-5 Thinking在這個測試里的得分是43.7%,而GPT-5.4 Thinking直接干到了88.0%。
在另一個模擬初級投行分析師電子表格建模任務的測試里,GPT-5.4平均得分87.3%,GPT-5.2是68.4%。
![]()
投資公司Walleye Capital的AI解決方案主管丹尼爾·斯威基(Daniel Swiecki)稱,在他們內部的財務和Excel評估里,GPT-5.4準確率提高了30個百分點。他把這歸因于模型更新和情景分析的擴展自動化。
法律AI平臺Harvey的應用研究主管尼科·格魯彭(Niko Grupen)也評論道:GPT-5.4在他們BigLaw Bench評估里得分91%,“在結構化復雜交易分析、跨長篇合同保持準確性、提供法律從業者需要的高細節方面,目前比別的模型都好”。
![]()
05網絡搜索能力大幅提升
GPT-5.4在智能體網絡搜索方面也做了改進。
在BrowseComp測試里,衡量AI智能體能多持久地瀏覽網絡,找到那些難找的信息時,GPT-5.4比GPT-5.2提升了17個百分點,GPT-5.4 Pro以89.3%的成績創下該基準測試的新高。
![]()
OpenAI解釋說,在BrowseComp里他們用了搜索阻止列表,排除了包含基準答案的網站,防止污染。GPT-5.4測試時間比GPT-5.2晚,分數變化反映了模型、搜索系統和互聯網狀態的變化。GPT-5.4用的是更長、更新的阻止列表。
落實到實際體驗上,這意味著GPT-5.4 Thinking在回答那些需要從網上多個來源匯集信息的問題時更靠譜。它能更持久地跨多輪搜索,找到最相關的來源,特別是對那些大海撈針式的問題,然后把它們綜合成清晰的答案。
06可引導性,能中途打斷調整方向
ChatGPT里的GPT-5.4 Thinking多了個新功能:對于較長、較復雜的查詢,它會先給一個工作概要,你可以看到它打算怎么干。
更重要的是,你可以在它響應過程中添加指令或調整方向,不用從頭開始,也不用多輪對話。OpenAI說這能讓模型輸出更貼近你想要的結果。
這個功能現在在網頁版和Android應用上能用,iOS即將上線。
模型在困難任務上也能思考更長時間,同時對對話早期步驟保持更強的意識。這意味著它能處理更長的工作流和更復雜的提示,同時保持答案的連貫性和相關性。
07反饋與體驗:早期用戶的真實感受
AI寫作助手公司HyperWrite的CEO馬特·舒默(Matt Shumer)提前試了GPT-5.4一周。他提到了一個有意思的細節:自己以前一直是Pro系列的重度用戶,因為Pro幾乎能完美應對所有任務。但這次,GPT-5.4標準版打破了這個習慣。
![]()
“即使在標準模式下,GPT-5.4也比之前的Pro版好,不可思議。”他說編碼能力強得離譜,在Codex里可靠性驚人。“編碼問題基本上解決了。”Pro版近乎完美,能解決其他模型解決不了的問題,但對日常使用來說性能有點過剩。
他也提到幾個問題:前端界面體驗不如Claude Opus 4.6和Gemini 3.1 Pro;會忽略一些顯而易見的現實背景,比如規劃旅行行程時選了春假期間人擠人的地點;在OpenClaw里測試時,程序經常在任務完成前突然停住。
但他最后給的結論是:整體上領先太多,那些吹毛求疵的小問題都顯得無關緊要了。
世界頂尖免疫學專家德里亞·烏努特馬茲(Derya Unutmaz)也試了Pro版,用了幾天。“它展現出了相對更高的創造力、洞察力和抽象智能,比5.2 Pro模型更頻繁地提出問題。”他在AGI-2測試里給GPT-5.4 Pro打了83%的得分。
![]()
08定價:比以前貴,但值得
API定價上,GPT-5.4比GPT-5.2貴了一些。
GPT-5.4標準版每百萬輸入token為2.5美元、輸出15美元;Pro版輸入30美元、輸出180美元。與之相比,GPT-5.2是輸入1.75美元、輸出14美元;GPT-5.2 Pro是輸入21美元、輸出168美元。
![]()
其中,輸入超過27.2萬token的部分,按兩倍費率算。Codex里默認壓縮上限就是27.2萬token,開發者可以手動往上調,超出部分才觸發高計費。
OpenAI發言人對此給出了三條理由:一是復雜任務能力更強,包括編碼、電腦操控、深度研究、高級文檔生成、工具調用;二是研究路線圖上有重大技術進步;三是更高效的推理機制在相同任務上消耗更少推理token,能抵消一部分單價上漲。發言人說,即便提價,GPT-5.4的定價還是低于同等能力的競品前沿模型。
在ChatGPT端,GPT-5.4 Thinking從3月5日起向Plus、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking。GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役,期間可以在模型選擇器的傳統模型里找到。
GPT-5.4 Pro只對Pro和Enterprise計劃用戶開放,企業和教育版用戶可通過管理員設置提前開啟訪問權限。
在安全方面,OpenAI把GPT-5.4定位為高網絡能力模型,沿用了GPT-5.3 Codex的類似保護措施,包括監控系統、受信任訪問控制,對零數據保留(ZDR)表面的高風險請求做異步阻斷。
他們也在持續研究思維鏈(CoT)的可監控性。新開源的評估叫CoT可控性,測的是模型能不能故意混淆推理來逃避監控。結論是GPT-5.4 Thinking控制CoT的能力較低,這對安全來說是好事,說明CoT監控仍然有效。
寫在最后
當你再次打開ChatGPT時,你面對的已經不再是一個僅僅擅長咬文嚼字的聊天機器人。
回看這兩年的軌跡:從陪人聊天的對話框,到輔助敲代碼的副手,再到今天直接接管鼠標鍵盤、接手復雜表格的數字員工。這次的GPT-5.4或許沒有創造出全新的理論基座,但它把紙面上的潛能徹底變成了桌上的生產力。
技術革命往往不是伴隨著巨響到來的,而是潛移默化地滲透進每一次版本更新里。等到我們真正察覺時,那個曾經只會回答問題的AI,其實已經悄無聲息地坐上了你的工位。
