衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
GPT-5.4,它來了!
它更像是一個“模型能力大一統”成果:OpenAI首次在單一模型中,把推理(Reasoning)、編程(Coding)、計算機原生交互(Computer Use)、深度網頁搜索以及百萬級Token上下文全部揉碎、重組,焊死在了同一個模型里。
重點是,沒有因為N in one而犧牲掉任何一個單項的性能——
OpenAI特別強調,GPT-5.4在以上領域的多個關鍵基準測試中依然保持領先。
跳票許久的OpenAI,終于冷不丁給了AI大模型圈梆梆一拳。
![]()
其中最能吸引開發者目光的,莫過于它是OpenAI首個原生支持“計算機使用”能力的通用模型。
我耳邊都已經聽到GPT-5.4的聲音了:
- 玩兒龍蝦的朋友們,走過路過考慮一下我咯~
![]()
同時,官方博文顯示,GPT-5.4的效率也出現了明顯提升。
相比GPT-5.2,GPT-5.4在推理過程中使用的Token數量顯著減少。
Token消耗下降意味著響應速度更快,同時整體成本也更低。
是的,它變強了,但也變便宜、變快了。
這也是OpenAI這次發布反復強調的一點:能力提升和效率優化是同時發生的。
![]()
隨著GPT-5.4上線,ChatGPT中的模型體系也隨之調整。
GPT-5.4同步上線ChatGPT、API以及Codex。
在API價格體系中,GPT-5.4的單Token價格略高于GPT-5.2,但由于任務所需Token減少,總體成本可能并不會上升太多。
面向復雜任務的GPT-5.4 Pro版本也一起推出,在ChatGPT中則提供為GPT-5.4 Thinking。
值得小伙伴們注意的一點,GPT-5.4 Thinking將取代此前的GPT-5.2 Thinking,且GPT-5.2將在三個月后正式退役。
而GPT-5.1系列將在3月11日就要從ChatGPT里say bye bye了。
珍惜你們最后相處的甜蜜時光吧~
![]()
目前各個社交媒體已經炸開了鍋。
有網友感慨道擁有百萬token上下文窗口、還能原生使用電腦的GPT-5.4,和蘋果史上最便宜筆記本電腦MacBook Neo同周發布……
“天爺啊,我的筆記本電腦正在經歷一場存在主義危機!!”
![]()
三大能力提升,系OpenAI首個原生支持電腦操作的通用模型
在具體能力層面,GPT-5.4的升級可以概括為三個方向:
- 深度知識工作(Knowledge Work)
- 原生計算機使用(Computer Use)
- 高階編程與調試(Coding)
這三種能力基本覆蓋了當前大多數數字工作的核心流程,而GPT-5.4都做得挺出色。
![]()
我們一一來看。
深度知識工作 (Knowledge Work)
首先是知識工作能力。
在衡量AI處理44種職業知識工作能力的GDPval基準測試中,它平局+獲勝的綜合得分83.0%。
![]()
多說幾句嗷,GDPval評測主要是用來測試模型在真實職業場景中的表現,它評測涉及44種職業,覆蓋了美國GDP貢獻最高的9個行業。
具體任務上并不只是簡單問答,它要求模型完成真實工作產物,例如銷售演示文稿、會計表格、排班表、制造流程圖甚至短視頻。
所以在大量知識工作任務中,GPT-5.4的結果已經能夠與專業從業者持平,甚至超過他們。
此外,OpenAI特別強化了GPT-5.4在辦公文檔領域的能力。
例如在內部投資銀行建模測試中,GPT-5.4的平均得分達到87.3%,而GPT-5.2為68.4%。在人類評審的PPT生成測試中,評委有68%的時間更偏好GPT-5.4生成的結果,原因包括視覺效果更好、版式更豐富以及圖片使用更合理。
從應用角度來看,這些能力對應的場景非常直接。
包括寫報告、做財務模型、制作演示文稿、分析商業數據等工作,都是典型的知識型任務。
GPT-5.4正在朝著這類任務進行專門優化。
![]()
原生計算機使用 (Computer Use)
GPT-5.4最引人關注的一項能力是原生計算機操作,這是GPT-5.4區別于以往所有模型的核心標志。
模型可以通過截圖理解軟件界面,然后執行鼠標點擊和鍵盤輸入等操作。
包括發送郵件、創建日歷事件、填寫表單、操作網頁等……都可以通過這種方式完成。

在WebArena瀏覽器任務測試中,GPT-5.4取得67.3%的成功率,高于GPT-5.2的65.4%。
在Online-Mind2Web測試中,僅通過截圖觀察完成網頁操作時,GPT-5.4的成功率達到92.8%。
此外,在OSWorld-Verified基準測試中,GPT-5.4在桌面操作任務中的成功率達到75.0%,已經超過人類平均水平(72.4%)。
![]()
這些數據背后代表的是一種新的交互模式,也算是沒落下最近的龍蝦狂熱潮。
高階編程與調試
第三個關鍵能力來自編程。
而且強調的是“高階編程”。
GPT-5.4吸納了此前最強的編程模型GPT-5.3-Codex的能力。現在的它不僅支持Token輸出速度提升1.5倍的/fast模式,還加入了一個名為“Playwright (Interactive)”的實驗性技能。
它允許AI在幫你寫網頁或者應用時,開啟一個窗口進行視覺化調試。
比如你給它一個簡單的需求去做模擬游戲,它能一邊生成美術資產、一邊寫邏輯,甚至一邊運行自動測試來驗證游戲狀態是否正常。
在SWE-Bench Pro測試中,GPT-5.4取得57.7%的成績,略高于GPT-5.3-Codex的56.8%,同時延遲更低。
![]()
內部測試還顯示,GPT-5.4在復雜前端任務中的表現明顯優于此前模型。生成的界面設計更加美觀,功能結構也更完整。
為了展示這一能力,OpenAI演示了一個由GPT-5.4生成的瀏覽器主題公園模擬游戲。
模型從簡單提示詞出發,生成游戲資源、構建場景、編寫邏輯,并通過自動瀏覽器測試不斷迭代。

這種“邊造邊測”的能力,已經非常接近一個人類高級全棧工程師的工作流。
一種趨勢不言而喻:
- UI交互正在取代繁瑣的API對接,成為AI操作世界的新主流路徑。
emmmm,這可能會讓很多中間件失去價值。
整體定位:AI數字員工
看完上述能力的整合,你就能讀懂OpenAI在官方博文里透露出的野心。
OpenAI在發布文章中多次提到:
- GPT-5.4的目標是成為能夠完成真實工作的Agent系統。
如果說之前的GPT模型版本還是一個需要你盯著看的輔助工具,那么GPT-5.4已經開始嘗試成為一個能獨立負責整塊業務的數字員工。
這種“AI數字員工化”體現在三個維度的飛躍。
首先是電腦操作能力。
模型可以通過截圖理解軟件界面,并通過鼠標和鍵盤指令進行操作。
這使得AI能夠直接在電腦環境中執行任務。
其次是瀏覽器任務能力。
在BrowseComp測試中,GPT-5.4的成績達到82.7%,而GPT-5.4 Pro達到89.3%,比GPT-5.2提升17個百分點。
這意味著模型能夠持續搜索網頁、篩選信息并整合結果,尤其適合處理需要多輪檢索的問題。
![]()
第三是多工具調用能力。
在Toolathlon基準測試中,GPT-5.4取得54.6%的準確率,高于GPT-5.2的45.7%。
這個測試的任務通常需要多步驟操作,例如讀取郵件附件、上傳文件、評分作業并記錄到表格中。
![]()
這種按需檢索工具的能力是降低Agent運行成本的關鍵,它解決了過去模型在面對復雜指令時容易“迷路”或者Token爆炸的問題。
此外,對于對延遲要求較高的場景(在這種場景中,人們傾向于不進行推理操作),GPT-5.4 比其前輩版本有了進一步的改進。
![]()
細節之處的全面進化
除了上述支柱能力,GPT-5.4在辦公細節上也進行了大量打磨。
比如它在創建和編輯電子表格、PPT方面的表現,其表格建模準確率從68.4%躍升至87.3%。
在演示文稿生成測試中,人類評審也更偏好GPT-5.4的結果,認為其視覺多樣性和審美更強。
同時,視覺能力的提升也帶動了文檔解析的進步。
在MMMU-Pro視覺推理測試中,GPT-5.4取得81.2%的準確率,高于GPT-5.2的79.5%。
![]()
更重要的是,它現在支持高達1024萬像素的原圖輸入,對高密度、高分辨率的圖像理解更加精準。
視覺能力的提升也帶來了更強的文檔解析能力。
在OmniDocBench測試中,GPT-5.4的平均錯誤率從0.140下降到0.109。
![]()
最令人欣慰的是錯誤率的下降。
從官方介紹中能初步感覺到,GPT-5.4是個極其講求事實的模型,其事實錯誤概率比前代降低了33%,大大緩解了用戶對模型幻覺的焦慮。
![]()
在效率方面,GPT-5.4引入工具搜索機制。
過去模型在使用工具時,需要在Prompt中包含所有工具定義。如果工具數量很多,Prompt就會變得非常龐大。
現在模型可以先獲取工具列表,然后按需查詢具體工具定義。
在實現相同準確率的情況下,將總Token使用率降低了47%。
這種成本控制手段說明OpenAI正試圖讓大模型大規模商業化變得更加現實,畢竟對于企業來說,省錢和好用同等重要。
更好用了,但更省錢了嗎?
從OpenAI公布的API定價表來看,GPT-5.4的定價確實比5.2版本要高出一截。
GPT-5.2的每百萬Token輸入/輸出價格分別是1.75美元和14美元,而GPT-5.4則上漲到了2.5美元和15美元。
尤其是對于那些追求極限性能的用戶,GPT-5.4 Pro的價格更是飆升到了每百萬輸入30美元。
當然,原因肯定是5.4被定位為針對專業機構和高端生產力場景的溢價產品。
如果你只是寫寫簡單的閑聊文案,繼續用5.2其實更劃算。
![]()
不過雖然單價漲了,但GPT-5.4在Agent任務中的“省錢之道”主要藏在它的技術機制里。
最核心的一點是就是工具搜索(Tool Search)功能。
以往我們讓AI接入外部工具(比如接入幾十個公司的數據庫和內部接口)時,必須把所有工具的定義全部塞進提示詞里。
哪怕AI這次只用了一個工具,你也得為剩下的幾十個工具的定義支付Token費用。
但在GPT-5.4下,由于引入了類似“查字典”的搜索機制,模型可以先看一遍簡略的工具清單,等確定要用哪個時,再臨時去調取那個工具的詳細定義。
在針對MCP Atlas基準測試的實驗中,這項技術在保持同等準確率的情況下,把總Token使用量足足降低了47%。
![]()
One more Thing
大家沉浸在技術狂歡中時,也有網友分享了一些肉痛瞬間。
永遠在沖浪一線的Yuchen Jin只是對GPT 5.4 Pro說了一句“Hi,俺是Anthropic創始人”,就花掉了整整560元……
![]()
技術進步好快,但網友的心好痛。
這也引出一個問題,殺雞焉用牛刀?
- 如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么,你有什么AGI級別的問題要問它呢?
(何況還這么貴,TAT)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.