OpenAI深夜祭出GPT-5.4，暴擊Claude！原生操控電腦，打工人懸了

2026-03-06 07:00:20　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：好困桃子

【新智元導(dǎo)讀】OpenAI深夜突襲，GPT-5.4新王炸場！一夜之間，直接粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神話。這也是頭一次，ChatGPT擁有真正「原生電腦使用」能力，辦公效率直接拉滿。而真正恐怖的地方在于，每一個(gè)維度上它都沒有短板。

被Gemini和Claude連續(xù)壓了一個(gè)月后，OpenAI終于動(dòng)手了。

就在剛剛，下一代旗艦GPT-5.4正式發(fā)布！

ChatGPT端：GPT-5.4 Thinking與GPT-5.4 Pro全面上線
開發(fā)者端：GPT-5.4接入API與Codex，并附帶極速版GPT-5.4 fast

之所以直接跳到5.4，是因?yàn)檫@是一次「推理+編程」的合流式跨越

成績單，直接炸裂。

GDPval勝率83%，叫板頂尖人類專家；
SWE-Bench Pro編程第一，F(xiàn)rontierMath數(shù)學(xué)第一；
ARC-AGI-2抽象推理跑出83.3%新高，Gemini 3.1 Pro的77.1%、Opus 4.6的68.8%，全部踩在腳下。

OpenAI這次，是真的翻身了。

左右滑動(dòng)查看

更炸的是，GPT-5.4還是首個(gè)擁有「原生電腦使用」能力的通用模型。

識(shí)別UI、操控鍵鼠、在軟件和網(wǎng)頁間穿梭自如，像人一樣操作電腦。

在OSWorld-Verified上，它直接拿下75%成功率，刷爆SOTA。

上一代GPT-5.2（47.3%），人類（72.4%），一個(gè)月前剛登頂?shù)腛pus 4.6（72.7%），通通都被超了。

沒錯(cuò)，AI操作電腦，已經(jīng)比人類更熟練了。

能力融合上，GPT-5.4繼承了GPT-5.3-Codex的全部編程基因，并且新增了100萬token上下文和原生工具搜索，一個(gè)模型打通推理、編程、操控全鏈路。

GPT-5.4 Thinking在思考時(shí)，你還能隨時(shí)介入調(diào)整方向，不打斷思路，一次對話直接交付結(jié)果。

看來，OpenClaw之父加入后，立馬讓ChatGPT原生「電腦操控」能力變強(qiáng)了！

定價(jià)方面，GPT-5.4再創(chuàng)新高，輸入價(jià)格2.5美元/百萬token，輸出價(jià)格15美元/百萬token。

Pro版本就更夸張了，輸入30美元/百萬token，輸出180美元/百萬token。

首個(gè)全能「計(jì)算機(jī)使用」通用模型

先說最炸的部分。

GPT-5.4是OpenAI首個(gè)具備原生計(jì)算機(jī)使用能力的通用模型。

它能通過Playwright等庫，編寫代碼來控制計(jì)算機(jī)，也能直接「看」屏幕截圖動(dòng)用鼠標(biāo)和鍵盤。

發(fā)郵件、排日程、填表格、跑流程，這些以前需要你點(diǎn)來點(diǎn)去的活兒，現(xiàn)在GPT-5.4自己都能干。

在OSWorld-Verified中，GPT-5.4直接刷出了75.0%的成功率。

要知道，就在一個(gè)月前剛登頂?shù)腃laude Opus 4.6，成績也不過72.7%。GPT-5.4一出手就把它甩開了2.3%。

在WebArena-Verified上，同時(shí)使用DOM和截圖驅(qū)動(dòng)交互時(shí)，GPT-5.4成功率達(dá)67.3%，領(lǐng)先GPT-5.2的65.4%。

在另一項(xiàng)Online-Mind2Web測試中，GPT-5.4僅靠截圖觀察就拿下了92.8%，而ChatGPT Atlas智能體模式只有70.9%，斷崖級領(lǐng)先。

不過，GPT-5.4一切強(qiáng)大的執(zhí)行能力，都是建立在更強(qiáng)的「通用視覺感知」能力之上。

在MMMU-Pro上，GPT-5.4（不使用工具）的成功率81.2%，大幅優(yōu)于GPT-5.2（79.5%）。

視覺感知的提升，也直接轉(zhuǎn)化為更強(qiáng)的文檔解析能力。

在OmniDocBench上，GPT-5.4（未開啟推理強(qiáng)度）的平均誤差為0.109，而GPT-5.2為0.140。

更重磅的是，GPT-5.4還首次引入「原始」（original）和「高」（high）圖像輸入細(xì)節(jié)級別。

前者支持最高1024萬總像素，或最大單邊6000像素（以較低者為準(zhǔn)）的全保真度感知；后者支持最高256萬總像素或最大單邊2048像素。

在API早期測試中，GPT-5.4在定位能力、圖像理解和點(diǎn)擊準(zhǔn)確性均有大幅提升。

精通辦公三件套，干翻華爾街分析師

如果說計(jì)算機(jī)使用是「硬功夫」，那知識(shí)工作就是GPT-5.4的「軟實(shí)力」。

在GDPval基準(zhǔn)測試中，GPT-5.4以83.0%的成績，追平甚至超越了行業(yè)內(nèi)的專業(yè)人士。

上一代GPT-5.2僅有70.9%，一個(gè)版本的差距，直接拉開了12個(gè)百分點(diǎn)。

GDPval測試橫跨美國GDP貢獻(xiàn)最大的9個(gè)行業(yè)、44種職業(yè)，包括銷售演示文稿、會(huì)計(jì)電子表格、急診排班表、制造圖表、短視頻等，全部都是要求AI真刀真槍地交付工作產(chǎn)出。

GPT-5.4已經(jīng)能做PPT、做Excel、排班表了，而且做得比大多數(shù)專業(yè)人士還好。

在一項(xiàng)模擬初級投資銀行分析師的內(nèi)部電子表格建模測試中，GPT-5.4平均得分87.3%，GPT-5.2只有68.4%。

不僅如此，人類在68.0%的情況下，更偏好GPT-5.4生成的PPT，因其美感更強(qiáng)、視覺更豐富、圖像使用更高效。

幻覺率暴降33%

為了讓GPT-5.4真正勝任實(shí)際工作，OpenAI在減少幻覺和事實(shí)錯(cuò)誤上持續(xù)發(fā)力。

這么說吧，GPT-5.4是OpenAI迄今為止，最講求事實(shí)的模型。

在一組去標(biāo)識(shí)化的、包含用戶標(biāo)記事實(shí)錯(cuò)誤的提示詞集中，相對于GPT-5.2，GPT-5.4單獨(dú)聲明出錯(cuò)的概率降低了33%，整個(gè)回復(fù)包含任何錯(cuò)誤的概率降低了18%。

推理+代碼合體，一個(gè)模型全搞定

GPT-5.4的另一個(gè)大招，完整繼承了GPT-5.3-Codex的編程能力。

這意味著，不再需要在「聰明的模型」和「能寫代碼的模型」之間來回切換。一個(gè)模型，全部搞定。

在SWE-Bench Pro測試中，GPT-5.4拿下了57.7%準(zhǔn)確率，媲美甚至超越了GPT-5.3-Codex（56.8%）。

但真正的殺手锏不是分?jǐn)?shù)，而是效率。

GPT-5.4是OpenAI迄今Token效率最高的推理模型，解決相同問題所需的Token大幅減少，成本更低，速度更快。

而且在各種推理強(qiáng)度設(shè)置下，GPT-5.4的延遲都低于GPT-5.3-Codex。

在Codex的/fast模式下，其Token生成速度最高可提升1.5倍。同樣的智力，同樣的能力，只是快了50%。

通過API，開發(fā)者也可以使用「優(yōu)先處理」（Priority Processing）獲得同樣飛快的速度。

內(nèi)部測試中，OpenAI還發(fā)現(xiàn)，GPT-5.4在復(fù)雜的前端任務(wù)上表現(xiàn)卓越。

生成的界面不僅美觀，而且功能完備程度，遠(yuǎn)超此前任何模型。

為此，他們甚至還搞了個(gè)花活，發(fā)布了實(shí)驗(yàn)性的「Playwright Interactive」技能，讓Codex能一邊構(gòu)建Web應(yīng)用、一邊在瀏覽器中可視化調(diào)試測試。

主題公園模擬游戲

僅憑一段提示詞，GPT-5.4就徒手搓出一個(gè)完整的經(jīng)營類游戲。

這一個(gè)全自動(dòng)運(yùn)行的微觀世界，瓦片路網(wǎng)、設(shè)施建造、景觀美化一應(yīng)俱全。

而且，資金、客流、幸福感與評分系統(tǒng)環(huán)環(huán)相扣。

其中，Playwright充當(dāng)了最嚴(yán)苛的質(zhì)檢員：從瘋狂擴(kuò)建到設(shè)施拆除，從鏡頭導(dǎo)航到 UI 數(shù)據(jù)驗(yàn)證，經(jīng)過數(shù)輪自動(dòng)化高壓測試才最終交付。

傳送門：https://developers.openai.com/showcase/theme-park-builder

戰(zhàn)棋RPG

經(jīng)過多輪迭代，GPT-5.4打造出一款回合制網(wǎng)格戰(zhàn)斗游戲，包含移動(dòng)、行動(dòng)、站位和遭遇戰(zhàn)等完整系統(tǒng)。

圖像生成負(fù)責(zé)角色和美術(shù)風(fēng)格，Playwright在每一輪迭代中驗(yàn)證界面交互、檢查并微調(diào)UI行為和著色器效果，直到戰(zhàn)斗手感、視覺表現(xiàn)和整體體驗(yàn)全部調(diào)優(yōu)到位。

傳送門：https://developers.openai.com/showcase/turn-based-rpg

金門大橋飛行體驗(yàn)

同樣一段提示詞起步，GPT-5.4生成了一個(gè)可以自由飛行的超寫實(shí)3D場景——

逼真的光照、水面、霧氣、懸索、橋上行駛的車流、周圍的海岸線和城市背景，支持近距離結(jié)構(gòu)穿越和遠(yuǎn)景風(fēng)光俯瞰。

這里，Playwright化身「王牌飛行員」，開啟多角度全自動(dòng)巡航測試。

它不僅驗(yàn)證渲染視口的穩(wěn)定性，還通過截圖反饋協(xié)助 AI 持續(xù)校準(zhǔn)構(gòu)圖與光影分布。，歷經(jīng)一小時(shí)的高頻迭代。

傳送門：https://developers.openai.com/showcase/golden-gate-flight-experience

祭出「工具搜索」，Token狂砍47%

在工具使用上，GPT-5.4的進(jìn)化是多層次的。

工具搜索

GPT-5.4引入了「工具搜索」功能，徹底解決了MCP工具太多，上下文爆炸的問題。

只需要一個(gè)輕量級的可用工具列表，真正需要某個(gè)工具時(shí)，它會(huì)自動(dòng)查找定義并即時(shí)加載。

在Scale的MCP Atlas基準(zhǔn)測試（250個(gè)任務(wù)，開啟全部36個(gè)MCP服務(wù)器）中，工具搜索配置在保持相同準(zhǔn)確率的同時(shí)，將總Token使用量減少了47%。

這對于工具定義動(dòng)輒數(shù)萬Token的MCP服務(wù)器來說，效率提升堪稱恐怖。

智能體工具調(diào)用

在推理過程中，GPT-5.4決定「何時(shí)」以及「如何」使用工具時(shí)，更加精準(zhǔn)。

在Toolathlon上，GPT-5.4以54.6%準(zhǔn)確率，大幅領(lǐng)先GPT-5.3-Codex（51.9%）、GPT-5.2（45.7%），而且用的輪次更少。

智能體現(xiàn)在能順暢完成「全套流程」——

閱讀電子郵件→提取作業(yè)附件→上傳附件→對作業(yè)評分→將結(jié)果記錄到電子表格

Toolathlon：評估多步任務(wù)中現(xiàn)實(shí)世界工具和API使用能力

對于延遲敏感的場景（推理強(qiáng)度設(shè)為None），GPT-5.4在τ2-bench電信客服任務(wù)上也大幅領(lǐng)先。

而在開啟推理強(qiáng)度（xhigh）的情況下，GPT-5.4在τ2-bench上更是達(dá)到了98.9%，幾乎完美。

搜索暴漲17%，Pro版刷新紀(jì)錄

此外，GPT-5.4的智能體網(wǎng)絡(luò)搜索能力迎來了大幅升級。

上一次，在BrowseComp測試中，Claude Opus 4.6憑借84.0%的成績一騎絕塵，遠(yuǎn)超GPT-5.2 Pro（77.9%）。

但GPT-5.4 Pro直接以89.3%實(shí)現(xiàn)了反超，標(biāo)準(zhǔn)版的82.7%也和Opus 4.6咬得很緊。

在實(shí)際使用中，這意味著GPT-5.4 Thinking更擅長回答需要從網(wǎng)絡(luò)多源頭整合信息的問題。

它能更持久地進(jìn)行多輪搜索以篩選最相關(guān)的來源，尤其是「大海撈針」式的問題，并將信息綜合成條理清晰、推理嚴(yán)密的答案。

GPT-5.4 Thinking同時(shí)還改進(jìn)了深度網(wǎng)絡(luò)研究能力。

特別是，針對極其具體的查詢，并且在處理需要長時(shí)間思考的問題時(shí)能更好地保持上下文。

中途可調(diào)，告別推倒重來

GPT-5.4 Thinking在思考時(shí)，還可以隨意介入，也不會(huì)打斷思路。

此功能現(xiàn)已在網(wǎng)頁和Android應(yīng)用上線，iOS版即將推出

更關(guān)鍵的是，你可以在它運(yùn)行中途直接調(diào)整方向、補(bǔ)充說明，而不需要等它全部做完再推翻重來。

一次對話就能拿到想要的結(jié)果，省掉了來回拉扯的多輪溝通成本。

同時(shí)，模型在處理困難任務(wù)時(shí)能進(jìn)行更深入的思考，對對話的歷史步驟保持更強(qiáng)的記憶感知。

OpenAI重回王座，AI格局再變天

GPT-5.4的發(fā)布，是OpenAI對Gemini 3.1 Pro和Claude Opus 4.6的一次全面反擊。

GPT-5.4的恐怖之處在于，它沒有短板。

推理、編程、視覺、工具使用、計(jì)算機(jī)操作、網(wǎng)絡(luò)搜索、知識(shí)工作，每一條線都拉到了頂尖水平。

這不是某個(gè)維度的突破，這是全維度的碾壓。

OpenAI用GPT-5.4告訴所有人：在通往AGI的路上，它依然是最不能被忽視的那個(gè)玩家。

詳細(xì)跑分：全維度碾壓

最后，附上GPT-5.4最全面的成績單。

參考資料：

https://x.com/OpenAI/status/2029620619743219811?s=20

https://developers.openai.com/api/docs/models/gpt-5.4

https://openai.com/index/introducing-gpt-5-4/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

「死了么」回來了！爆火后爭議纏身，這次要好好做？

雷科技 2026-03-07 02:36:59
2 跟貼 2
GPT-5.4龍蝦味太濃！各種能力全包圓，一個(gè)hi燒掉80美元？

機(jī)器之心Pro 2026-03-07 09:10:00
0 跟貼 0

OpenAI剛發(fā)GPT-5.3 Instant 一小時(shí)后就預(yù)告5.4 極限推理幾小時(shí)，硬啃難題

新智元 2026-03-05 21:08:13
0 跟貼 0

百度的估值邏輯該變了

虎嗅APP 2026-03-06 17:13:33
1 跟貼 1
OpenClaw絕配！GPT-5.4問世，AI能力開始大一統(tǒng)，就是太貴

機(jī)器之心Pro 2026-03-06 12:00:27
0 跟貼 0

GPT-5.4「原生操控電腦」實(shí)測封神！OpenClaw天選模型來了

新智元 2026-03-06 10:35:47
39 跟貼 39

AI為什么沒法讓人快速變聰明？

白話頻道 2026-03-07 01:07:39
0 跟貼 0
100萬 Token + 接管鼠標(biāo)：GPT-5.4 正把 AI 推向“數(shù)字員工”

鈦媒體APP 2026-03-06 09:15:15
1 跟貼 1

ChatGPT-5.4發(fā)布：和OpenClaw兼容，AI第一次比人類更會(huì)操作電腦

DeepTech深科技 2026-03-06 10:47:43
35 跟貼 35
剛下飛機(jī)行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環(huán)球網(wǎng)資訊 2026-03-03 08:53:57
6007 跟貼 6007
汽車行駛途中突然"斷電" 車輛瞬間失去動(dòng)力一家人嚇傻

大風(fēng)新聞 2026-03-06 13:45:07
5624 跟貼 5624
養(yǎng)殖戶給每只羊身上，都做上標(biāo)記，這樣容易區(qū)分！

幽默小火山 2026-03-04 11:49:22
3 跟貼 3
Cursor版OpenClaw登場！AI自己審代碼、修漏洞，程序員的龍蝦自由來了？

智東西 2026-03-06 14:03:10
60 跟貼 60
開始搶人，美國一周挖走4名中國頂尖人才，年薪1個(gè)億美元令人咋舌

泠泠說史 2026-03-06 20:00:59
41 跟貼 41
Anthropic失業(yè)報(bào)告炸場！22-25歲年輕人被斬殺，AI淘汰75％編程

新智元 2026-03-06 13:16:27
83 跟貼 83
央行行長：中國股票市場在全球主要股市中表現(xiàn)較好

財(cái)聯(lián)社 2026-03-06 17:08:03
6597 跟貼 6597
多地官宣即將連休6天！4天半工作日大小周輪、離線休息權(quán)保障、設(shè)男性育兒假等建議頻上熱搜

新民晚報(bào) 2026-03-06 20:19:47
142 跟貼 142
機(jī)構(gòu)：霍爾木茲海峽航運(yùn)幾乎完全停滯

財(cái)聯(lián)社 2026-03-06 14:04:07
5824 跟貼 5824
300萬AI悄悄「建國」？Nature長文：第一代AI社會(huì)正在成形

新智元 2026-03-06 19:15:39
0 跟貼 0
機(jī)器人看不清，螞蟻給治好了

量子位 2026-01-27 14:41:46
2 跟貼 2
高德納：「震驚！震驚！」Claude破解《計(jì)算機(jī)程序設(shè)計(jì)藝術(shù)》難題

機(jī)器之心Pro 2026-03-06 10:26:04
0 跟貼 0
發(fā)動(dòng)機(jī)模型

制造科技 2026-03-04 18:55:15
0 跟貼 0
這摩托車挺智能哈

仙仙看影 2026-03-04 17:11:25
1 跟貼 1
豆包電腦來了？GPT-5.4發(fā)布，這個(gè)能力亮了

雷科技 2026-03-06 16:44:48
2 跟貼 2
官方更新莎頭最新動(dòng)態(tài)，訓(xùn)練備戰(zhàn)有序推進(jìn)，身體狀態(tài)穩(wěn)步回升，粉絲安心不已？

未來就來 2026-03-07 02:03:08
1 跟貼 1
開箱地表最強(qiáng)奧迪A6L，華為智能體+V6，這可太行了

汽車輿論 2026-03-05 11:05:12
0 跟貼 0
南京臨時(shí)交通管控通告

現(xiàn)代快報(bào) 2026-03-06 13:31:00
219 跟貼 219
AReaL v1.0開源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0
QVGen讓「超低比特視頻生成量化」真正可用！

機(jī)器之心Pro 2026-02-25 18:07:24
0 跟貼 0
Claude被美封殺內(nèi)幕曝光：它在如何參與空襲？

智東西 2026-03-02 14:20:09
1 跟貼 1
《杰克與魔豆》AI電影制作全流程｜從腳本到成片｜GPT / Grok / 即夢 / 剪映｜1.5小時(shí)

AI次世代 2026-03-05 21:35:22
0 跟貼 0
MMLU已死？「人類最后考試」登Nature：全球AI模型集體不及格！

新智元 2026-03-07 09:06:10
0 跟貼 0
MiniMax來承包你的桌面了-4

機(jī)器之心Pro 2026-01-20 20:19:42
0 跟貼 0
直接領(lǐng)先一個(gè)時(shí)代！說遙遙領(lǐng)先怎么了？

X基地 2026-03-06 12:37:17
0 跟貼 0
斯諾克無法復(fù)制的神仙進(jìn)球，視覺效果堪比電腦特效，桿桿都是驚喜

小七七體育解說 2026-03-06 06:47:40
4 跟貼 4
DPO「只看總分不看細(xì)節(jié)」？TI-DPO用Token重要性重塑大模型對齊

機(jī)器之心Pro 2026-02-11 13:45:57
0 跟貼 0
美國軍方用Claude打擊伊朗！AI軍用邊界之爭引爆爭議

金十?dāng)?shù)據(jù) 2026-03-04 15:18:11
0 跟貼 0
劉國梁談樊振東簽約德甲

北京頭條 2026-03-06 12:56:55
2512 跟貼 2512
租用無人機(jī)運(yùn)棺材上山土葬，無人機(jī)運(yùn)輸從業(yè)者：價(jià)格一萬出頭，一般運(yùn)送的棺材約七八百斤，云貴川需求多

觀威海 2026-03-06 14:23:13
229 跟貼 229
兩會(huì)現(xiàn)場，回應(yīng)大家關(guān)心的AI問題：AI智能體不是對手，而是最強(qiáng)助手

周鴻祎 2026-03-06 21:46:21
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

14656文章數(shù) 66665關(guān)注度

往期回顧全部

針對"不敢休、不讓休"怪圈國家出手了

汽車要聞

逃離ICU，上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

本地

家居

藝術(shù)

津南好·四時(shí)總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

家居要聞

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

OpenAI深夜祭出GPT-5.4，暴擊Claude！原生操控電腦，打工人懸了

OpenClaw爆火，六位"養(yǎng)蝦人"自述與AI共生

媒體:美國打仗遇到人口3000萬以上國家就沒法全身而退

媒體:美國打仗遇到人口3000萬以上國家就沒法全身而退

中國象棋，正在被一個(gè)越南人攻陷？

周杰倫社交媒體曬昆凌，夫妻感情穩(wěn)定

針對"不敢休、不讓休"怪圈 國家出手了

逃離ICU，上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

中醫(yī)4招幫你穩(wěn)住情緒，寶媽情緒崩潰不是矯情！

3分鐘學(xué)會(huì)一個(gè)雅思7分句/段（第330期）

食味印象｜一口入魂！康樂烤肉串起千年絲路香

暖棕撞色 輕法奶油風(fēng)

一個(gè)電影編劇水平是如何評判的？

針對"不敢休、不讓休"怪圈國家出手了

暖棕撞色輕法奶油風(fēng)