![]()
新智元報道
編輯:定慧
【新智元導讀】OpenAI深夜發布GPT-5.4,首次實現原生電腦操控能力,實測驚艷,幾乎可以操作電腦上所有應用!
凌晨兩點,OpenAI毫無預兆地丟出了GPT-5.4。
這個模型,即將改變2026年整個AIAgent格局!
這一次,最核心的能力終于呼之欲出:原生操控電腦。
Agent能力是2026年AI進化的主線任務,在實測后,一個深刻的感受:
GPT-5.4可能是2026年目前為止,最適合跑OpenClaw的模型。
或許沒有之一。

一手實測GPT-5.4
打工人真的懸了
目前GPT-5.4已經在網頁版和Codex中上線,在實測多種場景后,真的只有一個感受:打工人真的懸了。
這個模型幾乎可以操作電腦上的一切:文件、程序、檔案、終端等等,只要是打工人能做,它都可以做。
![]()
以Macbook為例,讓GPT-5.4操作日歷來定制提醒。
GPT-5.4直接調起對應應用,并要求系統給予對應的權限。

然后日歷中就出現了對應的提醒。
![]()
你還可以用GPT-5.4來操作電腦打開APP,比如要求打開小宇宙 APP。
GPT-5.4不僅可以找到APP,還能播放對應的節目。

你甚至可以要求GPT-5.4直接操作計算器APP,而且是在計算器 APP內部來計算。

幾乎你電腦上任何APP,都可以被GPT-5.4所調用,比如打開微信讀書。
這是真正的「原生電腦操控能力」。

你可以要求GPT-5.4更換電腦壁紙。

甚至,你可以要求GPT-5.4操作終端來打開claude code。


我們都知道OpenClaw這只「龍蝦」能夠爆火,核心就是其Agent能力太過強大。
一個部署在Macmini上的OpenClaw幾乎擁有和人類一樣的操作能力和操作權限。
而這一次,GPT-5.4直接在模型層面實現「原生操控電腦」能力。
![]()
OpenClaw之父Peter評價GPT-5.4在編程能力提升不小外,在其他能力方面更加統一、更加智能。
![]()
HyperWriteAI、OthersideAI首席執行官Matt Shumer認為GPT-5.4是目前世界上最好的模型,遠超其他。
他對GPT-5.4的評價是:不可思議、超乎想象。
即便是標準模式下,GPT-5.4 的表現也超越了以往專業版的模型……這簡直不可思議!
編程能力更是驚人……近乎完美無瑕。
在Codex內部,它的可靠性達到了極致。
編程問題基本上已被攻克。關于這點無需多言,它的優秀程度就是如此超乎想象。
![]()
OpenAI的杰出科學家Sebastien Bubeck用一幅梗圖來形容GPT-5.4編程能力提升。
![]()
Mercor AI首席執行官Brenda則認為GPT-5.4即將超越頂尖咨詢公司、頂尖投行和頂尖律所的專業能力。
也就是人類精英金領的所有工作,它都能做,甚至做的更好。
![]()
原生電腦操控能力
這是真正的分水嶺
實測后,讓我們來仔細想想,GPT-5.4到底強在哪里?
GPT-5.4是OpenAI發布的第一個具備「原生電腦使用能力」的通用模型。
它不需要借助外部框架或者專門的適配層,就能直接通過截圖識別屏幕內容,發出鼠標點擊和鍵盤輸入指令,像人類一樣在桌面環境中操作軟件。
在OSWorld-Verified基準測試中(這個測試衡量AI在真實桌面環境中的導航能力),GPT-5.4拿到了75.0%的成功率。
![]()
作為對比,GPT-5.2只有47.3%,而人類基準線是72.4%。
也就是說,GPT-5.4操控電腦的能力,已經超過了普通人類用戶的平均水平。
這是第一次有通用AI模型做到這一點。
AI操控電腦,第一次比人類自己操控得更好。
天作之合:GPT-5.4精準命中OpenClaw每一個痛點
再說回OpenClaw,為什么說GPT-5.4是OpenClaw的天選模型?
終于來到了最讓人興奮的部分。
如果你在今年年初關注過科技圈,你不可能不知道OpenClaw。
這個由PSPDFKit創始人Peter Steinberger開發的開源個人AI助手項目,在2026年1月以72小時狂攬6萬GitHub Star的速度一夜爆紅,如今Star數已經突破25萬,甚至一度帶動Mac Mini全球賣斷貨、樹莓派股價翻倍。
![]()
OpenClaw的核心理念只有一句話:TheAIthat actually does things。
不只是聊天,而是真的幫你干活。
它運行在你自己的電腦上,擁有對Shell、文件系統、瀏覽器的完整訪問權限。
你通過WhatsApp、Telegram、飛書、釘釘發一條消息,它就能在后臺幫你執行終端命令、編寫腳本、管理郵件、抓取網頁數據,甚至安裝和調試軟件。
它有持久記憶,能通過不斷擴展技能變得越來越強大。
但是,OpenClaw有一個公開的秘密:模型就是產品。
OpenClaw創始人Peter Steinberger自己說過,推薦使用最強的最新一代模型。
社區的結論也一針見血:模型即產品,框架只是包裝。
社區里廣泛流傳的經驗是,如果你用的模型不夠強,OpenClaw的魔法就會消失。
有開發者做過詳細測試,用低端模型運行OpenClaw和用Claude Opus 4.5運行,體驗差距可以到40%到95%。
OpenClaw的創始人Peter推薦將OpenClaw的版本升級到5.4之后,再配合GPT-5.4。
![]()
模型的推理能力、工具調用準確度、長程任務的上下文保持能力,直接決定了OpenClaw到底是賽博秘書還是昂貴的自動補全。
而GPT-5.4恰恰在OpenClaw最需要的每一個維度上,都踩中了甜蜜點。
原生電腦操控——完美匹配。
OpenClaw的核心價值就是讓AI操作你的電腦。GPT-5.4是第一個原生具備這一能力的通用模型,OSWorld測試超越人類水平。這意味著接入GPT-5.4的OpenClaw,不再需要通過復雜的適配和Hack來實現桌面自動化,而是像給賽車換上了渦輪發動機——從底層就是為這個場景而生。
100萬Token上下文——續航無憂。
OpenClaw是一個持續運行的Agent,需要維持長對話、記住復雜指令鏈、處理大量文件內容。以前用其他模型,跑著跑著就忘了前面的任務。100萬Token的上下文窗口,意味著OpenClaw終于有了足夠大的工作臺來鋪開所有材料。
Tool Search——Agent的效率革命。
OpenClaw的強大之處在于它可以接入數十種Skills和工具。但工具越多,每次調用消耗的Token就越多,成本飆升。GPT-5.4的Tool Search機制天然解決了這個問題——不用把所有工具定義都塞進上下文,按需取用,Token消耗直降47%。對于7×24小時運行的OpenClaw來說,這可能意味著每月節省幾十甚至上百美元的API費用。
推理能力躍升——告別高級自動補全。
之前用低端模型運行OpenClaw,遇到稍微復雜的任務就卡殼。GPT-5.4在專業工作任務中超過83%的人類專家表現,配合其在數學、編程、文檔處理等領域的全面提升,意味著OpenClaw可以勝任更復雜、更高價值的工作場景。從幫你寫代碼調Bug,到幫你做財務分析寫投資備忘錄,想象空間瞬間拉滿。
事實上,OpenClaw的官方文檔已經提供了GPT-5.4的接入配置方案,OpenAI的Responses API也已全面支持。
社區里第一批吃螃蟹的人應該已經在配置了。
新時代的起點
讓我們把視野拉遠一點。
GPT-5.4的發布,不僅是模型參數的又一次刷新,更標志著AI行業正在經歷一次底層邏輯的切換:從對話式AI到智能體AI的跨越。
過去幾年,我們一直在討論AI有多聰明、能寫什么、能回答什么。
但從GPT-5.4開始,話題變了——AI能做什么、能完成什么、能替代什么。
當一個模型能獨立操控電腦比普通人更熟練,能在83%的專業場景中匹敵行業專家——這不是量變,這是質變。
而OpenClaw這樣的開源Agent框架,正是把這種能力轉化為實際生產力的橋梁。
GPT-5.4+OpenClaw的組合,讓我們第一次清晰地看到了個人AI員工從概念變為現實的路徑。
對于一些人來說,奇點已經到了。
你,準備好了嗎?
參考資料:
https://chatgpt.com/codex
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.