![]()
就在所有人以為AI大戰將暫時休戰的時候,OpenAI選擇在深夜甩出了一張王牌。
北京時間3月6日凌晨,OpenAI正式發布了下一代旗艦模型——GPT-5.4。這次不再是擠牙膏式的微調,而是一次真正的“代際跨越”。面對谷歌Gemini 3.1 Pro和Anthropic Claude Opus 4.6的步步緊逼,OpenAI用一款集推理、編程、原生電腦操控于一體的全能模型,宣告了誰才是真正的山頂玩家。
![]()
不止是更聰明,更是“動手干”
如果說以前的AI只是一個能說會道的超級大腦,那么GPT-5.4第一次長出了“手”。
此次更新最炸裂的功能,無疑是原生計算機使用能力(Computer-Use)。這是OpenAI首個具備該能力的通用模型。它不再僅僅依賴API接口,而是能像人類一樣,看懂屏幕截圖,移動鼠標,敲擊鍵盤,在各類軟件和網頁間穿梭自如。
在OSWorld-Verified基準測試中,GPT-5.4操作電腦的成功率達到了驚人的75.0%。這個數據不僅遠超上一代GPT-5.2的47.3%,甚至超過了人類72.4%的基準線,也略高于剛剛登頂不久的Claude Opus 4.6(72.7%)。
![]()
這意味著什么?意味著從今天起,AI不僅能幫你寫郵件,還能幫你發郵件、排日程、填表格、跑流程。那些每天消耗打工人大量精力的、繁瑣的點擊操作,現在AI全包了。
跑分屠殺:每一科都是狀元
過去,模型往往各有短板:有的能推理但不會寫代碼,有的能寫代碼但世界知識匱乏。GPT-5.4試圖粉碎這種“分裂感”,而它的成績單也確實夠硬。
知識工作(GDPval):在橫跨44種職業的真實工作產出測試中,GPT-5.4以83.0%的得分達到或超過了人類專家水平,相比上一代的70.9%提升了12個百分點。尤其是在模擬初級投行分析師的電子表格建模中,得分高達87.3%,把GPT-5.2的68.4%遠遠甩在身后。
![]()
編程能力(SWE-Bench Pro):它完整繼承了GPT-5.3-Codex的編程基因,得分57.7%,略高于Codex版本的56.8%。這意味著你不再需要在“聰明的模型”和“能寫代碼的模型”之間切換,一個模型搞定全部邏輯。
![]()
數學與推理(FrontierMath):在研究級別的數學難題中,GPT-5.4Pro拿下了38.0%的得分。對比一年前最好的成績只有2%,這無疑是核彈級的進步。
不僅僅是長,而是“不打斷”的記憶
GPT-5.4支持高達100萬Token的上下文窗口。
100萬Token是什么概念?這意味著你可以直接把《三體》三部曲的全部內容,或者一個完整項目的代碼庫一次性扔給它,它能牢牢記住每一個細節。
更關鍵的是,GPT-5.4 Thinking在ChatGPT中新增了“思考過程預覽”和“中途介入”功能。在處理長任務時,模型會先展示它的工作計劃,如果你發現方向不對,可以隨時打斷并調整,不需要等到它犯錯返工。這種交互體驗,讓AI協作真正有了“人味兒”。
效率革命:省錢省Token
強大的同時,OpenAI也在試圖解決一個實際問題:貴。
GPT-5.4引入了全新的“工具搜索”機制。在處理擁有大量工具(如MCP服務器)的復雜任務時,它不再一股腦把所有工具定義塞進上下文,而是按需檢索。
在Scale的MCP Atlas基準測試中,這一功能在保持準確率不變的同時,將Token消耗量砍掉了驚人的47%。
對于開發者來說,Codex中的“/fast”模式更是福音,它能讓Token生成速度最高提升1.5倍,同樣的智力,更快的速度。
怎么用?多少錢?
據了解,即日起,GPT-5.4 Thinking已面向ChatGPT Plus、Team和Pro用戶開放,它將取代GPT-5.2 Thinking成為默認的思考模型。而性能更強的GPT-5.4 Pro則主要面向Pro和企業用戶。
價格方面,GPT-5.4確實漲了。輸入2.5美元/百萬Token,輸出15美元/百萬Token。而Pro版更是高達輸入30美元/百萬Token,輸出180美元/百萬Token。
雖然貴,但考慮到它優秀的Token效率,以及比Claude Opus 4.6便宜近一半的API價格,對于企業級應用來說,可能反而更具性價比。
小結
GPT-5.4的發布,標志著一個明確的轉向:大模型的競爭,已經從單純的“參數競賽”和“跑分刷榜”,進入了“全能執行”的新階段。
OpenAI這次整合了推理、編程、長上下文和電腦操控,目標直指一個終極形態,AI數字員工。它不再只是一個對話框,而是一個能理解、能思考、能動手干活的智能代理。
打工人懸了嗎?或許現在還不至于,但那個AI負責工作,人類負責生活的未來,確實又近了一大步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.