![]()
文:董指導
OpenAI 終于祭出了其籌備已久的重磅武器了:GPT-5.4 Thinking 與 GPT-5.4 Pro。
奧特曼(Sam Altman)照例地稱其為“迄今為止最強大的模型”。雖然這句話他每次都說、幾乎每家公司也都會說,但這一次,指標數據的跑分,確實有“資本”。
![]()
1、原生電腦操作能力,超過“人類基準線”
最核心的突破在于 OSWorld-Verified 測試中拿到的75%這一高分。而人類在同一測試中的平均水平則是72.4%。
這個對人類的超越有什么意義呢?
OSWorld-Verified是公認的“最硬核”的真實桌面環境測試。AI需要在這個環境中像人一樣,通過視覺(看截圖)和操作(移動鼠標、鍵盤輸入)來完成跨軟件的任務。
簡單說,就是能否絲滑操作電腦。從只會動嘴,到動手。
這個能力對于Agent非常重要,尤其最近火爆的OpenClaw,也很需要相關能力。
OSWorld測試中有幾個挑戰,比如:
視覺延遲(模型識別電腦屏幕、及時進行操作)、
坐標漂移(點不準,比如關閉、放大、縮小的緊密排列按鈕)、
長鏈條推理(比如“在 Excel 里分析數據,然后寫進郵件,根據回復附件改名”。只要中間有一步錯,任務就全毀了)等等。
這個指標在過去兩年經歷了快速迭代和大幅拉升。
![]()
之前的領先,一直是Claude,而GPT上一代才47%,根本不夠看的。國產之光Kimi也短暫沖榜第一。
Caude上一次得分,離72.4%仍差臨門一腳;結果,GPT 5.4直接加速沖刺、拔腳射門。OpenAI算是維護住了自己的“王者之風”。
提升的途徑在于“視覺感知能力”更強。
雖然測試、跑分都是有一定的套路的,和真實世界的復雜性仍有差距;但,這個突破,對于智能體、對于OpenClaw的普及還是很有幫助的。
不得不說,OpenClaw之父加入OpenAI之后,是真有效果啊。人才果然是AI時代的核心要素。
2、幻覺率降低了33%,更專業
基準測試只是面子,“不胡扯”才是里子。GPT-5.4事實陳述方面,將錯誤率降低了33%。
一個出錯率極低的模型,才能真正進入銀行、醫療、法律等高容錯要求的生產環境。
與之對應,在GDPval測試中,GPT-5.4在44種職業任務里,有83%的結果達到或超越專業人士水準,比上一代70.9%顯著提升。
3、100 萬 Token 上下文
搭載了百萬級上下文窗口后,GPT-5.4 不再有“走神”的問題。
能夠一次性記錄一家中型企業的年度所有周報和財務報表,并在此基礎上進行關聯分析。
GPT-5.4的能力突破,全面開花,幾乎沒有短板;除了“價格”:
輸入價格2.5美元/百萬token,輸出價格15美元/百萬token;Pro版本,輸入30美元/百萬token,輸出180美元/百萬token。
4、壓力與“追趕者”的陰影
盡管GPT-5.4表現強悍,但這次發布的背景則是被Claude的反超。
Claude 4.6 在代碼邏輯和長文本一致性上長期霸榜,甚至在部分開發者社區中,使用 Claude 的比例已經反超了 GPT。
OpenAI 迫切需要這場勝利來穩住其企業客戶(B 端)的流失。
![]()
在追趕不停歇,指標月月變的時代,確實要多思考、多關注。
---全文完,歡迎交流
理工/金融 復合背景
暢銷書《英偉達之道》譯者
百億私募/頭部自媒體 雙重經歷
看清科技、商業本質,講出精彩故事
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.