Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
火星撞地球,新模型大戰!
Claude Opus 4.6發布僅僅15分鐘,OpenAI也甩出了自己最新最強編程模型——
GPT-5.3-Codex。
![]()
最直觀的感受是,這個新模型終于有點美學品味了。
官方展示了兩個Demo:一個賽車游戲、一個潛水游戲。還蠻有風格的。
![]()
據說,GPT-5.3-Codex在幾乎沒有人工干預的情況下,持續迭代這些游戲,累計消耗了數百萬token
在網頁開發上,除了UI更好看,對「意圖」的理解也更強了。
即便Prompt給得不清楚,它也能自動補全邏輯,生成一個功能齊全的網站。
![]()
就這些Demo來看,設計感確實比之前強了一截。
Computer use能力同樣拉滿,現在已經能用來幫金融從業者直接做PPT。
![]()
其他職場工作也能覆蓋,尤其是在專業知識密集型任務上,寫文檔、做電子表格都沒什么問題。
![]()
硬實力方面,官方給出的亮點如下:
- 更聰明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。
- 更可控:支持任務進行中的實時引導,可隨時調整方向并獲取更新。
- 更快速:完成相同任務時,所需token不到5.2-Codex的一半,單token速度提升超過25%。
- 更Agent:不只是更會寫代碼,計算機操作同樣很強。
直接看這張對比表會更直觀,幾乎每一個維度,都比上一代有明顯提升。
![]()
網友直呼過于刺激,昨天OpenAI剛被Anthropic拿廣告狙了一槍,今天就對轟了回來。
一天之內,兩個重量級編程模型
![]()
評論區也迅速分成了Anthropic派和OpenAI派。
![]()
![]()
下面來看看,這場奧特曼主動挑起的AI coding大戰,OpenAI到底表現如何?
GPT 5.3 Codex
大家最關心的,當然還是編程能力。
OpenAI表示,GPT-5.3-Codex在SWE-Bench Pro上實現了SOTA。
這是一個專為真實世界軟件工程設計的測試,覆蓋四種編程語言,整體難度更高、任務更豐富,也更貼近真實生產場景。
![]()
同時,GPT-5.3-Codex在Terminal-Bench 2.0上的表現也有明顯提升。
![]()
更關鍵的是效率。在拿下這些成績的同時,GPT-5.3-Codex使用的token數量少于任何以往模型
除了編程能力,新一代Codex的另一個重點是Computer use
OSWorld是一項面向智能體的計算機使用基準測試,要求模型在可視化的桌面計算機環境中完成各類生產力任務。
結果顯示,GPT-5.3-Codex在計算機使用能力上,明顯強于此前的GPT模型。
![]()
綜上,GPT-5.3-Codex不是一次單點模型能力突破,更像是基于智能體的全方位發展,編碼、前端開發、計算機操作全都有提升
更有意思的是,這次GPT-5.3-Codex直接參與了自己的訓練過程
OpenAI表示,這是他們首個參與「自我加速」的模型。Codex團隊在研發過程中使用其早期版本,來調試自身訓練流程、管理部署,并評估測試結果。
官方也給出了一些具體例子。
訓練階段,研究團隊使用Codex監控和調試訓練任務,幫助在整個訓練過程中追蹤模型行為變化,對交互進行深入分析,并提出改進方案。
數據分析方面,一位數據科學家與GPT-5.3-Codex協作,構建了新的數據管道,并以遠超傳統儀表盤工具的方式對結果進行了可視化。
隨后,研究人員與Codex一起分析這些結果,模型在不到三分鐘內,就從數千個數據點中提煉出了關鍵洞見。
工程團隊則借助Codex優化和適配GPT-5.3-Codex的測試與運行框架。
當開始出現影響用戶體驗的異常邊緣案例時,團隊成員通過Codex定位到了上下文渲染相關的缺陷,并進一步追溯到了緩存命中率偏低的原因。
Two More Things
與Anthropic的巔峰對決的確相當精彩,但OpenAI其實還有兩個值得關注的大動作。
1、Frontier:一個幫助企業打造「AI同事」的平臺
![]()
這是OpenAI一項相當重磅的ToB業務,目標很明確:讓Agent真正進入公司工作流。
具體實現方式,包括共享上下文、上手式的入職引導、帶反饋的實踐學習,以及清晰的權限與邊界。
據悉,HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企業,已經早早采用了Frontier。
2、AI4S:OpenAI和Ginkgo聯手,用GPT-5把蛋白質合成成本打下來了40%
![]()
這是一家做合成生物學的實驗室型公司,他們將GPT-5接入一座自主實驗室,讓模型可以提出實驗方案、規模化執行實驗、從結果中學習,并決定下一步該嘗試什么,完整跑通了一個閉環。
2026年,或許是AI4S加速演進的一年。
不過,在OpenAI忙著和Anthropic對狙,網友們被一系列新動態弄的眼花繚亂的同時,評論區也有另一種聲音。
- 把4o還給我!!
![]()
直到現在,奧特曼依然沒有回應4o被徹底下架這件事。
或許,真的是和Anthropic打得太忙了。
![]()
[1]https://openai.com/index/introducing-gpt-5-3-codex/
[2]https://openai.com/index/introducing-openai-frontier/
[3] https://x.com/i/trending/2019496485793198148
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.