網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.3-Codex突然登場(chǎng)！AI能自己造自己了

2026-02-06 10:02:20　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯心緣

智東西2月6日?qǐng)?bào)道，今天，就在Claude發(fā)布Opus 4.6后的幾分鐘，OpenAI也推出了自家的最新編程模型：GPT-5.3-Codex。OpenAI號(hào)稱(chēng)，這是世界上最強(qiáng)大的智能體（Agentic）編程模型。

GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0這兩個(gè)編程基準(zhǔn)測(cè)試中拿到了SOTA，并在OSWorld和GDPval等智能體能力和真實(shí)世界任務(wù)測(cè)評(píng)中，較GPT-5.2-Codex實(shí)現(xiàn)一定提升。在Terminal-Bench 2.0上，GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%。

不過(guò)，OpenAI參加的基準(zhǔn)測(cè)試數(shù)量更少，也基本沒(méi)有和Claude Opus 4.6重疊的，得分只能作為參考。

為演示其編程能力，OpenAI曬出了一個(gè)由GPT-5.3-Codex打造的賽車(chē)游戲。這個(gè)游戲里有多輛賽車(chē)同時(shí)開(kāi)展比拼，還配備了8張地圖，甚至還能用空格鍵使用道具，就是畫(huà)風(fēng)確實(shí)有些簡(jiǎn)陋。我們也簡(jiǎn)單試玩了一下這個(gè)游戲，完成度還挺高的。

體驗(yàn)鏈接：

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

OpenAI還透露，GPT-5.3-Codex是OpenAI首個(gè)在自我創(chuàng)建過(guò)程中發(fā)揮關(guān)鍵作用的模型。GPT-5.3-Codex的早期版本，被Codex團(tuán)隊(duì)用來(lái)調(diào)試模型訓(xùn)練、管理部署、診斷測(cè)試結(jié)果和評(píng)估，加速了模型的開(kāi)發(fā)。

GPT-5.3-Codex其實(shí)就是GPT-5.2-Codex和GPT-5.2的結(jié)合體，具備前者的編程能力和后者的推理能力和專(zhuān)業(yè)知識(shí)儲(chǔ)備，且速度也提升了25%。

這意味著GPT-5.3-Codex不僅可以用于編程，也可用于軟件工程里的所有其他工作，比如調(diào)試、部署、監(jiān)控、測(cè)試、指標(biāo)分析等。你還可以用GPT-5.3-Codex來(lái)做PPT、Excel、Word等等，從OpenAI分享的案例來(lái)看效果還不錯(cuò)。

▲GPT-5.3-Codex打造的PPT（圖源：OpenAI）

與GPT-5.3-Codex同期發(fā)布的，還有OpenAI的最新的企業(yè)級(jí)智能體平臺(tái)Frontier，具備共享上下文、在反饋中學(xué)習(xí)、持續(xù)改進(jìn)等能力，并支持設(shè)定清晰的權(quán)限與邊界。

▲Frontier打造的Agent（圖源：OpenAI）

目前，GPT-5.3-Codex已向付費(fèi)ChatGPT用戶(hù)開(kāi)放，可在Codex應(yīng)用、CLI、IDE插件和Web中使用。API訪問(wèn)仍需等待后續(xù)更新。Frontier現(xiàn)階段僅面向有限客戶(hù)，未來(lái)幾個(gè)月將有更廣泛的可用性。

不過(guò)，在這波發(fā)布中，與隔壁的Claude Opus 4.6相比，GPT-5.3-Codex和Frontier在討論熱度上明顯遜色一籌，發(fā)布模型的推文轉(zhuǎn)贊評(píng)數(shù)量都只有Claude Opus 4.6的不到一半，評(píng)論區(qū)中也能看到不少質(zhì)疑聲。

關(guān)心編程能力的用戶(hù)認(rèn)為GPT-5.3-Codex在實(shí)際使用體驗(yàn)和安全性上和Claude Opus 4.6仍有差距，而將OpenAI模型用于寫(xiě)作等其他場(chǎng)景的用戶(hù)，則認(rèn)為OpenAI不再重視他們。這顯示出OpenAI在編程等市場(chǎng)的產(chǎn)品號(hào)召力和社區(qū)影響力上，以及如何平衡自家的ToC和ToB業(yè)務(wù)上，仍有很長(zhǎng)的路要走。

一、能在數(shù)百萬(wàn)token代碼庫(kù)修Bug，還會(huì)給人類(lèi)主動(dòng)匯報(bào)工作

OpenAI稱(chēng)，在GPT-5.3-Codex的幫助下，其編程工具Codex將不再只是一個(gè)“會(huì)寫(xiě)和審代碼的智能體”，而是會(huì)進(jìn)化為一個(gè)幾乎可以完成開(kāi)發(fā)者和專(zhuān)業(yè)人士在計(jì)算機(jī)上能做的所有事情的智能體。

在Web開(kāi)發(fā)方面，OpenAI讓GPT-5.3-Codex打造了兩個(gè)游戲，一個(gè)是此前我們看到賽車(chē)游戲，另一個(gè)則是一個(gè)潛水游戲，游戲機(jī)制類(lèi)似《潛水員戴夫》。

不過(guò)，光是打造這樣一個(gè)游戲其實(shí)對(duì)如今的前沿編程模型來(lái)說(shuō)已經(jīng)不難了。OpenAI還分享，在發(fā)出“修復(fù)這個(gè) bug”、“改進(jìn)游戲”等通用后續(xù)提示詞的情況下，GPT-5.3-Codex可以在數(shù)百萬(wàn)token的過(guò)程中自主迭代這些游戲。

GPT-5.3-Codex在理解日常網(wǎng)站構(gòu)建意圖方面明顯優(yōu)于GPT-5.2-Codex。對(duì)于簡(jiǎn)單或描述不充分的提示，它會(huì)默認(rèn)生成功能更完整、默認(rèn)設(shè)置更合理的網(wǎng)站。

例如，在構(gòu)建一項(xiàng)名為“Quiet KPI”的服務(wù)的網(wǎng)站首頁(yè)時(shí)，GPT-5.3-Codex可以自動(dòng)將年付方案展示為折扣后的月價(jià)，還會(huì)自動(dòng)生成包含三條不同用戶(hù)評(píng)價(jià)的輪播組件，而不是僅呈現(xiàn)單條內(nèi)容。整體頁(yè)面因此顯得更加完整、更加接近可直接上線的產(chǎn)品。

程序員、設(shè)計(jì)師、產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家的工作遠(yuǎn)不止寫(xiě)代碼。GPT-5.3-Codex從設(shè)計(jì)之初就支持整個(gè)軟件生命周期中的工作，包括調(diào)試、部署、監(jiān)控、編寫(xiě)PRD、編輯文檔、用戶(hù)研究、測(cè)試、指標(biāo)分析、以及更多專(zhuān)業(yè)工作。

在使用類(lèi)似GDPval的自定義技能后，GPT-5.3-Codex在GDPval（一個(gè)衡量44種職業(yè)中明確知識(shí)型任務(wù)的評(píng)估）上達(dá)到了與GPT-5.2相當(dāng)?shù)乃健?/p>

在考察模型計(jì)算機(jī)使用能力的OSWorld-Verified中，人類(lèi)平均得分約為72%，而GPT-5.3-Codex達(dá)到了64.7%。GPT-5.3-Codex在該評(píng)測(cè)中表現(xiàn)顯著優(yōu)于以往的GPT模型。

隨著GPT-5.3-Codex的發(fā)布，Codex還提供了一個(gè)新的設(shè)置選項(xiàng)“工作中可引導(dǎo)”。開(kāi)啟后，GPT-5.3-Codex會(huì)在工作過(guò)程中頻繁更新關(guān)鍵決策和進(jìn)展，支持實(shí)時(shí)對(duì)話、提問(wèn)、討論方案，并在執(zhí)行期間持續(xù)解釋其思路并提供反饋。這讓人類(lèi)用戶(hù)可以更高效地指揮和監(jiān)督多個(gè)Agent。

OpenAI稱(chēng)，得益于基礎(chǔ)設(shè)施和推理?xiàng)５母倪M(jìn)，Codex用戶(hù)的GPT-5.3-Codex整體速度提升了25%。該模型開(kāi)發(fā)過(guò)程中，OpenAI與英偉達(dá)展開(kāi)了合作，基于GB200 NVL72系統(tǒng)設(shè)計(jì)、訓(xùn)練和部署。

二、推出企業(yè)級(jí)智能體平臺(tái)，惠普、Uber已經(jīng)用上了

在智能體平臺(tái)方面，OpenAI今天發(fā)布的Frontier，要做的是幫助企業(yè)構(gòu)建、部署并管理真正能干活的智能體。

OpenAI認(rèn)為，當(dāng)前企業(yè)在推進(jìn)AI應(yīng)用時(shí)面臨嚴(yán)重的數(shù)據(jù)與系統(tǒng)碎片化挑戰(zhàn)。智能體雖然被廣泛部署，卻因缺乏跨系統(tǒng)的全局視野和上下文而難以發(fā)揮實(shí)效，導(dǎo)致模型能力與實(shí)際部署之間存在巨大的“機(jī)會(huì)鴻溝”。

要打造能干活的智能體，OpenAI的思路是賦予智能體與人類(lèi)在工作中所需的同款能力。Frontier像培養(yǎng)人類(lèi)員工一樣，為AI同事提供系統(tǒng)化的“入職”支持。

比如，F(xiàn)rontier會(huì)讓智能體理解跨系統(tǒng)的業(yè)務(wù)流程、獲取執(zhí)行任務(wù)所需的工具與權(quán)限、學(xué)會(huì)判斷工作質(zhì)量，并在明確的安全邊界內(nèi)運(yùn)作。該平臺(tái)可與現(xiàn)有系統(tǒng)和數(shù)據(jù)集成，支持智能體通過(guò)多種界面融入工作。

Frontier的核心能力包括連接企業(yè)內(nèi)部數(shù)據(jù)與應(yīng)用，構(gòu)建統(tǒng)一的業(yè)務(wù)語(yǔ)義層；提供開(kāi)放的智能體執(zhí)行環(huán)境，支持規(guī)劃、操作與學(xué)習(xí)；內(nèi)置評(píng)估優(yōu)化機(jī)制，使AI能持續(xù)從經(jīng)驗(yàn)中提升質(zhì)量；同時(shí)確保企業(yè)級(jí)安全治理，為每個(gè)智能體設(shè)定身份、權(quán)限與防護(hù)邊界。

為了讓企業(yè)更方便地管理智能體，F(xiàn)rontier提供了概覽界面，在這里可以看到活躍的智能體數(shù)量，這些智能體完成了多少任務(wù)，又用掉了多少額度。

此外，OpenAI還會(huì)派駐工程師與客戶(hù)團(tuán)隊(duì)協(xié)作，將實(shí)踐經(jīng)驗(yàn)與研究反饋相結(jié)合，加速落地進(jìn)程。已有不少大型企業(yè)客戶(hù)采用了Frontier，比如惠普、Intuit、甲骨文、State Farm、賽默飛（Thermo Fisher）、Uber等等。

結(jié)語(yǔ)：OpenAI押注“AI勞動(dòng)力”

這次發(fā)布中，OpenAI將其主要精力都放在了AI的生產(chǎn)力與落地能力上。無(wú)論是GPT-5.3-Codex在編程、軟件工程全流程和計(jì)算機(jī)使用能力上的強(qiáng)化，還是Frontier試圖為企業(yè)補(bǔ)齊“能干活的智能體”這一關(guān)鍵拼圖，都指向同一個(gè)方向，也就是讓AI真正走進(jìn)生產(chǎn)環(huán)境，成為可以被管理、被信任、被規(guī)模化使用的勞動(dòng)力。

如何在持續(xù)加碼企業(yè)級(jí)智能體和生產(chǎn)力場(chǎng)景的同時(shí)，維持開(kāi)發(fā)者與普通用戶(hù)的信任感與參與感，如何在ToB的長(zhǎng)期布局與ToC的廣泛影響力之間找到平衡，或許將成為OpenAI接下來(lái)一段時(shí)間里必須回答的關(guān)鍵問(wèn)題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.