![]()
智東西
作者 陳駿達(dá)
編輯 心緣
智東西2月6日?qǐng)?bào)道,今天,就在Claude發(fā)布Opus 4.6后的幾分鐘,OpenAI也推出了自家的最新編程模型:GPT-5.3-Codex。OpenAI號(hào)稱(chēng),這是世界上最強(qiáng)大的智能體(Agentic)編程模型。
GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0這兩個(gè)編程基準(zhǔn)測(cè)試中拿到了SOTA,并在OSWorld和GDPval等智能體能力和真實(shí)世界任務(wù)測(cè)評(píng)中,較GPT-5.2-Codex實(shí)現(xiàn)一定提升。在Terminal-Bench 2.0上,GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%。
![]()
不過(guò),OpenAI參加的基準(zhǔn)測(cè)試數(shù)量更少,也基本沒(méi)有和Claude Opus 4.6重疊的,得分只能作為參考。
為演示其編程能力,OpenAI曬出了一個(gè)由GPT-5.3-Codex打造的賽車(chē)游戲。這個(gè)游戲里有多輛賽車(chē)同時(shí)開(kāi)展比拼,還配備了8張地圖,甚至還能用空格鍵使用道具,就是畫(huà)風(fēng)確實(shí)有些簡(jiǎn)陋。我們也簡(jiǎn)單試玩了一下這個(gè)游戲,完成度還挺高的。
![]()
體驗(yàn)鏈接:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
OpenAI還透露,GPT-5.3-Codex是OpenAI首個(gè)在自我創(chuàng)建過(guò)程中發(fā)揮關(guān)鍵作用的模型。GPT-5.3-Codex的早期版本,被Codex團(tuán)隊(duì)用來(lái)調(diào)試模型訓(xùn)練、管理部署、診斷測(cè)試結(jié)果和評(píng)估,加速了模型的開(kāi)發(fā)。
GPT-5.3-Codex其實(shí)就是GPT-5.2-Codex和GPT-5.2的結(jié)合體,具備前者的編程能力和后者的推理能力和專(zhuān)業(yè)知識(shí)儲(chǔ)備,且速度也提升了25%。
這意味著GPT-5.3-Codex不僅可以用于編程,也可用于軟件工程里的所有其他工作,比如調(diào)試、部署、監(jiān)控、測(cè)試、指標(biāo)分析等。你還可以用GPT-5.3-Codex來(lái)做PPT、Excel、Word等等,從OpenAI分享的案例來(lái)看效果還不錯(cuò)。
![]()
▲GPT-5.3-Codex打造的PPT(圖源:OpenAI)
與GPT-5.3-Codex同期發(fā)布的,還有OpenAI的最新的企業(yè)級(jí)智能體平臺(tái)Frontier,具備共享上下文、在反饋中學(xué)習(xí)、持續(xù)改進(jìn)等能力,并支持設(shè)定清晰的權(quán)限與邊界。
![]()
▲Frontier打造的Agent(圖源:OpenAI)
目前,GPT-5.3-Codex已向付費(fèi)ChatGPT用戶(hù)開(kāi)放,可在Codex應(yīng)用、CLI、IDE插件和Web中使用。API訪問(wèn)仍需等待后續(xù)更新。Frontier現(xiàn)階段僅面向有限客戶(hù),未來(lái)幾個(gè)月將有更廣泛的可用性。
不過(guò),在這波發(fā)布中,與隔壁的Claude Opus 4.6相比,GPT-5.3-Codex和Frontier在討論熱度上明顯遜色一籌,發(fā)布模型的推文轉(zhuǎn)贊評(píng)數(shù)量都只有Claude Opus 4.6的不到一半,評(píng)論區(qū)中也能看到不少質(zhì)疑聲。
![]()
關(guān)心編程能力的用戶(hù)認(rèn)為GPT-5.3-Codex在實(shí)際使用體驗(yàn)和安全性上和Claude Opus 4.6仍有差距,而將OpenAI模型用于寫(xiě)作等其他場(chǎng)景的用戶(hù),則認(rèn)為OpenAI不再重視他們。這顯示出OpenAI在編程等市場(chǎng)的產(chǎn)品號(hào)召力和社區(qū)影響力上,以及如何平衡自家的ToC和ToB業(yè)務(wù)上,仍有很長(zhǎng)的路要走。
一、能在數(shù)百萬(wàn)token代碼庫(kù)修Bug,還會(huì)給人類(lèi)主動(dòng)匯報(bào)工作
OpenAI稱(chēng),在GPT-5.3-Codex的幫助下,其編程工具Codex將不再只是一個(gè)“會(huì)寫(xiě)和審代碼的智能體”,而是會(huì)進(jìn)化為一個(gè)幾乎可以完成開(kāi)發(fā)者和專(zhuān)業(yè)人士在計(jì)算機(jī)上能做的所有事情的智能體。
在Web開(kāi)發(fā)方面,OpenAI讓GPT-5.3-Codex打造了兩個(gè)游戲,一個(gè)是此前我們看到賽車(chē)游戲,另一個(gè)則是一個(gè)潛水游戲,游戲機(jī)制類(lèi)似《潛水員戴夫》。
![]()
不過(guò),光是打造這樣一個(gè)游戲其實(shí)對(duì)如今的前沿編程模型來(lái)說(shuō)已經(jīng)不難了。OpenAI還分享,在發(fā)出“修復(fù)這個(gè) bug”、“改進(jìn)游戲”等通用后續(xù)提示詞的情況下,GPT-5.3-Codex可以在數(shù)百萬(wàn)token的過(guò)程中自主迭代這些游戲。
GPT-5.3-Codex在理解日常網(wǎng)站構(gòu)建意圖方面明顯優(yōu)于GPT-5.2-Codex。對(duì)于簡(jiǎn)單或描述不充分的提示,它會(huì)默認(rèn)生成功能更完整、默認(rèn)設(shè)置更合理的網(wǎng)站。
例如,在構(gòu)建一項(xiàng)名為“Quiet KPI”的服務(wù)的網(wǎng)站首頁(yè)時(shí),GPT-5.3-Codex可以自動(dòng)將年付方案展示為折扣后的月價(jià),還會(huì)自動(dòng)生成包含三條不同用戶(hù)評(píng)價(jià)的輪播組件,而不是僅呈現(xiàn)單條內(nèi)容。整體頁(yè)面因此顯得更加完整、更加接近可直接上線的產(chǎn)品。
![]()
程序員、設(shè)計(jì)師、產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家的工作遠(yuǎn)不止寫(xiě)代碼。GPT-5.3-Codex從設(shè)計(jì)之初就支持整個(gè)軟件生命周期中的工作,包括調(diào)試、部署、監(jiān)控、編寫(xiě)PRD、編輯文檔、用戶(hù)研究、測(cè)試、指標(biāo)分析、以及更多專(zhuān)業(yè)工作。
![]()
在使用類(lèi)似GDPval的自定義技能后,GPT-5.3-Codex在GDPval(一個(gè)衡量44種職業(yè)中明確知識(shí)型任務(wù)的評(píng)估)上達(dá)到了與GPT-5.2相當(dāng)?shù)乃健?/p>
在考察模型計(jì)算機(jī)使用能力的OSWorld-Verified中,人類(lèi)平均得分約為72%,而GPT-5.3-Codex達(dá)到了64.7%。GPT-5.3-Codex在該評(píng)測(cè)中表現(xiàn)顯著優(yōu)于以往的GPT模型。
隨著GPT-5.3-Codex的發(fā)布,Codex還提供了一個(gè)新的設(shè)置選項(xiàng)“工作中可引導(dǎo)”。開(kāi)啟后,GPT-5.3-Codex會(huì)在工作過(guò)程中頻繁更新關(guān)鍵決策和進(jìn)展,支持實(shí)時(shí)對(duì)話、提問(wèn)、討論方案,并在執(zhí)行期間持續(xù)解釋其思路并提供反饋。這讓人類(lèi)用戶(hù)可以更高效地指揮和監(jiān)督多個(gè)Agent。
OpenAI稱(chēng),得益于基礎(chǔ)設(shè)施和推理?xiàng)5母倪M(jìn),Codex用戶(hù)的GPT-5.3-Codex整體速度提升了25%。該模型開(kāi)發(fā)過(guò)程中,OpenAI與英偉達(dá)展開(kāi)了合作,基于GB200 NVL72系統(tǒng)設(shè)計(jì)、訓(xùn)練和部署。
二、推出企業(yè)級(jí)智能體平臺(tái),惠普、Uber已經(jīng)用上了
在智能體平臺(tái)方面,OpenAI今天發(fā)布的Frontier,要做的是幫助企業(yè)構(gòu)建、部署并管理真正能干活的智能體。
OpenAI認(rèn)為,當(dāng)前企業(yè)在推進(jìn)AI應(yīng)用時(shí)面臨嚴(yán)重的數(shù)據(jù)與系統(tǒng)碎片化挑戰(zhàn)。智能體雖然被廣泛部署,卻因缺乏跨系統(tǒng)的全局視野和上下文而難以發(fā)揮實(shí)效,導(dǎo)致模型能力與實(shí)際部署之間存在巨大的“機(jī)會(huì)鴻溝”。
要打造能干活的智能體,OpenAI的思路是賦予智能體與人類(lèi)在工作中所需的同款能力。Frontier像培養(yǎng)人類(lèi)員工一樣,為AI同事提供系統(tǒng)化的“入職”支持。
比如,F(xiàn)rontier會(huì)讓智能體理解跨系統(tǒng)的業(yè)務(wù)流程、獲取執(zhí)行任務(wù)所需的工具與權(quán)限、學(xué)會(huì)判斷工作質(zhì)量,并在明確的安全邊界內(nèi)運(yùn)作。該平臺(tái)可與現(xiàn)有系統(tǒng)和數(shù)據(jù)集成,支持智能體通過(guò)多種界面融入工作。
![]()
Frontier的核心能力包括連接企業(yè)內(nèi)部數(shù)據(jù)與應(yīng)用,構(gòu)建統(tǒng)一的業(yè)務(wù)語(yǔ)義層;提供開(kāi)放的智能體執(zhí)行環(huán)境,支持規(guī)劃、操作與學(xué)習(xí);內(nèi)置評(píng)估優(yōu)化機(jī)制,使AI能持續(xù)從經(jīng)驗(yàn)中提升質(zhì)量;同時(shí)確保企業(yè)級(jí)安全治理,為每個(gè)智能體設(shè)定身份、權(quán)限與防護(hù)邊界。
為了讓企業(yè)更方便地管理智能體,F(xiàn)rontier提供了概覽界面,在這里可以看到活躍的智能體數(shù)量,這些智能體完成了多少任務(wù),又用掉了多少額度。
![]()
此外,OpenAI還會(huì)派駐工程師與客戶(hù)團(tuán)隊(duì)協(xié)作,將實(shí)踐經(jīng)驗(yàn)與研究反饋相結(jié)合,加速落地進(jìn)程。已有不少大型企業(yè)客戶(hù)采用了Frontier,比如惠普、Intuit、甲骨文、State Farm、賽默飛(Thermo Fisher)、Uber等等。
結(jié)語(yǔ):OpenAI押注“AI勞動(dòng)力”
這次發(fā)布中,OpenAI將其主要精力都放在了AI的生產(chǎn)力與落地能力上。無(wú)論是GPT-5.3-Codex在編程、軟件工程全流程和計(jì)算機(jī)使用能力上的強(qiáng)化,還是Frontier試圖為企業(yè)補(bǔ)齊“能干活的智能體”這一關(guān)鍵拼圖,都指向同一個(gè)方向,也就是讓AI真正走進(jìn)生產(chǎn)環(huán)境,成為可以被管理、被信任、被規(guī)模化使用的勞動(dòng)力。
如何在持續(xù)加碼企業(yè)級(jí)智能體和生產(chǎn)力場(chǎng)景的同時(shí),維持開(kāi)發(fā)者與普通用戶(hù)的信任感與參與感,如何在ToB的長(zhǎng)期布局與ToC的廣泛影響力之間找到平衡,或許將成為OpenAI接下來(lái)一段時(shí)間里必須回答的關(guān)鍵問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.