實(shí)測 GPT-5.3-Codex，OpenAI 史上第一個高危模型，連 API 都還不敢給我們

2026-02-06 18:40:06　來源: 愛范兒

廣東舉報

分享至

今天凌晨發(fā)布的 GPT-5.3-Codex 可以說是 OpenAI 對這段時間來，各種本地 Agent 爆火的一記重拳回?fù)簦?dāng)然主要是對 Anthropic 的反擊。

配合 OpenAI 前幾天的發(fā)布的 Codex 桌面版應(yīng)用，Skill、Cowork、Claude Code，甚至是 Openclaw，這些熱門工具能實(shí)現(xiàn)的功能，現(xiàn)在通過 Codex 的外殼 + GPT-5.3-Codex 模型能力，都能做到了。

▲ 在 Codex App 內(nèi)可以直接選擇 GPT-5.3-Codex 模型，也能選擇深度思考的強(qiáng)度

和之前介紹 Cowork 的能力一樣，我們也丟了一些類似的任務(wù)讓 Codex 來完成，像是直接處理本地文件、各種格式轉(zhuǎn)換、調(diào)用不同的 Skills 組合能力、做 Word/PPT/Excel、下載視頻、開發(fā) App……

GPT-5.3-Codex 的表現(xiàn)確實(shí)亮眼，相比較從頭開始安裝 Claude Code，對新人用戶來說，現(xiàn)在直接下載 Codex 會是一個更好的選擇。這也是未來模型廠商的一種趨勢，一開始大家都是從黑乎乎的命令行終端開始做本地 Agent，接著都慢慢回歸到可視化的友好界面。

網(wǎng)上對 Codex 的評價在這幾天也有了不少逆轉(zhuǎn)，許多開發(fā)者從 Claude Code 轉(zhuǎn)向 Codex，一些在國內(nèi)的獨(dú)立開發(fā)者也表示 Codex Plus 會員就可以用，而且還不會像 Claude 那般總是無情封號。

奧特曼更是激動的宣布，Codex 的活躍用戶已經(jīng)超過 100 萬。在模型更新博客，也是毫不掩飾和留有余地的夸贊，

GPT-5.3-Codex 是我們第一個能夠自我構(gòu)建的模型。通過使用 5.3-Codex，我們能夠以如此快的速度發(fā)布 5.3-Codex。

跟 Claude 團(tuán)隊用兩周的時間，使用 Claude Code，100% AI 代碼，搓出一個 Cowork 一樣；還有 OpenAI 去年年底發(fā)布的文章，「使用 Codex 在 28 天內(nèi)構(gòu)建 Android 版 Sora」，Agent 的時代真的來了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多數(shù)的本地 Agent 一樣，無論是終端還是 Cowork，我們都是先選擇一個工作文件夾。在 Codex 中，我們可以創(chuàng)建多個 Project，選擇對應(yīng)的文件夾，再進(jìn)一步開始對話，Codex 把它們叫做 Threads 線程。

先用最普遍和簡單的例子，我們添加了一個空的下載文件夾，然后點(diǎn)擊開始一個線程，選擇 GPT-5.3-Codex 模型；就像在 ChatGPT 里面對話一樣，輸入指令。

要求它幫我們下載一個 X 視頻，Codex 會自動檢查可用的 Skills 來處理，接著通過 yt-dlp 工具進(jìn)行下載，這個視頻有四個多小時長，Codex 會一直在對話框里自動更新下載進(jìn)度。

▲GIF 圖經(jīng)過加速處理

視頻下載后，我們還可以要求它提取視頻的逐字稿，給我們一份雙語版本的文檔，最后讓它把整個流程打包為一個 Skill，方便下次使用。

如果視頻中有一些比較有意思的片段，想要裁剪視頻，或者是把裁出來的視頻轉(zhuǎn)成 GIF 圖，在 Codex 里都能做到。

例如，我們這里下載了一個視頻，然后要求它把視頻的 5s-25s 裁剪出來成為一個新的視頻；得益于 GPT-5.3-Codex 的 Token 快速處理，整個過程不需要很長時間，反而更多是取決于本地電腦的硬件解碼編碼能力。

▲ GIF 圖經(jīng)過加速處理

或者我們也可以直接要求它把視頻的前 5s 轉(zhuǎn)成一個 GIF 文件，并且確保大小在 10MB 以內(nèi)，幀數(shù)可以自行調(diào)整，清晰度上將寬度控制在 640px。

很快，我們就能得到對應(yīng)的 GIF 文件。更極端一點(diǎn)，還能讓它把整個視頻轉(zhuǎn)成圖片，每秒 30 幀，每一幀就是一張圖。

這些對本地文件的直接處理，和 GPT-5.3-Codex 在 Terminal-Bench-2 測試集上的優(yōu)異表現(xiàn)，讓 Codex 基本上能滿足各種生產(chǎn)力工具、效率工具的功能實(shí)現(xiàn)。

作為對比，同樣是剛剛發(fā)布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%，GPT-5.3-Codex 是 77.3%。

▲ 圖片來源：https://x.com/neilsuperduper/status/2019486017703547309/

例如在這個文件夾中，有多張圖片，我們首先是要求它根據(jù)圖片內(nèi)容，對這些圖片文件進(jìn)行重命名，并保持文件名不超過 20 個字母，不允許使用符號。

▲ GIF 圖經(jīng)過加速

自動修改完成后，我們還能要求他對這些圖片進(jìn)行拼接，無論是垂直拼接還是水平，調(diào)用對應(yīng)的工具，Codex 都可以做到。

和 Claude Skills 一樣，Codex 也能安裝 Skills 市場上豐富的技能，并且在應(yīng)用內(nèi)，就已經(jīng)提供了包括 pptx、xls、word、canvas、notion 在內(nèi)的多款技能。

回到基礎(chǔ)的編程能力，升級后的 GPT-5.3-Codex 表現(xiàn)也比 GPT-5.2 要好上不少。我們直接要求它寫一個「每日一詞」的 App。和在 ChatGPT 里面直接用 Canvas 給我們一個帶不走的網(wǎng)頁不同，Codex 能在本地從零開始，完成項目，然后使用 Vercel 或 Cloudflare 等 Skills 部署到網(wǎng)頁上。

這里我們選擇的推理模式是 Extra High，超強(qiáng)推理模式，于是在每一步操作之前，GPT-5.3-Codex 都會詢問我下一步的操作選擇，這也和 Codex 內(nèi)部能直接根據(jù)任務(wù)情況，調(diào)用不同 Skills 有關(guān)，其中的頭腦風(fēng)暴 Skill，會自動進(jìn)行不斷對話的模式。

最后，它基本上還是完成了我一開始要求它完成的全部功能，并且還能進(jìn)一步開發(fā) macOS、iOS，和安卓版本。

如果我們有現(xiàn)成的代碼項目，也可以選擇該項目文件夾，在 Codex 中打開，GPT-5.3-Codex 會分析項目存在的 Bug，并且修復(fù)它。

在過去很長一段時間里，無論是工具還是模型，開發(fā)者的首選其實(shí)都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在編程、尤其是長代碼邏輯推理上的掉隊，曾讓不少開發(fā)者轉(zhuǎn)投陣營。

GPT-5.3-Codex 的出現(xiàn)，就是為了終結(jié)這場爭論。現(xiàn)在 GPT-5.3-Codex 在編程基準(zhǔn)測試和實(shí)際表現(xiàn)上，不僅碾壓了自家的前代模型，也確實(shí)有把友商模型按在地上摩擦的前兆。它真正具備了編寫、測試和推理代碼的能力。

做游戲項目，是這次模型介紹博客里，網(wǎng)站開發(fā)部分主要案例，我們也讓 GPT-5.3-Codex 做了一個簡單的物理彈球游戲，整體的效果雖然沒有達(dá)到我的期待，因?yàn)槲以谔崾驹~里面有說希望這是一個 RPG 的游戲，但 GPT-5.3-Codex 給我的界面還是過于簡陋了。不過，好在還是能玩。

我們也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戲，像這個類似超級瑪麗的收集金幣。

▲來源：https://x.com/Angaisb_/status/2019548783869325331

強(qiáng)中更有強(qiáng)中手

對 Anthropic 來說，OpenAI 今天玩的這些，可能會說，這都是我們玩剩下的。無論是代碼、或者 Agent 的能力，還是開始著手去做本地 Agent，從之前 Codex 的終端轉(zhuǎn)成現(xiàn)在的 macOS App。

在技術(shù)的領(lǐng)域，OpenAI 仿佛都是跟著 Claude 的腳步在走，Claude 深耕代碼能力，OpenAI 搞了 Sora、日報、瀏覽器、ChatGPT agent，都沒什么水花，于是也在代碼上發(fā)力；Claude 一月初推出 Cowork，OpenAI 也緊接著在二月初發(fā)布 Codex App。

就和今天的密集發(fā)布一樣，凌晨 1:45，Claude 官方發(fā) X 推出 Claude Opus 4.6，緊接著就是 OpenAI 端上 GPT-5.3-Codex。兩款模型其實(shí)都是為了給 Agent 更強(qiáng)大的基座能力，以前是說代碼/vibe coding，但現(xiàn)在 Agent 能做好，基本上都是「寫代碼寫得好」。

Opus 4.6 雖然在 SWE-Bench 上的表現(xiàn)甚至不如 Opus 4.5，并且 Terminal-Bench 2.0 上的成績也沒有 GPT-5.3-Codex 強(qiáng)，但是 Opus 破天荒地把上下文長度拉到了一百萬 token 的窗口。而且，這些 benchmark 的表現(xiàn)還沒有相差很多。

Claude 說，我的 Sonnet 5 還沒上來，那才是真功夫。

我們在網(wǎng)上也找了一些 Opus 4.6 最新的測試案例，有網(wǎng)友說 Claude 4.6 Opus 只是一次調(diào)用，就完全重構(gòu)了他的整個代碼庫，將原來混亂的代碼「屎山」全部模塊化，并且沒有模型能像 Opus 這樣做到。

還有網(wǎng)友拿 Opus 4.6 和 4.5 進(jìn)行對比，讓兩個模型玩同一款經(jīng)營游戲，看誰的賬戶等級、財富和裝備更高。測試博主提到，4.6 版本在初期制定戰(zhàn)略的時間更長，但是做出了更好的戰(zhàn)略決策，并且在最后確實(shí)做到了遙遙領(lǐng)先。

還有網(wǎng)友也做了一個游戲，不過是一個寶可夢的克隆版。博主提到這是他用 AI 做出來的最酷的東西。他提到，Claude Opus 4.6 思考了 1 小時 30 分鐘，使用了 11 萬個 Token，并且只迭代了三次。

▲ https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用戶的反饋中，也提到了一個 Opus 表現(xiàn)優(yōu)秀的案例。Opus 4.6 在一天內(nèi)自主關(guān)閉了 13 個 issue，issue 即項目存在的待解決問題，并將另外 12 個 issue 準(zhǔn)確分派給了正確的人類團(tuán)隊成員。

和 Kimi K2.5 的智能體蜂群一樣，Opus 4.6 也能管理一個 50 人規(guī)模組織的代碼庫。在 Claude Code 中，我們可以組建 Agent Teams，召喚出一整個隊伍的 AI，不再是一個 AI 在戰(zhàn)斗。這些AI 可以有的負(fù)責(zé)寫代碼，有的負(fù)責(zé) Review，有的負(fù)責(zé)測試，它們之間自主協(xié)作。

也有網(wǎng)友測試了 Claude Code 里面的 Agent 蜂群，提到啟用蜂群之后的 Opus 4.6，速度提升 2.5 倍，并且效果也更好。

我們現(xiàn)在的狀態(tài)就跟這張圖片一樣，雖然一山比一山高，但都繞不出這個圈。前幾個月可能是 Gemini 賺走了風(fēng)頭，一月份來，應(yīng)該是 Claude，然后看樣子又要輪到 OpenAI，或者馬斯克的 Grok。

好在這個輪回的過程中，作為用戶的我們，能明顯感覺到 AI 的能力一直在變強(qiáng)。

GPT-5.3-Codex 的 API 還沒有開放，原因是模型太強(qiáng)了，會存在很大的風(fēng)險，所以 OpenAI 還在考慮怎么安全地啟用 API。

Claude Opus 4.6 已經(jīng)可以在 Claude 通用聊天應(yīng)用、Claude Code、API 多種方式使用，這兩個作為今年國外御三家首發(fā)的兩款模型，非常值得一試。

未來，更好的服務(wù) Agent，讓 Agent 為我們做事，還會是大模型更新的重點(diǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.