網易首頁 > 網易號 > 正文申請入駐

地表最強編程王者PK！Opus 4.6雙榜單封神， Codex 5.3速度滿分

2026-02-07 10:29:05　來源: 新智元

北京舉報

分享至

新智元報道

編輯：定慧傾傾

【新智元導讀】硅谷的夜再次被點亮，OpenAI和Anthropic同日發布最新模型。正當開發者們沉浸在Codex 5.3的極致速度時，Arena和Epoch兩大權威榜單卻給出了意想不到的終局判決。

硅谷這波熱鬧，屬實有點上頭。

前腳Claude Opus 4.6剛剛夜襲發布，后腳OpenAI就祭出了GPT-5.3-Codex。

兩大「編程王者」正面硬剛，到底誰的能力更強？社區現在還吵翻天～

今天，兩大最硬核的權威機構Arena.ai和EpochAI，同時為Opus 4.6加冕！

Arena.ai：Opus 4.6全維度的屠榜

Arena.ai（前身是大家熟知的LMArena），這個被稱為「大模型角斗場」的地方，迎來了新的霸主。

Claude Opus 4.6，在代碼（Code）、文本（Text）、專家（Expert）三大競技場，全部登頂第一！

代碼競技場：比前代Opus 4.5暴漲106分。
文本競技場：得分1496，硬生生壓了Gemini 3 Pro一頭。
專家競技場：領先第二名約50分，斷層式領先。

這意味著什么？

意味著在數以萬計的真實人類盲測中，Opus 4.6是那個讓你最想點「贊」的模型。

它不是偏科生，它是真正的六邊形戰士。

在代碼實測中，這次的Opus 4.6比4.5提升了106分，遠超之前Opus 4.5對Sonnet 3.7的領先幅度。

Claude Opus 4.6自Claude 3 Opus以來首次在文本競技場排名第一。

同時在關鍵文本類別中位列榜首：

指令遵循
困難提示
長查詢

Claude Opus 4.6在專家領域排名第一，領先優勢達+49分。

專家排行榜采用了一個框架構建，該框架能識別出真實用戶提出的最困難、最專業的提示。

有網友表示，能夠在這三個領域同時拿下第一，是真正的SOTA，非常厲害。

有網友同時表示，這Opus 4.6拿下三冠王很厲害，但是真正對模型的考驗是前沿數學能力。

這不，EpochAI的評測新鮮出爐！

EpochAI：啃下「數學硬骨頭」

如果說Arena是大眾評審，那EpochAI的Frontier Math就是「奧數競賽」。

這里考的不是簡單的加減乘除，而是人類尚未解決的數學難題。

Opus 4.6交出的答卷是：Tier1-3級別得分40%，Tier4（極難）級別得分21%。

這個成績直接在統計學上追平了GPT-5.2(xhigh)。

這是Anthropic的模型第一次在這個只要有一點「智商欠費」就交白卷的榜單上，站到了最前沿。

在難度更高的第4級測試中，Opus 4.6獲得 21%的得分，解決了48道題目中的10道。

該成績同樣與GPT-5.2（xhigh）的19%得分在統計上持平，僅次于 GPT-5.2（Pro）31%的得分。

物理、數學，這些曾經是AI禁區的地方，現在成了Opus 4.6的后花園。

Opus 4.6模型表現非常搶眼的領域，多項得分位居前列：

OTIS Mock AIME 2024-2025：得分高達94.4%，展現了極強的競賽級數學解題能力。
GPQA Diamond：得分90.5%，這是一個針對專家級科學問題的困難測試。
FrontierMath：這是一個極其困難的數學前沿測試，Opus 4.6 得分為40.0%。在更難的Tier 4級別中，它獲得了20.8%的分數，排名第2。

在綜合與推理評測中：

ARC AGI v1：得分94.0%，排名第1。這是評估模型通用人工智能（AGI）潛力的核心指標之一，專注于抽象推理和模式識別。
SimpleQA Verified：得分46.5%。該測試主要評估模型回答事實性問題的準確度（減少幻覺）。
Chess Puzzles（國際象棋謎題）：得分17.0%，排名第14，相對而言這似乎是其較弱的一項。

Claude Opus 4.6在邏輯推理（ARC AGI）和高難度數學（FrontierMath、AIME）方面處于世界領先水平。

雖然它在某些特定領域（如國際象棋或簡單問答）不是第一，但其綜合能力（ECI 指數 153）使其成為當前最頂尖的模型之一。

巔峰對決：速度與審美的較量

權威榜單雖然為Opus 4.6封神，但開發者們的實戰也同樣精彩，而且似乎更偏愛GPT-5.3-Codex。

GPT-5.3-Codex就像一個喝了十杯濃縮咖啡的頂級黑客。

頂級開發者Banteg用它挑戰不可能，僅用14天就復刻了2003年的邪典游戲《Crimsonland》。

極客Karel把它當成鋼鐵俠的賈維斯用。一個月燒掉10000美元API費，讓它每天生成700個科研假設，自動掃描Slack記錄，自動提交代碼。

來詳細看看頂級程序員如何使用GPT-5.3-Codex。

代碼考古：14天復活《Crimsonland》，屎山消失術

在程序員的職場噩夢里，排第一的永遠是去接手前任留下的、沒有文檔、作者失聯、注釋像天書一樣的賽博廢墟。

但2026年，頂級開發者Banteg告訴我們：在強力AI面前，沒有不可維護的屎山，只有舍不得燒的算力。

Banteg盯上了2003年的邪典射擊游戲《Crimsonland》（血腥大地）。

這款游戲是很多80、90后的童年回憶，但它的底層代碼堪稱廢墟。

如果按照傳統流程，至少需要一個資深團隊閉關1個月，光是理清那些遠古的內存邏輯就能讓人少活五年。

結果，Banteg僅用了14天，就單槍匹馬完成了全平臺重構。

需要格外注意的是，該游戲資源用的.jaz格式，是一種消失了20年的私有協議，全網零文檔。

換做人類，至少得猜半年。但Codex-5.3僅憑分析二進制流特征，硬猜出了頭文件結構和加密偏移量！

Jaz拿著一張JPG，并用自定義的運行長度編碼的alpha通道進行包裹，然后再用zlib將整個東西重新壓縮過程圖

然后，生成一套現代化的C++/Rust渲染接口，讓2003年的像素資源在2026年的4K屏幕上重現。

這個許多人的童年回憶，終于在23年后重見天日。Banteg在X上公開了全部代碼「

GitHub代碼傳送門：https://github.com/banteg/crimson

以前公司裁員不敢動老員工，是怕沒人能接那一堆亂碼。

現在，大模型直接把這些代碼塞進上下文，兩周就能給你出一個全新的、注釋清晰的重構版。

月費1萬美金的Codex實戰經驗

在頂級極客Karel手里，Codex被玩成了投資游戲。

OpenAI的研究科學家Aidan說公司Karel一個人的Codex的使用量是其他人的十倍之多。

所以他的觀點非常重要。

Karel的單月賬單是10,000美元！

換來的是一套足以讓傳統科研機構倒閉的「非人知識循環」。

真正的突破在于讓Codex持續記錄并優化自身的工作流程。

Codex會將工作筆記和輔助工具提交到monorepo的個人文件夾中。

這些筆記并非供人閱讀，而是為了在后續會話中通過檢索這些「經驗」，提升Codex的處理速度和準確性。

Karel將Codex作為一名極其勤奮的「搜索智能體」和「盡職調查員」：

跨渠道聚合：Codex能自動爬取Slack頻道、閱讀討論、獲取實驗分支并精選代碼更改。
自主決策：它可以基于總結的筆記，在搭建實驗框架時自主做出復雜的超參數決策。
假設生成：在幾小時內通過分析Slack、截圖、文檔和表格，生成了超過700個關于模型行為的可測試假設。

其中，最關鍵的是「自動Helper提交」。

AI在執行任務時，會向Git提交「HelperCommits」。里面記錄了給下一次迭代中的AI準備的中間態上下文。

這樣一來，模型下一次處理類似任務時，會先掃描這些高密度的「HelperCommits」，直接省掉80%的試錯路徑。

這種「暴力美學」的回報同樣驚人。

Karel曾嘗試讓Agent掃描公司內部積年累月的Slack記錄和雜亂文檔。

幾小時內，AI竟然挖掘出了700條具有科研價值的假設，并自動關聯了相關的歷史代碼段。

10000美元買的API，賺麻了！

更加厲害的用法是使用GPT-5.3-codex同時管理多個子智能體，分別負責Slack調研、代碼研究、代碼編寫和數據科學。

Karel只與一個「指揮官」智能體對話，由其協調整個智能體集群，從而讓他本人從繁瑣的并行工作中解脫。

ClaudeOpus 4.6：深思熟慮的「藝術家」

如果說Codex是快，那Opus 4.6就是穩，而且美。

美學封神：在HTML5游戲開發實測中，Opus 4.6展現了驚人的「審美智商」。它寫出的代碼不僅0 Bug，而且界面布局、配色方案直接達到了專業UI設計師的水準。

邏輯熵控制：它也許會思考得更久（Token消耗多60%），但那是它在進行「思維鏈自我修正」。它在現在的Stirrup框架下，擁有了更強的「邏輯自檢」能力。它不是在瞎蒙，它是在推演。

Stirrup框架：給AI裝上「小腦」

Opus 4.6之所以能碾壓其他模型，得益于它對Stirrup框架的深度適配。

在這個架構下，AI擁有了實打實的Shell權限以及高度隔離的E2B沙箱。

它不僅能調用編譯器，還能通過5大核心工具聯動，在亞毫秒級的時間內判斷當前任務是否需要引入額外的邏輯自檢。

以「視頻排期表自動化」為例，它不僅能算出邏輯最優解，還能根據品牌調性自動調整輸出格式的視覺審美。

同一組數據，不同模型生成的結果

這種降維打擊，讓曾經的Prompt Engineering像個小學生。

邏輯熵控制：多花60%的錢，但結果更好

很多老板在看到賬單時會肉疼：Opus 4.6處理同類任務的Token消耗比競品高出約60%。

但技術玩家不在乎這些，他們只看「邏輯熵」。

Opus 4.6在輸出前，會在后臺進行瘋狂的思維鏈自我修正。主動推翻不合理的路徑，通過大量的內部Token消耗，換取邏輯的絕對精確。

不再做選擇題

這場巔峰對決，與其說是分出了勝負，不如說是為開發者鋪平了通往「一人公司」的最后一塊拼圖。

左手是極致速度的Codex 5.3，右手是極致審美的Opus 4.6。

以前我們糾結選誰，現在全都要：用Codex快速搭建框架，用Opus精修邏輯與交互。

當大模型的能力已經溢出屏幕，編程這件「苦差事」，終于變成了單純的創造力釋放。

限制你想象力的，再也不是技術門檻，而只剩下你的腦洞了。

參考資料：

https://x.com/VictorTaelin/status/2019541668517617859

https://x.com/aidan_mclau/status/2019478632532472017

https://x.com/KarelDoostrlnck/status/2019477361557926281

https://x.com/ArtificialAnlys/status/2019474911761473605

https://x.com/banteg/status/2017950426327359947

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.