![]()
新智元報道
編輯:定慧 傾傾
【新智元導讀】硅谷的夜再次被點亮,OpenAI和Anthropic同日發布最新模型。正當開發者們沉浸在Codex 5.3的極致速度時,Arena和Epoch兩大權威榜單卻給出了意想不到的終局判決。
硅谷這波熱鬧,屬實有點上頭。
前腳Claude Opus 4.6剛剛夜襲發布,后腳OpenAI就祭出了GPT-5.3-Codex。
兩大「編程王者」正面硬剛,到底誰的能力更強?社區現在還吵翻天~
今天,兩大最硬核的權威機構Arena.ai和EpochAI,同時為Opus 4.6加冕!
![]()
Arena.ai:Opus 4.6全維度的屠榜
Arena.ai(前身是大家熟知的LMArena),這個被稱為「大模型角斗場」的地方,迎來了新的霸主。
Claude Opus 4.6,在代碼(Code)、文本(Text)、專家(Expert)三大競技場,全部登頂第一!
代碼競技場:比前代Opus 4.5暴漲106分。
文本競技場:得分1496,硬生生壓了Gemini 3 Pro一頭。
專家競技場:領先第二名約50分,斷層式領先。
這意味著什么?
意味著在數以萬計的真實人類盲測中,Opus 4.6是那個讓你最想點「贊」的模型。
它不是偏科生,它是真正的六邊形戰士。
在代碼實測中,這次的Opus 4.6比4.5提升了106分,遠超之前Opus 4.5對Sonnet 3.7的領先幅度。
![]()
Claude Opus 4.6自Claude 3 Opus以來首次在文本競技場排名第一。
同時在關鍵文本類別中位列榜首:
指令遵循
困難提示
長查詢
![]()
Claude Opus 4.6在專家領域排名第一,領先優勢達+49分。
專家排行榜采用了一個框架構建,該框架能識別出真實用戶提出的最困難、最專業的提示。
![]()
有網友表示,能夠在這三個領域同時拿下第一,是真正的SOTA,非常厲害。
![]()
有網友同時表示,這Opus 4.6拿下三冠王很厲害,但是真正對模型的考驗是前沿數學能力。
![]()
這不,EpochAI的評測新鮮出爐!
EpochAI:啃下「數學硬骨頭」
如果說Arena是大眾評審,那EpochAI的Frontier Math就是「奧數競賽」。
這里考的不是簡單的加減乘除,而是人類尚未解決的數學難題。
Opus 4.6交出的答卷是:Tier1-3級別得分40%,Tier4(極難)級別得分21%。
![]()
這個成績直接在統計學上追平了GPT-5.2(xhigh)。
這是Anthropic的模型第一次在這個只要有一點「智商欠費」就交白卷的榜單上,站到了最前沿。
在難度更高的第4級測試中,Opus 4.6獲得 21%的得分,解決了48道題目中的10道。
該成績同樣與GPT-5.2(xhigh)的19%得分在統計上持平,僅次于 GPT-5.2(Pro)31%的得分。
物理、數學,這些曾經是AI禁區的地方,現在成了Opus 4.6的后花園。
Opus 4.6模型表現非常搶眼的領域,多項得分位居前列:
OTIS Mock AIME 2024-2025:得分高達94.4%,展現了極強的競賽級數學解題能力。
GPQA Diamond:得分90.5%,這是一個針對專家級科學問題的困難測試。
FrontierMath:這是一個極其困難的數學前沿測試,Opus 4.6 得分為40.0%。在更難的Tier 4級別中,它獲得了20.8%的分數,排名第2。
![]()
在綜合與推理評測中:
ARC AGI v1:得分94.0%,排名第1。這是評估模型通用人工智能(AGI)潛力的核心指標之一,專注于抽象推理和模式識別。
SimpleQA Verified:得分46.5%。該測試主要評估模型回答事實性問題的準確度(減少幻覺)。
Chess Puzzles(國際象棋謎題):得分17.0%,排名第14,相對而言這似乎是其較弱的一項。
![]()
Claude Opus 4.6在邏輯推理(ARC AGI)和高難度數學(FrontierMath、AIME)方面處于世界領先水平。
雖然它在某些特定領域(如國際象棋或簡單問答)不是第一,但其綜合能力(ECI 指數 153)使其成為當前最頂尖的模型之一。
巔峰對決:速度與審美的較量
權威榜單雖然為Opus 4.6封神,但開發者們的實戰也同樣精彩,而且似乎更偏愛GPT-5.3-Codex。
GPT-5.3-Codex就像一個喝了十杯濃縮咖啡的頂級黑客。
頂級開發者Banteg用它挑戰不可能,僅用14天就復刻了2003年的邪典游戲《Crimsonland》。
極客Karel把它當成鋼鐵俠的賈維斯用。一個月燒掉10000美元API費,讓它每天生成700個科研假設,自動掃描Slack記錄,自動提交代碼。
來詳細看看頂級程序員如何使用GPT-5.3-Codex。
代碼考古:14天復活《Crimsonland》,屎山消失術
在程序員的職場噩夢里,排第一的永遠是去接手前任留下的、沒有文檔、作者失聯、注釋像天書一樣的賽博廢墟。
但2026年,頂級開發者Banteg告訴我們:在強力AI面前,沒有不可維護的屎山,只有舍不得燒的算力。
Banteg盯上了2003年的邪典射擊游戲《Crimsonland》(血腥大地)。
![]()
這款游戲是很多80、90后的童年回憶,但它的底層代碼堪稱廢墟。
如果按照傳統流程,至少需要一個資深團隊閉關1個月,光是理清那些遠古的內存邏輯就能讓人少活五年。
結果,Banteg僅用了14天,就單槍匹馬完成了全平臺重構。
需要格外注意的是,該游戲資源用的.jaz格式,是一種消失了20年的私有協議,全網零文檔。
換做人類,至少得猜半年。但Codex-5.3僅憑分析二進制流特征,硬猜出了頭文件結構和加密偏移量!
![]()
Jaz拿著一張JPG,并用自定義的運行長度編碼的alpha通道進行包裹,然后再用zlib將整個東西重新壓縮過程圖
然后,生成一套現代化的C++/Rust渲染接口,讓2003年的像素資源在2026年的4K屏幕上重現。
這個許多人的童年回憶,終于在23年后重見天日。Banteg在X上公開了全部代碼「
![]()
GitHub代碼傳送門:https://github.com/banteg/crimson
以前公司裁員不敢動老員工,是怕沒人能接那一堆亂碼。
現在,大模型直接把這些代碼塞進上下文,兩周就能給你出一個全新的、注釋清晰的重構版。
月費1萬美金的Codex實戰經驗
在頂級極客Karel手里,Codex被玩成了投資游戲。
![]()
OpenAI的研究科學家Aidan說公司Karel一個人的Codex的使用量是其他人的十倍之多。
所以他的觀點非常重要。
![]()
Karel的單月賬單是10,000美元!
換來的是一套足以讓傳統科研機構倒閉的「非人知識循環」。
![]()
真正的突破在于讓Codex持續記錄并優化自身的工作流程。
Codex會將工作筆記和輔助工具提交到monorepo的個人文件夾中。
這些筆記并非供人閱讀,而是為了在后續會話中通過檢索這些「經驗」,提升Codex的處理速度和準確性。
Karel將Codex作為一名極其勤奮的「搜索智能體」和「盡職調查員」:
跨渠道聚合:Codex能自動爬取Slack頻道、閱讀討論、獲取實驗分支并精選代碼更改。
自主決策:它可以基于總結的筆記,在搭建實驗框架時自主做出復雜的超參數決策。
假設生成:在幾小時內通過分析Slack、截圖、文檔和表格,生成了超過700個關于模型行為的可測試假設。
其中,最關鍵的是「自動Helper提交」。
AI在執行任務時,會向Git提交「HelperCommits」。里面記錄了給下一次迭代中的AI準備的中間態上下文。
這樣一來,模型下一次處理類似任務時,會先掃描這些高密度的「HelperCommits」,直接省掉80%的試錯路徑。
這種「暴力美學」的回報同樣驚人。
Karel曾嘗試讓Agent掃描公司內部積年累月的Slack記錄和雜亂文檔。
幾小時內,AI竟然挖掘出了700條具有科研價值的假設,并自動關聯了相關的歷史代碼段。
10000美元買的API,賺麻了!
更加厲害的用法是使用GPT-5.3-codex同時管理多個子智能體,分別負責Slack調研、代碼研究、代碼編寫和數據科學。
![]()
Karel只與一個「指揮官」智能體對話,由其協調整個智能體集群,從而讓他本人從繁瑣的并行工作中解脫。
ClaudeOpus 4.6:深思熟慮的「藝術家」
如果說Codex是快,那Opus 4.6就是穩,而且美。
美學封神:在HTML5游戲開發實測中,Opus 4.6展現了驚人的「審美智商」。它寫出的代碼不僅0 Bug,而且界面布局、配色方案直接達到了專業UI設計師的水準。
邏輯熵控制:它也許會思考得更久(Token消耗多60%),但那是它在進行「思維鏈自我修正」。它在現在的Stirrup框架下,擁有了更強的「邏輯自檢」能力。它不是在瞎蒙,它是在推演。
Stirrup框架:給AI裝上「小腦」
Opus 4.6之所以能碾壓其他模型,得益于它對Stirrup框架的深度適配。
在這個架構下,AI擁有了實打實的Shell權限以及高度隔離的E2B沙箱。
它不僅能調用編譯器,還能通過5大核心工具聯動,在亞毫秒級的時間內判斷當前任務是否需要引入額外的邏輯自檢。
以「視頻排期表自動化」為例,它不僅能算出邏輯最優解,還能根據品牌調性自動調整輸出格式的視覺審美。
![]()
![]()
![]()
同一組數據,不同模型生成的結果
這種降維打擊,讓曾經的Prompt Engineering像個小學生。
邏輯熵控制:多花60%的錢,但結果更好
很多老板在看到賬單時會肉疼:Opus 4.6處理同類任務的Token消耗比競品高出約60%。
![]()
但技術玩家不在乎這些,他們只看「邏輯熵」。
Opus 4.6在輸出前,會在后臺進行瘋狂的思維鏈自我修正。主動推翻不合理的路徑,通過大量的內部Token消耗,換取邏輯的絕對精確。
不再做選擇題
這場巔峰對決,與其說是分出了勝負,不如說是為開發者鋪平了通往「一人公司」的最后一塊拼圖。
左手是極致速度的Codex 5.3,右手是極致審美的Opus 4.6。
以前我們糾結選誰,現在全都要:用Codex快速搭建框架,用Opus精修邏輯與交互。
當大模型的能力已經溢出屏幕,編程這件「苦差事」,終于變成了單純的創造力釋放。
限制你想象力的,再也不是技術門檻,而只剩下你的腦洞了。
參考資料:
https://x.com/VictorTaelin/status/2019541668517617859
https://x.com/aidan_mclau/status/2019478632532472017
https://x.com/KarelDoostrlnck/status/2019477361557926281
https://x.com/ArtificialAnlys/status/2019474911761473605
https://x.com/banteg/status/2017950426327359947
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.