<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      地表最強編程王者PK!Opus 4.6雙榜單封神, Codex 5.3速度滿分

      0
      分享至


      新智元報道

      編輯:定慧 傾傾

      【新智元導讀】硅谷的夜再次被點亮,OpenAI和Anthropic同日發布最新模型。正當開發者們沉浸在Codex 5.3的極致速度時,Arena和Epoch兩大權威榜單卻給出了意想不到的終局判決。

      硅谷這波熱鬧,屬實有點上頭。

      前腳Claude Opus 4.6剛剛夜襲發布,后腳OpenAI就祭出了GPT-5.3-Codex

      兩大「編程王者」正面硬剛,到底誰的能力更強?社區現在還吵翻天~

      今天,兩大最硬核的權威機構Arena.ai和EpochAI,同時為Opus 4.6加冕!


      Arena.ai:Opus 4.6全維度的屠榜

      Arena.ai(前身是大家熟知的LMArena),這個被稱為「大模型角斗場」的地方,迎來了新的霸主。

      Claude Opus 4.6,在代碼(Code)、文本(Text)、專家(Expert)三大競技場,全部登頂第一!

      • 代碼競技場:比前代Opus 4.5暴漲106分。

      • 文本競技場:得分1496,硬生生壓了Gemini 3 Pro一頭。

      • 專家競技場:領先第二名約50分,斷層式領先。

      這意味著什么?

      意味著在數以萬計的真實人類盲測中,Opus 4.6是那個讓你最想點「贊」的模型。

      它不是偏科生,它是真正的六邊形戰士。

      在代碼實測中,這次的Opus 4.6比4.5提升了106分,遠超之前Opus 4.5對Sonnet 3.7的領先幅度。


      Claude Opus 4.6自Claude 3 Opus以來首次在文本競技場排名第一。

      同時在關鍵文本類別中位列榜首:

      • 指令遵循

      • 困難提示

      • 長查詢


      Claude Opus 4.6在專家領域排名第一,領先優勢達+49分。

      專家排行榜采用了一個框架構建,該框架能識別出真實用戶提出的最困難、最專業的提示。


      有網友表示,能夠在這三個領域同時拿下第一,是真正的SOTA,非常厲害。


      有網友同時表示,這Opus 4.6拿下三冠王很厲害,但是真正對模型的考驗是前沿數學能力。


      這不,EpochAI的評測新鮮出爐!

      EpochAI:啃下「數學硬骨頭」

      如果說Arena是大眾評審,那EpochAI的Frontier Math就是「奧數競賽」。

      這里考的不是簡單的加減乘除,而是人類尚未解決的數學難題。

      Opus 4.6交出的答卷是:Tier1-3級別得分40%,Tier4(極難)級別得分21%。


      這個成績直接在統計學上追平了GPT-5.2(xhigh)

      這是Anthropic的模型第一次在這個只要有一點「智商欠費」就交白卷的榜單上,站到了最前沿。

      在難度更高的第4級測試中,Opus 4.6獲得 21%的得分,解決了48道題目中的10道。

      該成績同樣與GPT-5.2(xhigh)的19%得分在統計上持平,僅次于 GPT-5.2(Pro)31%的得分。

      物理、數學,這些曾經是AI禁區的地方,現在成了Opus 4.6的后花園。

      Opus 4.6模型表現非常搶眼的領域,多項得分位居前列:

      • OTIS Mock AIME 2024-2025:得分高達94.4%,展現了極強的競賽級數學解題能力。

      • GPQA Diamond:得分90.5%,這是一個針對專家級科學問題的困難測試。

      • FrontierMath:這是一個極其困難的數學前沿測試,Opus 4.6 得分為40.0%。在更難的Tier 4級別中,它獲得了20.8%的分數,排名第2


      在綜合與推理評測中:

      • ARC AGI v1:得分94.0%,排名第1。這是評估模型通用人工智能(AGI)潛力的核心指標之一,專注于抽象推理和模式識別。

      • SimpleQA Verified:得分46.5%。該測試主要評估模型回答事實性問題的準確度(減少幻覺)。

      • Chess Puzzles(國際象棋謎題):得分17.0%,排名第14,相對而言這似乎是其較弱的一項。


      Claude Opus 4.6在邏輯推理(ARC AGI)和高難度數學(FrontierMath、AIME)方面處于世界領先水平。

      雖然它在某些特定領域(如國際象棋或簡單問答)不是第一,但其綜合能力(ECI 指數 153)使其成為當前最頂尖的模型之一。

      巔峰對決:速度與審美的較量

      權威榜單雖然為Opus 4.6封神,但開發者們的實戰也同樣精彩,而且似乎更偏愛GPT-5.3-Codex。

      GPT-5.3-Codex就像一個喝了十杯濃縮咖啡的頂級黑客。

      頂級開發者Banteg用它挑戰不可能,僅用14天就復刻了2003年的邪典游戲《Crimsonland》。

      極客Karel把它當成鋼鐵俠的賈維斯用。一個月燒掉10000美元API費,讓它每天生成700個科研假設,自動掃描Slack記錄,自動提交代碼。

      來詳細看看頂級程序員如何使用GPT-5.3-Codex。

      代碼考古:14天復活《Crimsonland》,屎山消失術

      在程序員的職場噩夢里,排第一的永遠是去接手前任留下的、沒有文檔、作者失聯、注釋像天書一樣的賽博廢墟。

      但2026年,頂級開發者Banteg告訴我們:在強力AI面前,沒有不可維護的屎山,只有舍不得燒的算力。

      Banteg盯上了2003年的邪典射擊游戲《Crimsonland》(血腥大地)。


      這款游戲是很多80、90后的童年回憶,但它的底層代碼堪稱廢墟。

      如果按照傳統流程,至少需要一個資深團隊閉關1個月,光是理清那些遠古的內存邏輯就能讓人少活五年。

      結果,Banteg僅用了14天,就單槍匹馬完成了全平臺重構。

      需要格外注意的是,該游戲資源用的.jaz格式,是一種消失了20年的私有協議,全網零文檔。

      換做人類,至少得猜半年。但Codex-5.3僅憑分析二進制流特征,硬猜出了頭文件結構和加密偏移量!


      Jaz拿著一張JPG,并用自定義的運行長度編碼的alpha通道進行包裹,然后再用zlib將整個東西重新壓縮過程圖

      然后,生成一套現代化的C++/Rust渲染接口,讓2003年的像素資源在2026年的4K屏幕上重現。

      這個許多人的童年回憶,終于在23年后重見天日。Banteg在X上公開了全部代碼「


      GitHub代碼傳送門:https://github.com/banteg/crimson

      以前公司裁員不敢動老員工,是怕沒人能接那一堆亂碼。

      現在,大模型直接把這些代碼塞進上下文,兩周就能給你出一個全新的、注釋清晰的重構版。

      月費1萬美金的Codex實戰經驗

      在頂級極客Karel手里,Codex被玩成了投資游戲。


      OpenAI的研究科學家Aidan說公司Karel一個人的Codex的使用量是其他人的十倍之多。

      所以他的觀點非常重要。


      Karel的單月賬單是10,000美元!

      換來的是一套足以讓傳統科研機構倒閉的「非人知識循環」。


      真正的突破在于讓Codex持續記錄并優化自身的工作流程。

      Codex會將工作筆記和輔助工具提交到monorepo的個人文件夾中。

      這些筆記并非供人閱讀,而是為了在后續會話中通過檢索這些「經驗」,提升Codex的處理速度和準確性。

      Karel將Codex作為一名極其勤奮的「搜索智能體」和「盡職調查員」:

      • 跨渠道聚合:Codex能自動爬取Slack頻道、閱讀討論、獲取實驗分支并精選代碼更改。

      • 自主決策:它可以基于總結的筆記,在搭建實驗框架時自主做出復雜的超參數決策。

      • 假設生成:在幾小時內通過分析Slack、截圖、文檔和表格,生成了超過700個關于模型行為的可測試假設。

      其中,最關鍵的是「自動Helper提交」。

      AI在執行任務時,會向Git提交「HelperCommits」。里面記錄了給下一次迭代中的AI準備的中間態上下文。

      這樣一來,模型下一次處理類似任務時,會先掃描這些高密度的「HelperCommits」,直接省掉80%的試錯路徑。

      這種「暴力美學」的回報同樣驚人。

      Karel曾嘗試讓Agent掃描公司內部積年累月的Slack記錄和雜亂文檔。

      幾小時內,AI竟然挖掘出了700條具有科研價值的假設,并自動關聯了相關的歷史代碼段。

      10000美元買的API,賺麻了!

      更加厲害的用法是使用GPT-5.3-codex同時管理多個子智能體,分別負責Slack調研、代碼研究、代碼編寫和數據科學。


      Karel只與一個「指揮官」智能體對話,由其協調整個智能體集群,從而讓他本人從繁瑣的并行工作中解脫。

      ClaudeOpus 4.6:深思熟慮的「藝術家」

      如果說Codex是快,那Opus 4.6就是,而且

      美學封神:在HTML5游戲開發實測中,Opus 4.6展現了驚人的「審美智商」。它寫出的代碼不僅0 Bug,而且界面布局、配色方案直接達到了專業UI設計師的水準。

      邏輯熵控制:它也許會思考得更久(Token消耗多60%),但那是它在進行「思維鏈自我修正」。它在現在的Stirrup框架下,擁有了更強的「邏輯自檢」能力。它不是在瞎蒙,它是在推演。

      Stirrup框架:給AI裝上「小腦」

      Opus 4.6之所以能碾壓其他模型,得益于它對Stirrup框架的深度適配。

      在這個架構下,AI擁有了實打實的Shell權限以及高度隔離的E2B沙箱。

      它不僅能調用編譯器,還能通過5大核心工具聯動,在亞毫秒級的時間內判斷當前任務是否需要引入額外的邏輯自檢。

      以「視頻排期表自動化」為例,它不僅能算出邏輯最優解,還能根據品牌調性自動調整輸出格式的視覺審美。




      同一組數據,不同模型生成的結果

      這種降維打擊,讓曾經的Prompt Engineering像個小學生。

      邏輯熵控制:多花60%的錢,但結果更好

      很多老板在看到賬單時會肉疼:Opus 4.6處理同類任務的Token消耗比競品高出約60%。


      但技術玩家不在乎這些,他們只看「邏輯熵」。

      Opus 4.6在輸出前,會在后臺進行瘋狂的思維鏈自我修正。主動推翻不合理的路徑,通過大量的內部Token消耗,換取邏輯的絕對精確。

      不再做選擇題

      這場巔峰對決,與其說是分出了勝負,不如說是為開發者鋪平了通往「一人公司」的最后一塊拼圖。

      左手是極致速度的Codex 5.3,右手是極致審美的Opus 4.6。

      以前我們糾結選誰,現在全都要:用Codex快速搭建框架,用Opus精修邏輯與交互。

      當大模型的能力已經溢出屏幕,編程這件「苦差事」,終于變成了單純的創造力釋放。

      限制你想象力的,再也不是技術門檻,而只剩下你的腦洞了。

      參考資料:

      https://x.com/VictorTaelin/status/2019541668517617859

      https://x.com/aidan_mclau/status/2019478632532472017

      https://x.com/KarelDoostrlnck/status/2019477361557926281

      https://x.com/ArtificialAnlys/status/2019474911761473605

      https://x.com/banteg/status/2017950426327359947


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全場高呼王楚欽你最棒!世界第1輕松橫掃晉級 女球迷為他瘋狂吶喊

      全場高呼王楚欽你最棒!世界第1輕松橫掃晉級 女球迷為他瘋狂吶喊

      顏小白的籃球夢
      2026-02-07 13:00:16
      驚險!中國選手包攬斯諾克大賽4強,151年來第一次

      驚險!中國選手包攬斯諾克大賽4強,151年來第一次

      真理是我親戚
      2026-02-06 23:25:42
      被專家“批評”的臘肉,川渝人每年瘋狂地吃,為啥北方人一口不碰

      被專家“批評”的臘肉,川渝人每年瘋狂地吃,為啥北方人一口不碰

      老特有話說
      2026-02-06 13:19:07
      太離譜!年會抽中手機變瓷磚后續,老板很憤怒,公司補發同款手機

      太離譜!年會抽中手機變瓷磚后續,老板很憤怒,公司補發同款手機

      火山詩話
      2026-02-07 10:13:39
      錢再多有什么用?52歲劉強東上千億身家,兒子卻是他一生的遺憾

      錢再多有什么用?52歲劉強東上千億身家,兒子卻是他一生的遺憾

      時光在作祟
      2026-02-04 13:40:17
      惡魔醫生王福建退休在家被抓!判刑后還狡辯沒做錯,兒子也不清白

      惡魔醫生王福建退休在家被抓!判刑后還狡辯沒做錯,兒子也不清白

      社會日日鮮
      2026-02-06 05:59:39
      警惕你身邊那些整天叫囂“基本盤”的人

      警惕你身邊那些整天叫囂“基本盤”的人

      守望的田野
      2026-02-06 09:02:57
      警惕中國式的葉利欽式人物,悄無聲息地把人民引向歧途

      警惕中國式的葉利欽式人物,悄無聲息地把人民引向歧途

      林子說事
      2026-02-06 12:52:37
      明珍珍被執行死刑,最后照片曝光,死前已無法自理

      明珍珍被執行死刑,最后照片曝光,死前已無法自理

      復轉這些年
      2026-02-05 23:51:59
      這波白銀崩盤,全世界都記住這個中國人

      這波白銀崩盤,全世界都記住這個中國人

      販財局
      2026-02-07 10:28:03
      2026除夕,別再說“新年快樂”,精選20句拜年祝福語,高級不俗套

      2026除夕,別再說“新年快樂”,精選20句拜年祝福語,高級不俗套

      Lily美食談
      2026-02-06 23:29:15
      警方通報:小區內發生一起致3死1傷刑事案件,嫌犯畏罪自殺身亡

      警方通報:小區內發生一起致3死1傷刑事案件,嫌犯畏罪自殺身亡

      澎湃新聞
      2026-02-07 02:00:06
      古特雷斯即將卸任,聯合國新秘書長人選浮出水面,對中國態度友好

      古特雷斯即將卸任,聯合國新秘書長人選浮出水面,對中國態度友好

      石江月
      2026-02-06 17:24:38
      潘石屹再次預判我國樓市!如不出意外,未來3年,樓市或迎3大走向

      潘石屹再次預判我國樓市!如不出意外,未來3年,樓市或迎3大走向

      巢客HOME
      2026-02-07 08:45:03
      上海兩會炸鍋!取消中高考是必然?82%家長怒懟:斷了普通娃活路

      上海兩會炸鍋!取消中高考是必然?82%家長怒懟:斷了普通娃活路

      戶外小阿隋
      2026-02-07 08:46:28
      牢A讓每個粉絲給他每個月充電988元,這鐮刀夠鋒利!

      牢A讓每個粉絲給他每個月充電988元,這鐮刀夠鋒利!

      廖保平
      2026-02-07 09:20:42
      萬科郁亮有這么多不為人知的可怕內幕!

      萬科郁亮有這么多不為人知的可怕內幕!

      廖保平
      2026-02-07 09:19:10
      黑龍江虎林教育局通報第五小學校教師行為調查處理情況:學生家長已提起民事訴訟

      黑龍江虎林教育局通報第五小學校教師行為調查處理情況:學生家長已提起民事訴訟

      界面新聞
      2026-02-07 12:29:22
      特朗普發布惡搞奧巴馬夫婦為猿猴視頻,盟友都沒眼看,緊急下架

      特朗普發布惡搞奧巴馬夫婦為猿猴視頻,盟友都沒眼看,緊急下架

      譯言
      2026-02-07 05:08:18
      34歲周冬雨整容失敗了?近照變40歲大媽,臉垮僵硬不敢認似鄭秀文

      34歲周冬雨整容失敗了?近照變40歲大媽,臉垮僵硬不敢認似鄭秀文

      八星人
      2026-02-06 10:49:41
      2026-02-07 13:35:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14494文章數 66592關注度
      往期回顧 全部

      科技要聞

      小米千匹馬力新車亮相!問界M6雙動力齊報

      頭條要聞

      牛彈琴:特朗普這次麻煩大了 美國人看得目瞪口呆

      頭條要聞

      牛彈琴:特朗普這次麻煩大了 美國人看得目瞪口呆

      體育要聞

      中國體育代表團亮相米蘭冬奧會開幕式

      娛樂要聞

      何超欣說和何猷君沒競爭,實力遭質疑

      財經要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      AITO問界與Abu Dhabi Motors達成戰略合作

      態度原創

      本地
      時尚
      數碼
      公開課
      軍事航空

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      冬天不要只穿“黑白灰”!看看這些彩色的穿搭,簡單又高級

      數碼要聞

      用戶反饋蘋果Apple TV跨區操作致已購影片“蒸發”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      重大轉變 特朗普簽令調整軍售排序

      無障礙瀏覽 進入關懷版