在全網翹首以盼的等了兩天之后,在凌晨2點。
Anthropic的新模型Cluade Opus 4.6正式更新了。
![]()
我說實話,我是真的最近因為AI圈這些模型和產品,熬夜熬的有點扛不住了。
但其實最顛最絕望的是,20分鐘之后,OpenAI也發了新模型。。。
GPT 5.3 Codex也來了。
這尼瑪,真的是中門對狙了。
![]()
要了親命了。。。
這兩模型都還是得看,因為之前GPT和Claude幾乎就是我最常用的維二最主力的模型,GPT-5.2用來做各種各樣的搜索和事實核查還有研究還有編程改BUG,Opus 4.5做創作和主力編程。
現在,兩個都來了。
太刺激了。
一個一個說吧。
一. Claude Opus 4.6
這次 Anthropic其實不止發了Claude Opus 4.6,還有一個很好玩的東西,Agent Teams,還有關于Excel和PPT插件的更新。
先說Claude Opus 4.6。
每次有新模型發布,大家第一反應就是看跑分。
![]()
這次Opus 4.6的跑分確實很漂亮,我挑幾個重點說說。
首先是Terminal-Bench 2.0,這是一個測試AI在終端環境下編程能力的評估,Opus 4.6拿了65.4%,是所有模型里最高的(沒看到GPT-5.3 codex之前)。
GPT-5.2是64.7%,Gemini 3 Pro是56.2%。
讓我比較驚訝的是OSWorld這個評估,測的是AI操作電腦的能力,Opus 4.6拿了72.7%,比Opus 4.5的66.3%高了不少。
這就意味著Claude越來越會用電腦了,它能更好地操作鼠標、點擊按鈕、在不同應用之間切換,在Coding能力提升的同時,電腦操作的能力也有大幅提升,這是真的要奔著全面Agent化去了。
還有一個BrowseComp,也是讓我意外的,測的是Agent在網上搜索信息的能力,Opus 4.6拿了84.0%,遠超其他模型。
第二名GPT-5.2 Pro是77.9%,差了6個多點。
因為我自己其實一直把GPT-5.2 Pro當作是我最牛逼的研究報告生成引擎去用的,他比DeepResearch還要強,精準度極高幻覺率極低,現在Opus 4.6比它還要搞6個點,說實話有點離譜了。
然后就是GDPval-AA這個評估,這個評估測的是AI在真實工作任務中的表現,包括金融、法律等領域的知識工作。Opus 4.6拿了1606的Elo分,比GPT-5.2高了144分,比自己的前代Opus 4.5高了190分。
144分的Elo差距還是挺大的,也就是說,在干活這件事上,Opus 4.6確實是目前最強的,Cluade是真的把自己的編程能力,開始逐漸泛化到其他的工作場景里面去了。
![]()
然后最離譜的是這個,ARC AGI 2,68.8%,吊打一切。。。
我之前在GPT-5.2發布時候的文章里科普過這玩意,就是下面這種題。
![]()
這種能力,現在稱為流體智力(Fluid Intelligence),意思就是指不依賴于已有的知識,在全新情境下進行邏輯推理、識別模式和解決問題的能力。
說白了,就是你的悟性和開竅的能力。
之前在ARC-AGI-2上,GPT-5.1的得分是17.6%,而GPT-5.2 Pro,直接飆到了50%多。
這一次,Claude Opus 4.6,直接干到了68.8%,是有點離譜的,差點摸到7字頭了。
從上面這些跑分看,除了一些世界知識和問答上,Claude Opus 4.6還弱于GPT-5.2,其他的幾乎已經全面領先。
當之無愧的SOTA。
說實話,我對跑分一直有點復雜的感情。
一方面,跑分確實能說明一些問題,但另一方面,跑分和實際使用體驗之間,往往有一道很深的鴻溝。
很多模型跑分很高,但用起來就是不順手,反過來,有些模型你看著整體跑分一般,但在某些場景下就是還挺好用的。
所以我更關注的,是這次更新在產品層面做了什么。
第一個:1M token的上下文窗口。
普天同慶!!!Claude Opus系列,終于有1M上下文啦!!!
Opus 4.6終于支持100萬token的上下文了!!!
真的,做Coding的朋友們都知道,上下文容量有多重要。。。
之前只有200K的小窗口,這次整整翻了5倍!!!現在再也不用擔心這個問題了!!!
而且我要說一個很重要的點,就是上下文窗口大,不等于模型能真正用好這么大的上下文。
很多模型雖然支持很長的上下文,但你真的塞進去很多內容之后,模型的表現會明顯下降,會變得很蠢。
這個問題在業內叫"context rot",上下文腐爛,也就是你用的越久,模型能力開始變得越差。
而這次,Claude Opus 4.6,在MRCR v2的測試上做了實驗,這個測試是大海撈針類的,就是在一大堆文本里藏幾個關鍵信息,看模型能不能找到。
在100萬token、藏8根針的測試里,Opus 4.6直接拿了76%,而Sonnet 4.5只有18.5%,太牛逼了!
![]()
而且上下文推理上,也傲視群雄。
![]()
這對很多實際場景來說真的非常有用,也是我最最最喜歡的升級點,不只是coding,其實比如你想讓Claude幫你審查一份幾百頁的法律文件,或者分析一個大公司的財報,現在大概率也是可以一次性搞定了。
第二個:輸出上限提升到128K。
以前Claude的輸出上限都是64K,這次直接翻倍了。
![]()
也算是一個相當不錯的利好。
這個改進聽起來不起眼,但對于實際使用來說真的很重要。
第三個:Context Compaction,上下文壓縮。
這個功能其實Claude Code已經實現很久了,但我覺得還是很有必要說一下,因為它解決了一個很現實的問題。
當你跟AI聊了很久,或者讓AI執行一個很長的任務,對話內容會越來越多,最終會超過上下文窗口的限制。以前遇到這種情況,要么任務失敗,要么得手動清理對話歷史。
現在有了Context Compaction,Claude可以自動把舊的對話內容壓縮成摘要,騰出空間給新的內容。
這樣Claude就能執行更長時間的任務,而不會因為上下文溢出而中斷。
這對于那些需要Claude長時間自主工作的場景來說,是一個很實用的改進。
以前是在Claude Code里使用工程實現的,現在直接模型自帶了。
第四個:Adaptive Thinking和Effort控制
以前Claude有一個"extended thinking"功能,就是讓它在回答之前先深度思考一會兒。
這個功能開啟之后,Claude的回答質量會提升,但速度會變慢,成本也會增加。
問題是,以前這個功能是要么開要么關,沒有中間狀態。有些簡單問題,你開了深度思考,就有點殺雞用牛刀了。
現在有了兩個新功能來解決這個問題。
一個是Adaptive Thinking,自適應思考。開啟之后,Claude會自己判斷這個問題需不需要深度思考。簡單問題就快速回答,復雜問題就多想一會兒。
![]()
另一個是Effort控制,讓你可以手動設置Claude的思考程度。有四個檔位:low、medium、high、max,默認是high。
這兩個功能加起來,讓Claude的使用變得更靈活了。
你可以根據實際需求,在速度、成本、質量之間找到平衡點。
然后還有一個,是Claude Code里面很重要的更新,叫做Agent Teams。
以前你用Claude Code,是一個Claude在干活,你給它一個任務,它自己去做,做完了給你看結果。
現在有了Agent Teams不一樣了,你可以讓一個會話充當團隊負責人,協調工作、分配任務并綜合結果。
然后啟動團隊成員獨立工作,各自在自己的上下文窗口中,并彼此直接通信。
比如假設你要做一個代碼審查,需要看前端代碼、后端代碼、還有數據庫相關的代碼。以前你可能要分三次讓Claude看,每次看一部分。
現在你可以說"幫我審查這個代碼庫",然后Claude會自動啟動3個團隊成員,一個看前端,一個看后端,一個看數據庫,三個同時進行,最后把結果匯總給你。
而且這些團隊成員不是完全獨立的,它們可以相互溝通。比如后端代理發現一個API的變更,它可以告訴前端代理,讓前端代理檢查一下調用這個API的地方有沒有問題,而且他們也可以互相質疑、互相挑戰、互相發現。
跟Claude Code里面之前subagents也就是子代理不同的點在于,子代理在單個會話中運行,只能向主代理報告結果,而Agent Teams是一個團隊,團隊成員可以直接與各個團隊成員互動,無需通過負責人。
他們自己也做了一個非常明確的圖表來進行區分。
![]()
當你需要快速、專注的工作人員進行反饋時,使用子代理。當團隊成員需要共享發現、相互挑戰和自主協調時,使用Agent Teams。
然后就是兩個小的更新,一個是Claude in Excel這個插件將Claude Opus 4.6直接集成到了excel里面。
現在還支持數據透視表編輯、圖表修改、條件格式設置、排序和篩選、數據驗證以及金融級格式設置。
還添加了可用性改進,包括長對話的自動壓縮和拖放多文件支持等等。
![]()
然后還發了一個Claude in PowerPoint。
將Claude集成到了PowerPoint側邊欄中,讓它在創建新內容之前讀取現有的布局、字體和母版。
Claude也可以根據客戶模板構建演示文稿、對現有幻燈片進行針對性編輯。
![]()
Anthropic真的憑借著Claude,在B端領域,真的開始大殺四方了。
GPT說實話,現在整個B端和生產力端的體驗,稍微落后的有點多了。
最后說一下價格。
API價格保持不變,還是$5/$25每百萬token(輸入/輸出)。
如果用超過20萬token的上下文,會有額外定價,是$10/$37.50每百萬token。
![]()
目前,Claude網頁版和Claude Code上,Claude Opus 4.6均以全面上線,已經可以快樂的玩耍起來了。
![]()
![]()
二. GPT-5.3 Codex
終于聊完了Claude的東西,然后到了GPT這邊。
說實話,我自己對GPT一直也是有自己的情感的,他依然是我現在在任何時候想到問題,第一個去問的模型,想要要驗證某一個事的時候,第一個去問的模型。
而且,雖然我不是一個專業的編程大佬,但是在我有限的Vibe Coding的經驗里,我覺得GPT-5.2 Codex在解決BUG和難點的問題上,是要強于Claude Opus 4.5的。
特別是GPT-5.2 Codex+Codex的改BUG體驗,是要比Claude Opus 4.5+Claude Code要更強的。
所以我自己經常的工作流,經常是用Claude code寫一個大的,然后用codex接手后續進行調整。
所以我剛好,還真是這兩玩意的用戶。。。
所以GPT-5.3 Codex的更新,我自然也非常的開心。
兩者中門對狙,開心的自然是我們用戶。
這次GPT-5.3 Codex,其實最讓我驚訝的東西,不是跑分,是他們博客里的一句話:
![]()
"GPT-5.3 Codex是我們第一個在創造自己的過程中發揮重要作用的模型。"
OpenAI說,他們的Codex團隊在開發GPT-5.3的過程中,用早期版本的模型來debug自己的訓練過程、管理部署、診斷測試結果和評估。
用人話說就是,AI參與了自己的開發。
這個事情聽起來有點科幻,但其實邏輯上是通的。
AI模型的開發過程,本質上也是一堆代碼,訓練腳本是代碼,部署流程是代碼,測試框架也是代碼。
既然AI已經coding能力已經這么牛逼了,那讓AI來幫忙寫這些代碼,也是順理成章的事。
但順理成章和真的做到了說實話,是兩碼事。
OpenAI的團隊說,他們被Codex能夠加速自身開發的程度震驚了。
如果AI能夠越來越多地參與自己的開發,那AI進化的速度會不會變得更快?這個問題,可能比任何跑分都重要。
這個世界,真的都在瘋狂的加速啊。
然后老規矩,再看下跑分。
GPT-5.3 Codex在幾個關鍵的編程評測上都拿到了最高分。
![]()
這時候,你肯定會問了, GPT-5.3 Codex和Claude Opus 4.6,到底哪個跑分更牛逼一點???
說實話,因為兩家的評測基準,還是有很多細節差異,所以,完全沒法直接進行對比。。。
唯一一個對齊的基準是Terminal-Bench 2.0,這是一個由89個復雜真實任務組成的基準,這些任務都在終端環境中執行,每個任務運行在獨立Docker容器內。
2.0版本于2025年11月7日發布。
![]()
Claude Opus 4.6得分65.4%,GPT-5.3 Codex得分77.3%,OpenAI領先11.9個百分點。
![]()
在這個唯一相同的基準里,GPT更勝一籌,而且是大勝,符合我對Codex系列的認知。
然后是OSWorld,評估AI agent操作真實計算機的能力,人類基線為72.36%。
關鍵區別在于,Claude Opus 4.6報告的是原版OSWorld(72.7%),而 GPT-5.3 Codex報告的是OSWorld-Verified(64.7%)。
OSWorld-Verified于2025年7月28日發布,是一次全面重構,修復了原版中300+已識別問題,包括失效 URL、反爬 CAPTCHA、不穩定 HTML 結構、含糊指令,以及過嚴/過松的評測腳本。
所以說,別看這個評測看著Claude更強,但是兩個分數衡量的并不是同一件事。
OSWorld-Verified 提供了更嚴格、更可控的信號,也一般被認為更難,所以嚴格意義上來說, GPT-5.3 Codex的 64.7% 甚至是要強于 Claude Opus 4.6的 72.7%的。
![]()
然后是GDPVal,這個事在美國GDP貢獻最大的9個行業中,覆蓋44種職業、1320個真實知識工作任務。
任務要求產出真實職業交付物,如文檔、表格、演示、圖表,平均相當于7小時專家工作量。
可比性問題在這里最明顯。
GPT-5.3 Codex的“GDPval wins or ties: 70.9%”,使用的是 OpenAI 自己的方法,由職業人類評審盲評 AI 產出與人類專家產出,判斷 AI 版本是否“與人類一樣好或更好”,分母是固定的人類標準。
Claude Opus 4.6的“GDPval-AA Elo: 1606”,這是獨立評測機構Artificial Analysis的體系,使用其自有Stirrup agent框架(具備 shell 與網頁瀏覽能力)跑模型,再由Gemini 3 Pro做兩兩比較評判,最終用Bradley-Terry模型擬合Elo評分,并以GPT-5.1的1000 為錨點。
所以這個是太難換算了,我也不太清楚兩邊哪個更牛逼。。。
![]()
然后就是SWE-bench,SWE-bench測試AI是否能通過生成代碼補丁修復真實 GitHub issue。
SWE-bench Verified(Claude Opus 4.6使用,80.8%)是500題、人工驗證、僅Python的子集,由OpenAI Preparedness團隊在2024年8月發布。
93位職業開發者驗證了每道題都具備明確問題描述和公平單測,頂級模型已超過70%,該基準接近飽和。
SWE-bench Pro Public(GPT-5.3 Codex 使用,56.8%)是731題、多語言基準,由Scale AI創建。它覆蓋Python、Go、JavaScript、TypeScript等,橫跨41個倉庫。參考解平均107.4行、4.1個文件,明顯比 Verified常見的單文件補丁更復雜。
它還納入copyleft與專有代碼庫,專門降低數據污染風險。
所以說,Claude Opus 4.6在Verified的80.8%與GPT-5.3 codex在Pro Public的56.8%不能直接比較。
但說實話Pro明顯更難,發布時GPT-5和Claude Opus 4.1在Pro上都只有約23%,不到其Verified分數的三分之一。
![]()
所以說,其實整體跑分上,雖然看著GPT-5.3 Codex的得分好像都低一點。
但是含金量更足,如果非要我說的話,結合著我過去的測試印象,單開發這一塊,可能會是GPT-5.3 Codex會更強更實用一點。
當然,還有一個最關鍵的一點是,GPT...他不封號呀= =
然后跑分是一回事,能做什么是另一回事。
OpenAI在博客里展示了兩個用GPT-5.3 Codex做的游戲,一個賽車游戲和一個潛水游戲。
這兩個游戲都不只是那種我們隨處可見簡單的demo,而是完整的、可玩的游戲。
賽車游戲有不同的賽車、八張地圖、還有道具系統。
潛水游戲有不同的珊瑚礁可以探索、有氧氣和壓力管理系統、還有危險要素。
關鍵是,這些游戲全都是GPT-5.3 Codex自己做的。
OpenAI說,他們在Codex產品了里,用這個模型和一個叫develop web game的Skills,加上一些通用的跟進提示(比如"修復這個bug"或者"改進這個游戲"),讓GPT-5.3 Codex在幾天的時間里,自主迭代了數百萬個token,最終做出了這些游戲。
說實話,有點牛逼的。
而且這次有一個很棒的更新點。
就是你可以在GPT-5.3 Codex工作的時候跟它互動,可以隨時介入,隨時調整方向了。。。
終于不用先停止了,這個小能力還挺香的。
目前已經在Codex上上線,我已經開始用起來了。
![]()
而且直觀感受,在Codex上運行GPT-5.3 codex真的快了非常非常多。
在博客里沒有這塊數據,不過奧特曼自己的X上寫出來了。
![]()
“完成相同任務所需的令牌數不到 5.2-Codex 的一半,且單令牌速度快 25% 以上!”
非常推薦大家下載個Codex試試,真的蠻好用的。
這篇稿子又寫了個通宵,基本上把我對這兩個模型的理解都寫進去了,應該沒啥漏的了,應該是最全的一篇了。
至于實際測試,希望大家見諒,這么一點點時間實在測不出來,可能我得需要一整個周末的時候,正兒八經的開發幾個產品,才能感受到明顯的差異。
不過有一點就是,現在的模型幾乎都是奔著Coding和Agent去的,所以這塊的提升基本都很明顯,跟手機一樣,用新不用舊。
直覺上我的工作流還是不太會變,Claude Opus 4.6 + Claude code打草稿,GPT-5.3 Codex + Codex進行后續精準開發。
最后。
今天真的是AI行業的大日子。
Anthropic發了Opus 4.6,OpenAI發了GPT-5.3 Codex。
兩家頭部AI公司在同一天放出大招,這在歷史上也是罕見的。
Anthropic發了Opus 4.6,OpenAI發了GPT-5.3 Codex和Frontier。兩家頭部AI公司在同一天放出大招,這在歷史上也是罕見的。
從模型能力上看,兩家都在快速進步,差距在縮小。
從產品形態上看,兩家都在押注Agent,但側重點有所不同。
從行業影響上看,傳統SaaS公司開始感到壓力,軟件行業絕對正在經歷一場從誕生以來最大的一次范式轉變。
我不知道一年后這個行業會變成什么樣。
但我知道,現在,絕對是一個需要密切關注、積極學習的時期。
錯過這一波,可能就真的錯過了。
如果你還沒用過Claude Code,沒用過Codex,現在是一個很好的開始時機。
畢竟,未來已經來了。
只是,還沒均勻分布。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.