網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

貼臉嘲諷ChatGPT后，這家公司又發(fā)了個最強(qiáng)模型。

2026-02-08 00:10:45　來源: 差評XPIN

浙江舉報

分享至

誰能想到呢，本周的硅谷AI圈，已經(jīng)演變到了大家喜聞樂見的互噴環(huán)節(jié)。

起因是周三晚上，Anthropic在他們美國人的“春晚”上，放了幾條廣告，明牌嘲諷OpenAI在ChatGPT里塞廣告，直接把諷刺都打到公屏上了：廣告在入侵AI，但不會出現(xiàn)在 Claude。

奧特曼當(dāng)場就坐不住了，凌晨六點(diǎn)在X上敲了一篇長文，說Anthropic的廣告"明顯不誠實"，"德州用ChatGPT免費(fèi)版的人比全美用Claude的人還多"。。

不過插廣告這事兒確實不是大伙喜歡的，可以預(yù)見的，評論區(qū)一邊倒地，說他破防了。

哎，光說不解氣，不然打一架？

第二天，還真打起來了。不過不是線下真實嗷，是 Anthropic 把 Claude Opus 4.6 擺上了臺面。

OpenAI 那邊也不甘示弱，在Opus 4.6上線二十多分鐘之后，火速掏出了GPT-5.3 Codex應(yīng)戰(zhàn)。

不過，這波對轟雖然熱鬧，兩邊的招式其實不太一樣。 Anthropic 這次，是拿出了自己最強(qiáng)的通用模型，而 OpenAI 拿出的 Codex，其實是個專精代碼的“偏科生”，對大多數(shù)人來說用不到。。總感覺氣勢上就輸一頭啊。

所以今天世超先撇開那個寫代碼的，還是來聊聊大家更感興趣的通用模型， Claude Opus 4.6 吧。

先說結(jié)論，在"干活"這件事上，Opus 4.6 應(yīng)該可以算目前最強(qiáng)的大模型。

跑分圖什么的，大伙估計都看膩了，也基本都是分?jǐn)?shù)要比老模型高一點(diǎn)點(diǎn)，當(dāng)然也有少量不如的，不過對咱來說，看的還是綜合體驗嘛。

所以我們仔細(xì)翻了下 Anthropic 官方的介紹和 System Card，把幾個真正有料的升級給各位拎了出來。

首先，上下文窗口終于破百萬Tokens了。

之前，Opus系列最讓人詬病的，就是20萬Token的上下文，而隔壁 Gemini 的百萬上下文早用了快兩年了。

而 Opus 4.6 在 MRCR v2 這個評測里拿了76分，我們俗稱“大海撈針”，也就是在巨長上下文里找到我們想找的東西，而上一代Sonnet 4.5是18.5分，一下提升了四倍，可以說是質(zhì)變了。

但上下文這玩意，重點(diǎn)不是數(shù)字大不大，而是能不能真好用啊，很多模型號稱百萬上下文，實際上塞到后面就開始記憶錯亂，胡言亂語了。

所以這次 Anthropic 是有備而來，他們提了一個叫“上下文衰減”的概念，是指上下文過長時，注意力分配被稀釋，導(dǎo)致模型難以精準(zhǔn)捕捉一些細(xì)小的信息。說白了就是 AI 的腦容量被稀釋了，讀了后面忘前面，在海量信息里找不著重點(diǎn)。

而Claude現(xiàn)在的解決思路，叫“上下文壓縮”，能在對話達(dá)到 Token 閾值時，自動將冗長的歷史記錄壓縮成高濃度的摘要，就好比你追了幾百集電視劇腦子不夠用了，它不僅幫你把前面那些啰嗦的情節(jié)刪了給大腦騰內(nèi)存，還能自動生成前情提要讓你無縫銜接下一集。

但世超實測了一下，是有點(diǎn)想吐槽的。

我缺的是上下文嗎，好像是額度啊！Pro 版訂閱根本聊不到上下文頂點(diǎn)就用光光了。

而且我試了一下，一次喂大量上下文的能力，是干不過Gemini的。比如我最近有個研究物理的項目，找到了一份天文學(xué)家里希爾的原版著作，在閱讀中碰到了疑問，因為他的一個計算結(jié)果和牛頓老師完全不同！

然后我把這個200多頁的書丟給Gemini，問他到底是誰的問題。

Gemini讀完，理解得又快又準(zhǔn)，并且精確指出了里希爾原文的頁碼數(shù)，一通操作指出，牛頓是對的。

而 Opus 4.6 這邊好像是有 bug，一本書根本喂不進(jìn)去，顯示error。我最后只好給它拆成了兩半。

不過拆完就蠻順利的了，它成功找到了出問題的頁碼數(shù)，還給了精確的推理分析，質(zhì)量跟Gemini 3 Pro不相上下。

所以能力這塊是完全過關(guān)的，至于為什么一次喂不進(jìn)一本書，可能是一種仁慈的防token爆炸機(jī)制吧。

當(dāng)然就這也不夠說“干活最強(qiáng)”，Claude現(xiàn)在最強(qiáng)的地方，其實是“實操”的能力。

咋說呢？你就看之前AI圈爆火的干活工具，什么 MCP，Skill，都是Claude先用上，就連不久前爆火的 Clawdbot （現(xiàn)OpenClaw）現(xiàn)在的默認(rèn)推薦模型都是Opus 4.6。

就是因為 Opus 這玩意，操作電腦的能力，確實太狠了。

比如我問它，我現(xiàn)在用的顯示器，二手貨最便宜能多少錢。

我就只需要給它說一句話，它就能自己調(diào)用MCP，連接我的電腦，查看我的顯示器型號，再自己上網(wǎng)去閑魚搜最低價。

最終搜出來的價格，跟我自己上閑魚搜的大差不差，而且最騷的是它還知道國補(bǔ)，讓我別買二手，考慮直接加錢換新，全程不需要我干預(yù)，可以說真的很像真人助理了。

除了這個，Claude Opus的編碼能力一直是壓著其他家打的，從競技場排名來看，Opus 4.5已經(jīng)打遍無敵手了，現(xiàn)在又來了個4.6，真遙遙領(lǐng)先了。

再配合上超模的動手能力，能力據(jù)說已經(jīng)能媲美高級工程師——這評價來自日本樂天公司的AI總經(jīng)理，說 Opus 4.6 一天之內(nèi)自己修好并關(guān)閉了 13 個 Bug，還看懂了另外 12 個問題是誰負(fù)責(zé)的，自動把活派給了對應(yīng)的程序員。

咱也來了點(diǎn)簡單的活，讓它寫個 CS 的 demo 發(fā)到我電腦上。

結(jié)果確實好用，html文件直接出現(xiàn)在了桌面，點(diǎn)開就能玩，血量、地圖、子彈都顯示得完全正確。

最后，Opus 4.6 還有個最頂級的能力，搜集信息，而且不是一般的信息，是各種你不確定的，犄角旮旯里的信息，它都能給你找著。AI 界把這叫做 BrowseComp，Opus 4.6 強(qiáng)勢登頂。

這一點(diǎn)在世超日常使用時也深有體會，其他模型搜不到的情報，Claude 能直接給你定位來源，然后端上來。

比如，差友都知道咱差評有個內(nèi)部梗，就是925，不算出圈，基本只有咱差友自己知道。

那可能有些新差友，不知道這個梗，可以去哪搜呢？咱先用Gemini和GPT試試。

結(jié)果無一例外，全部敗下陣來。

結(jié)果去問了下Claude，直接一個精準(zhǔn)命中，連今日最佳都知道，原來 Claude 也是差友吧。。

這也是為啥世超最近驗證傳言、搜集事實都用 Claude Opus，省心的不止一星半點(diǎn)啊。

這一堆子體驗下來，Claude Opus 整體給人一種成熟穩(wěn)重的感覺，如果你讓我選擇一個“它辦事我放心”的AI，我毫不猶豫選的就是Claude。既然這么強(qiáng)，為啥在用戶這塊老不溫不火啊？世超覺得，和 Claude 選擇的路線脫不開關(guān)系。

Anthropic 從一開始就奔著"最能干的AI同事"去的，你看它的產(chǎn)品線，Claude Code、Cowork、Excel插件，全都一個目的，幫你把活干完。

而這，也是老板最喜歡的特質(zhì)，所以企業(yè)客戶占了 Anthropic 收入的 80%，這條路確實它最能打。

Claude 的風(fēng)格這么偏商務(wù)風(fēng)，我覺得也跟它目標(biāo)客戶有關(guān)。（說是這么說，感覺比其他兩家好看多了。。）

而其他兩家則是各有各的說法。

ChatGPT 這邊，奧特曼的野心顯然不只在做一個“好員工”了，最近的產(chǎn)品節(jié)奏也是真的猛，光 2026 年到現(xiàn)在就發(fā)了ChatGPT Health、Codex 桌面 App、Prism（科研工具），以及剛發(fā)布的企業(yè)平臺 Frontier，還想搶塊企業(yè)市場的蛋糕。這意思像是，C 端靠用戶量和廣告，B 端靠平臺和生態(tài)，兩手都要抓，就是不知道抓不抓得住了。

至于Gemini，則想靠生態(tài)進(jìn)行一個降維打擊，在Gemini里你能干谷歌生態(tài)里的任何事，回郵件，傳網(wǎng)盤，甚至看Youtube。再加上幾十億臺安卓手機(jī)，如果 AI 真像水電一樣滲進(jìn)你每天都在用的 App 里時，單純賣模型的公司只能拿頭打。

至于誰能笑到最后？

有個網(wǎng)友的評論我覺得很到位："2026年最聰明的做法不是選一個最好的模型，而是知道每個模型最擅長什么，換著用。"

說得非常對啊，我認(rèn)可，但唯一的缺點(diǎn)是我錢包有點(diǎn)不對了。

撰文：不咕

編輯：江江&面線

美編：不咕

圖片、資料來源：

Anthropic、X

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.