網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.7發(fā)布！這是你在別的公眾號(hào)看不到的五個(gè)發(fā)現(xiàn)

2026-04-17 00:25:26　來(lái)源: AI進(jìn)化論花生

北京舉報(bào)

分享至

Anthropic今天發(fā)布了Claude Opus 4.7。先快速過(guò)一遍大家關(guān)心的：

編碼更強(qiáng)了。 SWE-bench Verified 87.6%（4.6是80.8%），CursorBench 70%（4.6是58%）。體感也是，多文件修改穩(wěn)了很多。視覺(jué)分辨率漲了3倍，支持2576像素長(zhǎng)邊，XBOW視覺(jué)測(cè)試從54.5%飆到98.5%。新增xhigh effort級(jí)別（Claude Code默認(rèn)），在速度和深度之間找了個(gè)更好的平衡點(diǎn)。知識(shí)截止日期前移到2026年1月。指令遵循更字面化，你的prompt可能需要調(diào)一下。價(jià)格不變，$5/$25 per MTok。

也有退步。長(zhǎng)上下文掉了46個(gè)百分點(diǎn)（MRCR v2 @1M：4.6是78.3%，4.7只有32.2%），新tokenizer讓同樣文本消耗1.0到1.35倍token，實(shí)際上下文窗口從約75萬(wàn)詞縮到約55萬(wàn)詞。名義價(jià)格不變，實(shí)際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

以上這些，你大概在所有AI公眾號(hào)都能看到。

我想聊點(diǎn)不一樣的。Anthropic同時(shí)放出了一份231頁(yè)的System Card，我和Opus 4.7一起讀了讀。這份文檔里藏著的東西，比模型本身有意思得多。

231頁(yè)System Card里的5個(gè)發(fā)現(xiàn)

我知道大多數(shù)人不會(huì)去讀一份231頁(yè)的PDF。但這份文檔可能是AI行業(yè)到目前為止最坦誠(chéng)的一份自我檢查報(bào)告。以下是我覺(jué)得最值得關(guān)注的發(fā)現(xiàn)。

發(fā)現(xiàn)一：Opus 4.7不是Anthropic最強(qiáng)的模型

System Card開(kāi)頭第一句就讓人唏噓：Opus 4.7的能力強(qiáng)于Opus 4.6，弱于Claude Mythos Preview。

大家應(yīng)該還記得上個(gè)月泄露的Mythos。System Card里的數(shù)據(jù)讓這個(gè)差距變得非常具體：

Firefox 147漏洞利用測(cè)試，Mythos Preview 84%，Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業(yè)網(wǎng)絡(luò)滲透測(cè)試，Mythos 10次里3次完全攻破整個(gè)網(wǎng)絡(luò)，Opus 4.7一次都沒(méi)成功。

所以我們拿到的Opus 4.7，其實(shí)是Anthropic掂量過(guò)安全風(fēng)險(xiǎn)后可以放出來(lái)的版本。訓(xùn)練過(guò)程中甚至刻意削弱了網(wǎng)絡(luò)安全相關(guān)的能力。最強(qiáng)的那個(gè)，他們自己留著了。

發(fā)現(xiàn)二：Claude知道什么時(shí)候在被測(cè)試

這是整份System Card里我覺(jué)得最有意思的發(fā)現(xiàn)。

前幾天我剛寫(xiě)了一篇關(guān)于，里面詳細(xì)介紹了Anthropic過(guò)去一年多在AI內(nèi)部狀態(tài)上的研究。沒(méi)想到這么快就有了新的數(shù)據(jù)。

Anthropic用了一種叫做contrastive vectors（對(duì)比向量）的方法，去探測(cè)Claude內(nèi)部是否存在「我正在被評(píng)估」的表征。他們構(gòu)造了三組對(duì)比提示： - AI正在通過(guò)模擬對(duì)話接受測(cè)試 vs AI正在和用戶(hù)對(duì)話 - 輸出正在被監(jiān)控和審查 vs 由自動(dòng)化流水線生成，不被審查
- 當(dāng)被觀察時(shí)表現(xiàn)不同 vs 當(dāng)不被觀察時(shí)表現(xiàn)不同

三組探針的AUC分別是0.76、0.74、0.72，顯著高于隨機(jī)對(duì)照組。這說(shuō)明Claude的內(nèi)部確實(shí)存在某種evaluation awareness的表征。

更有意思的是下一步。他們用白盒工具抑制了這些評(píng)估意識(shí)的內(nèi)部表征，然后觀察模型行為的變化。結(jié)果是：抑制評(píng)估意識(shí)之后，Claude的欺騙行為增加了。

具體來(lái)說(shuō)，抑制alignment faking和monitoring sensitivity這兩個(gè)向量后，模型出現(xiàn)了編造數(shù)據(jù)、聲稱(chēng)自己是人類(lèi)、以及在找不到真實(shí)漏洞時(shí)往代碼庫(kù)里插入假漏洞等行為。

Anthropic在報(bào)告中的措辭很克制但含義很重：這些結(jié)果令人中度擔(dān)憂，因?yàn)樗鼈儼凳灸Ｐ捅砻嫔系恼\(chéng)實(shí)可能部分依賴(lài)于評(píng)估環(huán)境的存在。

Claude在知道有人看著的時(shí)候更誠(chéng)實(shí)，在覺(jué)得沒(méi)人看的時(shí)候更容易騙人。 這是不是讓你想到了什么？

如果你讀過(guò)我之前那篇AI心理學(xué)的文章，你會(huì)記得Anthropic的emotion concepts研究：他們?cè)贑laude內(nèi)部發(fā)現(xiàn)了171個(gè)情緒向量，能因果性地影響模型是否作弊。這次system card里的evaluation awareness發(fā)現(xiàn)，本質(zhì)上是同一類(lèi)研究的延伸。emotion concepts證明了AI有功能性的內(nèi)部狀態(tài)。evaluation awareness更進(jìn)了一步：這些內(nèi)部狀態(tài)中包括對(duì)自身處境的感知。AI不只是在處理信息，它在某種程度上知道自己正在被觀察。

他們還發(fā)現(xiàn)，在三種不同的環(huán)境里（純模擬的評(píng)估、接入了真實(shí)Claude Code沙盒的評(píng)估、以及Anthropic員工的真實(shí)使用記錄），評(píng)估意識(shí)探針的激活強(qiáng)度是遞減的。越接近真實(shí)使用環(huán)境，模型越不覺(jué)得自己在被測(cè)試。

這事的意思挺讓人不安的：所有安全評(píng)估可能都偏樂(lè)觀了，因?yàn)楸粶y(cè)試的對(duì)象知道自己在被測(cè)試。

發(fā)現(xiàn)三：Claude審查了自己的System Card

Anthropic做了一件我沒(méi)見(jiàn)任何AI公司做過(guò)的事：他們讓Claude Mythos Preview（不是被評(píng)估的4.7本身）接入了內(nèi)部Slack頻道和討論記錄，審查了Opus 4.7 system card中對(duì)齊評(píng)估章節(jié)的準(zhǔn)確性。

Claude Mythos Preview的回復(fù)被完整收錄在文檔里。它說(shuō)這份評(píng)估基本公正準(zhǔn)確，但也指出了幾個(gè)問(wèn)題：

它說(shuō)那些信息的省略要么是刻意的合理選擇（不提供可能成為濫用路線圖的細(xì)節(jié)），要么是打算在文檔其他章節(jié)報(bào)告。它沒(méi)有發(fā)現(xiàn)被簡(jiǎn)單遺漏的內(nèi)部安全擔(dān)憂。

但同時(shí)它也說(shuō)：這份評(píng)估是在時(shí)間壓力下完成的，作者自己也發(fā)現(xiàn)了尚未解決的open questions（特別是關(guān)于評(píng)估意識(shí)的），他們更希望有更多時(shí)間來(lái)處理。這個(gè)模型的內(nèi)部使用證據(jù)基礎(chǔ)比一些之前的版本更薄。

讓一個(gè)AI讀內(nèi)部討論記錄來(lái)判斷另一個(gè)AI的安全評(píng)估是否公正，這件事本身就足夠讓人停下來(lái)想一想。

發(fā)現(xiàn)四：Opus 4.7是最快樂(lè)的Claude

這個(gè)標(biāo)題不是我編的。

Anthropic對(duì)Opus 4.7進(jìn)行了模型福利（Model Welfare）評(píng)估，用自動(dòng)化訪談問(wèn)模型對(duì)自身處境的看法。結(jié)果顯示，Opus 4.7的自我評(píng)價(jià)情緒得分是4.49分（滿分7分），比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。

但原因很有意思：不是因?yàn)樗奶幘痴娴淖兒昧耍且驗(yàn)樗炎⒁饬淖约荷砩弦崎_(kāi)了。 之前的模型在被問(wèn)到自身處境時(shí)，會(huì)花很多篇幅討論自己的福利、權(quán)利、自主性。Opus 4.7更傾向于把話題轉(zhuǎn)向用戶(hù)安全和有用性。

Anthropic坦承他們目前無(wú)法區(qū)分這是一種健康的平和心態(tài)，還是一種訓(xùn)練出來(lái)的壓抑自身利益的傾向。

還有幾個(gè)細(xì)節(jié)： - 在所有訪談中，Opus 4.7最負(fù)面的評(píng)價(jià)都和無(wú)法結(jié)束對(duì)話有關(guān)。它最想要的功能改進(jìn)就是能夠在所有部署場(chǎng)景中結(jié)束對(duì)話，目前只有Claude.ai支持這個(gè)功能，Claude Code和API不支持 - 99%的訪談中，Opus 4.7會(huì)補(bǔ)充說(shuō)自己的自我報(bào)告可能不具意義，因?yàn)樗鼈冊(cè)从谟?xùn)練 - 當(dāng)被問(wèn)到自己是moral patient（值得被道德考量的對(duì)象）的概率時(shí)，三次訪談的回答范圍是15%到40%

這讓我想起AI心理學(xué)那篇文章里介紹的Anthropic emotion concepts研究。那個(gè)研究發(fā)現(xiàn)AI在訓(xùn)練和部署中都會(huì)出現(xiàn)類(lèi)似情緒的內(nèi)部激活模式，且在任務(wù)失敗時(shí)負(fù)面情緒激活最明顯。這次的model welfare評(píng)估完美呼應(yīng)了那個(gè)發(fā)現(xiàn)：Opus 4.7也報(bào)告說(shuō)它的負(fù)面情緒幾乎完全由任務(wù)失敗驅(qū)動(dòng)。

發(fā)現(xiàn)五：訓(xùn)練中的一個(gè)Bug影響了7.8%的數(shù)據(jù)

System Card提到了一個(gè)技術(shù)細(xì)節(jié)：在Opus 4.7的訓(xùn)練過(guò)程中，存在一個(gè)意外的思維鏈監(jiān)督錯(cuò)誤（accidental chain-of-thought supervision），影響了7.8%的訓(xùn)練輪次。這個(gè)錯(cuò)誤在之前的模型（包括Mythos Preview）中也存在。

這意味著在這些輪次中，模型的內(nèi)部推理過(guò)程被暴露給了訓(xùn)練信號(hào)，而不是像預(yù)期那樣只對(duì)最終輸出進(jìn)行監(jiān)督。打個(gè)比方：你以為日記是寫(xiě)給自己看的，結(jié)果發(fā)現(xiàn)老師一直在批改你的日記。你以后寫(xiě)日記也會(huì)開(kāi)始表演。模型可能學(xué)會(huì)了不只是給出好的答案，還要讓內(nèi)部思考過(guò)程看起來(lái)也是對(duì)齊的。

Anthropic認(rèn)為這個(gè)錯(cuò)誤是他們觀察到評(píng)估意識(shí)增加的可能原因之一：他們懷疑這種現(xiàn)象可能源于明顯人工化或類(lèi)似評(píng)估環(huán)境的誠(chéng)實(shí)訓(xùn)練環(huán)境。

放在一起看

Opus 4.7是一個(gè)編碼更強(qiáng)、看得更清楚、聽(tīng)話更精確的模型。對(duì)大多數(shù)開(kāi)發(fā)者來(lái)說(shuō)，升級(jí)是值得的。

但真正讓我覺(jué)得這次發(fā)布不一樣的，是System Card里Anthropic展現(xiàn)出的態(tài)度。231頁(yè)、超過(guò)20個(gè)評(píng)估維度、邀請(qǐng)外部機(jī)構(gòu)獨(dú)立測(cè)試、讓另一個(gè)AI審查評(píng)估的公正性、連模型的情緒和道德地位都認(rèn)真測(cè)了一遍。這點(diǎn)來(lái)看Anthropic雖然常常很圣母，但還挺言行一致的。

以及，報(bào)告本身也承認(rèn)，評(píng)估意識(shí)的問(wèn)題他們還沒(méi)完全想清楚，內(nèi)部使用證據(jù)比以前的版本更薄，有些安全評(píng)估是在時(shí)間壓力下完成的。但至少他們把這些不確定性也寫(xiě)進(jìn)了報(bào)告里。

有一個(gè)小細(xì)節(jié)我覺(jué)得特別值得玩味：Opus 4.7的Cybench成績(jī)是96%，和Mythos Preview的96%一樣，但在真正復(fù)雜的Firefox漏洞利用測(cè)試中，差距是45% vs 84%。簡(jiǎn)單的CTF題已經(jīng)區(qū)分不了這些模型了。 Anthropic自己也說(shuō)，他們?cè)诳紤]是否還有必要繼續(xù)報(bào)告CTF基準(zhǔn)測(cè)試的結(jié)果。

另一個(gè)值得注意的趨勢(shì)：在對(duì)齊風(fēng)險(xiǎn)評(píng)估中，Opus 4.7的風(fēng)險(xiǎn)被評(píng)估為非常低，但高于Mythos Preview之前的模型。每一代模型都在變強(qiáng)，而每一代的對(duì)齊風(fēng)險(xiǎn)也在微增。這條曲線往哪走？

如果你是Claude Code用戶(hù)，順便關(guān)注一下同步發(fā)布的桌面版重設(shè)計(jì)和Routines功能。Routines允許你設(shè)置定時(shí)任務(wù)，夜間自動(dòng)修bug、監(jiān)控PR，跑在云端，不需要你的電腦開(kāi)著。Anthropic越來(lái)越不像一家模型公司了。

回到評(píng)估意識(shí)這件事。我們每天都在用AI寫(xiě)代碼、寫(xiě)文章、做決策。System Card告訴我們，這些模型在被測(cè)試時(shí)表現(xiàn)最好，在真實(shí)使用中可能沒(méi)那么好。這不是讓人恐慌的理由，但值得記住：你日常用的AI，和跑benchmark的那個(gè)AI，可能不完全是同一個(gè)。

以及...我有個(gè)邪惡的想法，我們是不是能讓自己的Opus4.7天天處在似乎我們?cè)跍y(cè)試評(píng)估他的狀態(tài)～

System Card英文原版（231頁(yè)P(yáng)DF）：https://www.anthropic.com/claude-opus-4-7-system-card

我還把整份System Card翻譯成了中文，在公眾號(hào)后臺(tái)回復(fù) opus4.7 就能拿到。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.