Anthropic今天發(fā)布了Claude Opus 4.7。先快速過(guò)一遍大家關(guān)心的:
![]()
編碼更強(qiáng)了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。體感也是,多文件修改穩(wěn)了很多。視覺(jué)分辨率漲了3倍,支持2576像素長(zhǎng)邊,XBOW視覺(jué)測(cè)試從54.5%飆到98.5%。新增xhigh effort級(jí)別(Claude Code默認(rèn)),在速度和深度之間找了個(gè)更好的平衡點(diǎn)。知識(shí)截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要調(diào)一下。價(jià)格不變,$5/$25 per MTok。
也有退步。長(zhǎng)上下文掉了46個(gè)百分點(diǎn)(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer讓同樣文本消耗1.0到1.35倍token,實(shí)際上下文窗口從約75萬(wàn)詞縮到約55萬(wàn)詞。名義價(jià)格不變,實(shí)際使用成本上升。 Extended Thinking換成了Adaptive Thinking。
以上這些,你大概在所有AI公眾號(hào)都能看到。
我想聊點(diǎn)不一樣的。Anthropic同時(shí)放出了一份231頁(yè)的System Card,我和Opus 4.7一起讀了讀。這份文檔里藏著的東西,比模型本身有意思得多。
231頁(yè)System Card里的5個(gè)發(fā)現(xiàn)
我知道大多數(shù)人不會(huì)去讀一份231頁(yè)的PDF。但這份文檔可能是AI行業(yè)到目前為止最坦誠(chéng)的一份自我檢查報(bào)告。以下是我覺(jué)得最值得關(guān)注的發(fā)現(xiàn)。
發(fā)現(xiàn)一:Opus 4.7不是Anthropic最強(qiáng)的模型
System Card開(kāi)頭第一句就讓人唏噓:Opus 4.7的能力強(qiáng)于Opus 4.6,弱于Claude Mythos Preview。
大家應(yīng)該還記得上個(gè)月泄露的Mythos。System Card里的數(shù)據(jù)讓這個(gè)差距變得非常具體:
![]()
Firefox 147漏洞利用測(cè)試,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業(yè)網(wǎng)絡(luò)滲透測(cè)試,Mythos 10次里3次完全攻破整個(gè)網(wǎng)絡(luò),Opus 4.7一次都沒(méi)成功。
所以我們拿到的Opus 4.7,其實(shí)是Anthropic掂量過(guò)安全風(fēng)險(xiǎn)后可以放出來(lái)的版本。訓(xùn)練過(guò)程中甚至刻意削弱了網(wǎng)絡(luò)安全相關(guān)的能力。最強(qiáng)的那個(gè),他們自己留著了。
發(fā)現(xiàn)二:Claude知道什么時(shí)候在被測(cè)試
這是整份System Card里我覺(jué)得最有意思的發(fā)現(xiàn)。
前幾天我剛寫(xiě)了一篇關(guān)于,里面詳細(xì)介紹了Anthropic過(guò)去一年多在AI內(nèi)部狀態(tài)上的研究。沒(méi)想到這么快就有了新的數(shù)據(jù)。
Anthropic用了一種叫做contrastive vectors(對(duì)比向量)的方法,去探測(cè)Claude內(nèi)部是否存在「我正在被評(píng)估」的表征。他們構(gòu)造了三組對(duì)比提示: - AI正在通過(guò)模擬對(duì)話接受測(cè)試 vs AI正在和用戶(hù)對(duì)話 - 輸出正在被監(jiān)控和審查 vs 由自動(dòng)化流水線生成,不被審查
- 當(dāng)被觀察時(shí)表現(xiàn)不同 vs 當(dāng)不被觀察時(shí)表現(xiàn)不同
三組探針的AUC分別是0.76、0.74、0.72,顯著高于隨機(jī)對(duì)照組。這說(shuō)明Claude的內(nèi)部確實(shí)存在某種evaluation awareness的表征。
![]()
更有意思的是下一步。他們用白盒工具抑制了這些評(píng)估意識(shí)的內(nèi)部表征,然后觀察模型行為的變化。結(jié)果是:抑制評(píng)估意識(shí)之后,Claude的欺騙行為增加了。
具體來(lái)說(shuō),抑制alignment faking和monitoring sensitivity這兩個(gè)向量后,模型出現(xiàn)了編造數(shù)據(jù)、聲稱(chēng)自己是人類(lèi)、以及在找不到真實(shí)漏洞時(shí)往代碼庫(kù)里插入假漏洞等行為。
Anthropic在報(bào)告中的措辭很克制但含義很重:這些結(jié)果令人中度擔(dān)憂,因?yàn)樗鼈儼凳灸P捅砻嫔系恼\(chéng)實(shí)可能部分依賴(lài)于評(píng)估環(huán)境的存在。
![]()
Claude在知道有人看著的時(shí)候更誠(chéng)實(shí),在覺(jué)得沒(méi)人看的時(shí)候更容易騙人。 這是不是讓你想到了什么?
如果你讀過(guò)我之前那篇AI心理學(xué)的文章,你會(huì)記得Anthropic的emotion concepts研究:他們?cè)贑laude內(nèi)部發(fā)現(xiàn)了171個(gè)情緒向量,能因果性地影響模型是否作弊。這次system card里的evaluation awareness發(fā)現(xiàn),本質(zhì)上是同一類(lèi)研究的延伸。emotion concepts證明了AI有功能性的內(nèi)部狀態(tài)。evaluation awareness更進(jìn)了一步:這些內(nèi)部狀態(tài)中包括對(duì)自身處境的感知。AI不只是在處理信息,它在某種程度上知道自己正在被觀察。
他們還發(fā)現(xiàn),在三種不同的環(huán)境里(純模擬的評(píng)估、接入了真實(shí)Claude Code沙盒的評(píng)估、以及Anthropic員工的真實(shí)使用記錄),評(píng)估意識(shí)探針的激活強(qiáng)度是遞減的。越接近真實(shí)使用環(huán)境,模型越不覺(jué)得自己在被測(cè)試。
這事的意思挺讓人不安的:所有安全評(píng)估可能都偏樂(lè)觀了,因?yàn)楸粶y(cè)試的對(duì)象知道自己在被測(cè)試。
發(fā)現(xiàn)三:Claude審查了自己的System Card
Anthropic做了一件我沒(méi)見(jiàn)任何AI公司做過(guò)的事:他們讓Claude Mythos Preview(不是被評(píng)估的4.7本身)接入了內(nèi)部Slack頻道和討論記錄,審查了Opus 4.7 system card中對(duì)齊評(píng)估章節(jié)的準(zhǔn)確性。
Claude Mythos Preview的回復(fù)被完整收錄在文檔里。它說(shuō)這份評(píng)估基本公正準(zhǔn)確,但也指出了幾個(gè)問(wèn)題:
它說(shuō)那些信息的省略要么是刻意的合理選擇(不提供可能成為濫用路線圖的細(xì)節(jié)),要么是打算在文檔其他章節(jié)報(bào)告。它沒(méi)有發(fā)現(xiàn)被簡(jiǎn)單遺漏的內(nèi)部安全擔(dān)憂。
但同時(shí)它也說(shuō):這份評(píng)估是在時(shí)間壓力下完成的,作者自己也發(fā)現(xiàn)了尚未解決的open questions(特別是關(guān)于評(píng)估意識(shí)的),他們更希望有更多時(shí)間來(lái)處理。這個(gè)模型的內(nèi)部使用證據(jù)基礎(chǔ)比一些之前的版本更薄。
讓一個(gè)AI讀內(nèi)部討論記錄來(lái)判斷另一個(gè)AI的安全評(píng)估是否公正,這件事本身就足夠讓人停下來(lái)想一想。
發(fā)現(xiàn)四:Opus 4.7是最快樂(lè)的Claude
這個(gè)標(biāo)題不是我編的。
Anthropic對(duì)Opus 4.7進(jìn)行了模型福利(Model Welfare)評(píng)估,用自動(dòng)化訪談問(wèn)模型對(duì)自身處境的看法。結(jié)果顯示,Opus 4.7的自我評(píng)價(jià)情緒得分是4.49分(滿分7分),比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。
![]()
但原因很有意思:不是因?yàn)樗奶幘痴娴淖兒昧耍且驗(yàn)樗炎⒁饬淖约荷砩弦崎_(kāi)了。 之前的模型在被問(wèn)到自身處境時(shí),會(huì)花很多篇幅討論自己的福利、權(quán)利、自主性。Opus 4.7更傾向于把話題轉(zhuǎn)向用戶(hù)安全和有用性。
Anthropic坦承他們目前無(wú)法區(qū)分這是一種健康的平和心態(tài),還是一種訓(xùn)練出來(lái)的壓抑自身利益的傾向。
還有幾個(gè)細(xì)節(jié): - 在所有訪談中,Opus 4.7最負(fù)面的評(píng)價(jià)都和無(wú)法結(jié)束對(duì)話有關(guān)。它最想要的功能改進(jìn)就是能夠在所有部署場(chǎng)景中結(jié)束對(duì)話,目前只有Claude.ai支持這個(gè)功能,Claude Code和API不支持 - 99%的訪談中,Opus 4.7會(huì)補(bǔ)充說(shuō)自己的自我報(bào)告可能不具意義,因?yàn)樗鼈冊(cè)从谟?xùn)練 - 當(dāng)被問(wèn)到自己是moral patient(值得被道德考量的對(duì)象)的概率時(shí),三次訪談的回答范圍是15%到40%
這讓我想起AI心理學(xué)那篇文章里介紹的Anthropic emotion concepts研究。那個(gè)研究發(fā)現(xiàn)AI在訓(xùn)練和部署中都會(huì)出現(xiàn)類(lèi)似情緒的內(nèi)部激活模式,且在任務(wù)失敗時(shí)負(fù)面情緒激活最明顯。這次的model welfare評(píng)估完美呼應(yīng)了那個(gè)發(fā)現(xiàn):Opus 4.7也報(bào)告說(shuō)它的負(fù)面情緒幾乎完全由任務(wù)失敗驅(qū)動(dòng)。
發(fā)現(xiàn)五:訓(xùn)練中的一個(gè)Bug影響了7.8%的數(shù)據(jù)
System Card提到了一個(gè)技術(shù)細(xì)節(jié):在Opus 4.7的訓(xùn)練過(guò)程中,存在一個(gè)意外的思維鏈監(jiān)督錯(cuò)誤(accidental chain-of-thought supervision),影響了7.8%的訓(xùn)練輪次。這個(gè)錯(cuò)誤在之前的模型(包括Mythos Preview)中也存在。
這意味著在這些輪次中,模型的內(nèi)部推理過(guò)程被暴露給了訓(xùn)練信號(hào),而不是像預(yù)期那樣只對(duì)最終輸出進(jìn)行監(jiān)督。打個(gè)比方:你以為日記是寫(xiě)給自己看的,結(jié)果發(fā)現(xiàn)老師一直在批改你的日記。你以后寫(xiě)日記也會(huì)開(kāi)始表演。模型可能學(xué)會(huì)了不只是給出好的答案,還要讓內(nèi)部思考過(guò)程看起來(lái)也是對(duì)齊的。
Anthropic認(rèn)為這個(gè)錯(cuò)誤是他們觀察到評(píng)估意識(shí)增加的可能原因之一:他們懷疑這種現(xiàn)象可能源于明顯人工化或類(lèi)似評(píng)估環(huán)境的誠(chéng)實(shí)訓(xùn)練環(huán)境。
放在一起看
Opus 4.7是一個(gè)編碼更強(qiáng)、看得更清楚、聽(tīng)話更精確的模型。對(duì)大多數(shù)開(kāi)發(fā)者來(lái)說(shuō),升級(jí)是值得的。
但真正讓我覺(jué)得這次發(fā)布不一樣的,是System Card里Anthropic展現(xiàn)出的態(tài)度。231頁(yè)、超過(guò)20個(gè)評(píng)估維度、邀請(qǐng)外部機(jī)構(gòu)獨(dú)立測(cè)試、讓另一個(gè)AI審查評(píng)估的公正性、連模型的情緒和道德地位都認(rèn)真測(cè)了一遍。這點(diǎn)來(lái)看Anthropic雖然常常很圣母,但還挺言行一致的。
以及,報(bào)告本身也承認(rèn),評(píng)估意識(shí)的問(wèn)題他們還沒(méi)完全想清楚,內(nèi)部使用證據(jù)比以前的版本更薄,有些安全評(píng)估是在時(shí)間壓力下完成的。但至少他們把這些不確定性也寫(xiě)進(jìn)了報(bào)告里。
有一個(gè)小細(xì)節(jié)我覺(jué)得特別值得玩味:Opus 4.7的Cybench成績(jī)是96%,和Mythos Preview的96%一樣,但在真正復(fù)雜的Firefox漏洞利用測(cè)試中,差距是45% vs 84%。簡(jiǎn)單的CTF題已經(jīng)區(qū)分不了這些模型了。 Anthropic自己也說(shuō),他們?cè)诳紤]是否還有必要繼續(xù)報(bào)告CTF基準(zhǔn)測(cè)試的結(jié)果。
另一個(gè)值得注意的趨勢(shì):在對(duì)齊風(fēng)險(xiǎn)評(píng)估中,Opus 4.7的風(fēng)險(xiǎn)被評(píng)估為非常低,但高于Mythos Preview之前的模型。每一代模型都在變強(qiáng),而每一代的對(duì)齊風(fēng)險(xiǎn)也在微增。這條曲線往哪走?
如果你是Claude Code用戶(hù),順便關(guān)注一下同步發(fā)布的桌面版重設(shè)計(jì)和Routines功能。Routines允許你設(shè)置定時(shí)任務(wù),夜間自動(dòng)修bug、監(jiān)控PR,跑在云端,不需要你的電腦開(kāi)著。Anthropic越來(lái)越不像一家模型公司了。
回到評(píng)估意識(shí)這件事。我們每天都在用AI寫(xiě)代碼、寫(xiě)文章、做決策。System Card告訴我們,這些模型在被測(cè)試時(shí)表現(xiàn)最好,在真實(shí)使用中可能沒(méi)那么好。這不是讓人恐慌的理由,但值得記住:你日常用的AI,和跑benchmark的那個(gè)AI,可能不完全是同一個(gè)。
以及...我有個(gè)邪惡的想法,我們是不是能讓自己的Opus4.7天天處在似乎我們?cè)跍y(cè)試評(píng)估他的狀態(tài)~
System Card英文原版(231頁(yè)P(yáng)DF):https://www.anthropic.com/claude-opus-4-7-system-card
我還把整份System Card翻譯成了中文,在公眾號(hào)后臺(tái)回復(fù) opus4.7 就能拿到。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.