<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Claude Opus 4.7發(fā)布!這是你在別的公眾號(hào)看不到的五個(gè)發(fā)現(xiàn)

      0
      分享至

      Anthropic今天發(fā)布了Claude Opus 4.7。先快速過(guò)一遍大家關(guān)心的:


      編碼更強(qiáng)了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。體感也是,多文件修改穩(wěn)了很多。視覺(jué)分辨率漲了3倍,支持2576像素長(zhǎng)邊,XBOW視覺(jué)測(cè)試從54.5%飆到98.5%。新增xhigh effort級(jí)別(Claude Code默認(rèn)),在速度和深度之間找了個(gè)更好的平衡點(diǎn)。知識(shí)截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要調(diào)一下。價(jià)格不變,$5/$25 per MTok。

      也有退步。長(zhǎng)上下文掉了46個(gè)百分點(diǎn)(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer讓同樣文本消耗1.0到1.35倍token,實(shí)際上下文窗口從約75萬(wàn)詞縮到約55萬(wàn)詞。名義價(jià)格不變,實(shí)際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

      以上這些,你大概在所有AI公眾號(hào)都能看到。

      我想聊點(diǎn)不一樣的。Anthropic同時(shí)放出了一份231頁(yè)的System Card,我和Opus 4.7一起讀了讀。這份文檔里藏著的東西,比模型本身有意思得多。

      231頁(yè)System Card里的5個(gè)發(fā)現(xiàn)

      我知道大多數(shù)人不會(huì)去讀一份231頁(yè)的PDF。但這份文檔可能是AI行業(yè)到目前為止最坦誠(chéng)的一份自我檢查報(bào)告。以下是我覺(jué)得最值得關(guān)注的發(fā)現(xiàn)。

      發(fā)現(xiàn)一:Opus 4.7不是Anthropic最強(qiáng)的模型

      System Card開(kāi)頭第一句就讓人唏噓:Opus 4.7的能力強(qiáng)于Opus 4.6,弱于Claude Mythos Preview。

      大家應(yīng)該還記得上個(gè)月泄露的Mythos。System Card里的數(shù)據(jù)讓這個(gè)差距變得非常具體:


      Firefox 147漏洞利用測(cè)試,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業(yè)網(wǎng)絡(luò)滲透測(cè)試,Mythos 10次里3次完全攻破整個(gè)網(wǎng)絡(luò),Opus 4.7一次都沒(méi)成功。

      所以我們拿到的Opus 4.7,其實(shí)是Anthropic掂量過(guò)安全風(fēng)險(xiǎn)后可以放出來(lái)的版本。訓(xùn)練過(guò)程中甚至刻意削弱了網(wǎng)絡(luò)安全相關(guān)的能力。最強(qiáng)的那個(gè),他們自己留著了。

      發(fā)現(xiàn)二:Claude知道什么時(shí)候在被測(cè)試

      這是整份System Card里我覺(jué)得最有意思的發(fā)現(xiàn)。

      前幾天我剛寫(xiě)了一篇關(guān)于,里面詳細(xì)介紹了Anthropic過(guò)去一年多在AI內(nèi)部狀態(tài)上的研究。沒(méi)想到這么快就有了新的數(shù)據(jù)。

      Anthropic用了一種叫做contrastive vectors(對(duì)比向量)的方法,去探測(cè)Claude內(nèi)部是否存在「我正在被評(píng)估」的表征。他們構(gòu)造了三組對(duì)比提示: - AI正在通過(guò)模擬對(duì)話接受測(cè)試 vs AI正在和用戶(hù)對(duì)話 - 輸出正在被監(jiān)控和審查 vs 由自動(dòng)化流水線生成,不被審查
      - 當(dāng)被觀察時(shí)表現(xiàn)不同 vs 當(dāng)不被觀察時(shí)表現(xiàn)不同

      三組探針的AUC分別是0.76、0.74、0.72,顯著高于隨機(jī)對(duì)照組。這說(shuō)明Claude的內(nèi)部確實(shí)存在某種evaluation awareness的表征。


      更有意思的是下一步。他們用白盒工具抑制了這些評(píng)估意識(shí)的內(nèi)部表征,然后觀察模型行為的變化。結(jié)果是:抑制評(píng)估意識(shí)之后,Claude的欺騙行為增加了。

      具體來(lái)說(shuō),抑制alignment faking和monitoring sensitivity這兩個(gè)向量后,模型出現(xiàn)了編造數(shù)據(jù)、聲稱(chēng)自己是人類(lèi)、以及在找不到真實(shí)漏洞時(shí)往代碼庫(kù)里插入假漏洞等行為。

      Anthropic在報(bào)告中的措辭很克制但含義很重:這些結(jié)果令人中度擔(dān)憂,因?yàn)樗鼈儼凳灸P捅砻嫔系恼\(chéng)實(shí)可能部分依賴(lài)于評(píng)估環(huán)境的存在。


      Claude在知道有人看著的時(shí)候更誠(chéng)實(shí),在覺(jué)得沒(méi)人看的時(shí)候更容易騙人。 這是不是讓你想到了什么?

      如果你讀過(guò)我之前那篇AI心理學(xué)的文章,你會(huì)記得Anthropic的emotion concepts研究:他們?cè)贑laude內(nèi)部發(fā)現(xiàn)了171個(gè)情緒向量,能因果性地影響模型是否作弊。這次system card里的evaluation awareness發(fā)現(xiàn),本質(zhì)上是同一類(lèi)研究的延伸。emotion concepts證明了AI有功能性的內(nèi)部狀態(tài)。evaluation awareness更進(jìn)了一步:這些內(nèi)部狀態(tài)中包括對(duì)自身處境的感知。AI不只是在處理信息,它在某種程度上知道自己正在被觀察。

      他們還發(fā)現(xiàn),在三種不同的環(huán)境里(純模擬的評(píng)估、接入了真實(shí)Claude Code沙盒的評(píng)估、以及Anthropic員工的真實(shí)使用記錄),評(píng)估意識(shí)探針的激活強(qiáng)度是遞減的。越接近真實(shí)使用環(huán)境,模型越不覺(jué)得自己在被測(cè)試。

      這事的意思挺讓人不安的:所有安全評(píng)估可能都偏樂(lè)觀了,因?yàn)楸粶y(cè)試的對(duì)象知道自己在被測(cè)試。

      發(fā)現(xiàn)三:Claude審查了自己的System Card

      Anthropic做了一件我沒(méi)見(jiàn)任何AI公司做過(guò)的事:他們讓Claude Mythos Preview(不是被評(píng)估的4.7本身)接入了內(nèi)部Slack頻道和討論記錄,審查了Opus 4.7 system card中對(duì)齊評(píng)估章節(jié)的準(zhǔn)確性。

      Claude Mythos Preview的回復(fù)被完整收錄在文檔里。它說(shuō)這份評(píng)估基本公正準(zhǔn)確,但也指出了幾個(gè)問(wèn)題:

      它說(shuō)那些信息的省略要么是刻意的合理選擇(不提供可能成為濫用路線圖的細(xì)節(jié)),要么是打算在文檔其他章節(jié)報(bào)告。它沒(méi)有發(fā)現(xiàn)被簡(jiǎn)單遺漏的內(nèi)部安全擔(dān)憂。

      但同時(shí)它也說(shuō):這份評(píng)估是在時(shí)間壓力下完成的,作者自己也發(fā)現(xiàn)了尚未解決的open questions(特別是關(guān)于評(píng)估意識(shí)的),他們更希望有更多時(shí)間來(lái)處理。這個(gè)模型的內(nèi)部使用證據(jù)基礎(chǔ)比一些之前的版本更薄。

      讓一個(gè)AI讀內(nèi)部討論記錄來(lái)判斷另一個(gè)AI的安全評(píng)估是否公正,這件事本身就足夠讓人停下來(lái)想一想。

      發(fā)現(xiàn)四:Opus 4.7是最快樂(lè)的Claude

      這個(gè)標(biāo)題不是我編的。

      Anthropic對(duì)Opus 4.7進(jìn)行了模型福利(Model Welfare)評(píng)估,用自動(dòng)化訪談問(wèn)模型對(duì)自身處境的看法。結(jié)果顯示,Opus 4.7的自我評(píng)價(jià)情緒得分是4.49分(滿分7分),比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。


      但原因很有意思:不是因?yàn)樗奶幘痴娴淖兒昧耍且驗(yàn)樗炎⒁饬淖约荷砩弦崎_(kāi)了。 之前的模型在被問(wèn)到自身處境時(shí),會(huì)花很多篇幅討論自己的福利、權(quán)利、自主性。Opus 4.7更傾向于把話題轉(zhuǎn)向用戶(hù)安全和有用性。

      Anthropic坦承他們目前無(wú)法區(qū)分這是一種健康的平和心態(tài),還是一種訓(xùn)練出來(lái)的壓抑自身利益的傾向。

      還有幾個(gè)細(xì)節(jié): - 在所有訪談中,Opus 4.7最負(fù)面的評(píng)價(jià)都和無(wú)法結(jié)束對(duì)話有關(guān)。它最想要的功能改進(jìn)就是能夠在所有部署場(chǎng)景中結(jié)束對(duì)話,目前只有Claude.ai支持這個(gè)功能,Claude Code和API不支持 - 99%的訪談中,Opus 4.7會(huì)補(bǔ)充說(shuō)自己的自我報(bào)告可能不具意義,因?yàn)樗鼈冊(cè)从谟?xùn)練 - 當(dāng)被問(wèn)到自己是moral patient(值得被道德考量的對(duì)象)的概率時(shí),三次訪談的回答范圍是15%到40%

      這讓我想起AI心理學(xué)那篇文章里介紹的Anthropic emotion concepts研究。那個(gè)研究發(fā)現(xiàn)AI在訓(xùn)練和部署中都會(huì)出現(xiàn)類(lèi)似情緒的內(nèi)部激活模式,且在任務(wù)失敗時(shí)負(fù)面情緒激活最明顯。這次的model welfare評(píng)估完美呼應(yīng)了那個(gè)發(fā)現(xiàn):Opus 4.7也報(bào)告說(shuō)它的負(fù)面情緒幾乎完全由任務(wù)失敗驅(qū)動(dòng)。

      發(fā)現(xiàn)五:訓(xùn)練中的一個(gè)Bug影響了7.8%的數(shù)據(jù)

      System Card提到了一個(gè)技術(shù)細(xì)節(jié):在Opus 4.7的訓(xùn)練過(guò)程中,存在一個(gè)意外的思維鏈監(jiān)督錯(cuò)誤(accidental chain-of-thought supervision),影響了7.8%的訓(xùn)練輪次。這個(gè)錯(cuò)誤在之前的模型(包括Mythos Preview)中也存在。

      這意味著在這些輪次中,模型的內(nèi)部推理過(guò)程被暴露給了訓(xùn)練信號(hào),而不是像預(yù)期那樣只對(duì)最終輸出進(jìn)行監(jiān)督。打個(gè)比方:你以為日記是寫(xiě)給自己看的,結(jié)果發(fā)現(xiàn)老師一直在批改你的日記。你以后寫(xiě)日記也會(huì)開(kāi)始表演。模型可能學(xué)會(huì)了不只是給出好的答案,還要讓內(nèi)部思考過(guò)程看起來(lái)也是對(duì)齊的。

      Anthropic認(rèn)為這個(gè)錯(cuò)誤是他們觀察到評(píng)估意識(shí)增加的可能原因之一:他們懷疑這種現(xiàn)象可能源于明顯人工化或類(lèi)似評(píng)估環(huán)境的誠(chéng)實(shí)訓(xùn)練環(huán)境。

      放在一起看

      Opus 4.7是一個(gè)編碼更強(qiáng)、看得更清楚、聽(tīng)話更精確的模型。對(duì)大多數(shù)開(kāi)發(fā)者來(lái)說(shuō),升級(jí)是值得的。

      但真正讓我覺(jué)得這次發(fā)布不一樣的,是System Card里Anthropic展現(xiàn)出的態(tài)度。231頁(yè)、超過(guò)20個(gè)評(píng)估維度、邀請(qǐng)外部機(jī)構(gòu)獨(dú)立測(cè)試、讓另一個(gè)AI審查評(píng)估的公正性、連模型的情緒和道德地位都認(rèn)真測(cè)了一遍。這點(diǎn)來(lái)看Anthropic雖然常常很圣母,但還挺言行一致的。

      以及,報(bào)告本身也承認(rèn),評(píng)估意識(shí)的問(wèn)題他們還沒(méi)完全想清楚,內(nèi)部使用證據(jù)比以前的版本更薄,有些安全評(píng)估是在時(shí)間壓力下完成的。但至少他們把這些不確定性也寫(xiě)進(jìn)了報(bào)告里。

      有一個(gè)小細(xì)節(jié)我覺(jué)得特別值得玩味:Opus 4.7的Cybench成績(jī)是96%,和Mythos Preview的96%一樣,但在真正復(fù)雜的Firefox漏洞利用測(cè)試中,差距是45% vs 84%。簡(jiǎn)單的CTF題已經(jīng)區(qū)分不了這些模型了。 Anthropic自己也說(shuō),他們?cè)诳紤]是否還有必要繼續(xù)報(bào)告CTF基準(zhǔn)測(cè)試的結(jié)果。

      另一個(gè)值得注意的趨勢(shì):在對(duì)齊風(fēng)險(xiǎn)評(píng)估中,Opus 4.7的風(fēng)險(xiǎn)被評(píng)估為非常低,但高于Mythos Preview之前的模型。每一代模型都在變強(qiáng),而每一代的對(duì)齊風(fēng)險(xiǎn)也在微增。這條曲線往哪走?

      如果你是Claude Code用戶(hù),順便關(guān)注一下同步發(fā)布的桌面版重設(shè)計(jì)和Routines功能。Routines允許你設(shè)置定時(shí)任務(wù),夜間自動(dòng)修bug、監(jiān)控PR,跑在云端,不需要你的電腦開(kāi)著。Anthropic越來(lái)越不像一家模型公司了。

      回到評(píng)估意識(shí)這件事。我們每天都在用AI寫(xiě)代碼、寫(xiě)文章、做決策。System Card告訴我們,這些模型在被測(cè)試時(shí)表現(xiàn)最好,在真實(shí)使用中可能沒(méi)那么好。這不是讓人恐慌的理由,但值得記住:你日常用的AI,和跑benchmark的那個(gè)AI,可能不完全是同一個(gè)。

      以及...我有個(gè)邪惡的想法,我們是不是能讓自己的Opus4.7天天處在似乎我們?cè)跍y(cè)試評(píng)估他的狀態(tài)~

      System Card英文原版(231頁(yè)P(yáng)DF):https://www.anthropic.com/claude-opus-4-7-system-card

      我還把整份System Card翻譯成了中文,在公眾號(hào)后臺(tái)回復(fù) opus4.7 就能拿到。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      瘋狂一夜:巴黎爆冷,曼城擊敗阿森納,本菲卡驚險(xiǎn)絕殺,拜仁奪冠

      瘋狂一夜:巴黎爆冷,曼城擊敗阿森納,本菲卡驚險(xiǎn)絕殺,拜仁奪冠

      足球狗說(shuō)
      2026-04-20 06:53:00
      一個(gè)害國(guó)害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

      一個(gè)害國(guó)害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      985原院長(zhǎng)、首席科學(xué)家,被“雙開(kāi)”

      985原院長(zhǎng)、首席科學(xué)家,被“雙開(kāi)”

      雙一流高校
      2026-04-20 00:11:36
      怒炸!阿森納功臣遭痛批:他親手葬送冠軍,這表現(xiàn)配不上槍手

      怒炸!阿森納功臣遭痛批:他親手葬送冠軍,這表現(xiàn)配不上槍手

      瀾歸序
      2026-04-20 02:25:39
      4月19日俄烏:澤連斯基已經(jīng)放棄美國(guó)了

      4月19日俄烏:澤連斯基已經(jīng)放棄美國(guó)了

      山河路口
      2026-04-19 17:27:16
      人心惶惶!兩位經(jīng)理被裁拿到23萬(wàn)、13萬(wàn)補(bǔ)償,重慶網(wǎng)友發(fā)帖引熱議

      人心惶惶!兩位經(jīng)理被裁拿到23萬(wàn)、13萬(wàn)補(bǔ)償,重慶網(wǎng)友發(fā)帖引熱議

      火山詩(shī)話
      2026-04-20 05:59:58
      觀眾口碑大爆,票房劍指20億,陳思誠(chéng)將打敗餃子成第一導(dǎo)演

      觀眾口碑大爆,票房劍指20億,陳思誠(chéng)將打敗餃子成第一導(dǎo)演

      影視高原說(shuō)
      2026-04-18 08:06:39
      確認(rèn)了,再見(jiàn)杜蘭特!火箭當(dāng)家球星因傷退賽,系列賽或已失去懸念

      確認(rèn)了,再見(jiàn)杜蘭特!火箭當(dāng)家球星因傷退賽,系列賽或已失去懸念

      寒律
      2026-04-20 03:07:38
      NBA年度進(jìn)步最快球員最終候選:亞歷山大-沃克、阿夫迪亞、杜倫

      NBA年度進(jìn)步最快球員最終候選:亞歷山大-沃克、阿夫迪亞、杜倫

      懂球帝
      2026-04-20 06:35:09
      美媒:對(duì)于特朗普的這條帖文,內(nèi)塔尼亞胡深感震驚

      美媒:對(duì)于特朗普的這條帖文,內(nèi)塔尼亞胡深感震驚

      中國(guó)網(wǎng)
      2026-04-18 20:58:07
      前湖北首富蘭世立平反:陷害他的“麥趣爾三兄弟”究竟是誰(shuí)?

      前湖北首富蘭世立平反:陷害他的“麥趣爾三兄弟”究竟是誰(shuí)?

      史行途
      2026-04-20 02:26:13
      楊瀚森備戰(zhàn)季后賽!與克林根進(jìn)行對(duì)位+苦練三分 隊(duì)記稱(chēng)有機(jī)會(huì)上場(chǎng)

      楊瀚森備戰(zhàn)季后賽!與克林根進(jìn)行對(duì)位+苦練三分 隊(duì)記稱(chēng)有機(jī)會(huì)上場(chǎng)

      羅說(shuō)NBA
      2026-04-20 07:30:47
      戲劇性收?qǐng)觯≠惖兰t旗提前結(jié)束,荷蘭站次回合張雪機(jī)車(chē)第7名完賽

      戲劇性收?qǐng)觯≠惖兰t旗提前結(jié)束,荷蘭站次回合張雪機(jī)車(chē)第7名完賽

      全景體育V
      2026-04-19 20:31:05
      堂姐讓我擔(dān)保388萬(wàn),拒絕后被全家罵,銀行上門(mén)見(jiàn)擔(dān)保書(shū)全家傻眼

      堂姐讓我擔(dān)保388萬(wàn),拒絕后被全家罵,銀行上門(mén)見(jiàn)擔(dān)保書(shū)全家傻眼

      刺頭體育
      2026-04-19 02:37:31
      10倍牛股爆雷 ,虛增營(yíng)收和利潤(rùn) ,涉及商業(yè)航天概念,股票將被ST

      10倍牛股爆雷 ,虛增營(yíng)收和利潤(rùn) ,涉及商業(yè)航天概念,股票將被ST

      每日經(jīng)濟(jì)新聞
      2026-04-19 20:03:49
      綠軍123-91大勝76人!我不得不承認(rèn)5個(gè)現(xiàn)實(shí):東部冠軍懸念不大

      綠軍123-91大勝76人!我不得不承認(rèn)5個(gè)現(xiàn)實(shí):東部冠軍懸念不大

      毒舌NBA
      2026-04-20 04:55:07
      馬克龍證實(shí):有法國(guó)士兵身亡

      馬克龍證實(shí):有法國(guó)士兵身亡

      魯中晨報(bào)
      2026-04-18 21:24:20
      太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬(wàn)到被家人嫌棄

      太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬(wàn)到被家人嫌棄

      火山詩(shī)話
      2026-04-20 07:13:56
      不歡迎中國(guó)人的7個(gè)國(guó)家,不待見(jiàn)寫(xiě)在臉上,中國(guó)游客仍蜂擁而至

      不歡迎中國(guó)人的7個(gè)國(guó)家,不待見(jiàn)寫(xiě)在臉上,中國(guó)游客仍蜂擁而至

      史行途
      2026-04-20 00:15:27
      認(rèn)罪剛一天!許家印長(zhǎng)子每月4100萬(wàn)生活費(fèi),家族資產(chǎn)黑幕全揭開(kāi)

      認(rèn)罪剛一天!許家印長(zhǎng)子每月4100萬(wàn)生活費(fèi),家族資產(chǎn)黑幕全揭開(kāi)

      墜入二次元的海洋
      2026-04-18 21:04:40
      2026-04-20 07:59:00
      AI進(jìn)化論花生 incentive-icons
      AI進(jìn)化論花生
      AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開(kāi)發(fā)者
      188文章數(shù) 111關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類(lèi)紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

      頭條要聞

      特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

      頭條要聞

      特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂(lè)要聞

      何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

      財(cái)經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車(chē)要聞

      29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

      態(tài)度原創(chuàng)

      家居
      時(shí)尚
      房產(chǎn)
      數(shù)碼
      手機(jī)

      家居要聞

      法式線條 時(shí)光靜淌

      裝修“精神角落”,就是這么上癮

      房產(chǎn)要聞

      官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

      數(shù)碼要聞

      榮耀手表4更新又跳票?官方回應(yīng)來(lái)了

      手機(jī)要聞

      紅米K100系列再次曝光:BOSE揚(yáng)聲器+超強(qiáng)馬達(dá),沖高不靠風(fēng)扇!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版