![]()
Anthropic上周發(fā)布的Opus 4.7在推出時(shí)附帶了更嚴(yán)格的安全防護(hù)機(jī)制,旨在防止濫用行為。然而,這些防護(hù)措施也意外阻斷了大量合規(guī)的正常使用場(chǎng)景。
Opus 4.7的發(fā)布緊隨Anthropic宣布Mythos模型之后——該模型據(jù)稱在漏洞發(fā)現(xiàn)與利用方面能力過(guò)強(qiáng),因此不向公眾開(kāi)放。盡管外界普遍認(rèn)為這一風(fēng)險(xiǎn)評(píng)估帶有自利性質(zhì),但Anthropic仍決定以O(shè)pus 4.7作為測(cè)試平臺(tái),部署高度警覺(jué)的安全護(hù)欄。
Anthropic表示:"我們?cè)诎l(fā)布Opus 4.7時(shí)配套了能夠自動(dòng)檢測(cè)并攔截涉及禁止或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途請(qǐng)求的安全防護(hù)機(jī)制。通過(guò)對(duì)這些防護(hù)措施的實(shí)際部署,我們將積累經(jīng)驗(yàn),逐步推進(jìn)Mythos級(jí)別模型的廣泛發(fā)布。"
然而,Anthropic只需仔細(xì)查閱其Claude Code的GitHub倉(cāng)庫(kù),便能從中獲得大量有價(jià)值的反饋。針對(duì)可接受使用政策(AUP)分類器的投訴急劇增加,用戶普遍反映正常工作受到了干擾。
安全防護(hù)越嚴(yán)格,誤報(bào)就越多——Claude變得過(guò)于謹(jǐn)慎,頻繁拒絕回應(yīng)無(wú)害請(qǐng)求。一張由Claude整理生成的AUP拒絕投訴趨勢(shì)圖清晰呈現(xiàn)了這一問(wèn)題。
Claude Code用戶數(shù)月來(lái)持續(xù)在GitHub上反映被錯(cuò)誤拒絕的問(wèn)題,但此前投訴數(shù)量相對(duì)平穩(wěn)。
2025年7月至9月,此類投訴每月約為兩至三條。其中一個(gè)典型案例是編號(hào)4373的議題:"來(lái)自claude.ai的內(nèi)存授權(quán)碼觸發(fā)API政策錯(cuò)誤。"
2025年10月至11月,AUP相關(guān)拒絕的投訴量上升至每月五至七條,例如編號(hào)8784的議題:"Claude 4.5在處理正常請(qǐng)求時(shí)隨機(jī)拋出API錯(cuò)誤:Claude Code無(wú)法響應(yīng)該請(qǐng)求。"
12月相關(guān)投訴較少,這或許與美國(guó)節(jié)假日期間活躍度下降有關(guān)。
1月投訴數(shù)量回升至約八條。提交編號(hào)16129議題"Claude Code中反復(fù)出現(xiàn)AUP誤判違規(guī)"的開(kāi)發(fā)者指出:"技術(shù)性軟件開(kāi)發(fā)對(duì)話不應(yīng)觸發(fā)AUP違規(guī)。安全過(guò)濾器對(duì)良性內(nèi)容的識(shí)別明顯過(guò)于激進(jìn)。"2月和3月的情況與此相近。
進(jìn)入4月后,情況徹底失控。
僅在4月,開(kāi)發(fā)者已提交超過(guò)30份疑似誤報(bào),涉及安全、通用開(kāi)發(fā)及科學(xué)類請(qǐng)求被拒等多個(gè)方面。
具體案例包括:
編號(hào)48442:《持續(xù)性AUP誤報(bào)——4個(gè)會(huì)話中出現(xiàn)40余次誤報(bào),涉及多個(gè)不相關(guān)項(xiàng)目(心理學(xué)書(shū)籍、網(wǎng)頁(yè)應(yīng)用、基礎(chǔ)設(shè)施、機(jī)器人)》,記錄了Claude拒絕處理多條俄語(yǔ)提示詞的問(wèn)題。
編號(hào)49751:《Opus 4.7將標(biāo)準(zhǔn)計(jì)算結(jié)構(gòu)生物學(xué)標(biāo)記為使用政策違規(guī),相較4.6版本出現(xiàn)功能退步》,描述了計(jì)算結(jié)構(gòu)生物學(xué)任務(wù)被誤判標(biāo)記的情況。
編號(hào)50916:《使用政策問(wèn)題》,由路易斯安那州立大學(xué)網(wǎng)絡(luò)中心及應(yīng)用網(wǎng)絡(luò)安全實(shí)驗(yàn)室主任Golden G. Richard III提交。他寫(xiě)道:"我花費(fèi)每月200美元以上,基本的編輯輔助請(qǐng)求卻遭到拒絕,這實(shí)在難以接受。這是一個(gè)與我的教材《網(wǎng)絡(luò)安全實(shí)戰(zhàn)》配套的實(shí)驗(yàn)室,我完全了解AI模型被濫用于網(wǎng)絡(luò)攻擊的潛在風(fēng)險(xiǎn),但模型拒絕為包含簡(jiǎn)單加密練習(xí)的實(shí)驗(yàn)室內(nèi)容校對(duì),實(shí)屬荒謬。如果模型被限制到連網(wǎng)絡(luò)安全教育者和研究人員都無(wú)法正常使用的程度,這究竟對(duì)安全領(lǐng)域有何正面意義?"
編號(hào)48723:《Claude Code在讀取原始數(shù)據(jù)文件時(shí)持續(xù)報(bào)AUP違規(guī)錯(cuò)誤(附示例)》,描述了Claude在被要求讀取一份孩之寶Shrek玩具廣告PDF時(shí)拋出AUP錯(cuò)誤的情況。提交該議題的開(kāi)發(fā)者隨后發(fā)現(xiàn),文件中某段特定的PDF內(nèi)容流語(yǔ)法觸發(fā)了Claude的拒絕響應(yīng),其實(shí)際內(nèi)容翻譯為"CHARACTER OR FOR DONKEY UNDERNEATH(驢子下方的角色)"。
此外還有編號(hào)49679:《已獲網(wǎng)絡(luò)安全用例豁免授權(quán),在Claude Chat中可正常使用,但在Claude Code API中仍持續(xù)收到安全系統(tǒng)的誤報(bào)。已批準(zhǔn)的網(wǎng)絡(luò)安全用例豁免未能完整傳遞至使用Opus的Claude Code API》,描述了Anthropic專為安全研究人員設(shè)立的繞過(guò)安全護(hù)欄豁免機(jī)制,在API層面無(wú)法正常生效的問(wèn)題。
其他近期疑似誤判拒絕的案例還有:50795、51352、51794、52086、50494、49904、46147和51248等多個(gè)編號(hào)。
投訴數(shù)量的部分增長(zhǎng)或許可歸因于用戶群體的擴(kuò)大——用戶越多,反饋問(wèn)題的人自然也越多。但顯然,大量Claude用戶確實(shí)遭受了過(guò)激的AUP分類器的不當(dāng)攔截。
從已泄露的Claude Code源代碼來(lái)看,其情感分析采用了正則表達(dá)式匹配這一簡(jiǎn)化方式,AUP分類器很可能也沿用了類似的捷徑——僅逐字檢測(cè)是否含有敏感詞匯,而不考慮上下文語(yǔ)境。
Anthropic對(duì)此未予置評(píng)。
Q&A
Q1:Claude Opus 4.7的AUP分類器為什么會(huì)產(chǎn)生大量誤報(bào)?
A:Claude Opus 4.7在發(fā)布時(shí)配套了更嚴(yán)格的安全護(hù)欄,旨在自動(dòng)檢測(cè)并攔截涉及禁止或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途的請(qǐng)求。然而,從已泄露的Claude Code源代碼來(lái)看,其分類器可能采用了正則表達(dá)式匹配等簡(jiǎn)化方式,僅檢測(cè)敏感詞匯而不考慮上下文語(yǔ)境,導(dǎo)致大量無(wú)害的合規(guī)請(qǐng)求也被錯(cuò)誤攔截。
Q2:Anthropic為網(wǎng)絡(luò)安全研究人員設(shè)立的AUP豁免機(jī)制是否有效?
A:根據(jù)開(kāi)發(fā)者反饋,這一豁免機(jī)制存在明顯缺陷。編號(hào)49679的GitHub議題顯示,已獲批準(zhǔn)的網(wǎng)絡(luò)安全用例豁免授權(quán)在Claude Chat中可正常生效,但在通過(guò)API使用Claude Code(Opus版本)時(shí),豁免權(quán)限未能完整傳遞,安全系統(tǒng)仍會(huì)持續(xù)產(chǎn)生誤報(bào)攔截。
Q3:Claude Opus 4.7的AUP誤報(bào)問(wèn)題從什么時(shí)候開(kāi)始明顯加劇?
A:根據(jù)GitHub上的投訴趨勢(shì),2025年7月至9月每月約有兩至三條相關(guān)投訴,10月至11月上升至五至七條,1月至3月維持在約八條左右。進(jìn)入4月后,投訴數(shù)量急劇攀升,僅一個(gè)月內(nèi)開(kāi)發(fā)者便提交了超過(guò)30份疑似誤報(bào)報(bào)告,涉及安全、通用開(kāi)發(fā)及科學(xué)類請(qǐng)求等多個(gè)領(lǐng)域。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.