Anthropic承認：試圖讓Claude更聰明時反而讓它變笨了

2026-04-25 00:16:17　來源: 至頂頭條

北京舉報

分享至

過去一個月里，抱怨Claude輸出質(zhì)量下降的用戶并沒有錯覺。

Anthropic于近日發(fā)布了一份內(nèi)部調(diào)查報告，確認在今年3月至4月期間，三項獨立的調(diào)整導(dǎo)致Claude Code、Claude智能體SDK以及Claude Cowork的用戶體驗明顯下降。Anthropic表示，Claude的API接口未受此次問題影響。

在此期間，大量用戶強烈抱怨Claude的輸出質(zhì)量，而服務(wù)可用性方面的問題更是雪上加霜。對此，Anthropic強調(diào)，模型能力的退步并非有意為之，而是多項調(diào)整意外出錯，由此造成了AI能力逐漸下滑的錯誤印象。

第一個問題發(fā)生在3月4日，Anthropic將Claude Code的默認推理強度從"高"調(diào)整為"中"。推理強度決定了模型在處理特定推理任務(wù)時投入的計算量，此次調(diào)整的初衷是通過減少思考時間來降低響應(yīng)延遲。

"這是一個錯誤的權(quán)衡取舍，"Anthropic坦承。"在用戶反映更傾向于默認使用更高智能、僅在簡單任務(wù)時才選擇低強度模式后，我們于4月7日回滾了該改動。"

可以推測，將Opus 4.6和Sonnet 4.6的默認推理強度調(diào)低，同時也會降低推理負載——模型"思考"得更少，消耗的Token也更少，從而更節(jié)省有限的算力資源。目前最新版本的Claude Code（v2.1.118）已將Sonnet 4.6的默認強度設(shè)置為"超高"。

第二個問題是一個Bug，出現(xiàn)于3月26日的緩存優(yōu)化更新中。該Bug導(dǎo)致每一輪提示詞與響應(yīng)的交互循環(huán)都會清除已緩存的會話數(shù)據(jù)。

Claude會將輸入Token緩存一小時，這可以讓連續(xù)的API調(diào)用更快、更經(jīng)濟。工程師們原本希望對閑置超過一小時的用戶清除輸出Token（即思考記錄），因為緩存在這段時間后便不再被使用。這一改動的本意是通過刪除不再相關(guān)的舊思考記錄來降低恢復(fù)會話的成本，然而工程師反而引入了一個Bug，使得每輪對話都會清除思考記錄，最終導(dǎo)致Claude"變得健忘且重復(fù)啰嗦"。該問題已于4月10日在Sonnet 4.6和Opus 4.6上完成修復(fù)。

第三個問題源于4月16日的一次系統(tǒng)提示詞修訂。Anthropic此次修改旨在減少Claude模型的冗長輸出，新增的段落乍看之下人畜無害：

"長度限制：工具調(diào)用之間的文字內(nèi)容不超過25個詞；最終回復(fù)不超過100個詞，除非任務(wù)需要更多細節(jié)。"

經(jīng)過數(shù)周內(nèi)部測試后，模型質(zhì)量評估認為該改動是安全的。然而，在Opus 4.7發(fā)布時隨之推出這一系統(tǒng)提示詞后，后續(xù)進行的消融測試（即通過移除系統(tǒng)提示詞中的特定指令來衡量其影響）顯示，Opus 4.6和4.7的性能均下降了3%。相關(guān)系統(tǒng)提示詞調(diào)整已于4月20日回滾。

Anthropic承諾，未來將針對Claude Code的公開版本進行更多內(nèi)部測試，同時改進Code Review工具，優(yōu)化系統(tǒng)提示詞變更的評估流程，并在社交平臺X上新開設(shè)一個@ClaudeDevs賬號，"為我們深度解釋產(chǎn)品決策及其背后的邏輯提供空間"。

就在發(fā)布上述調(diào)查報告的前一天，Anthropic增長負責人Amol Avasare剛剛在X上就一項未經(jīng)公告的A/B測試作出解釋，并表示公司將努力做到更直接的溝通，讓用戶不必再通過X和Reddit等社交媒體渠道才能獲知產(chǎn)品問題。

為幫助用戶找回良好的使用體驗，Anthropic已為所有人重置了賬戶的使用額度。

"這不是用戶應(yīng)當從Claude Code中得到的體驗，"Anthropic表示。

Q&A

Q1：Anthropic是故意降低Claude的能力嗎？

A：不是故意的。Anthropic在官方調(diào)查報告中明確表示，Claude性能下降并非有意為之，而是3月至4月間三項獨立的技術(shù)調(diào)整意外出錯所致。包括將推理強度默認值調(diào)低、引入導(dǎo)致會話記錄被重復(fù)清除的緩存Bug，以及一項無意中拉低模型表現(xiàn)約3%的系統(tǒng)提示詞修改。這些問題被發(fā)現(xiàn)后均已陸續(xù)回滾修復(fù)。

Q2：Claude Code性能下降問題現(xiàn)在修復(fù)了嗎？

A：是的，已基本修復(fù)。Anthropic分三個階段完成了回滾：4月7日恢復(fù)了Claude Code的高推理強度默認設(shè)置；4月10日修復(fù)了導(dǎo)致模型健忘且重復(fù)的緩存Bug；4月20日回滾了引發(fā)性能下降的系統(tǒng)提示詞改動。最新版Claude Code（v2.1.118）已將Sonnet 4.6的默認推理強度設(shè)置為"超高"，并重置了所有用戶的賬戶使用額度。

Q3：Anthropic打算如何避免類似問題再次發(fā)生？

A：Anthropic承諾將從多個層面加以改進：在Claude Code公開版本發(fā)布前增加更多內(nèi)部測試環(huán)節(jié)；完善Code Review工具；強化對系統(tǒng)提示詞變更影響的評估機制。此外，公司還將在X平臺開設(shè)專屬的@ClaudeDevs賬號，用于向開發(fā)者深度解釋產(chǎn)品決策邏輯，減少用戶只能從社交媒體上被動獲悉產(chǎn)品問題的情況。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.