![]()
過去一個月里,抱怨Claude輸出質(zhì)量下降的用戶并沒有錯覺。
Anthropic于近日發(fā)布了一份內(nèi)部調(diào)查報告,確認在今年3月至4月期間,三項獨立的調(diào)整導(dǎo)致Claude Code、Claude智能體SDK以及Claude Cowork的用戶體驗明顯下降。Anthropic表示,Claude的API接口未受此次問題影響。
在此期間,大量用戶強烈抱怨Claude的輸出質(zhì)量,而服務(wù)可用性方面的問題更是雪上加霜。對此,Anthropic強調(diào),模型能力的退步并非有意為之,而是多項調(diào)整意外出錯,由此造成了AI能力逐漸下滑的錯誤印象。
第一個問題發(fā)生在3月4日,Anthropic將Claude Code的默認推理強度從"高"調(diào)整為"中"。推理強度決定了模型在處理特定推理任務(wù)時投入的計算量,此次調(diào)整的初衷是通過減少思考時間來降低響應(yīng)延遲。
"這是一個錯誤的權(quán)衡取舍,"Anthropic坦承。"在用戶反映更傾向于默認使用更高智能、僅在簡單任務(wù)時才選擇低強度模式后,我們于4月7日回滾了該改動。"
可以推測,將Opus 4.6和Sonnet 4.6的默認推理強度調(diào)低,同時也會降低推理負載——模型"思考"得更少,消耗的Token也更少,從而更節(jié)省有限的算力資源。目前最新版本的Claude Code(v2.1.118)已將Sonnet 4.6的默認強度設(shè)置為"超高"。
第二個問題是一個Bug,出現(xiàn)于3月26日的緩存優(yōu)化更新中。該Bug導(dǎo)致每一輪提示詞與響應(yīng)的交互循環(huán)都會清除已緩存的會話數(shù)據(jù)。
Claude會將輸入Token緩存一小時,這可以讓連續(xù)的API調(diào)用更快、更經(jīng)濟。工程師們原本希望對閑置超過一小時的用戶清除輸出Token(即思考記錄),因為緩存在這段時間后便不再被使用。這一改動的本意是通過刪除不再相關(guān)的舊思考記錄來降低恢復(fù)會話的成本,然而工程師反而引入了一個Bug,使得每輪對話都會清除思考記錄,最終導(dǎo)致Claude"變得健忘且重復(fù)啰嗦"。該問題已于4月10日在Sonnet 4.6和Opus 4.6上完成修復(fù)。
第三個問題源于4月16日的一次系統(tǒng)提示詞修訂。Anthropic此次修改旨在減少Claude模型的冗長輸出,新增的段落乍看之下人畜無害:
"長度限制:工具調(diào)用之間的文字內(nèi)容不超過25個詞;最終回復(fù)不超過100個詞,除非任務(wù)需要更多細節(jié)。"
經(jīng)過數(shù)周內(nèi)部測試后,模型質(zhì)量評估認為該改動是安全的。然而,在Opus 4.7發(fā)布時隨之推出這一系統(tǒng)提示詞后,后續(xù)進行的消融測試(即通過移除系統(tǒng)提示詞中的特定指令來衡量其影響)顯示,Opus 4.6和4.7的性能均下降了3%。相關(guān)系統(tǒng)提示詞調(diào)整已于4月20日回滾。
Anthropic承諾,未來將針對Claude Code的公開版本進行更多內(nèi)部測試,同時改進Code Review工具,優(yōu)化系統(tǒng)提示詞變更的評估流程,并在社交平臺X上新開設(shè)一個@ClaudeDevs賬號,"為我們深度解釋產(chǎn)品決策及其背后的邏輯提供空間"。
就在發(fā)布上述調(diào)查報告的前一天,Anthropic增長負責人Amol Avasare剛剛在X上就一項未經(jīng)公告的A/B測試作出解釋,并表示公司將努力做到更直接的溝通,讓用戶不必再通過X和Reddit等社交媒體渠道才能獲知產(chǎn)品問題。
為幫助用戶找回良好的使用體驗,Anthropic已為所有人重置了賬戶的使用額度。
"這不是用戶應(yīng)當從Claude Code中得到的體驗,"Anthropic表示。
Q&A
Q1:Anthropic是故意降低Claude的能力嗎?
A:不是故意的。Anthropic在官方調(diào)查報告中明確表示,Claude性能下降并非有意為之,而是3月至4月間三項獨立的技術(shù)調(diào)整意外出錯所致。包括將推理強度默認值調(diào)低、引入導(dǎo)致會話記錄被重復(fù)清除的緩存Bug,以及一項無意中拉低模型表現(xiàn)約3%的系統(tǒng)提示詞修改。這些問題被發(fā)現(xiàn)后均已陸續(xù)回滾修復(fù)。
Q2:Claude Code性能下降問題現(xiàn)在修復(fù)了嗎?
A:是的,已基本修復(fù)。Anthropic分三個階段完成了回滾:4月7日恢復(fù)了Claude Code的高推理強度默認設(shè)置;4月10日修復(fù)了導(dǎo)致模型健忘且重復(fù)的緩存Bug;4月20日回滾了引發(fā)性能下降的系統(tǒng)提示詞改動。最新版Claude Code(v2.1.118)已將Sonnet 4.6的默認推理強度設(shè)置為"超高",并重置了所有用戶的賬戶使用額度。
Q3:Anthropic打算如何避免類似問題再次發(fā)生?
A:Anthropic承諾將從多個層面加以改進:在Claude Code公開版本發(fā)布前增加更多內(nèi)部測試環(huán)節(jié);完善Code Review工具;強化對系統(tǒng)提示詞變更影響的評估機制。此外,公司還將在X平臺開設(shè)專屬的@ClaudeDevs賬號,用于向開發(fā)者深度解釋產(chǎn)品決策邏輯,減少用戶只能從社交媒體上被動獲悉產(chǎn)品問題的情況。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.