4月24日消息,人工智能企業Anthropic發布技術復盤報告承認,產品層的三項近期調整導致了Claude模型性能下降,但明確否認了為節省算力而故意“降智”的說法。目前,相關漏洞及限制已修復。
近期,AI圈內關于Anthropic旗艦模型Claude“暗中縮水”的質疑聲四起。大量開發者與資深用戶在各大技術社區反饋,Claude不僅在處理復雜工程任務時持續推理能力斷崖式下跌、幻覺頻發,在Token的消耗上也變得極為低效。面對外界質疑,Anthropic在官方博客中回應稱:“公司極為重視關于性能退化的反饋,絕不會故意降低模型性能。經排查確認,API及推理層并未受到影響。”
報告指出,底層模型權重(Model weights)并未發生改變,問題源于模型外圍“封裝框架”(Harness)的三項獨立調整:
- 默認推理力度下調:3月4日,為緩解用戶界面(UI)延遲及無響應問題,Anthropic將Claude Code的默認推理力度由“高”調至“中”。該調整直接導致模型處理復雜任務時的邏輯分析能力受限。
- 緩存邏輯漏洞:3月26日部署的緩存優化方案存在代碼缺陷。該方案原計劃在會話閑置一小時后清理歷史“思考過程”,但在實際運行中,清理動作在每次對話輪次后均被觸發。這導致模型丟失上下文“短期記憶”,輸出內容出現重復或遺忘。
- 系統提示詞冗余限制:4月16日,為減少Opus 4.7版本的輸出冗長問題,系統新增指令,將工具調用間的文本及最終回復分別限制在25個和100個單詞以內。該限制適得其反,導致模型在編程質量評估中的得分下降了3%。
上述問題主要影響Claude Code命令行界面(CLI)、Claude智能體軟件開發工具包(Agent SDK)及Claude Cowork,未波及Claude API業務。
Anthropic承認這些調整讓模型顯得“智力下降”,并坦言這不符合用戶的體驗期望。為恢復市場信任并防范類似事件,公司宣布實施多項運營機制改革:
首先,擴大“內部測試”(Dogfooding)范圍,要求更大比例的員工強制使用公眾版Claude Code以統一體驗;其次,在修改系統提示詞前,強制運行更廣泛的單模型評估與消融實驗(Ablations),以精準隔離特定指令的影響;最后,優化提示詞變更的審計流程,確保特定模型的變更實施精準控制。
此外,針對上述Bug導致的Token浪費和性能摩擦,Anthropic已于4月23日重置了所有訂閱用戶的額度,并計劃后續通過X和GitHub上的@ClaudeDevs官方賬號,提供產品決策背后的深層邏輯,以維持與開發者群體更透明的對話。(易句)
(本文由AI翻譯,網易編輯負責校對)
