網易首頁 > 網易號 > 正文申請入駐

Claude變蠢了，新模型發(fā)布前的黑暗時刻？

2026-04-16 12:43:14　來源: 鈦媒體APP

北京舉報

分享至

文 | 字母AI

Claude Opus變蠢了。

最近一段時間，越來越多用戶開始有一種很難講的感覺：雖然這個模型沒有明顯出錯，但也不再像以前那樣“聰明”。

回答更快了，推理更短了，有時候看起來像是跳過了某些本該認真完成的步驟，變得敷衍了。

如果這種情況只是個例，用戶可能還會懷疑是不是自己的問題，但當相似的聲音越來越多，這就不再是單純的“感覺不對”了。

網上甚至開始出現(xiàn)一些視頻，調侃現(xiàn)在的Opus就像兇猛的獅子被摘了毛圈，發(fā)現(xiàn)原來只是一條狗。

一個更直接的說法開始流傳：Opus被削了！

這是真的嗎？如果是真的，它為什么會被削呢？

推理深度下降67%

一開始只是零星的用戶在吐槽，說 Claude Opus“變懶了”“沒以前聰明了”。

可能只是偶爾犯了一些過去不會犯的低級錯誤，或者在復雜任務里少做了幾步推理。

某種意義上，和模型的協(xié)同很像是和真人的交往，一直以來配合得很好的“同事”某天忽然變臉了，擱誰誰都得難受。

碰到這種情況，大多數(shù)人的第一反應都是懷疑自己：是不是prompt寫得不夠好？還是任務本來就不適合？這種情況應該只是偶然事件吧？

但很快，在Reddit的Claude社區(qū)里，類似的反饋開始密集出現(xiàn)，而且描述高度一致：

有人說它不再仔細讀代碼；有人說它更快給答案，但經常漏掉關鍵步驟；也有人發(fā)現(xiàn)，它在長任務中更容易“提前結束”，像是默認事情已經完成。

當不同用戶在不同場景下開始重復同一類問題時，這件事似乎不再是所謂的“感覺不對”，更像是一種行為模式的變化。

換句話說，不是感覺錯了，是模型真的在變。

真正讓討論升級的是這個數(shù)字：有人在Claude Code的使用過程中，對歷史交互日志進行對比，發(fā)現(xiàn)模型在復雜任務中的推理過程明顯縮短，自2月更新以來，推理深度下降了67%。

（參考鏈接：https://github.com/anthropics/claude-code/issues/42796）

作者坦率地說明，67%是基于簽名長度與思考內容長度的相關估計，而不是直接測量。還提到一月份的日志被刪除了，所以基線對比不太準確。

相比之下，報告里更有說服力的，其實是那些行為層面的變化。比如read:edit（讀取代碼vs修改代碼）的比例，從6.6下降到了2.0；3月8日之后，被stop hook捕捉到的違規(guī)行為有173次，而之前是0。

不過數(shù)字是否精確并沒有那么重要，重要的是它讓一件原本模糊的體感問題，第一次被量化成一個可以討論的趨勢。

于是，一個新詞在社區(qū)里開始流行：“AI shrinkflation”（AI縮水式通脹）。

縮水式通脹是一個經濟學術語，指的是商品的大小或數(shù)量減少，而價格不變。放在這里的意思也很直接，模型實際給到用戶的能力變少了，但模型看起來還是同一個名字。

敷衍的背后

相比社區(qū)的激烈反應，Anthropic并沒有直接承認“模型變弱”。

Claude Code的開發(fā)負責人Boris給出的解釋是，這些變化來自系統(tǒng)層的調整：包括工具調用方式、推理策略以及資源分配機制的變化，而不一定是模型本身能力的下降。

他舉了個例子：在Claude Code中，一部分問題被認為源于工具鏈和系統(tǒng)prompt，而不是模型本身；與此同時，在高負載情況下，系統(tǒng)需要對算力、token和請求進行控制，這也會影響用戶體驗。

在最新版本中，Anthropic引入了一種叫“自適應推理”（adaptive thinking）的機制，模型會根據(jù)任務復雜度，動態(tài)決定是否以及使用多少推理。

也就是說，并不是模型變差了，只是模型開始“自己決定”要使用多少算力。

（參考鏈接：https://news.ycombinator.com/item?id=47660925）

從工程角度看，這是一種很合理的優(yōu)化，簡單任務少思考，復雜任務多思考，以提升整體效率

但問題在于，效率優(yōu)化和能力削弱，在用戶體驗上并沒有區(qū)別。

當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務，用戶感受到的不會是優(yōu)化，而是敷衍。

而且這個自適應推理機制，從感性的角度來講，也確實會讓人不太舒服。

還是拿人際交往的那個比喻：憑什么一開始好好的，用到后面就覺得我的事情不重要了？

這種不適感很快被另一個變化放大了：Mythos還未發(fā)布就廣受關注，Claude Mythos Preview直接被Anthropic稱為“能力躍遷的一代”，在代碼與安全任務上表現(xiàn)出遠超以往的能力。因此它被限制性地提供給少數(shù)機構使用，用來加固“全球最關鍵的軟件系統(tǒng)”。

當“更強的新模型”與“體感變差的舊模型”同時出現(xiàn)，一個在社區(qū)中不斷被提起的猜測開始成型：把舊模型削了再抬新模型，一捧一踩，就會顯得新模型有著巨大的升級。

這個邏輯沒有直接證據(jù)，但它正在被越來越多用戶相信。

模型不再穩(wěn)定

實際上，類似的事情對AI來說并不陌生。

早在2023年就有研究對比了GPT-4在不同時間的表現(xiàn)，發(fā)現(xiàn)同一個模型在幾個月內，推理方式和輸出行為都發(fā)生了明顯變化。這些變化后來被解釋為多種因素疊加的結果：包括推理策略調整、安全策略收緊，以及對成本和響應速度的優(yōu)化。

把陰謀論拋在一邊，如果確實存在一定程度的資源傾斜，在AI行業(yè)其實算是常態(tài)：無論是OpenAI還是Google，幾乎所有公司都會優(yōu)先優(yōu)化最新一代模型，舊模型則逐漸被邊緣化。

算力是成本，也是生產力。當新模型的能力上限更高、潛在價值更大時，把更多資源投入進去，本身是一種理性的選擇。

在這個過程中，舊模型的狀態(tài)自然會發(fā)生變化：被“降權”、推理深度被壓縮、資源分配被重新調整……這些都可以理解為一種工程上的取舍。

不過理解歸理解，新模型不開放給大眾使用，舊模型又在毫無征兆的情況下弄成這樣，誰能輕易接受？

從用戶的視角來看，最讓人不滿的并不是模型的“變蠢”，而是它的“不穩(wěn)定”。

當模型本身從一個穩(wěn)定的工具變成一個會不斷變化的系統(tǒng)，它自己做出了“更好的調整”，沒有提示，沒有版本說明，也沒有邊界。

作為用戶，你不知道它什么時候變了，不知道它具體變了什么，更不知道這種變化會不會影響你正在做的事情。

你只能感受到它變了，變得沒以前好用了。

這個時候，有一個新模型放在你的面前，看起來比現(xiàn)在這個更穩(wěn)定、更可靠，或許用起來會更順手。

于是選擇就變得微妙起來：似乎不再是你主動選擇新模型，而是舊模型的變化把你推向更新的那一個。

即使你知道，新模型也可能在某一天變成下一個舊模型，可能還是會猝不及防地“優(yōu)化”成讓人難受的版本。

但在那一刻，差距已經擺在眼前。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.