<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      跑分第一,推理暴跌!Claude Opus 4.7上線48小時口碑崩了

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】Opus 4.7發布48小時,口碑兩極撕裂。官方榜單并列全球第一,邏輯推理公開測試卻從94.7%暴跌到41.0%。token消耗漲了35%,舊接口直接報錯,用戶集體控訴「更貴、更蠢、更愛頂嘴」。Anthropic到底升級了什么,又搞砸了什么?

      「4.6根本沒法用,4.7的消耗速度像核反應堆一樣。」

      Opus 4.7發布后,一位Reddit用戶在Anthropic官方帖子下的留言。

      不是玩梗,是真心話。


      一篇「Claude Opus 4.7是嚴重倒退,不是升級」的Reddit帖子迅速沖上3000贊。

      還有人曬出截圖,說4.7連strawberry里有幾個字母都答不對。


      更別說「擅改簡歷編造學歷和姓氏」,回復用戶「我懶得做交叉驗證」,以及「三問就撞限額」這些網友熱門槽點了。

      《Pragmatic Engineer》作者Gergely Orosz試用之后,形容這個模型「出人意料地帶攻擊性」,然后宣布放棄,換回了4.6。


      這邊罵聲還沒散,那邊一組數據卻指向了相反的方向。

      Artificial Analysis給Opus 4.7的Intelligence Index打了57分,和GPT-5.4、Gemini 3.1 Pro并列全球第一。

      創業者Jeremy Howard形容它是「第一個真正懂我在工作時到底在做什么的模型」,Y Combinator CEO Garry Tan正在拿它做項目。

      還有網友說,Claude Opus 4.7 已實現通用人工智能(AGI)。


      同一個模型,有人看到了AGI的影子,有人覺得自己的工作流炸了。

      上線兩天,Opus 4.7就把AI社區撕裂了。

      用戶為什么炸了?

      拆開看,用戶的怒火集中在三個點上,每一條都戳中了重度用戶的命門。

      第一,代碼能力斷崖式下滑。大量開發者反饋,從4.6升級到4.7之后,之前能穩定完成的編程任務開始頻繁出錯。

      而且都是日常工作流里的核心操作:代碼補全變遲鈍,上下文理解出現退化,復雜邏輯鏈的推理明顯變弱。

      代碼能力是Opus系列的王牌,現在王牌出了問題,反彈自然最猛。

      一位Reddit用戶說,他用一個已知答案的長重構任務做回歸測試,結果模型自信地改掛了3個原本在4.6下能通過的測試,只能回滾。


      評論區涌入上百條類似經歷。

      第二,推理質量的倒退

      不是速度慢了那么簡單,是思考深度出現了可感知的退化。以前能一步到位的復雜問題,現在需要反復追問、手動引導。

      這個劇本AI行業并不陌生。去年GPT-4 Turbo鬧出的「降智」風波幾乎一模一樣:跑分提升了,體驗卻下來了。

      第三,花更多錢,體驗更差

      Opus本身就是Anthropic最貴的模型。

      重度用戶每月的API賬單不是小數目。花了更多的錢、升了更新的版本、得到的卻是更差的體驗,憤怒就不只停在技術層面。

      benchmark更強了

      但用戶不買賬

      面對反彈潮,Anthropic的回應速度不算慢。

      Anthropic在官方遷移指南中指出,Opus 4.7 相比4.6存在若干行為變化,同時也強調,Opus 4.7仍是其當前綜合能力最強的通用可用模型,在長周期智能體任務、知識型工作、視覺任務和記憶任務方面表現尤為出色。


      Artificial Analysis的多維評測結果也擺在那里,Opus 4.7在數學推理、多語言理解、長上下文處理,多個維度的得分創下新高。


      Artificial Analysis評測顯示,Opus 4.7(max)以57分并列榜首,與Gemini 3.1 Pro Preview、GPT-5.4并列。

      GitHub上的NYT Connections Extended基準測試也給出了頂級排名。

      Anthropic的邏輯并不難理解:大模型迭代必然涉及能力再分配。有些維度提升了,有些維度就可能出現回退,這是工程上的取舍。

      但用戶不看這個,只看自己手里的活干不干得動。

      價格沒漲

      但賬單漲了

      Anthropic沒有調價,每百萬token的單價和Opus 4.6、4.5完全一樣。

      但官方遷移指南里寫道:新分詞器(tokenizer)在處理相同文本時,token用量大約可能達到原來的1.0倍到1.35倍


      什么意思?你昨天用4.6跑一段prompt花10美元,今天換4.7跑同一段prompt,可能要花11到13.5美元。

      單價沒變,但同樣的活兒吃掉了更多token。Claude Code創建者Boris Cherny隨后在X上表示:

      Opus 4.7消耗更多thinking token,所以我們已為所有訂閱用戶提高了速率限制,來補償這一點。

      但具體提高了多少,沒有公布。


      模型沒蠢

      但工作流炸了

      如果你是Claude的重度開發者,4.7上線那天你可能遇到了這樣的事情:

      代碼里寫了thinking={"type": "enabled", "budget_tokens": 32000},用來控制模型的思考預算。

      在4.6上跑得好好的。換成4.7,直接返回400錯誤。沒有棄用過渡期,沒有兼容模式,直接報錯。

      官方遷移指南解釋了替代方案:改用thinking={"type": "adaptive"}加上新的effort參數。


      但大多數開發者不會在模型發布當天去讀遷移指南。

      他們做的第一件事是把模型名從4.6換成4.7,然后發現一切都不工作了。

      更隱蔽的變化是thinking內容現在默認隱藏。

      4.6時代,模型的思考過程默認展示摘要版。到了4.7,默認變成「省略」。響應里的thinking區塊看起來是空的。

      但你仍然在為這些看不到的thinking token全額付費。

      Anthropic官方原話:省略只會降低延遲,不會降低成本。

      這就像你點了一份套餐,服務員說「為了加快上菜速度,我們不給你看菜了,但你還是得付全款」。

      「頂嘴」不是bug

      網友一個最強烈的吐槽,是說4.7變得「combative」(帶攻擊性)。

      不少開發者反映,4.7會拒絕執行它認為有問題的指令,語氣也比4.6硬了不止一個檔次。

      關于這個問題,Anthropic官方遷移指南里有一句很關鍵的話:

      Claude Opus 4.7會以更字面、更明確的方式理解提示詞。

      也就是說:4.6會「猜你的意思」,4.7會「照你說的做」。

      如果你的prompt本來就寫得含糊,4.6可以幫你腦補了,但4.7不會。對于一部分用戶來說,這叫「不聽話」,但對另一部分用戶來說,這叫「終于不亂猜了」。

      比如,Cursor設計師Ryo Lu卻在用4.7做產品規劃,認為這種精確執行正是他需要的

      因此,「頂嘴」這個標簽背后,是Anthropic正在把Claude從一個「順從的助手」改造成一個「更有主見的同事」。

      據Artificial Analysis的公開評測,Opus 4.7在GDPval-AA上拿到1753 Elo,領先第二名79分。

      GDPval-AA衡量的是模型在44種職業、9個主要行業的真實知識工作任務中的表現,在這個維度上,4.7碾壓了所有對手,包括自己的前代4.6(1619 Elo)。

      同時,4.7的幻覺率比4.6下降了25個百分點,降到了36%。

      它是怎么做到的?據Artificial Analysis的分析,主要是依靠「更頻繁地選擇不作答」,寧可說「我不知道」,也不瞎編。

      這說明Anthropic的意圖不在于優化Claude的聊天體驗,而是在優化Claude的工作能力。


      Opus 4.7在GDPval-AA上以1753 Elo登頂,領先第二名79分。這項測試衡量的是AI在44種職業中獨立完成知識工作的能力。

      但對于用戶來說,在一些場景下可能完全感受不到提升,反而先感受到了token變貴、接口報錯和語氣變硬。

      94.7%暴跌到41.0%

      如果上面三層問題都能歸結為「遷移成本+使用習慣錯位」,但還有一組數字沒法用遷移成本解釋。

      GitHub上公開維護的NYT Connections Extended基準測試,使用940道《紐約時報》Connections謎題評估大語言模型的邏輯推理和抗干擾能力。

      這個測試通過額外加入干擾詞來提升難度,已經是社區公認的高難度benchmark之一。


      NYT Connections Extended排行榜。Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)僅41.0%,同一測試上出現斷崖式暴跌。

      結果是:Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)得分41.0%。

      從年級第一,跌到不及格。

      另一份數據來自Anthropic提供的Opus 4.7 System Card中100萬token上下文的MRCR v2基準測試:4.6得分78.3%,4.7得分32.2%,下跌46個百分點


      https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

      這組數據方向與NYT Connections的結論一致:在某些邏輯推理和長上下文檢索任務上,4.7確實出現了顯著退步

      但也需要說清楚:這些是特定類型的測試。它們不能證明4.7「全面變蠢」,就像GDPval-AA的領先不能證明4.7「全面變強」一樣。

      用戶耐心

      開始倒計時

      Opus 4.7的爭議不是個案。

      OpenAI經歷過GPT-4 Turbo降智風波,幾個月前撤下GPT-4o時也遭遇過類似的用戶反彈。現在Reddit上已經出現了「哀悼」Claude 4.5的帖子,滿是自稱「心碎」的粉絲。


      每一次模型升級,都有一批用戶失去已經適應的工具。

      新分詞器讓舊的成本預算失效;新的默認行為讓舊的prompt不再好用;新的接口規范讓舊的代碼直接報錯……

      每一項單獨看都有技術上的合理性,但疊在一起,就是把全部遷移成本一次性推給了用戶。

      為什么模型越來越聰明,用戶越來越焦慮?因為每一次「更好」,都意味著推翻上一次的「剛好」。

      Anthropic員工Alex Albert在發布次日寫道:

      很多人在昨天剛開始體驗Opus 4.7時可能遇到的bug,現在都已經修復了。感謝大家的包容和耐心。


      bug可以修。但信任這種東西,消耗容易,重建很慢。

      這輪AI軍備競賽的下一個瓶頸,也許不只是算力和數據,還要比誰能在快速迭代的同時,能不把自己的用戶甩下車。

      這次,Anthropic發布了遷移指南,但用戶更想要的是一個承諾:升級不能把原有的工作流推倒重來。

      當AI從玩具變成生產力工具,「快速迭代」就不再是無條件的優點。

      Opus 4.8會怎么來?Anthropic還沒說。

      但用戶的耐心,已經開始倒計時了。

      參考資料:

      https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4

      https://medium.com/vibe-coding/opus-4-7-is-the-worst-release-anthropic-has-ever-shipped-12772c21ca1e

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      外交部發言人就臺灣當局宣稱賴清德 “暫緩”竄訪斯威士蘭答記者問

      外交部發言人就臺灣當局宣稱賴清德 “暫緩”竄訪斯威士蘭答記者問

      新京報
      2026-04-22 10:58:07
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      4月22日中國斯諾克:傳來世錦賽最新消息,丁俊暉 趙心童吳宜澤

      4月22日中國斯諾克:傳來世錦賽最新消息,丁俊暉 趙心童吳宜澤

      曹說體育
      2026-04-22 11:42:56
      蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家

      蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家

      曉張說
      2026-04-21 07:04:10
      突發!廣西一大廠停業,21年收入超31億,稱海外客戶拖欠巨額貨款

      突發!廣西一大廠停業,21年收入超31億,稱海外客戶拖欠巨額貨款

      火山詩話
      2026-04-22 09:40:34
      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      安珈使者啊
      2026-04-22 09:52:52
      45歲金·卡戴珊與漢密爾頓海邊嬉戲,“如膠似漆”,卻引發爭議

      45歲金·卡戴珊與漢密爾頓海邊嬉戲,“如膠似漆”,卻引發爭議

      譯言
      2026-04-22 07:23:37
      十五部門:加強青年婚戀觀引導,探索住房、出行、消費等多領域聯動的生育支持政策

      十五部門:加強青年婚戀觀引導,探索住房、出行、消費等多領域聯動的生育支持政策

      界面新聞
      2026-04-22 11:51:12
      醫院的專家號剛放出就瞬間“秒空”,上海三甲醫院緊急報警!警方:對倒賣醫院號源犯罪團伙的李某、鄭某等人依法刑事拘留

      醫院的專家號剛放出就瞬間“秒空”,上海三甲醫院緊急報警!警方:對倒賣醫院號源犯罪團伙的李某、鄭某等人依法刑事拘留

      大風新聞
      2026-04-22 15:12:13
      再出名有啥用?51歲老來得女的劉德華,如今還是為女兒操碎了心

      再出名有啥用?51歲老來得女的劉德華,如今還是為女兒操碎了心

      荒野老五
      2026-04-22 03:39:25
      俄羅斯為什么刪除20年法院數據:審判記錄一夜清空

      俄羅斯為什么刪除20年法院數據:審判記錄一夜清空

      律法刑道
      2026-04-22 08:53:34
      連車企的名字都不敢報道,這樣的新聞有什么意義

      連車企的名字都不敢報道,這樣的新聞有什么意義

      林中木白
      2026-04-21 15:51:28
      取消午休,改成16點下班,你愿意嗎?網友吵翻!

      取消午休,改成16點下班,你愿意嗎?網友吵翻!

      魯中晨報
      2026-04-22 14:28:23
      匈牙利爆出戲劇性消息,毛焦爾提名安妮塔·歐爾班出任新政府外長

      匈牙利爆出戲劇性消息,毛焦爾提名安妮塔·歐爾班出任新政府外長

      墜入二次元的海洋
      2026-04-22 15:15:16
      山西忻州市公務員局發布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

      山西忻州市公務員局發布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

      環球網資訊
      2026-04-22 16:51:03
      深度 |大限到期,一日之內極限反轉,特朗普為何延長停火?伊朗為何不領情?

      深度 |大限到期,一日之內極限反轉,特朗普為何延長停火?伊朗為何不領情?

      上觀新聞
      2026-04-22 17:19:03
      演員王大陸一審被判刑

      演員王大陸一審被判刑

      極目新聞
      2026-04-22 12:35:08
      股民怕不是要瘋一批

      股民怕不是要瘋一批

      刀哥復盤筆記
      2026-04-22 13:01:59
      福克斯:如果裁判默許開拓者這樣上身體,那我們也會這么做

      福克斯:如果裁判默許開拓者這樣上身體,那我們也會這么做

      懂球帝
      2026-04-22 13:27:07
      偉偉道來 | 備戰

      偉偉道來 | 備戰

      經濟觀察報
      2026-04-22 14:26:02
      2026-04-22 17:47:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15039文章數 66797關注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠

      頭條要聞

      特朗普180°轉彎延長停火 伊朗硬剛首次直接回絕談判

      頭條要聞

      特朗普180°轉彎延長停火 伊朗硬剛首次直接回絕談判

      體育要聞

      網易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      復婚無望!baby黃曉明陪小海綿零交流

      財經要聞

      伊朗拒絕出席 特朗普宣布延長停火期限

      汽車要聞

      純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

      態度原創

      教育
      數碼
      旅游
      健康
      公開課

      教育要聞

      慣子如殺子!孩子這4種表現說明已經被慣壞了,再不改就來不及了

      數碼要聞

      Beats發布3米USB-C數據線:售229元 最高240W快充

      旅游要聞

      四月的諸城茶園,到底能帶來多少驚喜?

      干細胞抗衰4大誤區,90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版