<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude Opus 4.7深夜上線,評分碾壓

      0
      分享至



      機器之心編輯部

      想不到,風(fēng)口浪尖上的 Claude 又大更新了。

      周四晚間,Anthropic 宣布旗下最新款基礎(chǔ)模型 Claude Opus 4.7 全面上市。

      Opus 4.7 在高級軟件工程方面相比 Opus 4.6 有了顯著提升,尤其是在處理最復(fù)雜的任務(wù)方面。用戶反饋表示,他們現(xiàn)在可以放心地將以前需要密切監(jiān)督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴(yán)謹(jǐn)且一致地處理復(fù)雜、耗時的任務(wù),精準(zhǔn)地執(zhí)行指令,并在返回結(jié)果之前設(shè)計出驗證自身輸出的方法。

      該模型還擁有明顯更佳的視覺效果:它能夠識別更高分辨率的圖像,完成專業(yè)任務(wù)時,更具品味和創(chuàng)造力,能夠制作出更高質(zhì)量的界面、幻燈片和文檔。而且,盡管它的功能不如剛公布的最強模型 Claude Mythos Preview 全面,但在多項基準(zhǔn)測試中,它的表現(xiàn)都優(yōu)于 Opus 4.6:



      可見 SWE-bench Pro 的分?jǐn)?shù)達(dá)到了 64.3%,遠(yuǎn)高于 GPT-5.4 的 57.7%。

      Opus 4.7 已在所有 Claude 產(chǎn)品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺上推出。定價與 Opus 4.6 相同:每百萬個輸入 token 5 美元,每百萬個輸出 token 25 美元。開發(fā)者可通過 Claude API 使用。

      根據(jù)目前大家的使用反饋,新模型更加嚴(yán)謹(jǐn),復(fù)雜任務(wù)的一致性也更強了,在最困難的編程任務(wù)上進(jìn)步明顯。當(dāng)然這也不是沒有代價的:



      以下是 Opus 4.7 早期測試的一些亮點:

      • 指令執(zhí)行能力,Opus 4.7 的表現(xiàn)有了顯著提升。有趣的是,這意味著之前版本編寫的提示信息現(xiàn)在有時可能會產(chǎn)生意想不到的結(jié)果:之前的版本對指令的解釋較為寬泛,甚至完全跳過某些部分,而 Opus 4.7 則會嚴(yán)格按照指令執(zhí)行。用戶應(yīng)據(jù)此調(diào)整提示信息和相關(guān)設(shè)置。
      • 改進(jìn)的多模態(tài)支持。Opus 4.7 對高分辨率圖像的處理能力更強:它可以處理長邊高達(dá) 2576 像素(約 375 萬像素)的圖像,是之前 Claude 型號的三倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間:智能體可以讀取密集屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)以及需要像素級精確參考的工作。
      • 實際應(yīng)用能力提升。除了在財務(wù)代理評估中獲得領(lǐng)先水平(見上表)外,Anthropic 的內(nèi)部測試表明,Opus 4.7 比 Opus 4.6 更高效地進(jìn)行財務(wù)分析,能夠生成嚴(yán)謹(jǐn)?shù)姆治龊湍P停尸F(xiàn)更專業(yè)的演示文稿,并在各項任務(wù)之間實現(xiàn)更緊密的整合。Opus 4.7 在 GDPval-AA 評估中也處于領(lǐng)先水平。
      • 內(nèi)存占用方面,Opus 4.7 更擅長利用文件系統(tǒng)內(nèi)存。它能記住長時間、多會話工作中的重要筆記,并利用這些筆記繼續(xù)執(zhí)行新的任務(wù),因此這些新任務(wù)對預(yù)先獲取的上下文信息要求更低。















      Claude Code 負(fù)責(zé)人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

      1、自動模式

      Opus 4.7 喜歡執(zhí)行復(fù)雜、長時間運行的任務(wù),比如深度研究、重構(gòu)代碼、構(gòu)建復(fù)雜功能、迭代直到達(dá)到性能基準(zhǔn)。過去,你要么得在模型執(zhí)行這類長時間任務(wù)時全程監(jiān)督,要么使用 --dangerously-skip-permissions。

      自動模式作為一種更安全的替代方案,在這種模式下,權(quán)限提示會被路由到一個基于模型的分類器,來決定命令是否安全執(zhí)行。如果安全,它就會自動批準(zhǔn)。

      這意味著模型運行時不再需要全程監(jiān)督。更重要的是,這意味著你可以并行運行更多 Claude。一旦一個 Claude 開始運行,你就可以將注意力轉(zhuǎn)向下一個 Claude。



      2、新的 /fewer-permission-prompts 技能

      它會掃描你的會話歷史記錄,找出常見的 bash 和 MCP 命令,這些命令是安全的,也導(dǎo)致了重復(fù)的權(quán)限提示。然后,它會推薦一個命令列表,將其添加到你的權(quán)限白名單中。

      你可以使用此功能來優(yōu)化你的權(quán)限設(shè)置,避免不必要的權(quán)限提示。

      3、「回顧」

      回顧是對智能體所做的事情及下一步行動的簡短總結(jié),它可以在幾分鐘或幾小時后返回一個長時間運行的會話。



      4、專注模式

      CLI 中加入了專注模式,它會隱藏所有中間步驟,只專注于最終結(jié)果。新模型已經(jīng)達(dá)到了這樣一個程度,我們通常信任它會運行正確的命令并進(jìn)行正確的編輯,只需要查看最終結(jié)果。

      你可以使用 /focus 進(jìn)行開關(guān)。

      5、自適應(yīng)的思考深度

      Opus 4.7 使用自適應(yīng)思考而非思考預(yù)算。要調(diào)整模型的思考多 / 少程度,Anthropic 推薦調(diào)整努力程度。

      使用較低努力程度可獲得更快的響應(yīng)和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

      Boris Cherny 表示,大多數(shù)任務(wù)可以使用 xhigh 努力程度,對最困難的任務(wù)使用 max 努力程度。Max 僅適用于當(dāng)前的會話;其他努力程度是粘性的,并將在下一次會話中持續(xù)存在。

      /effort 用于設(shè)置努力程度。



      6、給 Claude 一個驗證其工作的方式

      最后,確保 Claude 有一種驗證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產(chǎn)出的方法,而且在 4.7 版本中,這比以往任何時候都更重要。

      驗證方式因任務(wù)而異。對于后端工作,確保 Claude 知道如何啟動您的服務(wù)器 / 服務(wù)來進(jìn)行端到端測試;對于前端工作,使用 Claude Chromium 擴(kuò)展程序,讓 Claude 能夠控制您的瀏覽器;對于桌面應(yīng)用,使用 computer use。

      Boris Cherny 稱自己最近的許多提示都像這樣:「Claude 做 blah blah /go」。/go 是一種技能,它讓 Claude 1)使用 bash、瀏覽器或 computer use 進(jìn)行端到端自我測試;2)運行 /simplify 技能;3)提交一個 PR。

      上周 Anthropic 發(fā)布了 「Project Glasswing」項目,重點闡述了人工智能模型在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險與優(yōu)勢。Anthropic 宣布將限制 Claude Mythos Preview 的發(fā)布范圍,并首先在功能較弱的模型上測試新的網(wǎng)絡(luò)安全防護(hù)措施。

      Opus 4.7 即是首個此類模型:其網(wǎng)絡(luò)安全能力不如 Mythos Preview(Anthropic 表示在訓(xùn)練過程中嘗試了多種方法來逐步降低其網(wǎng)絡(luò)安全能力)。發(fā)布時的 Opus 4.7 配備了安全防護(hù)措施,能夠自動檢測并阻止表明存在違禁或高風(fēng)險網(wǎng)絡(luò)安全用途的請求。

      Anthropic 將從這些安全防護(hù)措施的實際部署中獲得經(jīng)驗,從而最終實現(xiàn) Mythos 級模型的廣泛發(fā)布目標(biāo)。

      總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似:Anthropic 的評估顯示,其出現(xiàn)欺騙、奉承和與濫用者合作等令人擔(dān)憂的行為的比例較低。在某些指標(biāo)上,例如誠實度和抵御惡意「快速注入」攻擊的能力,Opus 4.7 比 Opus 4.6 有所改進(jìn);但在其他指標(biāo),例如在管制藥物方面提供過于詳細(xì)的減害建議的傾向上 Opus 4.7 略有不足。

      Anthropic 的一致性評估得出結(jié)論,該模型「總體上一致性良好且值得信賴,但其行為并非完全理想」。值得注意的是,根據(jù)評估,Mythos Preview 仍然是一致性最佳的模型。



      根據(jù)自動化行為審核,總體行為偏差得分如上。

      除了 Claude Opus 4.7 本身之外,Anthropic 還將推出以下更新:

      更精細(xì)的難度控制:Opus 4.7 新增了一個介于 high 和 max 之間的 xhigh「超高」級別,使用戶能夠更精確地控制在解決難題時推理速度和延遲之間的權(quán)衡。在 Claude Code 中,Anthropic 已將所有套餐的默認(rèn)級別提升至 xhigh。在測試 Opus 4.7 的編碼和智能體應(yīng)用場景時,建議從 high 或 xhigh 級別開始。

      在 Claude 平臺(API)上:除了支持更高分辨率的圖像外,Anthropic 還在公開測試版中推出了任務(wù)預(yù)算,讓開發(fā)者能夠引導(dǎo) Claude 的 token 支出,以便它可以優(yōu)先處理較長時間內(nèi)的工作。

      在 Claude Code 中:新增的 /ultrareview 斜杠命令會創(chuàng)建一個專門的審查會話,讀取所有更改并標(biāo)記出細(xì)心的審查員能夠發(fā)現(xiàn)的錯誤和設(shè)計問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費的超強審查機會供試用。Anthropic 還將自動模式擴(kuò)展到了 Max 用戶。自動模式是一項新的權(quán)限選項,Claude 會替你做出決策,這意味著可以運行更長時間的任務(wù),減少中斷,并且比人類選擇跳過所有權(quán)限的風(fēng)險更低。

      Opus 4.7 是 Opus 4.6 的直接升級版,但有兩個變化值得關(guān)注,因為它們會影響 token 的使用。首先,Opus 4.7 使用了更新的分詞器,改進(jìn)了模型處理文本的方式。因此外界認(rèn)為它大概率是一個新的基礎(chǔ)模型,甚至可能是從 Mythos 提煉而來的。

      但代價是,相同的輸入可能會映射到更多的詞元 —— 根據(jù)內(nèi)容類型的不同,大約增加 1.0 到 1.35 倍。其次,Opus 4.7 在高難度任務(wù)下會進(jìn)行更多思考,尤其是在主動語態(tài)場景的后期回合。這提高了模型在解決難題時的可靠性,但也意味著它會產(chǎn)生更多的輸出 token。

      人們也發(fā)現(xiàn),Opus 4.7 的知識截止日期更新了:



      用戶可以通過多種方式控制 token 的使用:例如使用工作量參數(shù)、調(diào)整任務(wù)預(yù)算或引導(dǎo)模型簡化代碼。在 Anthropic 自己的測試中,最終效果是積極的 —— 內(nèi)部編碼評估顯示,所有工作量級別的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建議在實際流量上進(jìn)行評估。

      Anthropic 還編寫了遷移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了從 Opus 4.6 升級到 Opus 4.7 的更多建議。



      根據(jù)每個工作量級別下 token 使用情況,對內(nèi)部智能編碼評估進(jìn)行評分。在此評估中,模型在單個用戶提示下自主運行,因此結(jié)果可能無法代表交互式編碼中的 token 使用情況。

      在 Opus 4.7 發(fā)布后,人們開始大規(guī)模測試評價,大多數(shù)使用者認(rèn)為新模型效果不錯,也有人表示其 token 消耗非常驚人(pro 問兩三個問題就沒額度了)。

      同樣是在昨天晚上,千問開源了 Qwen3.6-35B-A3B(350 億參數(shù),激活 30 億),有人還表示,在自己 MacBook Pro M5 上通過 LM Studio(以及 llm-lmstudio 插件)運行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。



      當(dāng)然這不能就說明 Qwen3.6-35B-A3B 更強了。

      更多的使用情況,還有待大家的進(jìn)一步驗證。

      參考內(nèi)容:

      https://www.anthropic.com/news/claude-opus-4-7

      https://x.com/bcherny/status/2044847848035156457

      https://qwen.ai/blog?id=qwen3.6-35b-a3b

      https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      賈躍亭FF,再獲巨額融資!

      賈躍亭FF,再獲巨額融資!

      花小貓的美食日常
      2026-04-20 03:39:28
      Opta超級計算機統(tǒng)計英超最新奪冠概率:阿森納73%,曼城27%

      Opta超級計算機統(tǒng)計英超最新奪冠概率:阿森納73%,曼城27%

      懂球帝
      2026-04-20 02:30:55
      馮紹峰忙戀愛!趙麗穎上海親子游,想想坐行李箱萌態(tài)十足,畫面溫馨

      馮紹峰忙戀愛!趙麗穎上海親子游,想想坐行李箱萌態(tài)十足,畫面溫馨

      八卦王者
      2026-04-18 16:27:16
      堂姐讓我擔(dān)保388萬,拒絕后被全家罵,銀行上門見擔(dān)保書全家傻眼

      堂姐讓我擔(dān)保388萬,拒絕后被全家罵,銀行上門見擔(dān)保書全家傻眼

      刺頭體育
      2026-04-19 02:37:31
      真罕見!石家莊一女子省考筆試146.9分第一進(jìn)面,承諾上岸就結(jié)婚

      真罕見!石家莊一女子省考筆試146.9分第一進(jìn)面,承諾上岸就結(jié)婚

      火山詩話
      2026-04-12 11:28:05
      笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

      笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

      另子維愛讀史
      2026-04-17 17:36:52
      未服役航母早已大面積生銹,中國制造能力遭質(zhì)疑,專家:另有原因

      未服役航母早已大面積生銹,中國制造能力遭質(zhì)疑,專家:另有原因

      普覽
      2026-04-01 13:01:09
      “看到被老師偷拍的照片后……”哈哈哈哈心已涼透!!

      “看到被老師偷拍的照片后……”哈哈哈哈心已涼透!!

      脆皮先生
      2026-04-14 19:47:18
      狂轟35+36分!8換1交易助成季后賽最大黑馬

      狂轟35+36分!8換1交易助成季后賽最大黑馬

      吳蛛旅行ing
      2026-04-20 02:12:05
      國學(xué)大師的最后預(yù)言:東方將誕生三位圣者,或?qū)⒏淖兪澜绺窬?>
    </a>
        <h3>
      <a href=阿珂讀書
      2025-01-16 19:16:31
      網(wǎng)購的2800多元垃圾桶退貨時被申通弄壞 商家拒收后天貓極速退款變欠款 網(wǎng)購?fù)素浽谕撅L(fēng)險該誰擔(dān)

      網(wǎng)購的2800多元垃圾桶退貨時被申通弄壞 商家拒收后天貓極速退款變欠款 網(wǎng)購?fù)素浽谕撅L(fēng)險該誰擔(dān)

      信網(wǎng)
      2026-04-19 14:15:08
      特朗普稱萬斯不參加美伊復(fù)談

      特朗普稱萬斯不參加美伊復(fù)談

      財聯(lián)社
      2026-04-19 21:19:08
      剛炸了!王嘉爾瘋狂回懟黑粉,連發(fā)十條硬剛:就算72歲也會盯著你

      剛炸了!王嘉爾瘋狂回懟黑粉,連發(fā)十條硬剛:就算72歲也會盯著你

      橙星文娛
      2026-04-19 06:24:47
      機器人半馬最詭異機器人出現(xiàn),網(wǎng)友:半夜送外賣要被嚇?biāo)?>
    </a>
        <h3>
      <a href=第一財經(jīng)資訊
      2026-04-19 11:39:06
      50歲曾黎生圖曝光,嘴歪臉僵腫醫(yī)美明顯,顏值暴跌一臉兇相太嚇人

      50歲曾黎生圖曝光,嘴歪臉僵腫醫(yī)美明顯,顏值暴跌一臉兇相太嚇人

      談史論天地
      2026-04-19 06:18:25
      多出門,能改命

      多出門,能改命

      洞讀君
      2026-04-18 21:05:03
      中東,突發(fā)大消息!伊朗革命衛(wèi)隊向油輪開火!伊朗最高領(lǐng)袖發(fā)聲

      中東,突發(fā)大消息!伊朗革命衛(wèi)隊向油輪開火!伊朗最高領(lǐng)袖發(fā)聲

      證券時報e公司
      2026-04-18 20:38:43
      90年代下崗潮的賬,正在慢慢清還!一代人的犧牲,正在被時代接住

      90年代下崗潮的賬,正在慢慢清還!一代人的犧牲,正在被時代接住

      匹夫來搞笑
      2026-04-19 11:51:55
      老人說:“四月吃一瓜,中藥不用抓”,一利尿,二排毒,三消腫。

      老人說:“四月吃一瓜,中藥不用抓”,一利尿,二排毒,三消腫。

      阿龍美食記
      2026-04-02 10:35:01
      一夜成名!張雪的岳父登上熱搜,被麻陽當(dāng)?shù)仡I(lǐng)導(dǎo)邀請參加騎行活動

      一夜成名!張雪的岳父登上熱搜,被麻陽當(dāng)?shù)仡I(lǐng)導(dǎo)邀請參加騎行活動

      火山詩話
      2026-04-19 17:46:25
      2026-04-20 04:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12795文章數(shù) 142632關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

      財經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      時尚
      教育
      藝術(shù)
      本地
      房產(chǎn)

      裝修“精神角落”,就是這么上癮

      教育要聞

      655家單位、1.29萬個崗位,湖南用心幫大學(xué)生找工作

      藝術(shù)要聞

      超模施特洛耶克寫真曝光,簡直美到窒息,別錯過!

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      房產(chǎn)要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      無障礙瀏覽 進(jìn)入關(guān)懷版