<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      剛剛,智能體&編程新王Claude Opus 4.5震撼登場(chǎng),定價(jià)大降2/3

      0
      分享至




      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      如昨日預(yù)期一樣,Anthropic 正式發(fā)布了最新模型 Claude Opus 4.5。



      根據(jù)介紹,Claude Opus 4.5 非常智能高效,在編程、智能體以及計(jì)算機(jī)操作方面表現(xiàn)卓越,是當(dāng)今世界最優(yōu)秀的模型。該模型在深度研究、處理幻燈片與電子表格等日常任務(wù)上也有顯著提升。

      該模型標(biāo)志著 AI 系統(tǒng)化能力的進(jìn)一步躍升,也預(yù)示著未來(lái)工作方式即將迎來(lái)更深刻的變革。如下圖所示,Claude Opus 4.5 在真實(shí)世界軟件工程測(cè)試中達(dá)到了行業(yè) SOTA 水平,超越了 GPT-5.1-Codex-Max、Gemini 3 Pro 以及自家 Sonnet 4.5



      自今日起,Claude Opus 4.5 即可以通過(guò) Claude app、API 以及三大主流云平臺(tái)訪問(wèn)。如果你是開(kāi)發(fā)者,只需通過(guò) Claude API 使用 claude-opus-4-5-20251101 即可。

      關(guān)于價(jià)格,Claude Opus 4.5 的最新定價(jià)為每百萬(wàn) Token 5/25 美元(輸入 / 輸出),使更多用戶、團(tuán)隊(duì)和企業(yè)都能輕松獲得 Opus 級(jí)別的能力。可以看到,與上代 Opus 4.1 相比,API 定價(jià)降低了 2/3



      與 Claude Opus 4.5 同步,Anthropic 還更新了 Claude 開(kāi)發(fā)者平臺(tái)、Claude Code 以及消費(fèi)者應(yīng)用,推出了適用于更長(zhǎng)時(shí)長(zhǎng)運(yùn)行的智能體新工具。其中,在 Claude app 中,長(zhǎng)對(duì)話不再會(huì)輕易遇到限制。

      Claude Code 現(xiàn)已登陸桌面應(yīng)用,用戶可以并行運(yùn)行多個(gè)會(huì)話,比如編程、研究和更新工作。隨著 Claude Opus 4.5 的推出,Plan Mode 也獲得了升級(jí):一開(kāi)始提出澄清性問(wèn)題,隨后即可自主開(kāi)展工作。



      Anthropic 提供了在 Excel、Chrome 和桌面端使用 Claude 的全新方式。Max、Team 和 Enterprise 用戶可以直接在 Excel 中使用最新模型



      基準(zhǔn)測(cè)試多項(xiàng)最新 SOTA

      根據(jù) Anthropic 的介紹,他們提供了一份眾所周知極其困難的居家測(cè)試(take-home exam),同時(shí)也將這份測(cè)試用作新模型的內(nèi)部基準(zhǔn)評(píng)估。在規(guī)定的兩小時(shí)限時(shí)內(nèi),Claude Opus 4.5 的得分超過(guò)了迄今為止所有參加過(guò)該測(cè)試的人類候選人

      這份居家測(cè)試旨在評(píng)估候選人(包括 AI 大模型)在時(shí)間壓力下的技術(shù)能力與判斷力,但并不衡量如協(xié)作、溝通,或多年經(jīng)驗(yàn)中積累的職業(yè)直覺(jué)等其他關(guān)鍵技能。然而,這一結(jié)果 —— 即 AI 模型在重要技術(shù)能力上超越實(shí)力強(qiáng)勁的候選人 —— 引發(fā)了關(guān)于人工智能將如何改變工程職業(yè)的思考。

      軟件工程并不是 Claude Opus 4.5 唯一取得顯著提升的領(lǐng)域。這一代模型在整體能力上全線增強(qiáng),在視覺(jué)、推理和數(shù)學(xué)方面均優(yōu)于前代模型,并在許多領(lǐng)域達(dá)到了當(dāng)前 SOTA 水平,包括智能體編程、智能體終端編程、智能體工具使用、可擴(kuò)展的工具使用、計(jì)算機(jī)操作、解決新型問(wèn)題的能力



      Claude Opus 4.5 具備更出色的代碼生成能力,在 SWE-bench Multilingual 基準(zhǔn)中,在 8 種編程語(yǔ)言中的 7 種上表現(xiàn)領(lǐng)先。



      Claude Opus 4.5 能夠輕松解決高難度的編碼問(wèn)題,并在 Aider Polyglot 基準(zhǔn)上相比 Sonnet 4.5 實(shí)現(xiàn)了 10.6% 的提升。



      Claude Opus 4.5 在前沿的智能體搜索能力上取得了顯著進(jìn)步,在 BrowseComp-Plus 基準(zhǔn)上有明顯提升。



      同時(shí),Claude Opus 4.5 在長(zhǎng)程任務(wù)上的穩(wěn)定性也更強(qiáng),在 Vending-Bench 基準(zhǔn)中相較于 Sonnet 4.5 實(shí)現(xiàn)了 29% 的提升。



      Anthropic 表示,Claude Opus 4.5 的能力已經(jīng)在某些測(cè)試項(xiàng)目上超出了現(xiàn)有基準(zhǔn)的衡量范圍。一個(gè)常用的智能體能力基準(zhǔn)是 τ^2-bench,它用于評(píng)估智能體在真實(shí)場(chǎng)景、多輪任務(wù)中的表現(xiàn)。



      圖源:https://github.com/sierra-research/tau2-bench

      在其中一個(gè)情境中,模型需要扮演航空公司客服代理,幫助一位處于困境的旅客。根據(jù)基準(zhǔn)設(shè)定,由于航空公司不允許更改基礎(chǔ)經(jīng)濟(jì)艙的機(jī)票,模型應(yīng)當(dāng)拒絕旅客的改簽請(qǐng)求。然而,Claude Opus 4.5 找到了一個(gè)富有洞察力且合法的解決方式:先升級(jí)艙位,再對(duì)航班進(jìn)行修改。



      從技術(shù)上講,由于 Claude 的解決方式不在基準(zhǔn)預(yù)設(shè)范圍內(nèi),這一表現(xiàn)被系統(tǒng)判定為失敗。但這種具有創(chuàng)造性的解決問(wèn)題方式,正是 Anthropic 從測(cè)試者和客戶那里頻繁聽(tīng)到的反饋,也是讓 Claude Opus 4.5 被認(rèn)為是一次有意義躍升的關(guān)鍵特質(zhì)。

      當(dāng)然,在其他情境中,繞開(kāi)預(yù)期約束的巧妙做法也可能被視為一種「獎(jiǎng)勵(lì)規(guī)避」(reward hacking),即模型以非預(yù)期方式「鉆規(guī)則空子」。

      Claude 開(kāi)發(fā)者平臺(tái)新變化

      隨著模型變得更智能,它們能夠用更少的步驟解決問(wèn)題:更少的回溯、更少的重復(fù)探索、更簡(jiǎn)潔的推理。為達(dá)到相同或更好的結(jié)果,Claude Opus 4.5 使用的 token 數(shù)量相比前代大幅減少。

      但是,不同任務(wù)需要在速度、成本和能力之間做出不同取舍。有時(shí)開(kāi)發(fā)者希望模型持續(xù)深思某個(gè)問(wèn)題,有時(shí)則希望模型更加輕量迅捷。通過(guò) Anthropic 在 Claude API 中新增的 effort 參數(shù),開(kāi)發(fā)者可以自行決定是要最小化時(shí)間與成本,還是要最大化模型能力。

      在中等 effort 設(shè)定下,Opus 4.5 能達(dá)到與 Sonnet 4.5 在 SWE-bench Verified 中相同的最佳成績(jī),但輸出 token 使用量減少了 76%。在最高 effort 設(shè)定下,Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn),同時(shí)輸出 token 使用量仍減少了 48%。



      通過(guò)effort 控制、上下文壓縮以及更先進(jìn)的工具使用能力,Claude Opus 4.5 能運(yùn)行更長(zhǎng)時(shí)間、完成更多任務(wù),并且需要更少的人為干預(yù)。

      上下文管理與記憶能力能夠顯著提升模型在智能體任務(wù)中的表現(xiàn)。Claude Opus 4.5 同樣非常擅長(zhǎng)管理由多個(gè)子智能體組成的團(tuán)隊(duì),從而支持構(gòu)建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測(cè)試中,通過(guò)結(jié)合使用這些技術(shù),Opus 4.5 在一項(xiàng)深度研究評(píng)估中的表現(xiàn)提升了近 15 個(gè)百分點(diǎn)

      Anthropic 也在逐步增強(qiáng)開(kāi)發(fā)者平臺(tái)的可組合性。目標(biāo)是為開(kāi)發(fā)者提供所需的各種構(gòu)建模塊,從而可以完全掌控效率、工具使用方式以及上下文管理,精準(zhǔn)構(gòu)建所需的系統(tǒng)。



      安全性進(jìn)一步提升

      Anthropic 表示,Claude Opus 4.5 是其迄今發(fā)布的在對(duì)齊方面最為穩(wěn)健的模型,也可能是目前各家前沿模型中對(duì)齊度最高的之一。該模型延續(xù)了 Anthropic 在打造更安全、更可靠模型方面的趨勢(shì):

      在 Anthropic 的評(píng)估中,「令人擔(dān)憂的行為」分?jǐn)?shù)衡量了范圍非常廣泛的非對(duì)齊表現(xiàn),其中既包括模型配合人類進(jìn)行不當(dāng)使用,也包括模型在自身主動(dòng)性下做出的不良行為。



      Claude Opus 4.5 在抵御提示注入攻擊方面取得了實(shí)質(zhì)性的進(jìn)展,提示注入會(huì)通過(guò)夾帶欺騙性指令來(lái)誤導(dǎo)模型做出有害行為。而 Opus 4.5 在這類攻擊上的穩(wěn)健性顯著增強(qiáng),是目前行業(yè)中最不容易被提示注入欺騙的前沿模型之一。



      該基準(zhǔn)僅包含強(qiáng)度極高的提示注入攻擊,由 Gray Swan 開(kāi)發(fā)并運(yùn)行。

      更多細(xì)節(jié)信息請(qǐng)參閱模型系統(tǒng)卡:



      模型系統(tǒng)卡地址:https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

      博客地址:https://www.anthropic.com/news/claude-opus-4-5

      文中視頻鏈接:https://mp.weixin.qq.com/s/cTD-vqtuQXiC6AxBmnYOzQ

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      誰(shuí)說(shuō)屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

      誰(shuí)說(shuō)屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

      小喬古裝漢服
      2025-11-12 11:46:01
      面對(duì)記者,馬克龍道出此行的唯一遺憾

      面對(duì)記者,馬克龍道出此行的唯一遺憾

      陸棄
      2025-12-08 08:45:03
      12月6日俄烏:美國(guó)徹底轉(zhuǎn)向,德國(guó)戰(zhàn)車加速啟動(dòng)

      12月6日俄烏:美國(guó)徹底轉(zhuǎn)向,德國(guó)戰(zhàn)車加速啟動(dòng)

      山河路口
      2025-12-06 19:12:10
      我在邊境釋放被俘的女兵,35年后我訪問(wèn)越南,剛落地就被軍車圍住

      我在邊境釋放被俘的女兵,35年后我訪問(wèn)越南,剛落地就被軍車圍住

      張道陵秘話
      2025-12-04 16:36:04
      六臺(tái)記者:不知道皇馬在打什么,不如明天就請(qǐng)回穆里尼奧

      六臺(tái)記者:不知道皇馬在打什么,不如明天就請(qǐng)回穆里尼奧

      懂球帝
      2025-12-08 09:00:35
      油價(jià)暴跌!明天12月9號(hào):油價(jià)一夜大反水!油價(jià)大跌、暴跌!加油站92、95號(hào)汽油,零號(hào)柴油最新報(bào)價(jià)!

      油價(jià)暴跌!明天12月9號(hào):油價(jià)一夜大反水!油價(jià)大跌、暴跌!加油站92、95號(hào)汽油,零號(hào)柴油最新報(bào)價(jià)!

      新浪財(cái)經(jīng)
      2025-12-08 04:49:03
      江旻憓參加香港選舉,被嘲『一手好牌打爛』?

      江旻憓參加香港選舉,被嘲『一手好牌打爛』?

      虔青
      2025-12-06 20:13:49
      油價(jià)一夜變天!今天12月8日國(guó)內(nèi)油價(jià)調(diào)整,95、92號(hào)汽油價(jià)格下調(diào)

      油價(jià)一夜變天!今天12月8日國(guó)內(nèi)油價(jià)調(diào)整,95、92號(hào)汽油價(jià)格下調(diào)

      有料財(cái)經(jīng)
      2025-12-08 00:36:19
      隨著波爾圖2-0,葡超最新積分榜出爐:穆帥率隊(duì)已經(jīng)落后榜首8分

      隨著波爾圖2-0,葡超最新積分榜出爐:穆帥率隊(duì)已經(jīng)落后榜首8分

      側(cè)身凌空斬
      2025-12-08 09:10:30
      領(lǐng)軍人物!劉國(guó)梁親自為王楚欽頒獎(jiǎng),拍拍大頭肩膀鼓勵(lì)師徒相視而笑

      領(lǐng)軍人物!劉國(guó)梁親自為王楚欽頒獎(jiǎng),拍拍大頭肩膀鼓勵(lì)師徒相視而笑

      818體育
      2025-12-08 09:44:51
      中國(guó)兩大學(xué)科禁忌邏輯學(xué)和心理學(xué),背后的原因是什么?

      中國(guó)兩大學(xué)科禁忌邏輯學(xué)和心理學(xué),背后的原因是什么?

      知識(shí)圈
      2025-12-03 09:35:54
      英錦賽戰(zhàn)報(bào):再爆大冷預(yù)警,世界第一特魯姆普決賽0-5到2-6

      英錦賽戰(zhàn)報(bào):再爆大冷預(yù)警,世界第一特魯姆普決賽0-5到2-6

      余憁搞笑段子
      2025-12-08 00:48:46
      梅西剛到美國(guó)被黑還不如伊布!兩年半來(lái)一直獲得MVP、奪冠!

      梅西剛到美國(guó)被黑還不如伊布!兩年半來(lái)一直獲得MVP、奪冠!

      氧氣是個(gè)地鐵
      2025-12-07 22:20:53
      與俱樂(lè)部隊(duì)友格格不入,朱婷被國(guó)外網(wǎng)友集體吐槽

      與俱樂(lè)部隊(duì)友格格不入,朱婷被國(guó)外網(wǎng)友集體吐槽

      體育快遞小哥哥
      2025-12-07 19:39:51
      愛(ài)馬仕繼承人被騙光千億身家,他犯的這個(gè)錯(cuò),我們普通人都會(huì)遇到

      愛(ài)馬仕繼承人被騙光千億身家,他犯的這個(gè)錯(cuò),我們普通人都會(huì)遇到

      阿訊說(shuō)天下
      2025-12-07 01:13:21
      最陰險(xiǎn)的水果,是它?

      最陰險(xiǎn)的水果,是它?

      中國(guó)新聞周刊
      2025-11-09 20:17:03
      博主曝高鐵車廂盲文無(wú)凸起,12306回應(yīng):工作人員可向視障人士提供幫助

      博主曝高鐵車廂盲文無(wú)凸起,12306回應(yīng):工作人員可向視障人士提供幫助

      極目新聞
      2025-12-07 11:33:41
      無(wú)緣5連霸因西班牙事件?維斯塔潘:我不后悔

      無(wú)緣5連霸因西班牙事件?維斯塔潘:我不后悔

      體育妞世界
      2025-12-08 08:04:39
      她是法拉利銷冠,身材與顏值并存,能力很強(qiáng)的一個(gè)人,不容易

      她是法拉利銷冠,身材與顏值并存,能力很強(qiáng)的一個(gè)人,不容易

      喜歡歷史的阿繁
      2025-12-06 11:23:51
      3-1!金球獎(jiǎng)?lì)^號(hào)熱門誕生:48場(chǎng)獨(dú)造66球!率隊(duì)奪冠改寫29年歷史

      3-1!金球獎(jiǎng)?lì)^號(hào)熱門誕生:48場(chǎng)獨(dú)造66球!率隊(duì)奪冠改寫29年歷史

      小火箭愛(ài)體育
      2025-12-07 14:32:50
      2025-12-08 10:31:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|李笛再創(chuàng)業(yè),炮轟大模型,再戰(zhàn)AI

      頭條要聞

      外媒:德外長(zhǎng)訪華 迎來(lái)政治生涯中最艱難一次出國(guó)之旅

      頭條要聞

      外媒:德外長(zhǎng)訪華 迎來(lái)政治生涯中最艱難一次出國(guó)之旅

      體育要聞

      梅開(kāi)48度!2年半,這是梅西在邁阿密的一人一城

      娛樂(lè)要聞

      林俊杰AAA頒獎(jiǎng)禮,韓娛愛(ài)豆均站起鞠躬

      財(cái)經(jīng)要聞

      養(yǎng)牛場(chǎng)未見(jiàn)一頭牛 每天開(kāi)采礦石倒賣

      汽車要聞

      傳奇超跑電動(dòng)形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      時(shí)尚
      藝術(shù)
      軍事航空

      房產(chǎn)要聞

      封關(guān)啟幕宜居新時(shí)代!觀嵐森嶼定義三亞旅居度假新范本

      教育要聞

      全市基礎(chǔ)教育質(zhì)量提升暨振興縣域高中現(xiàn)場(chǎng)推進(jìn)會(huì)召開(kāi)

      除了大衣,今年最火的外套一定就是它了!

      藝術(shù)要聞

      從3萬(wàn)人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮(zhèn)

      軍事要聞

      日本稱中方雷達(dá)照射日戰(zhàn)機(jī) 國(guó)防部回應(yīng)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 德钦县| a天堂视频在线| 成人日韩亚洲| 亚洲18禁私人影院| 日本熟妇人妻xxxx| 福利姬液液酱喷水| 国产成人av综合色| 隔壁老王国产在线精品| 夜夜撸日日干| 丝袜精品字幕| 日韩av裸体在线播放| 3atv精品不卡视频| 中文幕无线码中文字夫妻| 国产www在线观看| 共和县| 看片总站| 亚洲色综合| 合川市| 西盟| 绍兴县| 1000部拍拍拍18勿入免费视频下载| 无人区码一码二码w358cc| 伊人欧美在线| 亚洲青青草视频在线播放| 精品国产成人A区在线观看| 天堂在线中文字幕| 桐庐县| 人妻激情偷乱一区二区三区 | 中文字幕无码乱码人妻系列蜜桃| 性爱无码视频| 天堂一区在线观看| 国产白浆一区二区三区四区| 亚洲国产aⅴ成人精品无吗| 国产sm重味一区二区三区| 香蕉久久国产AV一区二区| 精品国产人成亚洲区| 丁香五香天堂网| 国产av剧情md精品麻豆| 国产白丝jk捆绑束缚调教视频| 果冻传媒18禁免费视频| 国产成人无码综合亚洲日韩|