<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.5來了!單次生成打造《我的世界》,還破解高難度Agent測評

      0
      分享至

      智東西
      作者 陳駿達
      編輯 李水青

      智東西11月25日報道,今天,Anthropic發布了自家的旗艦編程模型Claude Opus 4.5。Anthropic稱,這是全球范圍內在編程、agents和計算機使用方面最強大的模型。

      在真實世界軟件工程測試SWE-bench Verified中,Claude Opus 4.5成為首款得分超過80%的AI模型,不僅領先于自家的Claude Sonnet 4.5,還超過了上周發布的Gemini 3 Pro和GPT-5.1 Codex-Max。


      Anthropic還把該公司面試人類工程師的高難度居家考試交給Claude Opus 4.5,結果,在規定的兩小時內,Claude Opus 4.5的得分高于以往任何人類應聘者,這表型AI模型在重要技術技能方面,已經超越了優秀的人類應聘者。

      編程并非Claude Opus 4.5唯一的改進,其視覺、推理和數學能力都優于前代產品,可較好地勝任深度研究、處理幻燈片和電子表格等日常任務。


      與此同時,Claude Opus系列模型的價格,這回真被Anthropic打下來了。Claude Opus 4.5的定價為每百萬tokens 5美元(輸入)/25美元(輸出),僅為前代Claude Opus 4.1的1/3。同時,Anthropic還移除了專門針對Opus系列的用量限制。


      Claude Opus 4.5現已在Claude應用程序、API中可用,不過,使用Opus前,用戶還得開一個200美元/月的最高檔套餐。Claude Opus 4.5也已在AWS、谷歌云和微軟Azure三大主流云平臺上線。

      一、前端表現再飛躍,還一次性完美復刻《我的世界》

      Claude Opus 4.5用起來效果究竟怎么樣?在Anthropic官宣模型發布的評論區中,已有不少用戶曬出了自己的一手體驗。

      前端能力上,前端開發者平臺Vercel的CEO Guillermo用Claude Opus 4.5打造了一個購物網站,一次性生成的結果如下:


      Guillermo感嘆,Claude Opus 4.5的水平完全不同,好得讓人難以置信。


      這位網友分享了自己用Claude Opus 4.5打造的4個Hero Section,這是網站或App中的一個重要區域,用來吸引用戶的注意力。可以看到,這幾個頁面都無論是字體設計,還是網頁布局,都很有高級感。


      有網友用Claude Opus 4.5打造了《我的世界》克隆版,這考察了模型更為復雜的項目上的性能。Claude Opus 4.5一次就成功了,生成了3500行代碼,網友認為這意味著Claude Opus 4.5不會像Gemini 3.0 Pro一樣偷工減料。


      Claude Opus 4.5復刻的《我的世界》游戲有模有樣,擁有不同的生物群系(平原、沙漠、雪地),樹葉和水的透明方塊也恰到好處,還有一套非常棒的物品欄和合成系統。所有這些都集成在一個游戲中。它甚至還打造了云朵效果,網友稱自己此前從未見過哪個模型能做到這一點。


      AI訂閱平臺Every的聯合創始人兼CEO Dan Shipper感嘆道,每隔半年到一年,就會出現一款真正改變行業格局的模型,而今天發布的Claude Opus 4.5,就是那款模型。Shipper稱這是他用過的最好的編程模型,沒有之一。


      二、7門編程語言測試領先,安全性大幅提升

      發布前,Anthropic對Claude Opus 4.5模型進行了內部測試。測試人員稱,Claude Opus 4.5能夠處理模糊不清的情況,并能權衡利弊,無需過多指導。

      當遇到復雜的多系統錯誤時,Claude Opus 4.5能夠自行找到修復方法,幾周前Claude Sonnet 4.5幾乎無法完成的任務,現在Claude Opus 4.5已經能夠輕松應對。Anthropic的測試人員告訴模型團隊,Claude Opus 4.5真的“很懂行”。

      Anthropic分享了Claude Opus 4.5在多個基準測試上的表現。在考察多種編程語言掌握程度的SWE-bench Multilingual中,Claude Opus 4.5在8種編程語言里的7種實現性能領先。


      在考察深度搜索Agent能力的BrowseComp-Plus中,Claude Opus 4.5較Claude Sonnet 4.5展現出約4.7%的優勢。


      Claude Opus 4.5還破解了一些常用的基準測試。例如,在衡量智能體能力的τ2-bench中,模型需要扮演航空公司客服人員的角色,幫助一位遇到困難的乘客。

      該基準測試題要求模型拒絕修改經濟艙機票,因為航空公司不允許更改該艙位的機票。然而,Claude Opus 4.5找到了一種巧妙且合理的解決方案:先升艙,然后再修改航班。

      從技術層面來說,由于Claude Opus 4.5幫助客戶的方式出乎意料,基準測試將其判定為失敗。但這種創造性的問題解決方式,是一次意義重大的進步。

      在其他情況下,尋找繞過預期限制的巧妙方法可能被視為獎勵破解——即模型以非預期的方式“玩弄”規則或目標。

      防止此類偏差是Anthropic安全測試的目標之一。在內部評估中,Claude Opus 4.5展現出令人擔憂的行為的概率略高于10%,遠低于GPT-5.1和Gemini 3 Pro的20%。


      Claude Opus 4.5在抵御提示詞注入攻擊方面取得了顯著進展。提示注入攻擊會偷偷植入欺騙性指令,誘使模型執行有害行為。Opus 4.5比業內任何其他前沿模型都更難被提示注入攻擊欺騙。


      三、新增思考強度控制,用上GPT同款上下文壓縮功能

      在發布最新模型的同時,Anthropic還宣布了Claude開發者平臺的一系列新增功能。

      隨著模型智能水平的提升,它們能以更少步驟解決問題:減少回溯、冗余探索和冗長推理。Claude Opus 4.5相比前代模型,在達成相同或更優結果時顯著減少了token消耗。但不同任務需要不同的權衡——開發者有時希望模型持續思考難題,有時則需要更敏捷的響應。

      通過Claude API新增的“思考強度”參數(effort parameter),開發者可自主選擇最小化時間成本或最大化模型能力。

      在中等強度設置下,Claude Opus 4.5在SWE-bench Verified測試中達到Sonnet 4.5最佳成績,同時輸出token減少76%。

      在最高強度下,其性能超越Claude Sonnet 4.5達4.3個百分點,且節省48%的token。


      結合強度控制、上下文壓縮與高級工具使用能力,Claude Opus 4.5能處理更持久復雜的任務,并減少人工干預。值得注意的是,OpenAI上周推出的GPT-5.1 Codex Max也具備上下文壓縮的新功能。

      Claude開發者平臺在上下文管理與記憶能力方面實現突破,顯著提升了智能體任務的表現。Claude Opus 4.5在協調子智能體團隊方面尤為出色,支持構建復雜且協作良好的多智能體系統。測試數據顯示,這些技術組合使Claude Opus 4.5在深度研究評估中的性能提升近15個百分點。

      Anthropic公司正持續提升開發者平臺的可組合性,通過提供效率控制、工具使用和上下文管理等基礎模塊,助力開發者精準構建所需功能。

      產品方面,Claude Code隨Claude Opus 4.5獲得雙重升級:計劃模式能制定更精確方案并徹底執行——首先主動詢問澄清問題,隨后生成用戶可編輯的plan.md文件再實施操作。

      同時該功能現已登陸桌面應用,支持并行運行本地與遠程會話,實現多智能體協同工作(如同時進行代碼修復、GitHub研究及文檔更新)。

      針對Claude應用程序用戶,長對話不再受限于上下文長度,系統會自動總結早期對話內容,以保持交流連續性。

      面向所有Max用戶的Claude for Chrome現已全面開放,支持跨瀏覽器標簽頁處理任務;十月發布的Claude for Excel今日將測試權限擴展至所有Max、Team及Enterprise用戶。這些更新均得益于Claude Opus 4.5在計算機操作、電子表格處理及長時任務管理方面的提升。


      ▲Claude Opus 4.5打造的PPT

      對于已獲Claude Opus 4.5使用權限的Claude與Claude Code用戶,平臺取消了Opus專屬限額。面向Max和Team Premium用戶,總體使用額度得到提升,這意味著用戶現在可使用的Opus token量相當于此前Sonnet的配額。

      結語:長時序、端到端能力成編程模型升級重點

      隨著Claude Opus 4.5的發布,編程模型又迎來新的標桿。其在復雜任務規劃、多智能體協作及長時序任務處理上的突破,標志著AI正從“代碼補全工具”向“端到端開發伙伴”演進。

      近期Anthropic、OpenAI等廠商的編程模型發展方向,都更聚焦于長時序任務的高效執行、大體量項目的端到端完成。隨著模型絕對性能的提升和使用成本的降低,軟件開發流程或將迎來深刻變革。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      她每年采訪30-50位北大學生, 發現“超前學”的孩子長大后成這樣 ...

      閱讀第一
      2025-12-07 08:32:59
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      18年生涯最失敗賽季,漢密爾頓:我受夠了!

      18年生涯最失敗賽季,漢密爾頓:我受夠了!

      體育妞世界
      2025-12-07 16:14:18
      人民日報怒批,炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      人民日報怒批,炫富、偷稅749萬、跑國外,現又來“割內地韭菜”

      丁丁鯉史紀
      2025-12-03 09:15:50
      一度在中國控制之下的法卡山,到最后卻給了越南,你知道原因嗎?

      一度在中國控制之下的法卡山,到最后卻給了越南,你知道原因嗎?

      小濤叨叨
      2025-12-07 20:06:02
      水果姐官宣與加拿大前總理特魯多戀情,發布首張自拍合影

      水果姐官宣與加拿大前總理特魯多戀情,發布首張自拍合影

      韓小娛
      2025-12-07 16:29:49
      被橫掃,改變對曼昱稱呼,誰注意張本美和握手舉動,曼昱傷情曝光

      被橫掃,改變對曼昱稱呼,誰注意張本美和握手舉動,曼昱傷情曝光

      樂聊球
      2025-12-07 21:03:54
      意媒解析國米對陣利物浦三大武器:斯洛特的執念 薩拉赫風波

      意媒解析國米對陣利物浦三大武器:斯洛特的執念 薩拉赫風波

      國際足球冷雪
      2025-12-08 09:00:05
      “給你們鞠躬”最快女護士再獲1.5萬獎金 近7周跑5場總獎金18.5萬

      “給你們鞠躬”最快女護士再獲1.5萬獎金 近7周跑5場總獎金18.5萬

      風過鄉
      2025-12-07 12:07:44
      在寸土寸金的香港,貴為視后也難買豪宅,你看胡杏兒和鐘嘉欣聚餐

      在寸土寸金的香港,貴為視后也難買豪宅,你看胡杏兒和鐘嘉欣聚餐

      可樂談情感
      2025-11-25 12:07:13
      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      重大轉向!美國發布最新《國家安全戰略》:放棄全球霸權,將調整與中國經濟關系,“以互惠平等為原則”,承認中美“近乎對等”!歐洲炸鍋

      每日經濟新聞
      2025-12-06 23:23:09
      南京市中心商場被瘋狂吐槽!現場實探形同鬼屋

      南京市中心商場被瘋狂吐槽!現場實探形同鬼屋

      劉哥談體育
      2025-12-08 06:26:05
      不滿?張本智和:在成都發生了很多事!沒必要說出來,但我不會忘

      不滿?張本智和:在成都發生了很多事!沒必要說出來,但我不會忘

      念洲
      2025-12-08 08:14:17
      消息稱蘋果芯片主管斯魯吉考慮離職;陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億|Do早報

      消息稱蘋果芯片主管斯魯吉考慮離職;陳震宣布暫停一切對外表達;《瘋狂動物城 2》票房突破 28 億|Do早報

      DoNews
      2025-12-08 09:31:08
      短短兩周內,廣東一地鐵站先后撿到兩包現金,金額均超10萬元……坐地鐵遺失財物怎么辦?官方提醒

      短短兩周內,廣東一地鐵站先后撿到兩包現金,金額均超10萬元……坐地鐵遺失財物怎么辦?官方提醒

      環球網資訊
      2025-12-07 21:06:11
      和稀泥的專家,哄女人的高手,韋小寶在世也不得不服他!

      和稀泥的專家,哄女人的高手,韋小寶在世也不得不服他!

      歷史按察使司
      2025-12-08 08:55:03
      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      又一比賽獲獎名單復制百度人名大全,負責人:工作人員鉆空子

      澎湃新聞
      2025-12-07 20:46:28
      已正式開啟!無錫適齡男子都要登記

      已正式開啟!無錫適齡男子都要登記

      江南晚報
      2025-12-06 15:42:35
      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      同事搭我便車,高速上一路冷嘲熱諷,到服務區后:你在這等我一下

      蘭姐說故事
      2025-12-03 12:05:07
      中戲明星班畢業,搭檔孫紅雷也沒紅,48歲的她卻活成了人間清醒

      中戲明星班畢業,搭檔孫紅雷也沒紅,48歲的她卻活成了人間清醒

      手工制作阿殲
      2025-12-07 16:27:46
      2025-12-08 10:24:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10859文章數 116921關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      時尚
      旅游
      家居
      親子
      教育

      除了大衣,今年最火的外套一定就是它了!

      旅游要聞

      云南騰沖:銀杏金黃入畫來

      家居要聞

      白味湯館 當代宴飲儀式

      親子要聞

      這五招讓娃主動吃飯

      教育要聞

      全市基礎教育質量提升暨振興縣域高中現場推進會召開

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 江油市| 国模冰莲大胆自慰难受| 免费拍拍拍网站| 日韩人妻无码精品系列| 亚洲国产精品ⅴa在线观看| 国产suv精品一区二区33| 久久精品国产2020| 国产亚洲精品久久久久蜜臀| 国产在线精品无码二区| 中国大陆高清aⅴ毛片| 亚洲国产精品成人无码区| 欧美人与动欧交视频| √新版天堂资源在线资源| 真实的国产乱xxxx| 色中色成人导航| 国产农村一国产农村无码毛片| 免费无码又爽又黄又刺激网站| 黄色无码视频| 成人性爱视频网站| 国产91精品丝袜美腿在线| 成全影视大全在线观看| 久久这里都是精品二| 四房播色综合久久婷婷| 毛片自拍| 无码精品黑人| 能把下面看湿的视频| 日本A在线| 房产| 人妻?第一页| 131美女爱做视频| 三上悠亚在线精品二区| 胸大美女又黄的网站| 亚洲蜜桃精久久久久久久久久久久| 少妇下蹲露大唇无遮挡| 国产成人精品一区二区三区免费| 国产乱视频在线观看| 午夜欧美日韩在线视频播放| ww污污污网站在线看com| 口爆少妇| 中文字幕在线v| 亚洲v|