<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Sonnet 4.5 上手:一個未來 Agent 的雛形出現了

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      9月30日,Anthropic 發布了新的編程模型 Claude Sonnet 4.5,在新聞稿的第一句就寫到:Claude Sonnet 4.5 is the best coding model in the world.

      換做別的公司我們可能會吐槽“又瘋一個”,但 Anthropic 在 AI 編程上的能力大家有目共睹,無論是大家搶著用的 Claude Sonnet 4 還是引領編程 Agent 的 Claude Code,換句話說 AI 編程的上限全靠 Anthropic 來突破。

      那 Claude Sonnet 4.5 到底更新了什么東西,值不值得best coding model的稱號?

      提高跑分不是最大的變化

      在最新的基準測試中,Claude Sonnet 4.5 展現了全面領先的實力。

      具體來看,Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%,成為最會“用電腦”的 AI。在工具調用上,Claude Sonnet 4.5 的表現尤為突出,它能真正調動系統與工具,智能體能力更進一步。它在金融、法律、醫學和STEM等專業領域的知識與推理上,遠超此前的 Opus 4.1。


      然而,相比前一代,它最大的變化不在于跑分,而是功能上的全面升級。

      開發體驗上,Claude Code 增加了檢查點功能,支持隨時保存和回滾,降低出錯成本;同時推出原生 VS Code 插件和全新終端界面,把模型能力直接嵌入工程師最常用的環境。在長任務處理上,它引入上下文編輯和記憶工具,能保持長時間連貫思路,據稱可穩定執行超過 30 小時的復雜任務。

      辦公應用上,它通過 Chrome 插件完成網頁導航、表格填寫和文檔處理,并在 Claude 應用中直接運行代碼、生成表格、幻燈片和文檔,讓對話真正成為工作的入口。而對開發者來說,最重磅的更新是Claude Agent SDK,Anthropic 首次開放自家底層基礎設施,讓外部開發者也能基于 Claude 構建屬于自己的 Agent。

      實測Claude Sonnet 4.5 編程能力,新特征想要 AI IDE 的命?

      Devin 團隊在測試 Claude Sonnet 4.5 時,概括了三個明顯變化:一是更快更穩,運行速度提升約兩倍,“初級開發者評估”得分提高 12%。二是出現了外化記憶的傾向,模型會主動生成總結或筆記文件來維持長任務的連貫性;三是更積極地自我驗證,會寫小腳本或抓取頁面 HTML 來測試和修正方案。

      不過,冷靜來看,這些特征其實在許多 AI IDE 中早已有跡可循:Cursor、Windsurf、Replit Ghostwriter 早就能幫用戶生成文檔、維護項目記憶,甚至在改動后自動運行測試。

      差別在于,IDE 的功能是工程師預設的“外掛模塊”,而在 Claude Sonnet 4.5 身上,這些行為更像是模型自發形成的工作習慣,它會主動寫 SUMMARY.md 給自己留后路,也會在必要時自動生成小腳本來驗證結果。換句話說,區別不在“有沒有”,而在于是外掛功能,還是模型的內驅習慣。

      從長遠來看,這種差別可能會決定未來開發體驗的走向:是繼續依賴 IDE 提供的功能拼裝,還是讓大模型 Agent 自己演化出工作風格。如果后者不斷成熟,Cursor 等 AI IDE 的優勢,或許真的會逐漸被大模型侵蝕。

      我們讓 Claude Sonnet 4.5 寫個小游戲項目。

      prompts:基于Three.js制作一個3d賽車游戲

      最直觀的感受就是快,生成網頁游戲時間不超過1分鐘。其次,Claude 不僅能聽懂非常粗糙的指令,在第一輪對話中就生成一個可以直接運行的游戲原型。后續的修改也非常順暢,只需一句簡單的提示,比如調整速度、賽道寬度或添加箭頭標識,它都能迅速完成。而同樣的提示詞放在 Codex 中,初始階段并沒有直接生成完整的游戲框架。

      首先是第一輪對話,Claude 輸出了一個基礎版本:玩家可以操控賽車前進、后退和轉向,但車輛很容易沖出畫面。


      經過幾輪微調如控制轉彎幅度等,我進一步要求 Claude 參考 F1 賽車的風格,讓賽道更復雜。這是一個比較大幅度的修改,而 Claude 不僅增加了彎道,還在指示牌上進行了美化,并且之前修改的內容都沒有崩。


      最后,為了提升可玩性,我提出希望在賽道上增加箭頭指示方向。Claude 起初生成的箭頭方向有些混亂,但只經過一輪對話,它就完成了修正,使箭頭方向與跑道完美貼合。


      Claude Sonnet 4.5 項目預覽:https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-baf3825d97d7

      從這次小游戲實驗可以看出,Claude Sonnet 4.5 的強大并不只體現在基準測試的分數上,而在于它能把自然語言轉換成可運行項目的過程變得前所未有的流暢。

      在以往,提示詞生成游戲代碼通常意味著大量返工:模型給出一個半成品,用戶要反復調試,甚至需要具備相當的編程基礎。但在 Claude Sonnet 4.5 這里,非常流暢。

      然而,上面的實測案例只是一個小玩具,真正的生產力還是要看具體的生產環境。

      在 Reddit 上,一位開發者用同樣的復雜前端 Bug 并排測試 Claude Sonnet 4.5 與 Codex,結果顯示:Codex 更善于定位根因,而 Claude Sonnet 4.5 經常跑偏,甚至修復“已經好的部分”。

      評論區觀點分化,有人認同 Claude Sonnet 4.5 在復雜調試里容易迷路,并沒有宣傳的那么好。也有人強調它在前端問題上比 Codex 更快。還有人認為 Codex 更深度,但代價是更慢、更貴。

      唯一的共識是:把 Claude 當高產起草者,把 Codex 當審校者,再配合日志和可觀測性工具,才是當前更穩妥的用法。


      Claude 是如何控制電腦的?

      除了編程能力,Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%,這一點對于普通用戶來說,比編程能力更加有吸引力。

      打開桌面端 Claude(Mac),可以看到它有非常多的功能,控制谷歌瀏覽器、讀取記事本、操作Mac、Figma、PDF、Spotify等。


      我們先用 Claude 來操控一下瀏覽器。

      prompts:在chrome中打開谷歌主頁,搜索china daily,采集9月30日的最新新聞

      Claude Sonnet 4.5 在控制 Chrome 時,并非直接“跳到答案”,而是像用戶一樣逐步操作、并調用工具完成鏈路:先用 Open URL 打開 Google 首頁,再用 Execute JavaScript 在搜索框輸入“china daily”并進入官網;隨后調用 Get Page Content 提取頁面內容,若遇到報錯則切換至官網 Latest News 作為容錯路徑,確保數據可得;最后通過內部整理流程做時間過濾(僅保留 9 月 30 日)與版塊分類(政治/經濟/社會/國際)。


      在詳情頁中可以看到,Claude Sonnet 4.5 為 Chrome 提供了一整套工具:既能打開或關閉網頁,也能刷新、后退、前進;還可以執行 JavaScript 代碼來完成點擊、滑動等操作,并直接提取網頁內容。


      我們再來實踐一個與電腦文件交互的案例。

      prompts:在桌面搜索名字里帶Claude的文件夾,看看里面有哪些png文件,并把他們的文件名列出來

      在配置好權限和路徑后,和控制 Chrome 一樣,Claude Sonnet 4.5 會調用擁有的文件處理工具,像人類一樣思考一步一步完成上述的任務。

      Claude 先從桌面路徑 /Users/ddlpc/Desktop 開始,搜索所有名字里包含Claude的文件夾,一共找到四個。隨后逐一檢查這些文件夾的內容。


      從詳情頁中可以看到,該工具既能讀取單個或多個文件內容,也能新建、編輯和寫入文件,還可以創建目錄、列出目錄、查看目錄樹結構,甚至移動文件、搜索文件、獲取文件信息,并管理可訪問的目錄范圍。

      而這樣的工具,Claude 還有很多。

      Claude Sonnet 4.5 的出現,不只是跑分上的勝利。它正在模糊一條界限:大模型到底是一個生成器,還是一個能動的智能體?檢查點、長程記憶、Agent SDK、對 Chrome 的直接操控,這些都讓它越來越像一個能自己處理任務的數字同事。

      當然,它依舊不完美:調試會迷路,執行會跑偏。但這恰恰說明,它不是一把無所不能的工具,而是一個需要協作、需要工程化約束的伙伴。而且過幾個月,Anthropic 會不會偷偷砍 Claude Sonnet 4.5 一刀,強行降智,誰也不知道。

      但有一點可以肯定,這可能是我們最后一次用這些曾經難以想象但今天正變得“小兒科”的測試案例來評測Claude以及緊追它其后的各種模型。這就是今天AI Coding從模型到產品的狂奔速度,接下來只會更瘋狂。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中美70艘驅逐艦4700導彈對決,海上較量已達關鍵時刻

      中美70艘驅逐艦4700導彈對決,海上較量已達關鍵時刻

      明天后天大后天
      2026-04-26 01:59:09
      被賣緬甸女學生后續:對方同意放人后又提無理要求,家屬陷入兩難

      被賣緬甸女學生后續:對方同意放人后又提無理要求,家屬陷入兩難

      苗苗情感說
      2026-04-24 16:35:17
      農婦去北京找丈夫被警衛阻攔,當說出丈夫名字后,被緊急送去見首長

      農婦去北京找丈夫被警衛阻攔,當說出丈夫名字后,被緊急送去見首長

      睡前講故事
      2025-04-25 15:11:25
      臺當局簽了,大批導彈將抵臺,賴清德走上不歸路,解放軍戰艦回防

      臺當局簽了,大批導彈將抵臺,賴清德走上不歸路,解放軍戰艦回防

      吳霶愛體育
      2026-04-24 21:27:02
      67歲遲志強現狀:出獄37年后,定居黑龍江,兒子工作令人淚目

      67歲遲志強現狀:出獄37年后,定居黑龍江,兒子工作令人淚目

      蹲坑看世界
      2026-04-25 19:10:38
      交管12123出現綠拇指!連續3年無扣分,交強險最低475元、免審驗

      交管12123出現綠拇指!連續3年無扣分,交強險最低475元、免審驗

      周哥一影視
      2026-04-23 07:45:52
      馬斯克4000多億買00后公司:“21世紀人才最貴”的含金量還在上升

      馬斯克4000多億買00后公司:“21世紀人才最貴”的含金量還在上升

      老方
      2026-04-24 14:45:38
      臺媒猛料:趙薇前夫出軌女兒家教生私生子,卷走財產讓她空手離婚

      臺媒猛料:趙薇前夫出軌女兒家教生私生子,卷走財產讓她空手離婚

      小邵說劇
      2026-04-23 16:41:13
      新城控股創始人套現100億

      新城控股創始人套現100億

      地產微資訊
      2026-03-13 09:52:43
      寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

      寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

      番外行
      2026-04-23 07:43:15
      互聯網是有記憶的,她的黑歷史一大堆啊!

      互聯網是有記憶的,她的黑歷史一大堆啊!

      BenSir本色說
      2026-04-15 22:38:07
      意外!他上賽季在降級隊都發揮平平,為何如今來蓉城就表現不俗

      意外!他上賽季在降級隊都發揮平平,為何如今來蓉城就表現不俗

      振剛說足球
      2026-04-25 15:16:44
      臺灣最新民調出爐,蔣萬安、鄭麗文支持率驚人,民眾黨大將已表態

      臺灣最新民調出爐,蔣萬安、鄭麗文支持率驚人,民眾黨大將已表態

      精彩瞬間回顧
      2026-04-24 21:18:50
      四川女籃再奪WCBA總冠軍!時隔一年冠軍為何能歸蜀?

      四川女籃再奪WCBA總冠軍!時隔一年冠軍為何能歸蜀?

      封面新聞
      2026-04-25 23:40:04
      TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

      TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

      翰飛觀事
      2026-04-22 19:35:28
      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      劉姚堯的文字城堡
      2026-04-25 19:23:27
      收官戰挖出頂級寶藏!龐崢麟強勢爆發,遼寧下賽季必須全力拿下

      收官戰挖出頂級寶藏!龐崢麟強勢爆發,遼寧下賽季必須全力拿下

      小彭美識
      2026-04-25 15:59:19
      丁俊暉:趙心童打球太像奧沙利文了,他未來將接管斯諾克這項運動

      丁俊暉:趙心童打球太像奧沙利文了,他未來將接管斯諾克這項運動

      楊華評論
      2026-04-25 07:03:01
      斯馬特、霍勒迪、多爾特:三大矮壯防守神將,實力與2K數值大揭秘

      斯馬特、霍勒迪、多爾特:三大矮壯防守神將,實力與2K數值大揭秘

      仰臥撐FTUer
      2026-04-25 20:40:05
      普通人一輩子存款的天花板是多少?網友:可以去十八線城市養老了

      普通人一輩子存款的天花板是多少?網友:可以去十八線城市養老了

      夜深愛雜談
      2026-04-23 07:34:26
      2026-04-26 02:35:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      274文章數 38關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      手機
      親子
      健康
      公開課
      軍事航空

      手機要聞

      iPhone Ultra機模上手:11mm厚、無長焦,蘋果第一折就這?

      親子要聞

      發生率僅十萬分之一!這種稀有血型跨省緊急調配,只為守護母嬰安全

      干細胞如何讓燒燙傷皮膚"再生"?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国外欧美一区另类中文字幕| 庆云县| 亚洲国产系列| 国产欧美日韩精品丝袜高跟鞋| 欧美一区二区丝袜高跟鞋| 极品妇女扒开粉嫩小泬| 汶上县| 69精品在线观看| 少妇人妻系列无码专区视频| 邻居少妇张开双腿让我爽一夜| 99久久免费精品色老| 欧美阿V| 女人与公狼做交十配视频| 疯狂的欧美乱大交| 亚洲欧美电影在线一区二区| 湟中县| 日本乱人伦aⅴ精品潮喷| 无套内射极品少妇chinese| 国产香蕉九九久久精品免费| 18禁不禁短片| 亚洲综合色AAA成人无码| 欧美性xxxxx极品少妇| 免费人成在线观看网站| 商河县| 成人中文字幕无码| 日产精品久久久久久久蜜臀| www.abcfun.cn| 亚洲超碰97无码中文字幕| 亚洲欧美国产免费综合视频| 亚洲性日韩精品一区二区| 日韩午夜福利无码专区a| 亚洲成人综合无码| 欧美激情网站| 永久黄片| 91大神在线精品视频一区| 精品国产综合区久久久久久| 99在线精品国自产拍不卡| 亚洲国产精品一区二区久久hs | 688欧美人禽杂交狂配| 黄色影站| 被黑人伦流澡到高潮HNP动漫|