網易首頁 > 網易號 > 正文申請入駐

Anthropic發布Claude Sonnet 4.5：編程能力再登頂，新產品試圖顛覆Windows操作系統

2025-09-30 04:21:33　來源: AI進化論花生

北京舉報

分享至

今天凌晨，Anthropic毫無征兆地突然發布了Claude Sonnet 4.5，從版本號、發布的文章以及隨之而來的產品功能更新看，這是個相當大的值得關注的版本。

核心要點

Claude Sonnet 4.5在SWE-bench Verified基準測試中達到行業最高水平，可持續專注超30小時處理復雜任務，定價維持不變($3/$15每百萬tokens)
計算機使用能力大幅提升，OSWorld基準從4個月前的42.2%躍升至61.4%
Anthropic首次開放Claude Agent SDK，將支撐Claude Code的基礎設施向開發者開放
推出"Imagine with Claude"研究預覽，展示實時軟件生成能力（非常有趣，文章中有實測案例）

模型性能又又又突破了

根據官方披露的數據，Claude Sonnet 4.5模型在多項關鍵指標上實現顯著提升。

當然，我們最最關心的還是編程能力。Claude Sonnet 4.5在SWE-bench Verified評估中繼續突破自己，超越了死貴死貴的Claude Opus 4.1達到當前最高水平（而價格則是維持和Claude Sonnet 4一樣的水平）。SWE-bench Verified算是衡量AI模型解決真實世界軟件編程問題的最重要的能力指標。Anthropic表示，在實際應用中觀察到該模型能夠在復雜多步驟任務上保持超過30小時的持續專注。聽起來有點針對OpenAI CodeX的7小時了。

計算機使用能力方面的進步尤為明顯。在測試AI模型執行真實計算機任務的OSWorld基準測試中，Sonnet 4.5取得61.4%的成績，相比四個月前Sonnet 4的42.2%提升約45%。

Claude 官方用來展示的例子是他們做的瀏覽器插件——Claude for Chrome，演示的這個例子涉及表格、郵件、數字計算等，任務還算挺復雜的，效果看起來不錯。

前幾天，我發過一個用Claude Code+Chrome Devtools MCP當我的B站/油管運營實習生，自動給評論區回復內容的嘗試，看起來這套組合所擁有的潛力還能繼續挖掘。

除編程能力外，該模型在推理和數學相關的多項評估中也顯示出改進。來自金融、法律、醫學和STEM領域的專家評估顯示，Sonnet 4.5在特定領域的知識深度和推理能力上相比早期模型(包括Opus 4.1)有顯著提升。

注：STEM是四個學科領域英文首字母的縮寫：

-Science（科學）

-Technology（技術）

-Engineering（工程）

-Mathematics（數學）

對齊與安全性改進

Anthropic強調，Claude Sonnet 4.5是該公司迄今為止"對齊度最高的前沿模型"。在自動化行為審計測試中，該模型在多個維度上的不良行為得分顯著降低，包括奉承、欺騙、權力尋求以及鼓勵妄想性思維等傾向。

針對AI代理和計算機使用場景中最嚴重的風險之一——提示注入攻擊，Anthropic表示已取得重大進展。根據其發布的系統卡(system card)：https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf，該模型的安全評估首次納入了機械可解釋性(mechanistic interpretability)技術。

該模型按照Anthropic的AI安全等級3(ASL-3)框架發布，配備了專門的分類器用于檢測潛在危險的輸入和輸出，特別是涉及化學、生物、放射性和核武器(CBRN)相關內容。Anthropic表示，自該系統首次描述以來，誤報率已降低十倍，自5月Claude Opus 4發布以來降低了一半。

Claude Agent SDK開放

深入用過Claude Code的人應該都會認同，盡管有很多產品都在稱自己是通用型AI Agent，但真正在能力上做到又強又通用的，還真就是Claude Code。而在這次的發布里，Claude把他們用來構建Claude Code的所有基建，都作為Agent SDK開放了。

該SDK解決了構建AI代理過程中的幾個核心難題：長時間運行任務中的內存管理、平衡自主性與用戶控制的權限系統、以及協調多個子代理朝向共同目標工作的機制。

Anthropic表示，雖然該SDK是為Claude Code開發的，但其適用范圍遠超編程領域。從今日起，開發者可以使用這一SDK構建自己的AI代理應用。

產品生態系統更新

配合模型發布，Anthropic同步推出了多項產品功能更新：

Claude Code獲得了用戶呼聲最高的"檢查點"(checkpoints)功能，允許保存進度并即時回滾到之前狀態。終端界面經過重新設計，并推出了原生VS Code擴展。

哈哈哈，“推出了原生VS Code擴展”這一點很有趣，說明Claude的AI編程產品形態不止于CLI，而是要開始進入IDE形態了。其實也很像我前段時間所吐槽的那樣

Claude Code推出后，國內大廠也一窩蜂去做CLI形態的AI編程產品，但是Claude Code強并不代表CLI形態的天然正確。拋棄圖形界面增加了用戶使用門檻，但并沒有真正絕對的先進性，這不，Claude 也要開始重新覆蓋具備圖形界面的IDE插件這種產品形態，我估計離Claude原生AI IDE也不遠了。

ClaudeAPI新增了上下文編輯功能和內存工具，使代理能夠運行更長時間并處理更高復雜度的任務。

Claude應用中直接集成了代碼執行和文件創建能力，支持電子表格、幻燈片和文檔的生成。

Claude for Chrome擴展向上月加入等候名單的Max用戶開放。該擴展利用了模型升級后的計算機使用能力，可以直接在瀏覽器中導航網站、填寫表格并完成任務。

"Imagine with Claude"研究預覽

"Imagine with Claude"，Anthropic稱之為臨時研究預覽，用來展示實時軟件生成能力。我覺得算是這次發布里最有趣也最有野心的一個產品了。該實驗中的功能并非預先確定，代碼也非預先編寫，而是由Claude實時創建，根據用戶交互進行響應和適應。

它提供了一個類似帶輸入框的桌面界面，你可以通過自然語言去生成各類應用。

比如我試了天氣預報、計算器、游戲、足球比賽實時比分看板等，很特別的是所有功能和界面都是流式生成，在你面前實時展現的。

而且，很多界面展示還沒功能，會在你點擊操作后，Claude會預測你下一步需要的功能和界面，再做后續的內容/功能生成。我看到了Anthropic有種想再建一個AI native的操作系統的想法。

這是個很有趣的開始。

功能鏈接在此，需要Max會員才能用：https://claude.ai/imagine/

雖然Anthropic這家公司，以及他們的CEO在對華政策上有各種愚蠢的問題。但不得不承認他們的模型在Coding、Agent上的領先性，這次的更新又將會是對AI編程產品和Agent產品不小的洗牌。

誰對Claude Sonnet 4.5模型的能力有最強的認知，誰能用工程能力把這個模型的能力壓榨透，誰又能在這個新智能的基礎上構建出新形態的產品，還真是無比值得期待。

而像“Imagine with Claude”這個功能實在是個初級得不能再初級的初代產品，但是它背后又隱藏著顛覆Windows的可能性，我覺得這會是個被重新開拓的新戰場，很高興身處在一個這么有趣的變化時代。

如果你覺得內容對你有幫助，歡迎點贊、收藏、轉發，這都是我最大的支持～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.