全文 2,000字 | 閱讀約 6 分鐘
![]()
(Anthropic CPO:談Sonnet 4.5的設計核心“品味”)
2025 年 9 月 29 日,Anthropic 發布新一代前沿模型:Claude Sonnet 4.5。這款模型的最大亮點,不是性能跑分,而是持續運行能力和任務完整度。
![]()
在一次真實測試中,Claude Sonnet 4.5 自主運行 30 小時,完成了一個類似釘釘、飛書的企業聊天應用開發。 核心突破:
AI 不是生成原型,而是真的獨自交付產品。
這意味著什么?
AI 第一次完整跑通了一個工程流程,從代碼到部署,真正實現了生產級應用的自主開發。
在 AI 編程大戰中,風向正在轉變。GPT-5 推理能力剛剛引發熱議,Anthropic 就憑借 Claude 奪下了“最強編程模型”的寶座。同時發布的還包括 Agent SDK(智能代理開發工具包)、升級版 Claude Code 插件、VS Code 環境集成、長任務恢復系統等一整套工程自動化基礎設施。
這一次,Claude 不是來輔助你,而是告訴你:
AI,可以獨立承擔完整的開發任務了。
第一節|30小時能做什么?![]()
(Claude Sonnet 4.5:30小時自主開發完整應用)
“30 小時能干什么?”
在企業場景里,這不是一個驚艷的數字。但對于 AI 模型來說,能連續自主運行 30 小時并完成完整項目,是一道從未被跨過的門檻。
Anthropic 沒有發 PPT,也沒做演示。他們直接公布了 Claude Sonnet 4.5 的實測表現:生成超 1.1 萬行代碼,自動構建一個完整的企業聊天應用,直到任務完成才主動停下。
這中間,它做了這些事:
創建數據庫并完成配置
注冊域名、設置托管
通過 SOC 2 審計流程,確保數據合規
交付可運行、可部署、可測試的完整工程
這一能力,在業內被稱為“生產級別”開發,之前從未有模型做到。
? 穩定性:從“會寫”到“能做”
Anthropic 研究員 David Hershey 在采訪中表示:
“在早期測試中,Claude 4.5 能連續處理多個相互關聯的復雜任務,不僅不出錯,還能自己識別進度、保持節奏。”
Cursor CEO Michael Truell 說:
“這是我見過在長周期任務里表現最穩定的編程模型。”
Windsurf CEO Jeff Wang 看到了更深層的意義:
“Claude Sonnet 4.5 不是升級,是換代。它標志著新一代 AI 編程模型的起點。”
三位行業領袖的共識:長周期任務的穩定性,才是真正的突破。
評測驗證:能不能干正事
Anthropic 提供了一組權威數據:
![]()
(Claude Sonnet 4.5 在 SWE-bench Verified 評估中名列前茅)
![]()
(Claude Sonnet 4.5 是Anthropic 迄今為止最強大的模型)
在 SWE-bench Verified(真實代碼修改任務)中,Claude Sonnet 4.5 排名第一,領先 GPT-4 和 Gemini;在 OSWorld(模擬實際電腦操作)中,得分從上一代的 42.2% 躍升至 61.4%,提升近 50%。
這些評測不看模型能生成多少字、答對幾道題,而是看它能不能把復雜任務做完做對。
? 實戰反饋:工程師怎么說
Canva 工程團隊已經在用 Claude Sonnet 4.5,他們的反饋很真實:
“讓它處理代碼庫工程任務,或生成產品研究模塊,它都能做得很完整。”
Anthropic 產品負責人 Dianne Penn 接受采訪時坦言,她自己都被驚到了:
“從 GitHub 和 Cursor 那邊收到的真實反饋顯示,Sonnet 4.5 在瀏覽器導航、系統操作上的熟練度,比上一代提升了三倍以上。”
這不只是"能理解",而是真能動手干活。
重點突破:可交付
關鍵不在于模型能跑多久,而在于它真正具備了"完成一件事"的能力。在開發流程中,這有個專業術語:交付。
GPT-5 強調推理能力的提升,Claude Sonnet 4.5 則在回答另一個問題:AI 能不能真的撐起一個完整的工程環節?
答案是:能了。
第二節|從工具到平臺:Agent SDK 帶來了什么?
AI 能不能真正落地,靠的從來不只是模型本身。
Anthropic 這次沒有只發布 Claude Sonnet 4.5,而是連同一整套基礎設施一起上線,名為:Claude Agent SDK。
它不是寫給研究員的,是寫給開發者的。這是一套讓你能“組裝專屬 AI 助手”的完整工具包。
?SDK 能做什么?
用它可以:
給 AI 設定明確目標:“幫我把客戶信息處理好再導出表格”
管理 AI 的記憶:讓它知道上一階段做了什么,現在該繼續什么
分配操作權限:哪些能自主完成,哪些必須等你確認
協調多個 AI:讓它們配合完成更復雜的任務
這些看似復雜,其實都是工程里的基礎能力,只是以前沒人讓 AI 來做。
這套工具包原本是 Anthropic 內部使用的,支撐著 Claude Code 的運行。現在他們決定開放給所有開發者:
“我們把支撐 Claude Code 的構建模塊打包成 SDK,開發者可以用同一套機制,構建屬于自己的 AI 代理。”
通俗點說:你不用從零開發,可以直接基于這套框架,快速搭建適合業務需求的 AI 助手。無論是項目執行器、數據處理工具,還是客戶服務機器人,都能實現。
? 為什么這一步關鍵?
這代表一個重要轉向:從使用工具,到定制助手。
就像過去你用 Excel 處理數據,現在你可以用 Excel 的組件搭建一個專門處理財務的智能工具。
Anthropic 產品負責人 Dianne Penn 直接分享了她的實踐:
“我招人時,讓 Claude 做深度網絡搜索,篩選 LinkedIn 個人資料,生成表格方便我聯系。這個流程現在可以打包成一個 Agent,每次打開就能自動運行。”
她還補充道:
“我們過去半年更新 Claude Code 時遇到的工程難題,比如權限管理、記憶存儲、錯誤回滾,都整理進了 SDK。”
有了這套完整工具,Claude Sonnet 4.5 的意義就不一樣了:AI 不再只是調用接口的“產品”,而是能嵌入業務流程、真正干活的“角色”。
能力變強是起點,能落地才是終點。
第三節|閉環能力的核心:AI 如何“做完一件事”
很多人對“AI 寫代碼”的理解,還停留在補全函數、修改 bug。
但 Claude Sonnet 4.5 展示的,是另一個維度的能力:完整跑通一個任務。
?什么是“閉環”?
在工程領域,“閉環”指的是:從接到需求,到交付成果,整個過程不需要外部干預。
具體到 AI 編程,閉環意味著:
理解任務目標
規劃執行步驟
處理中間異常
驗證最終結果
自主判斷何時結束
這不是寫得快,而是“做得完”。
1、從"會做"到"做完"的跨越
Anthropic 研究員 David Hershey 在采訪中強調:
“我們關注的不是 Claude 能不能生成某個模塊,而是它能不能自己安排順序、處理中斷、補全遺漏。”
這正是閉環能力的核心:過程管理。
Canva 測試團隊的反饋也印證了這點:
“Claude 處理我們代碼庫任務時,不光能跟上邏輯,還能理解產品里的復雜規則,在不同功能模塊間靈活切換。”
2、從靜態到動態的進化
Dianne Penn 在采訪中提到了一個對比:
“去年 10 月,Claude 還只能處理靜態頁面;現在它能完成整套瀏覽器操作,查日程、整理會議紀要、輸出日報。”
產品負責人 Scott White 的比喻更直觀:
“Claude 的工作方式,接近一個助理。你要開會,它能查出所有人的空檔時間,看數據儀表板,總結成狀態更新。”
關鍵轉變在于:從單次響應到持續協作。
? 實現閉環的三個支柱
Claude 的閉環能力,依靠三項底層機制:
1. 上下文管理
通過 Agent SDK 的內存系統,記住整個任務的歷史狀態,避免重復或遺漏。
2. 權限機制
在需要人工確認的環節主動暫停,在可自主完成的部分自動推進。
3. 檢查點系統
自動保存進度,出錯時能回滾到最近的穩定狀態,而不是從頭開始。
這三項機制,讓 AI 從“工具”變成了“執行者”。
真正的問題不是能力,是信任
當 AI 真的能完整跑完任務,決策權就轉移了:不是我要不要用 AI, 而是我要不要讓 AI 獨立完成這件事。
這不是技術問題,是協作模式的重構。
結語|真正的轉折點
Claude Sonnet 4.5 的意義,不在參數升級,不在跑分領先。
而在于:AI 第一次能把完整的工作做完。
不是生成幾行代碼,而是接住任務、自主推進、交付結果。
過去,AI 是輔助工具,人帶著它一起做事。現在,Claude 開始回答另一個問題:AI 能不能獨立完成一段工作?
這一次,能了。
這次更新真正的信號是:模型競爭的標準變了。不再比誰更聰明,而是比誰更可靠、誰能閉環。
這是 AI 落地的分水嶺。
現在的問題不是它能不能做到,而是:你準備好把完整任務交給它了嗎?
本文由AI深度研究院出品,內容整理自Anthropic 官方博客、TechCrunch、The Verge。未經授權,禁止轉載。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:
https://www.anthropic.com/news/claude-sonnet-4-5
https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy
https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic
https://www.youtube.com/watch?v=dGiqrsv530Y
https://x.com/tbpn/status/1972750991742349731
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.