網易首頁 > 網易號 > 正文申請入駐

30小時，1.1萬行代碼，Claude Sonnet 4.5 做了什么？

2025-09-30 08:01:09　來源: AI深度研究員

上海舉報

分享至

全文 2,000字 | 閱讀約 6 分鐘

（Anthropic CPO：談Sonnet 4.5的設計核心“品味”）

2025 年 9 月 29 日，Anthropic 發布新一代前沿模型：Claude Sonnet 4.5。這款模型的最大亮點，不是性能跑分，而是持續運行能力和任務完整度。

在一次真實測試中，Claude Sonnet 4.5 自主運行 30 小時，完成了一個類似釘釘、飛書的企業聊天應用開發。核心突破：

AI 不是生成原型，而是真的獨自交付產品。

這意味著什么？

AI 第一次完整跑通了一個工程流程，從代碼到部署，真正實現了生產級應用的自主開發。

在 AI 編程大戰中，風向正在轉變。GPT-5 推理能力剛剛引發熱議，Anthropic 就憑借 Claude 奪下了“最強編程模型”的寶座。同時發布的還包括 Agent SDK（智能代理開發工具包）、升級版 Claude Code 插件、VS Code 環境集成、長任務恢復系統等一整套工程自動化基礎設施。

這一次，Claude 不是來輔助你，而是告訴你：

AI，可以獨立承擔完整的開發任務了。

第一節｜30小時能做什么？

（Claude Sonnet 4.5：30小時自主開發完整應用）

“30 小時能干什么？”

在企業場景里，這不是一個驚艷的數字。但對于 AI 模型來說，能連續自主運行 30 小時并完成完整項目，是一道從未被跨過的門檻。

Anthropic 沒有發 PPT，也沒做演示。他們直接公布了 Claude Sonnet 4.5 的實測表現：生成超 1.1 萬行代碼，自動構建一個完整的企業聊天應用，直到任務完成才主動停下。

這中間，它做了這些事：

創建數據庫并完成配置
注冊域名、設置托管
通過 SOC 2 審計流程，確保數據合規
交付可運行、可部署、可測試的完整工程

這一能力，在業內被稱為“生產級別”開發，之前從未有模型做到。

? 穩定性：從“會寫”到“能做”

Anthropic 研究員 David Hershey 在采訪中表示：

“在早期測試中，Claude 4.5 能連續處理多個相互關聯的復雜任務，不僅不出錯，還能自己識別進度、保持節奏。”

Cursor CEO Michael Truell 說：

“這是我見過在長周期任務里表現最穩定的編程模型。”

Windsurf CEO Jeff Wang 看到了更深層的意義：

“Claude Sonnet 4.5 不是升級，是換代。它標志著新一代 AI 編程模型的起點。”

三位行業領袖的共識：長周期任務的穩定性，才是真正的突破。

評測驗證：能不能干正事

Anthropic 提供了一組權威數據：

（Claude Sonnet 4.5 在 SWE-bench Verified 評估中名列前茅）

（Claude Sonnet 4.5 是Anthropic 迄今為止最強大的模型）

在 SWE-bench Verified（真實代碼修改任務）中，Claude Sonnet 4.5 排名第一，領先 GPT-4 和 Gemini；在 OSWorld（模擬實際電腦操作）中，得分從上一代的 42.2% 躍升至 61.4%，提升近 50%。

這些評測不看模型能生成多少字、答對幾道題，而是看它能不能把復雜任務做完做對。

? 實戰反饋：工程師怎么說

Canva 工程團隊已經在用 Claude Sonnet 4.5，他們的反饋很真實：

“讓它處理代碼庫工程任務，或生成產品研究模塊，它都能做得很完整。”

Anthropic 產品負責人 Dianne Penn 接受采訪時坦言，她自己都被驚到了：

“從 GitHub 和 Cursor 那邊收到的真實反饋顯示，Sonnet 4.5 在瀏覽器導航、系統操作上的熟練度，比上一代提升了三倍以上。”

這不只是"能理解"，而是真能動手干活。

重點突破：可交付

關鍵不在于模型能跑多久，而在于它真正具備了"完成一件事"的能力。在開發流程中，這有個專業術語：交付。

GPT-5 強調推理能力的提升，Claude Sonnet 4.5 則在回答另一個問題：AI 能不能真的撐起一個完整的工程環節？

答案是：能了。

第二節｜從工具到平臺：Agent SDK 帶來了什么？

AI 能不能真正落地，靠的從來不只是模型本身。

Anthropic 這次沒有只發布 Claude Sonnet 4.5，而是連同一整套基礎設施一起上線，名為：Claude Agent SDK。

它不是寫給研究員的，是寫給開發者的。這是一套讓你能“組裝專屬 AI 助手”的完整工具包。

?SDK 能做什么？

用它可以：

給 AI 設定明確目標：“幫我把客戶信息處理好再導出表格”
管理 AI 的記憶：讓它知道上一階段做了什么，現在該繼續什么
分配操作權限：哪些能自主完成，哪些必須等你確認
協調多個 AI：讓它們配合完成更復雜的任務

這些看似復雜，其實都是工程里的基礎能力，只是以前沒人讓 AI 來做。

這套工具包原本是 Anthropic 內部使用的，支撐著 Claude Code 的運行。現在他們決定開放給所有開發者：

“我們把支撐 Claude Code 的構建模塊打包成 SDK，開發者可以用同一套機制，構建屬于自己的 AI 代理。”

通俗點說：你不用從零開發，可以直接基于這套框架，快速搭建適合業務需求的 AI 助手。無論是項目執行器、數據處理工具，還是客戶服務機器人，都能實現。

? 為什么這一步關鍵？

這代表一個重要轉向：從使用工具，到定制助手。

就像過去你用 Excel 處理數據，現在你可以用 Excel 的組件搭建一個專門處理財務的智能工具。

Anthropic 產品負責人 Dianne Penn 直接分享了她的實踐：

“我招人時，讓 Claude 做深度網絡搜索，篩選 LinkedIn 個人資料，生成表格方便我聯系。這個流程現在可以打包成一個 Agent，每次打開就能自動運行。”

她還補充道：

“我們過去半年更新 Claude Code 時遇到的工程難題，比如權限管理、記憶存儲、錯誤回滾，都整理進了 SDK。”

有了這套完整工具，Claude Sonnet 4.5 的意義就不一樣了：AI 不再只是調用接口的“產品”，而是能嵌入業務流程、真正干活的“角色”。

能力變強是起點，能落地才是終點。

第三節｜閉環能力的核心：AI 如何“做完一件事”

很多人對“AI 寫代碼”的理解，還停留在補全函數、修改 bug。

但 Claude Sonnet 4.5 展示的，是另一個維度的能力：完整跑通一個任務。

?什么是“閉環”？

在工程領域，“閉環”指的是：從接到需求，到交付成果，整個過程不需要外部干預。

具體到 AI 編程，閉環意味著：

理解任務目標
規劃執行步驟
處理中間異常
驗證最終結果
自主判斷何時結束

這不是寫得快，而是“做得完”。

1、從"會做"到"做完"的跨越

Anthropic 研究員 David Hershey 在采訪中強調：

“我們關注的不是 Claude 能不能生成某個模塊，而是它能不能自己安排順序、處理中斷、補全遺漏。”

這正是閉環能力的核心：過程管理。

Canva 測試團隊的反饋也印證了這點：

“Claude 處理我們代碼庫任務時，不光能跟上邏輯，還能理解產品里的復雜規則，在不同功能模塊間靈活切換。”

2、從靜態到動態的進化

Dianne Penn 在采訪中提到了一個對比：

“去年 10 月，Claude 還只能處理靜態頁面；現在它能完成整套瀏覽器操作，查日程、整理會議紀要、輸出日報。”

產品負責人 Scott White 的比喻更直觀：

“Claude 的工作方式，接近一個助理。你要開會，它能查出所有人的空檔時間，看數據儀表板，總結成狀態更新。”

關鍵轉變在于：從單次響應到持續協作。

? 實現閉環的三個支柱

Claude 的閉環能力，依靠三項底層機制：

1. 上下文管理
通過 Agent SDK 的內存系統，記住整個任務的歷史狀態，避免重復或遺漏。

2. 權限機制
在需要人工確認的環節主動暫停，在可自主完成的部分自動推進。

3. 檢查點系統
自動保存進度，出錯時能回滾到最近的穩定狀態，而不是從頭開始。

這三項機制，讓 AI 從“工具”變成了“執行者”。

真正的問題不是能力，是信任

當 AI 真的能完整跑完任務，決策權就轉移了：不是我要不要用 AI，而是我要不要讓 AI 獨立完成這件事。

這不是技術問題，是協作模式的重構。

結語｜真正的轉折點

Claude Sonnet 4.5 的意義，不在參數升級，不在跑分領先。

而在于：AI 第一次能把完整的工作做完。

不是生成幾行代碼，而是接住任務、自主推進、交付結果。

過去，AI 是輔助工具，人帶著它一起做事。現在，Claude 開始回答另一個問題：AI 能不能獨立完成一段工作？

這一次，能了。

這次更新真正的信號是：模型競爭的標準變了。不再比誰更聰明，而是比誰更可靠、誰能閉環。

這是 AI 落地的分水嶺。

現在的問題不是它能不能做到，而是：你準備好把完整任務交給它了嗎？

本文由AI深度研究院出品，內容整理自Anthropic 官方博客、TechCrunch、The Verge。未經授權，禁止轉載。

星標公眾號，點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料：

https://www.anthropic.com/news/claude-sonnet-4-5

https://www.theverge.com/ai-artificial-intelligence/787524/anthropic-releases-claude-sonnet-4-5-in-latest-bid-for-ai-agents-and-coding-supremacy

https://techcrunch.com/2025/09/29/anthropic-launches-claude-sonnet-4-5-its-best-ai-model-for-coding/?utm_campaign=social&utm_source=X&utm_medium=organic

https://www.youtube.com/watch?v=dGiqrsv530Y

https://x.com/tbpn/status/1972750991742349731

來源：官方媒體/網絡新聞

排版：Atlas

編輯：深思

主編: 圖靈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.