<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<big id="ayxnx"></big>

<mark id="ayxnx"></mark>

<kbd id="ayxnx"><rp id="ayxnx"></rp></kbd>

<blockquote id="ayxnx"><progress id="ayxnx"></progress></blockquote>

<mark id="ayxnx"></mark>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI也能換崗了！Anthropic教智能體交接班，不怕長任務斷片

2025-12-02 12:53:48　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】如何讓沒有長時記憶的AI，完成持續數小時的復雜任務？Anthropic設計出一個更高效的長時智能體運行框架，讓AI能夠像人類工程師一樣，在跨越數小時的任務中漸進式推進。

假如你雇傭了一支24小時輪班的工程師團隊，要求他們一起開發一款復雜應用。

但有一個奇怪規定：每位工程師一上班就完全忘記上一班做過什么，只能從零開始重新干。

無論他們技術多強，工作多努力，這個項目恐怕也做不成。

而這正是「長期運行智能體」在現實中遭遇的真實困境：

「上下文窗口一關，AI就失憶」。

模型沒有真正的長期記憶，所有判斷都依賴當下能看到的文本片段，上下文窗口一滿或被關掉，就像白板被擦掉一樣。

這種「記憶缺陷」，讓智能體做不了長工程，一旦任務需要持續數小時、跨越多輪對話窗口時，這樣的問題就會暴露出來。

由于上下文窗口有限，而大多數復雜項目無法在單一窗口完成，因此智能體必須找到一種能夠跨越多輪編碼會話的有效機制。

近日，Anthropic通過「偷師」人類工程師，形成了一套適用于長期運行智能體的有效框架。

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

雙智能體架構

模仿人類優秀工程師的日常習慣

Claude Agent SDK是一個強大而通用的智能體框架，它不僅擅長編碼，還能查資料、調工具、規劃步驟、執行任務。

它擁有上下文管理能力，比如上下文壓縮（compaction），能讓智能體在不耗盡上下文窗口的前提下繼續干活。

但僅靠上下文壓縮還不夠。

在開箱即用的情況下，即使Opus 4.5這樣頂級的編碼模型，如果只給它一個「去做一個claude.ai的克隆網頁」這樣的模糊大指令。然后讓它在SDK里跨多個上下文窗口反復執行，它依然很難完成一個真正能上線的Web應用。

在這個過程中，Claude經常會出現兩類常見的失敗模式：

第一種，它經常一次試圖做太多事。

比如，一次性把整個應用寫完。結果常常中途耗盡上下文，留下未完成、無文檔的半成品功能，進入下一次會話時，就不得不猜測之前發生了什么。

第二種，錯誤判斷「項目已完成」。

這通常出現在項目后期。當一些功能已經實現時，后來啟動的智能體往往會掃瞄現有成果，然后直接宣布項目已經完成。

為了解決這個問題，研究人員將問題拆成兩部分：

第一步，需要在初始環境中搭建好提示詞要求的全部功能基礎，讓智能體能按步驟、按功能推進。

第二步，每次會話中的智能體必須每次推進一小步，同時將環境保持在「干凈狀態」。

即能隨時安全合并到主分支：沒有明顯bug、代碼整潔、有清晰文檔，開發者隨時可以繼續加新功能。

按照這種思路，Anthropic為Claude Agent SDK設計了一個雙組件方案：

初始化智能體（Initializer Agent）

第一次會話用一個專門提示詞，讓模型設置初始環境：生成init.sh腳本、claude-progress.txt工作日志文件，以及一個初始Git提交。

編碼智能體（Coding Agent）

在后續會話中接手工作，每次只推進一小步，并為下一輪工作留下清晰信息。

這種模式的關鍵突破點在于找到一種方式，讓每次會話在沒有歷史上下文的情況下也能快速理解當前項目狀態，而claude-progress.txt文件與Git歷史正好能做到這點。

這一靈感來自優秀軟件工程師的日常工作習慣。

環境管理「三板斧」

如何讓「接班」的智能體快速上手？

初始化智能體要搭建好所有未來編碼會話需要的環境上下文，包括功能清單（Feature List）、漸進式推進（Incremental Progress）、測試（Testing）。

功能列表

為避免智能體一次性寫完整個應用或過早宣布項目完成，研究人員讓初始化智能體將用戶的初始提示，擴展成一個完整的功能需求文件。

例如，在claude.ai克隆示例中，它寫出了超過200個功能，如「用戶可以打開新對話、輸入消息、按下Enter，并看到AI回復」。

這些功能一開始都標記為「failing」，讓后續智能體清楚還有哪些功能沒完成。

研究人員要求編碼智能體只能修改passes字段的狀態，并明確強調：「不允許刪除或修改測試，否則可能導致功能缺失或出現bug。」

反復試驗，研究人員最終選用JSON格式，這是因為比起Markdown文件，AI更不容易誤刪或覆蓋JSON內容。

漸進式推進

在初始環境搭建好之后，編碼智能體會被要求一次只做一個功能的小步驟改動。

這種漸進式推進，對于解決智能體一次做太多事的問題非常關鍵。

同時，每次修改后保持環境的「干凈」也很重要。

實驗發現，最有效的方法是要求模型把改動通過描述性的信息提交到Git，并在progress文件中總結進展。

這樣，模型就能方便地回滾錯誤改動，恢復穩定代碼狀態。

這些方式能夠大幅提升效率，因為智能體不再需要花大量時間猜測之前發生了什么。

測試

此外，研究人員還觀察到一個大問題：

Claude經常在沒有充分測試的情況下，把功能標記為完成。

這是因為，如果不提供明確指令和工具，Claude的「測試行為」大多會停留在「代碼層面」，而不是「完整用戶流程層面」。

比如，它會改代碼、跑單元測試、甚至用curl測一下開發服務器，但這些操作只能證明「代碼大致能跑」，并不能保證整個用戶操作流程從頭到尾是順暢可用的。

如果我們明確要求它使用瀏覽器自動化工具，并像真實用戶一樣進行端到端測試，它在Web應用場景中通常表現得很好，很多原本容易漏掉的bug都能被發現出來。

Claude通過Puppeteer MCP服務器在測試claude.ai克隆版時截取的屏幕截圖

因為很多問題只有在「真實運行、真實點擊」時才會暴露，而不是從代碼文本上就能看出來。

當然仍有一些限制，比如模型本身的視覺能力有限，瀏覽器自動化工具無法識別所有場景。

比如，通過Puppeteer MCP，Claude現在看不到瀏覽器自帶的alert彈窗。

對于那些「點一下按鈕就彈個原生alert，再根據用戶點擊決定后續行為」的功能，Claude在自動化測試時就很難完整覆蓋，也更容易出問題。

快速上手

通過上述機制，每次編碼智能體啟動時都會先執行一套簡單但實用的步驟：

運行pwd看看自己工作在什么目錄，只能編輯這個目錄里的文件。
閱讀 git 日志和進度文件，了解最近做了什么。
閱讀功能列表，并選擇最高優先級且未完成的功能。

這種方式每次都能為Claude節省不少Token，因為它不必重新思考如何測試代碼。

研究人員還讓初始化智能體編寫一個init.sh腳本，用于啟動開發服務器，并在實現新功能前跑一次基本的端到端測試。

在claude.ai克隆項目中，智能體會先啟動本地開發服務器，然后用Puppeteer MCP打開新對話、發送消息、接收回復。

這樣Claude能立即判斷項目是否處于異常狀態，并馬上修復bug。

如果它直接開始做新功能，只會讓情況更糟。

因此，一個典型的會話通常會從類似這樣的助手消息開始：

目前的雙組件架構已顯著提升了全棧 Web應用開發的穩定性，但仍然有許多開放問題。

其中最關鍵的一點是：

不清楚是否一個通用編碼智能體就足夠強，還是應該采用多智能體架構。

比如專門的「測試智能體」「質檢智能體」或「代碼清理智能體」。

這一框架主要針對Web應用進行了優化，但很可能其中一些經驗同樣適用于科研、金融建模等需要長時間運行的智能體任務。

參考資料：

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

從零到千萬：一個中國開源操作系統的全球崛起之路

智東西 2025-11-25 17:27:09
1 跟貼 1
100萬億Token看懵硅谷！全球一半算力寫代碼，另一半在「搞顏色」？

新智元 2025-12-06 14:03:58
281 跟貼 281

第二波DeepSeek沖擊：V3.2 改寫中國云生態與芯片生態

華爾街見聞官方 2025-12-06 15:30:07
7 跟貼 7

句子級溯源+生成式歸因，C2-Cite重塑大模型可信度

機器之心Pro 2025-12-03 10:33:12
0 跟貼 0
通過視覺安全提示與深度對齊實現大型視覺語言模型的安全對齊

機器之心Pro 2025-11-24 16:37:06
0 跟貼 0

具身覺醒：AI 從感知到行動的能力躍遷

鈦媒體APP 2025-12-02 18:02:12
0 跟貼 0

【GET2025】阿里云張博：全棧AI助力在線教育全場景創新

芥末堆看教育 2025-12-07 19:38:11
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0

Ilya剛預言完，世界首個原生多模態架構就來了：視覺和語言被焊死

量子位 2025-12-06 21:40:40
16 跟貼 16
華為新架構砍了Transformer大動脈！任意模型推理能力原地飆升

量子位 2025-12-06 21:41:29
0 跟貼 0
AI安全上，開源仍勝閉源，Meta、UCB防御LLM提示詞注入攻擊

機器之心Pro 2025-07-30 14:59:51
0 跟貼 0
DeepSeek V3到V3.2的進化之路，一文看全

機器之心Pro 2025-12-08 14:07:45
0 跟貼 0
OpenAI推動大模型自我檢舉機制，讓AI主動坦承錯誤與作弊

DeepTech深科技 2025-12-08 15:05:21
0 跟貼 0
DeepSeek、Gemini誰更能提供情感支持？趣丸×北大來了波動態評估

機器之心Pro 2025-12-08 16:08:38
0 跟貼 0
從分鐘級等待到20倍超速：LightX2V重寫AI視頻生成速度上限

機器之心Pro 2025-12-08 14:11:58
0 跟貼 0
宇樹科技王興興：為什么要把機器人做得像人？老百姓喜歡，更愿意買單！

上觀新聞 2025-12-08 10:42:07
131 跟貼 131
兩個LLM互相對線，推理起飛：康奈爾團隊發布大模型版類GAN訓練法

機器之心Pro 2025-12-08 16:16:12
0 跟貼 0
模型不用微調，靠上下文就能自我進化？

機器之心Pro 2025-10-11 20:20:59
0 跟貼 0
螞蟻想押寶更多“王興興”

華爾街見聞官方 2025-12-08 16:07:57
0 跟貼 0
AI服務器的六邊形戰士，英特爾?至強?6處理器全面升級

量子位 2025-11-29 16:58:51
0 跟貼 0
Trainium3 UltraServers助力客戶以更低成本快速訓練和部署AI模型

PConline太平洋科技 2025-12-08 11:08:41
0 跟貼 0
架構解耦是統一多模態模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0
大趕考：300萬民企，集體走進交接班時刻

華商韜略 2025-06-25 10:20:42
1 跟貼 1
全夢幻109級玩家最多的服務器！據說在這個區還有各種109級專屬幫派

《夢幻西游》電腦版 2025-11-23 17:10:33
2 跟貼 2
PC玩家太難了！OpenAI瘋狂掃貨DDR5：游戲內存也不能幸免

快科技 2025-12-05 17:45:06
17 跟貼 17
香港加油！數字經濟+大模型+智能體+互聯網，助力香港快速發展！

去山野間追風 2025-12-07 10:39:59
0 跟貼 0
Nano Banana終于不是文盲了，但我可能會變「傻」

愛范兒 2025-11-24 14:33:39
0 跟貼 0
女生突奇想去染發，這建模太權威了，網友：美的眼前一亮

柚子Video 2025-12-06 00:16:08
8 跟貼 8
北京大學AI DAY暨信息科學技術學院第四十六期“知存講座”順利舉辦

濮陽市廣播電視臺 2025-12-08 15:54:28
0 跟貼 0
智能體研究上火箭了！云科技一哥宣布，Agentic AI加速演進

機器之心Pro 2025-12-05 17:03:20
0 跟貼 0
明朝最基層的治理體系縣衙的架構是怎樣的？

朝話熹史 2025-12-05 06:05:44
0 跟貼 0
8比1戰勝日本隊國乒11戰全勝實現混團世界杯三連冠

澎湃新聞 2025-12-07 21:20:31
2744 跟貼 2744
人民日報：對最忙五人組不能一笑了之更需一查到底

人民網-人民日報 2025-12-07 16:49:26
6384 跟貼 6384
AI服務器的機頭到底有多重要？

量子位 2025-11-27 12:57:09
0 跟貼 0
四個短發悍將，把混雙打成男雙！直接干崩直播服務器！

懶楊陽體壇 2025-12-06 21:39:09
6 跟貼 6
罕見！遼寧艦沿琉球群島北上

揚子晚報 2025-12-08 12:37:37
2139 跟貼 2139
浙江男子釣獲帶“25B”編碼的魚，神秘數字是啥暗號？

大豫生活 2025-12-07 22:10:40
20 跟貼 20
面對面丨今年流感為何來勢洶洶？打了疫苗為何仍會“中招”？專家詳解如何應對

央視新聞客戶端 2025-12-08 01:01:38
1535 跟貼 1535
眼鏡框架的手工焊接

芒果撈星星 2025-12-07 09:38:07
1 跟貼 1
造福or替代程序員？實測阿里新模型

虎嗅APP 2025-07-23 22:42:47
0 跟貼 0

002235突爆利好，超100萬手封漲停！國際白銀價格飆漲，漲幅遠超黃金，概念股最強是它（附名單）

002235突爆利好，超100萬手封漲停！國際白銀價格飆漲，漲幅遠超黃金，概念股最強是它（附名單）

數據寶

2025-12-08 12:27:36

山東跑友張素梅車禍去世，月跑量300多公里，開奔馳，顏值身材好

山東跑友張素梅車禍去世，月跑量300多公里，開奔馳，顏值身材好

180視角

2025-12-08 12:09:15

劇終人散！俄羅斯第三次哈爾科夫攻勢失敗，插旗表演以災難告終

劇終人散！俄羅斯第三次哈爾科夫攻勢失敗，插旗表演以災難告終

軍迷戰情室

2025-12-06 01:22:10

“宿舍已經沒人考研了”，女大學生吐槽現狀：輔導員都看清了現實

“宿舍已經沒人考研了”，女大學生吐槽現狀：輔導員都看清了現實

妍妍教育日記

2025-11-13 18:51:07

默多克離婚協議暗藏玄機，贈鄧文迪5億股權背后竟有定時炸彈

默多克離婚協議暗藏玄機，贈鄧文迪5億股權背后竟有定時炸彈

蕭竹輕語

2025-11-28 16:15:19

湖人112-108險勝76人球員評價：2人滿分，3人及格，4人崩盤

湖人112-108險勝76人球員評價：2人滿分，3人及格，4人崩盤

籃球資訊達人

2025-12-08 11:29:11

宗慶后杜建英香港舊照曝光，眼神拉絲同住一間房，那時宗馥莉才13

宗慶后杜建英香港舊照曝光，眼神拉絲同住一間房，那時宗馥莉才13

阿傖說事

2025-07-18 11:29:04

雷達照射事件升級，遼寧艦突然掉頭北上直奔日本本島，澳力挺日本

雷達照射事件升級，遼寧艦突然掉頭北上直奔日本本島，澳力挺日本

裝滿幸福

2025-12-08 12:19:21

評論炸了，網友卻不敢看她坐下來

評論炸了，網友卻不敢看她坐下來

章眽八卦

2025-12-07 11:32:57

“盧克文工作室”栽了

深度財線

2025-12-08 15:11:56

郎平稱置換了髖關節、頸椎，接受采訪時回應何時再執教：已不給自己設立目標，爭取睡到自然醒

郎平稱置換了髖關節、頸椎，接受采訪時回應何時再執教：已不給自己設立目標，爭取睡到自然醒

臺州交通廣播

2025-12-08 10:03:10

9500萬人口的東北，去年生了38萬，死亡91萬！情況比想象中更嚴重

9500萬人口的東北，去年生了38萬，死亡91萬！情況比想象中更嚴重

狐貍先森講升學規劃

2025-08-01 18:30:03

今天，A股漲到3936，不出所料，明天，12月9號，很有可能這樣走

今天，A股漲到3936，不出所料，明天，12月9號，很有可能這樣走

振華觀史

2025-12-08 14:52:53

茅臺價格，繼續下跌

都市快報橙柿互動

2025-12-08 10:42:34

12月6日俄烏：美國徹底轉向，德國戰車加速啟動

12月6日俄烏：美國徹底轉向，德國戰車加速啟動

山河路口

2025-12-06 19:12:10

我退休后回老家養老，村書記擺架子要給我上一課，不料縣長來考察

我退休后回老家養老，村書記擺架子要給我上一課，不料縣長來考察

五元講堂

2025-12-04 11:49:42

戴眼鏡的微胖小姐姐，粉色吊帶搭配瑜伽褲，看上去溫柔可愛

戴眼鏡的微胖小姐姐，粉色吊帶搭配瑜伽褲，看上去溫柔可愛

小喬古裝漢服

2025-12-06 16:15:45

苦等5年，蒙古熟鴨子還是飛了，中俄誰也不讓步，坐視大項目泡湯

苦等5年，蒙古熟鴨子還是飛了，中俄誰也不讓步，坐視大項目泡湯

科普100克克

2025-12-07 18:20:34

不可錯過！12月8日下午16：05！中央五套CCTV5、CCTV5+直播節目表

不可錯過！12月8日下午16：05！中央五套CCTV5、CCTV5+直播節目表

皮皮觀天下

2025-12-08 12:15:35

13朝古都長安，為何唐朝之后很難再成為首都？其中一個原因很致命

13朝古都長安，為何唐朝之后很難再成為首都？其中一個原因很致命

文史達觀

2025-11-29 06:45:04

AI產業主平臺領航智能+時代

14049文章數 66357關注度

往期回顧全部

科技要聞

外面有人挖，家里有人跑:蘋果亂成了一鍋粥

頭條要聞

40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

頭條要聞

40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

體育要聞

一位大學美術生，如何用4年成為頂級跑者？

娛樂要聞

郭麒麟也救不了的德云社了？

財經要聞

養牛場未見一頭牛每天開采礦石倒賣

汽車要聞

挑戰深圳地獄級路況魏牌藍山VLA上車會思考聽得懂人話

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

藝術

本地

公開課

軍事航空

數碼要聞

蘋果或于2026年初發布多款新品：MacBook Pro、平價筆記本及iPad將迎更新

藝術要聞

一棵樹的力量

本地新聞

云游安徽｜七千年敘事，第一章寫在蚌埠

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

軍事要聞

柬泰沖突細節披露洪森要求部隊“克制”

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：欧美大bbbb流白水| www插插插无码免费视频网站| 亚洲AV无码成人精品区东京热| 亚洲激情AV| 豆国产97在线 | 亚洲| 亚洲伊人精品久视频国产| 国产熟女高潮视频| 无码h肉动漫在线观看| 天美传媒精品| 美女网站免费观看视频| 色综合久久成人综合网| 乱色熟女综合一区二区三区| 国产3p视频| 亚洲色偷偷色噜噜狠狠99网| 日本中文字幕a√在线| 德惠市| 久草精彩视频| 黄色A片网址| 亚欧女AV| 中文字幕在线一区| 日韩精品人妻中文字幕不卡乱码 | 强奷白丝美女在线观看| 亚洲自偷自偷在线成人网站传媒 | 探花无码| 大香蕉一区二区| 国产一区二区三区在线| 性国产| AV教师一区高清| 精品黄色av一区二区三区| 国产偷自视频区视频| 日韩精品一区二区三区激情视频| 女主播扒开屁股给粉丝看尿口| 国产69精品久久久久9999| 亚洲AV电影在线观看| 特黄aaaaaaaaa毛片免费视频| 性色av无码久久一区二区三区| 无码人妻丰满熟妇区五十路百度| 高清无码午夜福利视频| 69天堂| 无码2区| 国产99免费视频|

<dfn id="fgps4"><form id="fgps4"></form></dfn>

_{<tr id="fgps4"></tr>}