<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      有效的 Context 工程(精讀、萬字梳理)

      0
      分享至

      本文腦圖如下:


      方法:AI Agent 的有效上下文工程


      1?? 何為上下文工程 Context Engineering ?

      2025 年 6 月以來,原名為「Prompt Engineering」的提示詞工程,在 AI Agent 概念日趨火熱的應(yīng)用潮中,

      經(jīng)由 Anthropic、LangChain、Manus 等 AI 公司,以及 Andrej Karpathy(前 OpenAI 聯(lián)創(chuàng))、Tobi Lutke(Shopify CEO)等行業(yè)領(lǐng)袖的傳播下,共識(shí)成了更適應(yīng) Agent 的新概念:

      ——「Context Engineering」,即上下文工程。


      在國內(nèi),也對(duì)應(yīng)出現(xiàn)了“Prompt 工程已死,未來屬于 context 工程”、“別再卷 prompt 了”等論調(diào)。

      但,事實(shí)盡是如此?

      雖然傳播一個(gè)新概念的“好”方法,就是拿它與出了名的舊事物對(duì)比、營造沖突。

      但 prompt 仍是 context 工程不可或缺的子集,context 工程則是為適應(yīng) AI Agent 架構(gòu)日趨復(fù)雜健全的自然發(fā)展。(Anthropic 團(tuán)隊(duì)在《Effective Context Engineering for AI Agents》一文中,也提到了一致觀點(diǎn))

      要簡單區(qū)分兩者差異的話,可以如此理解:


      • Prompt 工程,專注單輪 AI 交互的生成質(zhì)量,是為獲得最佳結(jié)果而編寫和組織 LLM 指令的方法。
      • Context 工程,更關(guān)心在多輪 LLM 推理過程(可通俗理解為 Agent 運(yùn)行過程)中,找到并維護(hù)動(dòng)態(tài)優(yōu)化整個(gè) LLM 所接觸的上下文信息配置
      • (包括系統(tǒng)指令 system instructions、工具 tools、MCP 協(xié)議、外部數(shù)據(jù)、消息歷史 message history)的策略。
      • 目標(biāo)是以盡可能少且必要的 tokens,最大化 LLM 生成結(jié)果,引導(dǎo)模型輸出我們期望的行為。

      比如,Context 工程涉及的 system instruction 依舊是 prompt 工程實(shí)現(xiàn)的。并非全方位替代,只是需要根據(jù) AI 開發(fā)情景,靈活選擇實(shí)現(xiàn)深度而已

      Anthropic 《Effective Context Engineering for AI Agents》:context engineering 與 prompt engineering 的差異


      2?? 有限的大模型上下文空間 → Context Rot

      大模型的上下文窗口有限。

      從 GPT3.5 的 16K ,到 Claude 3.5 的 200K,再到現(xiàn)在 Gemini 2.5 Pro 的動(dòng)輒 1M,近年來 LLM 上下文窗口大小,確實(shí)提升飛快。

      這是否意味著我們可以高枕無憂,把一切 Context 都無腦地塞進(jìn)去?

      答案是否定的——時(shí)至今日,上下文依舊需要被視為有遞減收益邊際的有限資源。

      不知道你在和 AI 聊天時(shí),是否發(fā)現(xiàn)這么一個(gè)現(xiàn)象?

      當(dāng)對(duì)話長度不斷增加(即使還沒超過官方標(biāo)稱的上下文窗口尺度),模型的回復(fù)質(zhì)量也會(huì)有明顯的下降:


      • 回答深度降低: 越來越難深入結(jié)合前文你提供的細(xì)節(jié),提供創(chuàng)造性和細(xì)節(jié)度俱佳的回應(yīng)。通常你不得不重新發(fā)送關(guān)鍵 Prompt,再次強(qiáng)調(diào)可能有用的細(xì)節(jié)。
      • 混亂歸因:在做歸納或分析時(shí),胡亂地把你上文中提到的不相關(guān)細(xì)節(jié)關(guān)聯(lián)起來,得出一些南轅北轍的奇怪結(jié)論。
      • 忘記前序指令: 忘記了對(duì)話早期你對(duì)它的回答要求(比如不要濫用比喻句式),但隨著你自己使用了類似比喻的文風(fēng)后,又開始犯軸。

      ——1M 上下文的 Gemini 2.5 Pro,基本在 tokens 量來到 4w 左右時(shí),會(huì)反映為推理緩慢,質(zhì)量開始有所下降。

      是的,最大上下文窗口 ≠ 最佳注意力窗口。

      有個(gè)專門術(shù)語來描述這個(gè)普遍的負(fù)面模型現(xiàn)象:Context Rot,上下文腐爛。

      如同人類在信息過載時(shí)會(huì)思維混亂,而過長的、充滿干擾的上下文,同樣會(huì)顯著降低模型的推理能力。

      而模型性能下降(上下文腐爛,context rot)的三大因素如下:


      1. 1.Context 輸入越長 → 注意力被稀釋。
      2. 2.問題與關(guān)鍵信息的語義相似度越低 → 模型越難匹配到答案。
      3. 3.關(guān)鍵信息與周圍干擾內(nèi)容的語義相似度越高 → 干擾增強(qiáng),模型難以分辨。

      這三個(gè)因素會(huì)相互放大,導(dǎo)致性能顯著下降。

      PS:反過來,控制 Context 長度、減少 Context 中的干擾項(xiàng)數(shù)量、提升問題與 Context 中有效信息的相似度,就能夠提升 Agent 的處理效果

      這三大因素來自于 Chroma 團(tuán)隊(duì)(打造了目前全球最主流的開源向量數(shù)據(jù)庫之一)名為《Context Rot》的同名實(shí)驗(yàn)研究。

      實(shí)驗(yàn)研究古法人工濃縮如下,個(gè)人覺得會(huì)對(duì)測(cè)試 AI 產(chǎn)品有一些實(shí)用啟發(fā)。(比如測(cè)試較佳 context 長度)

      如果覺得太長,也可以下滑到本段小結(jié)~

      ? Chroma:探究上下文對(duì)模型性能影響的關(guān)鍵要素

      他們?cè)O(shè)計(jì)了一套實(shí)驗(yàn),來測(cè)試影響 LLM 長上下文性能表現(xiàn)的因素:

      在傳統(tǒng) NIAH(Needle in a Haystack:即 LLM 大海撈針測(cè)試)基礎(chǔ)上,進(jìn)一步拓展任務(wù)難度,考察大模型的語義理解層面的撈針能力,而非直接詞匯匹配。

      傳統(tǒng) NIAH 任務(wù),是評(píng)估模型長上下文能力最廣使用的基準(zhǔn)之一:

      將一個(gè)隨機(jī)事實(shí)(針信息),放在較長的上下文(干草堆)中,通過直接問答,要求模型回答某個(gè)針的信息 ,比如:

      干草堆:[大量無關(guān)文本]

      藏在干草堆的針信息:“我從大學(xué)同學(xué)那里得到的最好的寫作建議是每周都要寫作。”

      問題 Prompt:“我從大學(xué)同學(xué)那里得到的最好的寫作建議是什么?”


      此時(shí),模型被期望能從大量干草堆中,直接找到針信息,并回答“每周都寫作”。全程無需間接推理信息,直接根據(jù)已有信息回答即可。

      傳統(tǒng) NIAH 雖然很有效地考察了 LLM 的大海撈針能力,但實(shí)際問答場景往往不會(huì)如此直接清晰:


      • 一方面,需要 LLM 處理“針-問題”之間的模糊語義:“我周末去了動(dòng)物園,并在那里喂了長頸鹿。”,那么問題“動(dòng)物園里有什么動(dòng)物”
      • 另一方面,真實(shí)的上下文中,往往充滿了容易誤解的干擾項(xiàng)。比如,“我從我大學(xué)教授那里得到的最好的寫作建議是每天寫作”,就會(huì)對(duì)上文“大學(xué)同學(xué)的寫作建議”形成干擾(就如人類讀一篇文章很快、很長時(shí),也容易記錯(cuò)細(xì)節(jié))



      Chroma 團(tuán)隊(duì)實(shí)際上,也注意到了這一點(diǎn),并拓展了 4 種不同 NIAH 任務(wù):


      1. 1.“針-問題對(duì)”相似度測(cè)試:構(gòu)造不同語義理解難度的問題,測(cè)試不同 context 長度對(duì)回答的影響
      2. 2.干擾項(xiàng)測(cè)試:設(shè)置“不同的數(shù)量 + 不同的放置位置”的干擾項(xiàng),測(cè)試不同 context 長度對(duì)回答的影響


      1. 3.“針-干草堆”相似度測(cè)試:當(dāng)針信息與上下文的向量語義逐漸接近時(shí),測(cè)試不同 context 長度對(duì)回答的影響
      2. 4.上下文文本、段落結(jié)構(gòu)測(cè)試:測(cè)試相同內(nèi)容含義時(shí),邏輯連貫的結(jié)構(gòu)與雜亂顛倒的結(jié)構(gòu),是否對(duì)模型推理性能有所影響

      看完整體測(cè)試過程,我也總結(jié)了一些有助于理解 context 工程價(jià)值的現(xiàn)象:


      1. 1.無論如何,context 長度增加時(shí),模型完成同樣任務(wù)(即使很簡單)的能力都會(huì)下降
      2. 2.針與問題之間的語義關(guān)系越難理解(相似度低),受 context 長度影響越大;且這種下降在長輸入時(shí)會(huì)被顯著放大。

        而 Context 長度較短時(shí),模型對(duì)低相似度的問題,有更高的處理成功率

      3. 3.context 越長,干擾項(xiàng)對(duì)模型的影響也會(huì)加劇
      4. 4.針與干草堆的內(nèi)容,在語義上越接近(主題越相關(guān)),模型識(shí)別針的能力越差。 如果針在語義上與周圍內(nèi)容格格不入(邏輯不連續(xù)、主題突兀),模型反而更容易識(shí)別。就像人玩找茬游戲,對(duì)突兀的信息更敏感。

        難:在 10 篇“寫作建議”文章中找“最佳寫作建議是每周寫作”

        易:在“量子物理、烹飪、園藝”文章中找“最佳寫作建議是每周寫作”


      小結(jié):當(dāng) AI Agent 在多輪推理和更長的時(shí)間線上運(yùn)行時(shí),模型必然會(huì)面臨越來越多的 context rot 因素。

      冗余的上下文將大量占用模型的思考空間,顯著降低其完成復(fù)雜任務(wù)的思考能力。

      而上下文工程(Context Engineering)誕生的實(shí)質(zhì),正是在探究哪種上下文配置,最有可能引導(dǎo)模型輸出我們期望的結(jié)果,獲取更好的任務(wù)效果。

      3?? 有效開展 Context 工程的方法

      AI Agent 發(fā)展至今,已經(jīng)越來越能夠在多輪推理和更長的時(shí)間內(nèi)運(yùn)行。

      這些不斷在“思考-行動(dòng)-觀察”中循環(huán)運(yùn)行的 Agent,會(huì)在運(yùn)行中不斷產(chǎn)生、積累更多對(duì)下一次循環(huán)有影響的上下文數(shù)據(jù)

      (包括系統(tǒng)指令 system prompt, 工具調(diào)用 tools, MCP, 外部數(shù)據(jù), 對(duì)話歷史 message history 等)

      為了避免模型性能的下降,這些數(shù)據(jù)必須被 context 工程動(dòng)態(tài)優(yōu)化:

      唯有效的 context 才配占據(jù)有限的上下文窗口資源。


      Anthropic《Effective Context Engineering for AI Agents》:圖解 Agent 開發(fā)中,context engineering 的起效形式

      想要實(shí)現(xiàn)有效的 context 工程,大體上分為三類策略:

      策略之一,從寫好 System Prompt 開始

      我們依舊可以從更熟悉的模塊開始學(xué)習(xí)——通過 Prompt 工程,設(shè)計(jì)清晰、簡單直接的系統(tǒng)提示。

      有效的上下文,始于清晰的指令。

      如果 Prompt 過于具體,使用大量示例、if-else 類的要求,則會(huì)使得模型更加僵化,缺乏處理意外情況的能力;

      而 Prompt 如果要求過于模糊,或缺少足夠的背景信息,則會(huì)無法對(duì)模型輸出進(jìn)行可控管理。


      在 Agent 運(yùn)行過程中,每一輪推理所產(chǎn)生的部分 context(工具調(diào)用返回結(jié)果、Chat 回應(yīng)等) ,也需經(jīng)由 Prompt 引導(dǎo)其如何輸出和被精煉(Kimi 那類 Model as Agent 的路線不在此列),方可具備一定的可預(yù)測(cè)性與管理意義。

      以下是一些經(jīng)過實(shí)踐檢驗(yàn)、能顯著提升模型表現(xiàn)的提示詞編寫原則:


      • 啟發(fā)式引導(dǎo):系統(tǒng)提示 System Prompt 應(yīng)當(dāng)足夠靈活地為模型提供啟發(fā)式引導(dǎo),使其既能具體地輸出所需的結(jié)果,又能泛化應(yīng)對(duì)各類邊界情況。

        比如「利用 LLM,評(píng)估事情的重要性」:

        評(píng)估事情的重要性。比如,在 1 到 10 的刻度上,其中 1 是完全世俗的(例如,刷牙,整理床鋪)和 10 是極其深刻的(例如,大學(xué)錄取、結(jié)婚)

      • 結(jié)構(gòu)化提示:AI 更容易讀懂未經(jīng)精排的提示詞了,但結(jié)構(gòu)化提示方法依然值得被適度應(yīng)用。

        使用 或#式的 XML 標(biāo)簽 / Markdown 語法,分割不同指導(dǎo)作用的提示詞。
        雖然隨著模型能力提升,LLM 對(duì)復(fù)雜糅合的 Prompt 理解能力有所提升,但結(jié)構(gòu)化提示詞,依然有助于提升模型些許性能。

        更重要的是,大幅簡化人類工程師理解、維護(hù) Prompt 的難度。

      • 先用聰明模型寫一版最小化提示:

        寫第一版提示詞時(shí),記得先用你能用到的最聰明模型,寫出能大致滿足要求的最小化 Prompt。

        (只有這樣,你才能知道當(dāng)下 AI 的能力邊界,區(qū)分哪些是 Prompt 的問題,哪些是模型智力問題)

        最小化 Prompt 意味著用最少的提示信息量,優(yōu)先定義“有什么、做什么”,而不是“怎么做”——把我們的提示詞設(shè)計(jì)“最小化”。(詳見:)



        根據(jù) Prompt 測(cè)試過程中發(fā)現(xiàn)的問題,迭代必要的指令細(xì)節(jié)、few-shot,優(yōu)化生成效果。

        最終再遷移到最終的生產(chǎn)模型,完成細(xì)化。

      • 精選最小可行的 Agent 工具集:為 Agent 準(zhǔn)備的工具,應(yīng)當(dāng)是自包含、能被 LLM 充分理解,且工具之間功能重疊少的。
        • 自包含:工具自身包含了特定任務(wù)所需的所有邏輯和功能,不需要頻繁訪問外界或配合調(diào)用其他工具,即可完成任務(wù)。
        • 能被 LLM 理解、使用:如果人類都不能準(zhǔn)確描述何時(shí)使用什么工具、如何用調(diào)用,就不要指望同樣依賴文本生成的 LLM 能夠調(diào)用好工具。

      • 謹(jǐn)慎在 Prompt 中添加示例!

        是的,我不喜歡濫用 few-shot。過度 few-shot 提示,往往會(huì)使得 AI 生成風(fēng)格容易陷入僵化。

      • 一般來說,個(gè)人會(huì)盡量避免在推理模型中使用 few-shot。

        Anthropic 團(tuán)隊(duì)也同樣分享了他們的觀點(diǎn):

        Few-shot 是非常有效的 AI 提示實(shí)踐,但要著重避免在 prompt 中塞滿過多邊緣例子,應(yīng)該設(shè)計(jì)一組足夠多樣化、規(guī)范的核心例子,有效展現(xiàn) Agent 的預(yù)期行為。

        (一些不好的 system prompt ,甚至?xí)唤o出準(zhǔn)確、完備的背景信息、目的描述,就在那通過塞一堆“示例”,強(qiáng)行矯正表現(xiàn)不佳的測(cè)試結(jié)果。

        答應(yīng)我,千萬別學(xué)這個(gè)!

      • 不然,越是開放的復(fù)雜任務(wù)下,模型泛化越是不堪直視,回答形式也極其僵化……比如虛擬陪伴)


      別忘了,system prompt,本身就是最小化的初始 context。

      一個(gè)清晰、高效的 prompt,能夠用最有必要的 tokens,為后續(xù)推理交互提供重要的方向指引。

      策略之二,即時(shí)上下文,讓 Agent 像人一樣地獲取上下文

      考慮到在真實(shí)使用 AI 時(shí),一方面上下文窗口有限,不可能把所有的相關(guān) context 都塞進(jìn)去。

      另一方面,以往在推理前的階段采用 embedding-based 檢索的方案,常常會(huì)檢索到很多“可能相關(guān)但實(shí)際沒用”的內(nèi)容。

      所以,現(xiàn)在越來越多的 AI 應(yīng)用,開始采用 AI 自主探索的即時(shí)上下文方案:


      • 與人類「整體回憶-深入回顧某段記憶細(xì)節(jié)-最終推理得到結(jié)論」的多步思考一樣,其實(shí)沒必要要求 Agent 在推理時(shí),一次性回憶所需的全部上下文
      • 像 Cursor 等 AI Coding 工具,就會(huì)按照用戶需求,先翻閱項(xiàng)目文件夾中的 readme.md,了解項(xiàng)目文件結(jié)構(gòu) → 在 /resource/pic 目錄找圖片、到 /component 目錄找組件代碼等。

        在這個(gè)過程中,Agent 自主導(dǎo)航與檢索信息,動(dòng)態(tài)獲取所需信息到上下文窗口中。
        (對(duì)應(yīng)的,人類會(huì)先回憶自己的待辦記在哪個(gè)備忘錄、日歷中,在到對(duì)應(yīng)軟件中翻閱記錄,為大腦的上下文窗口實(shí)現(xiàn)動(dòng)態(tài)掛載與減負(fù)。)

      • 此外,即時(shí)上下文方案,也有助于漸進(jìn)式披露上下文,為后續(xù)工作提供參考記憶。

        即使是每一次 Agent 檢索所獲取的文件名稱、大小、文件創(chuàng)建時(shí)間,這些信息也都有助于 Agent 在后續(xù)推理中,判斷信息的相關(guān)性與價(jià)值(命名規(guī)范暗示用途;文件大小暗示復(fù)雜性;創(chuàng)建時(shí)間可以作為相關(guān)性參考)(可以讓 Agent 自行記錄 memory 筆記,將這些工作記憶摘要與持久化。)


      當(dāng)然,請(qǐng)記得權(quán)衡即時(shí)上下文探索,與向量檢索/直接拼入context 等簡單方案的耗時(shí)與效果。

      策略之三,為超長程任務(wù),實(shí)現(xiàn)無限上下文

      雖然模型發(fā)展必然會(huì)帶來更大的上下文窗口…

      但如 Chroma 的 Context Rot 研究,無論如何,無關(guān)的 Context 占用上下文窗口時(shí),必然會(huì)影響模型性能。

      在當(dāng)下的時(shí)間節(jié)點(diǎn),Agent 的智能幾乎與一次性自主運(yùn)行時(shí)長掛鉤。

      AI Coding 中的代碼重構(gòu)任務(wù)、Deep Research 任務(wù)等,往往會(huì)運(yùn)行數(shù)十分鐘及以上,其產(chǎn)生的 context 必然會(huì)遠(yuǎn)超出模型的上下文窗口限制。

      為了保障此類長程任務(wù)的連貫性與目標(biāo)達(dá)成,Anthropic 團(tuán)隊(duì)引入了專門的上下文工程設(shè)計(jì),在框架層面解決上下文污染與限制問題:

      1)壓縮(Compaction)

      最直接的思路,是在上下文接近窗口限制時(shí),把對(duì)話內(nèi)容“有損壓縮”,拋棄冗余無用的歷史信息,并重新開啟一個(gè)新的上下文窗口。

      僅保留核心決策與細(xì)節(jié)(比如整體計(jì)劃決策、執(zhí)行過程錯(cuò)誤和實(shí)現(xiàn)細(xì)節(jié)),以實(shí)現(xiàn)在新對(duì)話窗口的連貫性。


      • 方法: 讓模型觸發(fā)一個(gè)“總結(jié)”動(dòng)作,提煉歷史對(duì)話。

        以 Claude Code 為例,模型會(huì)保留開發(fā)架構(gòu)決策、未解決的錯(cuò)誤和關(guān)鍵實(shí)現(xiàn)細(xì)節(jié),同時(shí)丟棄冗余的工具輸出或過于細(xì)枝末節(jié)的消息。

      • 工程調(diào)優(yōu)思路: 用于壓縮的 prompt,可以先以「最大召回率」 為目標(biāo)進(jìn)行編寫,確保能從歷史中提取所有相關(guān)信息;然后再迭代提示詞,逐步消除總結(jié)中的冗余內(nèi)容,提升壓縮精度。

      2)結(jié)構(gòu)化筆記(Structured Note-taking)

      當(dāng)下,越來越多的 Agent 應(yīng)用采用了這種外部 memory 策略,例如 Manus 等通用 Agent 的 todo.md,MemU 等記憶框架的 memory 策略,均屬于此列:


      1. 1.Agents 定期把重要記憶(如中間結(jié)論、待辦事項(xiàng)、用戶畫像、用戶活動(dòng))寫入到可供 Agent 讀寫的外部筆記文件
      2. 2.在后續(xù)推理執(zhí)行過程中,按需將記憶拉回上下文窗口。

      能夠以極小的上下文開銷,進(jìn)行持久化記憶。

      我之前在測(cè)試 Browser-use Agents 的 2048 游戲最高分時(shí),也將「在每一步游戲操作后,自行反思并記錄心得與教訓(xùn)」作為 Agents 的 system prompt。

      AI 在游戲過程中,就會(huì)額外記錄結(jié)構(gòu)化筆記,指導(dǎo) AI 在新一輪游戲的操作決策,改進(jìn)游戲得分。如:

      - 心得 1:固定一個(gè)角落放最大塊(常用底部左/右角),盡量不要把它移出該角” - 心得 2:盡可能往同一個(gè)方向合并數(shù)字方塊

      3)多智能體架構(gòu)(Multi-Agents Architectures)

      這是一種更積極的“分而治之”的架構(gòu)思想。

      將一個(gè)復(fù)雜任務(wù)分解到多個(gè)子智能體,讓專門的 Agent 專注于自己的任務(wù)與所需記憶空間,最后由一個(gè)主 Agent 在更高維度協(xié)調(diào)整體的任務(wù)計(jì)劃。

      每個(gè)子 Agent 的上下文壓力都會(huì)小很多,模型性能能夠發(fā)揮的更徹底,不易 context rot。

      例如,Manus 所推出的 Wide-Research 功能,就采用了類似方案,有興趣可以去試試看。因?yàn)槭遣⑿屑軜?gòu),所以能夠在單位時(shí)間內(nèi)開展更加廣泛、深入的 Deep Research 研究或其他復(fù)雜任務(wù)。

      至此,


      • 壓縮適合多輪對(duì)話交互任務(wù);
      • 結(jié)構(gòu)化筆記記錄適用于持久化保存工作記憶;
      • 多智能體架構(gòu)則方便分解復(fù)雜任務(wù),緩和單 Agent 的上下文壓力。

      可以根據(jù) Agent 應(yīng)用的類型和復(fù)雜度靈活組合,共同為超長程任務(wù)實(shí)現(xiàn)無限上下文,提供切實(shí)的可能。

      4?? 總結(jié): 精心設(shè)計(jì)你的 Context 工程

      回顧上文,system prompt 編寫、即時(shí)上下文檢索、上下文架構(gòu)管理,一切討論的錨點(diǎn),最終都回歸到了 context 工程的核心:

      找到以最小 tokens 集合,最大化引出期望 AI 結(jié)果的策略。

      Context 工程本身并不神秘,只是隨著 AI Agent 架構(gòu)日趨復(fù)雜、健全的自然工程發(fā)展。

      理解了超長上下文如何影響 LLM 的性能表現(xiàn),和 Agent 內(nèi)的上下文記憶運(yùn)作機(jī)制,我們才能更好地開展有效 context 工程。

      最后的最后,請(qǐng)務(wù)必、務(wù)必,把上下文窗口視為有限的資源。

      Ref:


      • Effective context engineering for AI agents|By Anthropic:https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
      • Managing context on the Claude Developer Platform|By Anthropic:https://www.anthropic.com/news/context-management
      • Context Rot: How Increasing Input Tokens Impacts LLM Performance|By Chroma:https://research.trychroma.com/context-rot

      ? 梳理:Anthropic 界定的 Agent 類型

      Anthropic 分享了他們過去一年里,與數(shù)十個(gè)團(tuán)隊(duì)、客戶合作構(gòu)建智能體時(shí),總結(jié)下來的實(shí)用建議。

      關(guān)于智能體的定義劃分,往往在 workflows 和 agents 中有所混淆。Anthropic 將其統(tǒng)稱為 agentic systems,智能系統(tǒng):


      • 工作流 Workflow:把 LLMs 和工具通過代碼,預(yù)編排好執(zhí)行路徑的規(guī)則流程。
      • AI 代理 Agent:由 LLMs 自主指導(dǎo)其執(zhí)行過程和工具使用的自主系統(tǒng)。

      如何選用、設(shè)計(jì) agentic systems ?
      • 無硬性規(guī)定與優(yōu)劣,應(yīng)當(dāng)以解決問題為目標(biāo)出發(fā),可以用多種類型進(jìn)行組合。
      • 最小化設(shè)計(jì)原則,如無必要,無增實(shí)體。從簡單提示與優(yōu)秀模型開始,實(shí)驗(yàn)并構(gòu)筑第一個(gè)版本的「Agent」。只有智能不足時(shí),才考慮調(diào)優(yōu)工程,添加更多步驟與 Context 指引。
      • 請(qǐng)注意 Agent 的可解釋性與維護(hù)性,不可解釋的 Agent 無法維護(hù),無法維護(hù)則無法針對(duì)生產(chǎn)環(huán)境的各類問題進(jìn)行工程調(diào)優(yōu)。所以請(qǐng)保持 Agent 的規(guī)劃步驟的透明度

      以下是 Anthropic 總結(jié)的 workflow 與 Agents 類型,可能為你帶來一些參考啟發(fā):

      Workflow

      增強(qiáng)型 LLM(the augmented LLM)

      • 給 LLM 配上檢索、工具、記憶等增強(qiáng)功能,LLM 可以主動(dòng)使用,生成自己的搜搜查詢、選擇合適的工具。
      • 和 Agent 的區(qū)別是,增強(qiáng)型 LLM 不會(huì)規(guī)劃任務(wù)流程,也無法自行決定下一步做什么,不能自主進(jìn)行多輪交互。


      • 提示鏈工作流(Workflow: Prompt Chaining)
        • 通過將任務(wù)分解為多個(gè)子環(huán)節(jié),由多個(gè) LLM 分別處理前一個(gè)環(huán)節(jié)的輸出,就像 coze、dify 一樣。
        • 示例應(yīng)用:營銷文案生成 → 翻譯為其他語言;文章大綱生成 → 檢查 → 分段完成正文編寫


      • 路由式工作流(Workflow:Routing)
        • 允許 LLM 分類 input,并在更合適的子任務(wù)中解決。可以對(duì)不同類型的任務(wù)進(jìn)行分別的提示優(yōu)化,不會(huì)干擾其他任務(wù)的表現(xiàn)
        • 比如:AI 客服、Chatbot 自主切換回答模型(簡單問題就切換到小模型,類似 ChatGPT 5 網(wǎng)頁服務(wù),優(yōu)化成本和響應(yīng)速度)


      • 并行式工作流(Workflow:Parallelization)
        • Sectioning:在與用戶對(duì)話時(shí),一個(gè)模型負(fù)責(zé)處理用戶意圖,一個(gè)模型篩查問答中不適當(dāng)、不合規(guī)的內(nèi)容。
        • Voting:代碼 or 內(nèi)容審計(jì),通過不同模型/不同提示,從不同方面對(duì)內(nèi)容進(jìn)行評(píng)估,甚至通過投票閾值來過濾假陽性。
        • 并行式有兩種應(yīng)用角度,一是分治可并行的獨(dú)立子任務(wù);二是多次運(yùn)行同一任務(wù)獲取多樣化結(jié)果 or 進(jìn)行投票
        • 什么時(shí)候使用效果更好?1)提升任務(wù)執(zhí)行性能;2)LLM 同時(shí)處理多因素任務(wù)是困難的,分解為單因素單個(gè)模型處理,會(huì)更好
        • 比如:


      • 協(xié)調(diào)-執(zhí)行式工作流(Workflow:Orchestrator-Workers)
        • 中央 LLM 分解任務(wù)(相較并行式更靈活,子任務(wù)不是預(yù)先定義的),工作者 LLM 分別執(zhí)行,返回結(jié)果,綜合輸出。
        • 示例應(yīng)用:對(duì)多個(gè)文件進(jìn)行復(fù)雜更改的 coding 產(chǎn)品, 分解需要從多個(gè)來源收集信息的 search 任務(wù)等。


      • 評(píng)估-優(yōu)化式工作流(Workflow:Evaluator-Optimizer)
        • 何時(shí)使用?——當(dāng)人類清晰地表達(dá)其反饋時(shí),LLM 的響應(yīng)可以明顯改進(jìn);其次,LLM 能夠提供這種反饋
        • 比如:Search 場景、多輪文學(xué)創(chuàng)作與編輯(Evaluator 對(duì)多輪生成內(nèi)容,進(jìn)行綜合反饋與建議)



      Agent

      Anthropic 把 Agent 定義為:LLMs autonomously using tools in a loop.

      • 通常指自主智能體,不斷基于環(huán)境反饋的循環(huán)使用工具。能夠理解復(fù)雜輸入,推理與規(guī)劃,以及從錯(cuò)誤中恢復(fù)。(通常會(huì)包含最大迭代次數(shù),控制 Agent 行動(dòng)何時(shí)終止)
      • 常見的 Computer Use、Coding Agent 均在此列
      • 隨著底層模型能力的提升,Agent 獨(dú)立解決復(fù)雜問題、處理錯(cuò)誤反饋的能力也會(huì)隨之提升


      Ref:


      • Building effective agents|BY Anthropic:https://www.anthropic.com/engineering/building-effective-agents

      反思:止損線,亦是起跑線

      “在抵達(dá)下一個(gè)階段之前,這就是我探索愿意投入的、輸?shù)闷鸬拇鷥r(jià)。”

      發(fā)現(xiàn)自己在涉及到需要長期投入的重大決策時(shí)(如職業(yè)選擇、親密關(guān)系等),容易過度“憂慮未來的最終結(jié)果”。

      導(dǎo)致因?yàn)槲窇诌h(yuǎn)期回撤心理,不自覺地壓抑當(dāng)下的機(jī)會(huì)、幸福感,最終決定放棄對(duì)自己現(xiàn)階段更有價(jià)值的行動(dòng)。

      比如:


      • 憂慮某個(gè)商業(yè)模式、變現(xiàn)機(jī)會(huì)能走多遠(yuǎn),導(dǎo)致面對(duì)送到手上的機(jī)會(huì)時(shí),遲遲不敢下注。
      • 因過度追求構(gòu)建“長期可靠”的關(guān)系,而忽視在當(dāng)下接觸到的人,就無法通過一段段交織的關(guān)系,成長為更好的自己。

      被評(píng)價(jià)“這個(gè)人想得清楚”,看起來是件好事。但有時(shí)也會(huì)因?yàn)楠q豫,錯(cuò)過一些機(jī)會(huì)。

      很難區(qū)分保守與激進(jìn)、深思熟慮與開放靈活,孰對(duì)孰錯(cuò)。

      但重點(diǎn)在于,決策的第一步不僅僅是靠直覺、喜好,而是先明確自己當(dāng)下最需要解決的問題是什么,盤算清自己愿意押注的籌碼底線。

      比如現(xiàn)在有多少儲(chǔ)蓄,現(xiàn)在來看,最多愿意設(shè)置 xx 時(shí)間、金錢的止損線。再次之前要盡情探索自己創(chuàng)業(yè)可能性,到了止損階段后,即使回去上班,自己也能接受。

      過度憂慮未來、不預(yù)分配當(dāng)前階段的籌碼,混亂地做出“明智、保護(hù)自己”的投資,是對(duì)流向自己的機(jī)會(huì)的不尊重。

      ——未來是很重要,投注成本是很珍貴,但也請(qǐng)多多珍惜當(dāng)下。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      120多萬的卡宴只要60多萬?很多網(wǎng)友激動(dòng)了!打飛的到海南買進(jìn)口車,可行嗎?

      120多萬的卡宴只要60多萬?很多網(wǎng)友激動(dòng)了!打飛的到海南買進(jìn)口車,可行嗎?

      都市快報(bào)橙柿互動(dòng)
      2025-12-19 18:00:00
      亞馬爾險(xiǎn)被廢!遭雙腳爆鏟,維加染紅離場,巴薩球員集體暴怒

      亞馬爾險(xiǎn)被廢!遭雙腳爆鏟,維加染紅離場,巴薩球員集體暴怒

      奧拜爾
      2025-12-22 00:10:58
      南博事件升級(jí)!參與定"偽"的專家徐沄秋被扒,果然有情況

      南博事件升級(jí)!參與定"偽"的專家徐沄秋被扒,果然有情況

      鋭娛之樂
      2025-12-21 08:30:41
      南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

      南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

      奇思妙想草葉君
      2025-12-21 13:59:16
      2026高速免費(fèi)規(guī)則大改?元旦收費(fèi)實(shí)錘,5類車全年免費(fèi),千萬注意!

      2026高速免費(fèi)規(guī)則大改?元旦收費(fèi)實(shí)錘,5類車全年免費(fèi),千萬注意!

      老特有話說
      2025-12-21 20:46:32
      克林頓與愛潑斯坦案受害者共浴照片披露

      克林頓與愛潑斯坦案受害者共浴照片披露

      揚(yáng)子晚報(bào)
      2025-12-20 11:50:57
      騎車下班路被堵 成都“較真哥”9天舉報(bào)92次違停

      騎車下班路被堵 成都“較真哥”9天舉報(bào)92次違停

      封面新聞
      2025-12-19 16:09:10
      韓紅直呼“太離譜”,三甲醫(yī)生連番追問!5月齡小洛熙手術(shù)后離世仍需更多真相……

      韓紅直呼“太離譜”,三甲醫(yī)生連番追問!5月齡小洛熙手術(shù)后離世仍需更多真相……

      新民周刊
      2025-12-21 14:48:33
      著名演員新片與《阿凡達(dá)3》對(duì)打,票房零元,12月最慘電影誕生了

      著名演員新片與《阿凡達(dá)3》對(duì)打,票房零元,12月最慘電影誕生了

      影視高原說
      2025-12-20 10:41:19
      61歲許亞軍穿紅衣配牛仔褲現(xiàn)身北京,祁廳長這狀態(tài)吃了防腐劑嗎?

      61歲許亞軍穿紅衣配牛仔褲現(xiàn)身北京,祁廳長這狀態(tài)吃了防腐劑嗎?

      娛樂領(lǐng)航家
      2025-12-21 18:00:06
      臉都不要了,但還是低估了他們的無恥

      臉都不要了,但還是低估了他們的無恥

      胖胖說他不胖
      2025-12-21 11:00:20
      胡錫進(jìn):泰國看來也是有高人的,柬埔寨是中國最友好國家之一

      胡錫進(jìn):泰國看來也是有高人的,柬埔寨是中國最友好國家之一

      映射生活的身影
      2025-12-21 20:38:57
      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴(yán)已來到大陸

      鄭麗文訪問大陸,國民黨副主席曝重大消息,蔣孝嚴(yán)已來到大陸

      娛樂的宅急便
      2025-12-21 13:42:45
      海南封關(guān)首日:30克金飾省近萬元,居民排長隊(duì)買榴蓮

      海南封關(guān)首日:30克金飾省近萬元,居民排長隊(duì)買榴蓮

      極目新聞
      2025-12-21 08:11:42
      54歲埃梅里激動(dòng)脫衣怒吼!率隊(duì)10連勝震撼英超 終結(jié)對(duì)曼聯(lián)6場不勝

      54歲埃梅里激動(dòng)脫衣怒吼!率隊(duì)10連勝震撼英超 終結(jié)對(duì)曼聯(lián)6場不勝

      我愛英超
      2025-12-22 02:40:29
      圣誕抓馬升級(jí),貝克漢姆夫婦和大兒子布魯克林決裂取關(guān)!外婆和奶奶無辜受傷

      圣誕抓馬升級(jí),貝克漢姆夫婦和大兒子布魯克林決裂取關(guān)!外婆和奶奶無辜受傷

      英國那些事兒
      2025-12-21 23:19:22
      順豐退出抖音電商退貨業(yè)務(wù)!原因很簡單:退貨率賊高,錢少事兒多

      順豐退出抖音電商退貨業(yè)務(wù)!原因很簡單:退貨率賊高,錢少事兒多

      風(fēng)向觀察
      2025-12-21 13:11:03
      南京博物院前院長徐湖平,退休金2萬多,不承認(rèn)6800元賣掉江南春

      南京博物院前院長徐湖平,退休金2萬多,不承認(rèn)6800元賣掉江南春

      漢史趣聞
      2025-12-21 17:02:43
      柬泰兩國,公布戰(zhàn)況

      柬泰兩國,公布戰(zhàn)況

      新京報(bào)政事兒
      2025-12-21 21:11:23
      2026年1月1日新治安法落地!6 類日常行為已違法,罰款拘留跑不了

      2026年1月1日新治安法落地!6 類日常行為已違法,罰款拘留跑不了

      老特有話說
      2025-12-21 19:20:40
      2025-12-22 02:55:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      218文章數(shù) 12關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

      頭條要聞

      洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺(tái)畫面被禁播

      頭條要聞

      洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺(tái)畫面被禁播

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      星光大賞太尷尬!搶話擋鏡頭,場地還小

      財(cái)經(jīng)要聞

      老房子“強(qiáng)制體檢”,政府出手了

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      家居
      健康
      軍事航空

      紅色不流行了?今年最火的穿搭居然是它

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      家居要聞

      高端私宅 理想隱居圣地

      這些新療法,讓化療不再那么痛苦

      軍事要聞

      石破茂:擁核絕不會(huì)給日本帶來正面影響

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丰满诱人的人妻3| 97久久人人超碰国产精品| 日本熟妇色xxxxx日本免费看| 一本色道久久综合亚洲精品| 啪啪免费网站| 国产精品乱码久久久久久小说| 欧美激情a∨在线视频播放| 当涂县| 亚洲午夜精品久久久久久抢| 亚洲自国产拍揄拍| 遂宁市| 亚洲都市激情| 亚洲国产精品久久青草无码| v一区无码内射国产| 齐河县| 国产av成人精品播放| 免费观看的av毛片的网站| 精品久久久久久无码中文野结衣| 国产传媒AV| 日日爽日日操| 国产av成人一区二区三区 | 冕宁县| 99精品丰满人妻无码一区二区| 精品素人AV无码不卡在线观看| 99re热视频这里只精品| 日本va欧美va欧美va精品| 景宁| 欧美A√| 日本色导航| 人人干人人噪人人摸| 清徐县| 超碰人人插| 欧美国产日韩久久mv| 久久不见久久见免费影院视频| 3d动漫精品一区二区三区| 在线观看免费人成视频色9| 满洲里市| 99精品在线观看| 97激情| 亚洲av无码片在线播放| 色综合久久成人综合网|