<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上交大54頁綜述講透Agent認知外部化的演進之路

      0
      分享至



      換了最新的基座模型,Agent 的表現卻沒有質的飛躍;反過來,給同一個模型加上持久化記憶、可復用的技能文檔和標準化的工具接口,效果立竿見影——做過 Agent 工程的人,對這種「模型之外的東西比模型本身更重要」的體感多半不會陌生。但這個現象背后有沒有一個統一的解釋框架?上海交大團隊的一篇 54 頁綜述給出了回答:外部化(Externalization)

      近日,上海交通大學聯合中山大學、上海創智學院、卡內基梅隆大學及 OPPO 等機構,于 2026 年 4 月 9 日在 arXiv 提交綜述論文,首次以「外部化」為統一視角,系統梳理了 LLM Agent 的記憶、技能、協議與 Harness 工程四大支柱。核心觀點:Agent 的實際進展,越來越取決于模型之外的外部認知基礎設施,而非模型本身的能力提升。



      • 論文標題:Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
      • 作者單位:上海交通大學、中山大學、上海創智學院、卡內基梅隆大學、OPPO
      • 論文鏈接:https://arxiv.org/abs/2604.08224(2026 年 4 月 9 日提交)
      • 本文第一作者為上海交通大學博士生周宸宇。通訊作者包括 OPPO 研究院王俊博士,以及上海交通大學劉衛文、林江浩、張偉楠教授。



      圖 1:外部化作為 LLM Agent 設計的組織原則。上方:人類認知外部化歷史弧線;中間:LLM Agent 外部化弧線——記憶、技能、協議到 Harness;下方:文獻全景圖

      模型已經很強,但 Agent 還是不夠可靠

      矛盾出在哪?

      過去兩年,大模型的參數規模和推理能力持續攀升。但熟悉 Agent 落地的工程師都有一個共同體驗:換更強的基座模型,往往不如改進外部基礎設施帶來的提升顯著。持久化記憶、可復用技能、標準化工具接口、沙箱約束、執行日志……這些「不屬于模型」的東西,越來越決定著 Agent 能不能真正好用。

      論文把這個現象歸結為三個結構性錯配:

      • 連續性錯配:上下文窗口有限且短暫,模型無法跨會話穩定保持狀態。每次會話都是全新開始,之前積累的上下文需要從頭重建。
      • 一致性錯配:復雜的多步驟流程往往被重新推導,而不是被穩定執行。同樣的任務,不同時機調用,執行路徑和質量難以保證一致。
      • 協調性錯配:與工具、服務和其他 Agent 的交互依賴臨時約定,脆弱且不可移植。接口一旦變動,整條調用鏈路可能同步失效。

      論文借鑒認知科學家 Don Norman 的「認知工件(Cognitive Artifacts)」理論來解釋這一現象。例如,購物清單不是擴展了人的記憶容量,而是把「回憶」問題變成了「識別」問題;地圖不是讓人導航變強,而是把空間關系從隱性變成可見。外部工件的力量,在于表征變換(Representational Transformation)——它重新組織了問題的形式,讓主體用現有能力更可靠地解決它。

      同樣的邏輯正在 LLM Agent 上發生。論文的核心主張是:外部化才是理解近年 Agent 架構演進的統一邏輯,而不只是各種工程技巧的堆砌。

      從 Weights 到 Harness:

      能力載體的三次外移



      圖 2:社區主題在三個能力層上的演化(2022–2026)。關注重心從參數知識和提示工程,逐步外移到 Harness 層級的基礎設施。

      權重層(2022–2023):能力幾乎等同于模型參數,擴展定律主導敘事。奠定了基礎,但知識難以選擇性更新,行為難以審計,個性化幾乎無從實現。

      上下文層(2023–2024):Prompt 工程、CoT、RAG 興起,模型保持凍結,提示模板快速迭代。困難的「回憶」問題被部分轉化為「識別」問題,但狀態短暫,跨步驟協調始終脆弱。

      Harness 層(2024 至今):可靠性依賴外部記憶、工具注冊、協議、沙箱與編排。「Agent 工程越來越體現為 Harness 工程」——OpenHands、SWE-agent、Deep Research 等皆遵循這一模式。

      殊途同歸:

      記憶、技能、協議、Harness都是外部化

      回顧近年 Agent 領域的技術進展,記憶系統、技能系統、協議標準化,乃至 Harness 工程本身,看似四條獨立的研究路線,各自解決不同的問題。但論文指出,它們本質上做的是同一件事——將特定層面的認知負擔從模型內部遷移到外部結構中。這不是巧合,而是 Agent 走向可靠部署的必然收斂。四條路線的交匯點,正是外部化。

      記憶外部化狀態,將「回憶」轉化為「檢索」,解決連續性錯配;技能外部化專業知識,將「即興生成」轉化為「組合復用」,解決一致性錯配;協議外部化交互結構,將「臨時約定」轉化為「結構化契約」,解決協調性錯配。而 Harness 外部化的是更根本的東西——Agent 的認知環境本身:原本隱含在每次模型調用過程里的執行流、沙箱、觀測、權限,都被顯式地抽出來,成為可檢視、可配置、可治理的基礎設施。

      記憶:外部化的狀態



      圖 3:記憶作為外部化狀態的全流程——從原始上下文到四層記憶內容,經由記憶系統架構(單體式→分層編排→自適應),最終與 Harness 集成。

      論文將 Agent 記憶組織為四個層次:工作上下文(當前任務狀態、打開的文件、部分完成的計劃)、情景經驗(過去的運行記錄和失敗軌跡)、語義知識(領域事實、用戶偏好、通用啟發)和個性化記憶(特定用戶的習慣與約束)。

      記憶架構隨需求而演進:從將全部歷史塞入提示的單體式,到主動狀態加外部存儲的檢索式,再到按語義或時序分層編排的分層架構,最終走向基于反饋動態調整檢索策略的自適應記憶系統。核心效果始終是同一個:模型不再需要從權重中「回憶」,而是從持久化存儲中「檢索」。

      技能:外部化的專業知識



      圖 4:技能作為外部化專業知識的全流程——從獲取(人工編寫、蒸餾、發現、組合)到技能工件,經由激活管線(注冊、漸進披露、組合),最終綁定到運行時。

      技能系統將可復用的程序性專業知識打包為顯式工件。一個完整的技能包含三個組成部分:操作程序(任務骨架和分解步驟)、決策啟發(分支決策的局部策略)、規范約束(合規、安全和操作邊界)。

      技能有四條生成路徑:人工編寫(專家手工編寫 SKILL.md 等指令文件)、軌跡蒸餾(從歷史運行記錄中提取可復用程序)、自主發現(Agent 在環境中探索并歸納,如 Voyager)、組合構建(由已有低層技能組裝高階能力)。技能從「發現」到「執行」經過注冊、漸進式披露(按需從摘要擴展到完整細節)、組合等階段,最終在運行時綁定到具體工具、API 和協議。

      核心效果:模型不再需要每次從零「即興生成」工作流,而是從預驗證的組件中「組合」。

      協議:外部化的交互結構



      圖 5:協議在 Harness 工程中的演進——從孤立模型調用到標準化協議再到去中心化 Agentic Web。Harness 通過協議管理三類交互:與工具交互、感知環境、與 Agent 和人類協作。

      協議將交互結構固定為機器可讀的契約,外部化了四類負擔:調用語法(參數格式與類型)、生命周期語義(狀態轉換與完成條件)、權限與信任邊界(授權規則)、以及發現元數據(可用能力的聲明)。

      論文梳理了三類主要協議族:

      • Agent-Tool 協議(如 MCP):通過 JSON-RPC 標準化工具發現與調用,使工具可以動態注冊、模塊化擴展。
      • Agent-Agent 協議(如 A2A):定義任務委托、進度交換和能力發現的結構化語義,支持開放 Agent 生態的互操作。
      • Agent-User 協議(如 AG-UI):以類型化執行事件和狀態流的形式使運行時可觀測、可移植,讓用戶界面能夠實時跟蹤 Agent 行為。

      核心效果:臨時約定變為結構化契約,跨系統協調從脆弱變得可治理。

      Harness:統一的認知環境



      圖 6:外部化 Agent 的整體架構。Harness 居于中心,Memory、Skills、Protocols 三大外部化維度環繞其外,沙箱、可觀測性、壓縮、評估、審批回路等操作元素在中間層協調運作。

      Harness 外部化的是前三者賴以運行的認知環境本身。原本隱含在每次模型調用過程里的執行流、沙箱、觀測、權限,被顯式地抽出來,成為可檢視、可配置、可治理的基礎設施——這既是容納記憶、技能、協議的運行時,也是讓整套系統從「黑箱」變成「白箱」的關鍵。論文從六個設計維度分析其構成:

      1. Agent 循環與控制流— 感知-檢索-規劃-執行-觀察的完整周期,管控終止條件、遞歸邊界和資源消耗
      2. 沙箱與執行隔離— 文件系統隔離、網絡限制、云端沙箱,既是安全邊界,也是認知邊界
      3. 人類監督與審批門控— 執行前審批、執行后審查和升級觸發,自主性作為可配置參數
      4. 可觀測性與結構化反饋— 工具調用的結構化日志、連接動作與前因的執行溯源,支持調試、審計和內部反饋回路
      5. 配置、權限與策略編碼— 用戶、項目、組織三級分層約束,以聲明式規則在運行時強制執行
      6. 上下文預算管理— 歷史摘要、優先級驅動的內容淘汰、技能分階加載,平衡三大維度對窗口的競爭

      三大維度在 Harness 內部形成自我強化的循環:記憶經驗蒸餾為技能,技能執行軌跡沉淀回記憶;協議規范了技能的調用方式,也將結構化結果寫入持久狀態;更豐富的記憶帶來更好的技能,更好的技能產生更豐富的執行軌跡,依次循環。

      一個場景:不換模型,只改「外部環境」

      讓一個軟件工程 Agent 在大型代碼倉庫里實現新功能、運行測試、提交 PR——論文用這個例子直接說明了外部化的意義。

      • 沒有外部化時。模型需要把倉庫結構、項目約定、工作流狀態和工具交互全部塞進一個脆弱的提示窗口。任何一處出錯,整個流程需要重來。隨著任務復雜度增加,提示模板的管理成本以超線性速度上升。
      • 有了外部化之后。持久化的項目記憶提供跨會話上下文;可復用的技能文檔編碼項目約定和工作流;協議化的工具接口確保調用格式始終正確;Harness 負責步驟排序、輸出驗證和失敗恢復。

      基座模型可以完全不變,改變的是它所面對任務的表示方式。這也是整篇論文的核心論點:Agent 可靠性的提升,越來越不來自更強的推理器,而來自被更好地組織起來的認知系統。衡量一個 Agent 系統的問題,也從「模型有多強?」變成了「哪些負擔已經被外部化,讓模型不再需要每次從頭解決?」

      未來方向

      論文最后指出了六個前沿方向:

      • 外部化邊界的擴展— 規劃目標、驗證邏輯、編排策略本身都在成為 Harness 對象,而非只是被 Harness 執行的內容
      • 從數字到具身— 具身 Agent 正在經歷相同的外部化模式。高層規劃器與低延遲執行模塊的分離,正是外部化邏輯在物理系統中的映射
      • 自演化 Harness— 通過強化學習、程序合成或模仿學習讓基礎設施自動更新,前景廣闊,但治理風險同步放大
      • 安全與治理— 記憶投毒、惡意技能注入、協議欺騙等新型攻擊面值得專門關注,強制審查門控與來源溯源是成熟系統的必要保障
      • 共享基設與多智能體生態— 當記憶、技能、協議可以跨 Agent 共享,集體學習和勞動分工成為可能,同時帶來基礎設施漂移等治理難題
      • 外部化的評估— 現有 Benchmark 對基礎設施貢獻的度量嚴重不足,可遷移性、可維護性、上下文效率等新維度有待建立

      從記憶到技能到協議再到 Harness,這篇綜述的價值不在于羅列技術細節,而在于提供了一個系統級的解釋框架。一句話概括:更好的 Agent 不只是更好的推理器,而是被更好地組織起來的認知系統。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩性關系:不管你信不信,女性過了56歲后,基本都有這5個現狀

      兩性關系:不管你信不信,女性過了56歲后,基本都有這5個現狀

      娛樂洞察點點
      2026-04-22 00:03:09
      黃渤和鄧超為什么無戲可拍了?

      黃渤和鄧超為什么無戲可拍了?

      閑人電影
      2026-04-16 18:55:11
      上海一只走失的柯基旺財,在流浪二十八天后混成街頭狗老大

      上海一只走失的柯基旺財,在流浪二十八天后混成街頭狗老大

      搗蛋窩
      2026-04-21 20:13:23
      英超爭四生死戰:布萊頓主場阻擊切爾西

      英超爭四生死戰:布萊頓主場阻擊切爾西

      熱血體育社
      2026-04-22 01:15:01
      4 月還沒結束,王楚然徹底塌房,AI 雙標操作被扒,路人緣全崩

      4 月還沒結束,王楚然徹底塌房,AI 雙標操作被扒,路人緣全崩

      萌姐
      2026-04-20 22:10:45
      一艘載有液化氣的伊朗船只正穿越美國軍隊的封鎖

      一艘載有液化氣的伊朗船只正穿越美國軍隊的封鎖

      財聯社
      2026-04-22 01:22:10
      2400萬粉絲網紅自曝近300萬黃金和愛馬仕等被偷 小偷是新入職司機 警方已立案

      2400萬粉絲網紅自曝近300萬黃金和愛馬仕等被偷 小偷是新入職司機 警方已立案

      快科技
      2026-04-21 11:04:06
      瑞典電視臺世乒賽前爆驚雷,主教練厭倦巨星莫雷加德與隊友沖突

      瑞典電視臺世乒賽前爆驚雷,主教練厭倦巨星莫雷加德與隊友沖突

      冥王星與一只碗
      2026-04-21 10:00:24
      iPhone 17突然降價,這應該是目前最香的iPhone了

      iPhone 17突然降價,這應該是目前最香的iPhone了

      劉奔跑
      2026-04-19 23:10:21
      鹿晗36歲生日生圖引爭議!美顏似18歲少年,無濾鏡顏值暴跌黑又黃

      鹿晗36歲生日生圖引爭議!美顏似18歲少年,無濾鏡顏值暴跌黑又黃

      阿傖說事
      2026-04-21 04:21:00
      每吃一次,血管就堵一截?醫生:這5種水果是腦梗“加速器”

      每吃一次,血管就堵一截?醫生:這5種水果是腦梗“加速器”

      荊醫生科普
      2026-04-02 17:35:43
      長治女子萬達墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

      長治女子萬達墜亡最新!警方定性,被曝是研究生,跳樓誘因太痛心

      哄動一時啊
      2026-04-21 12:01:22
      分析:快船隊在NBA附加賽中慘敗給勇士后,必須交易的兩名球員

      分析:快船隊在NBA附加賽中慘敗給勇士后,必須交易的兩名球員

      好火子
      2026-04-21 22:56:00
      光通信主線切換,MLCC才是真龍頭賽道

      光通信主線切換,MLCC才是真龍頭賽道

      林子說事
      2026-04-21 20:26:50
      濃煙滾滾和紅紅火火:烏克蘭接連擊中重要目標!俄情報部門進步了

      濃煙滾滾和紅紅火火:烏克蘭接連擊中重要目標!俄情報部門進步了

      鷹眼Defence
      2026-04-21 17:49:49
      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      芳芳歷史燴
      2026-04-21 06:10:29
      欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

      欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

      火山詩話
      2026-04-21 06:36:18
      兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

      兒媳婦和公公保持情人關系10年,打了4次胎,還生了一個女兒

      胖胖侃咖
      2025-04-03 08:00:11
      歐盟軍費將增長至10倍

      歐盟軍費將增長至10倍

      參考消息
      2026-04-21 15:00:43
      外媒:“絕對不可能”!中國已經能制造出足以進行核聚變的超級鋼

      外媒:“絕對不可能”!中國已經能制造出足以進行核聚變的超級鋼

      軒逸阿II
      2026-04-06 00:25:50
      2026-04-22 03:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12822文章數 142633關注度
      往期回顧 全部

      科技要聞

      創造4萬億帝國、訪華20次,庫克留下了什么

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      頭條要聞

      三國取消飛航許可 賴清德無法竄訪斯威士蘭

      體育要聞

      一到NBA季后賽,四屆DPOY就成了主角

      娛樂要聞

      宋承炫曬寶寶B超照,宣布老婆懷孕

      財經要聞

      現實是最大的荒誕:千億平臺的沖突始末

      汽車要聞

      全新坦克700正式上市 售價42.8萬-50.8萬元

      態度原創

      時尚
      房產
      數碼
      手機
      藝術

      頂流復工,已判若兩人

      房產要聞

      年薪40-50萬!海南地產圈還在猛招人

      數碼要聞

      大疆發布Osmo Mobile 8P:售899元 分體式遙控器設計

      手機要聞

      iOS 26.5 Beta 3新版體驗:改進解鎖流暢度,信號也變好了?

      藝術要聞

      任伯年寫竹,真帶勁

      無障礙瀏覽 進入關懷版