首篇自進化智能體系統(tǒng)技術(shù)報告:Token成本直降近10倍,省錢又高效

2026-04-22 10:26:17　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

當 AI 智能體不再只是「一次性工具」，而是能夠持續(xù)學習、自我進化的「數(shù)字伙伴『數(shù)字同事』，會發(fā)生什么？自進化智能體應(yīng)該采取怎樣的設(shè)計原則？

全球首個基于「上下文信息密度最大化」設(shè)計原則的自進化智能體系統(tǒng) ——GenericAgent（GA），正式發(fā)布其技術(shù)報告。

報告顯示，GA 能在保持任務(wù)準確率前提下，比同類競爭對手節(jié)省近 10 倍 Token。報告深度解讀了 GA 的核心設(shè)計理念，介紹了自進化智能體的評測基準，并給出了評測數(shù)據(jù)，全面剖析 GA 的自進化能力以及智能體設(shè)計的可靠思路！

整個報告長達 47 頁，今天大家可以一睹為快！

Github 實時更新版本鏈接：https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdf
arxiv 版本鏈接：https://arxiv.org/abs/2604.17091

GA 是什么？

GenericAgent（GA）是復旦大學知識工場實驗室旗下 A3 實驗室（Advantage AI Agent 實驗室，與深圳夸夸菁領(lǐng)科技有限公司合作）構(gòu)建的一個通用型、自進化 LLM 智能體系統(tǒng)。

GA 是下一代自組織、自學習、自進化的通用智能體的代表之一，是一個擁有「生命感」，能夠在用戶使用調(diào)教下快速學習與成長的數(shù)字生命。GA 技術(shù)的商業(yè)應(yīng)用版是 DinTal Claw，旨在將這一自進化架構(gòu)深度應(yīng)用于政企場景，打造低成本、高效率、安全可控的「數(shù)智員工」實戰(zhàn)標桿。

GA 自 2026 年 1 月 11 日開源以來，一度在 github trending python 編程語言登頂?shù)谝弧Ａ篛penAI、Google 等頭部AI企業(yè)的開源系統(tǒng)。

先上結(jié)論：GA 強在哪？

任務(wù)完成率更高：在多個基準測試中，GA 實現(xiàn) 100% 準確率，全面領(lǐng)先主流智能體系統(tǒng)；
Token 消耗更低：相同任務(wù)下，Token 消耗僅為主流智能體系統(tǒng)的 15%-35%，省錢又高效；
越用越聰明：重復執(zhí)行相同任務(wù)時，Token 消耗可降低高達 89.6%，真正實現(xiàn)「經(jīng)驗復用」；
網(wǎng)頁瀏覽更強：在復雜多跳搜索任務(wù)中，準確率是基線系統(tǒng)的 3 倍，同時消耗更少資源。

GenericAgent 整體架構(gòu)圖

為什么你需要關(guān)注 GA？

最近，從 Claude Code、OpenAI Codex 到 Openclaw，AI 正在從被動的文本生成器，轉(zhuǎn)變?yōu)槟軌蛑鲃硬僮鹘K端、文件系統(tǒng)、瀏覽器的「目標導向型代理」。但是，一個直接的問題擺在用戶面前：「他們真的好用嗎？」

智能體「記性差」，聊著聊著就忘了

傳統(tǒng)智能體隨著交互增多，上下文越來越長，即「上下文爆炸」。關(guān)鍵信息反而被淹沒。結(jié)果就是：步驟越多，出錯率越高。

每次任務(wù)都從零開始，經(jīng)驗無法積累

今天總結(jié)的經(jīng)驗，明天換個會話就沒了。智能體一直在「重復造輪子」。Token 消耗隨任務(wù)數(shù)量線性增長，但有效能力卻保持停滯，形成一個沒有累積交互回報的「停滯循環(huán)」。

核心洞見：信息密度才是關(guān)鍵

面對這些問題，研究團隊提出了一個重磅觀點：

長周期性能的決定因素，不是上下文長度，而是在有限的上下文預算內(nèi)能夠維持多少與決策相關(guān)的信息。

換句話說，上下文信息密度才是核心。通過最大化上下文信息密度可以保證：決策信息不遺漏、冗余信息被消除、上下文可讀性高（次要但重要）。

GenericAgent：四大機制打造自進化智能體

基于「上下文信息密度最大化」這一核心原則，GA 通過四個緊密關(guān)聯(lián)的組件實現(xiàn)了 Agent：

機制一：最小原子工具集

工具最小化不是限制，而是 GA 在減少交互開銷的同時保持通用能力的核心機制。

GA 只保留了 9 個原子工具，分為五類能力：文件操作、代碼執(zhí)行、網(wǎng)頁交互、記憶管理、人在回路。并且，這幾個原子工具能夠通過組合泛化，造出新的工具來解決復雜任務(wù)。

有趣的是，僅「code_run」這一個工具在理論上就是圖靈完備的，可以復制所有其他工具的功能。那為什么還要保留其他 8 個工具？答案是：最小原子工具集可以降低任務(wù)的決策成本。

上表為長程復雜任務(wù)結(jié)果。五項任務(wù)涵蓋文檔生成（PDF/PPT 創(chuàng)建）、SQL 協(xié)作查詢生成、實驗分析報告撰寫、結(jié)合網(wǎng)絡(luò)檢索的采購決策，以及研究論文復現(xiàn)可行性分析，本表報告的是長程任務(wù)集上的平均結(jié)果。

機制二：分層按需記憶

記憶的核心是按需存取。GA 的關(guān)鍵設(shè)計是默認僅注入元記憶和 L1 索引層，遵循 L1→L2/L3 路由鏈，僅在需要時檢索更深層的事實或程序知識。這樣，記憶不會穩(wěn)步擠占當前任務(wù)所需的活躍上下文預算。

GA 將記憶組織為四層架構(gòu)

L1 索引層：緊湊指針，包括高頻入口點、關(guān)鍵詞映射和少量硬約束；
L2 事實層：經(jīng)過驗證且穩(wěn)定的事實信息，長期有效；
L3 SOP 層：可復用的程序性知識，包括任務(wù)工作流、前置條件、關(guān)鍵執(zhí)行步驟、常見失敗案例及相應(yīng)調(diào)試 / 恢復策略；
L4 原始會話存檔層：歷史執(zhí)行會話，用于持久化和可追溯性。

更巧妙的是，隨著 L2 和 L3 增長，L1 保持有界。每個 L1 條目僅記錄知識類別的「存在性」—— 而非其內(nèi)容。

這種極端壓縮之所以可行，是因為 LLM 本身充當解碼器：一旦它識別出相關(guān)能力或事實存在，就可以通過工具調(diào)用從更深層檢索完整內(nèi)容。

上表為 GA 等在 LoCoMo 上的長期事實記憶評估。GA 基于自身優(yōu)越的記憶架構(gòu)設(shè)計，確保了記憶的高效召回。

機制三：自進化機制

GA 將自進化是一個顯式且可檢查的流程。

什么在進化？解決任務(wù)的策略，而非原子工具。工具接口和用戶交互是任務(wù)無關(guān)的，在運行時保持不變。相反，所有任務(wù)特定能力都編碼在 SOP 文件和可復用腳本中。

知識如何積累？通過分層記憶，GA 確保在一個會話中獲得的知識在后續(xù)會話中立即可用。

進化的質(zhì)量如何控制？ GA 在低記憶層級（L4）保留原始行動軌跡，但不允許它們直接向上傳播。L3 的可復用程序僅通過顯式整合步驟創(chuàng)建，在子目標完成或成功從失敗中恢復等有意義的時間點觸發(fā)。

在相同任務(wù)五次重復運行中，只有 GenericAgent 隨著任務(wù)經(jīng)驗的積累不斷提升工作效率。

機制四：上下文截斷與壓縮

GA 聚焦于壓縮而非擴展 —— 將更高密度的信息打包到更小的窗口中，優(yōu)于將稀釋的內(nèi)容輸入更大的窗口。

GA 使用四種不同粒度的上下文修剪機制：

工具輸出截斷：控制單個消息的大小；
標簽級壓縮：從舊消息中移除低價值片段；
消息驅(qū)逐：當整體預算超出時移除最舊內(nèi)容；
工作記憶錨點提示詞：確保任務(wù)關(guān)鍵信息在驅(qū)逐后保持可見。

這四種機制協(xié)同工作，確保活躍上下文不隨交互輪數(shù)線性增長。

在安裝 20 個技能并經(jīng)過高強度使用后，只有 GA 有效防止了上下文膨脹。

評估結(jié)果：效率與性能的雙重勝利

研究團隊在多個基準測試上對 GA 進行了全面評估。

核心結(jié)論：性能更強，成本更低

先來看最硬核的評測結(jié)果。在 SOP-bench、Lifelong AgentBench 和 RealFinBench 三大基準測試中，GA 的表現(xiàn)堪稱驚艷。

在 SOP-bench 和 Lifelong AgentBench 上，GA 以 100% 的準確率全面領(lǐng)先；在更貼近真實場景的 RealFinBench 上，GA 以 65% 的準確率登頂行業(yè)第一。

同等任務(wù)下，GA 的 Token 消耗僅為其它主流智能體系統(tǒng)的 15% 到 35%，真正做到了「花小錢辦大事」。

任務(wù)完成率與 Token 效率對比圖

越用越聰明：重復執(zhí)行效率躍遷

GA 自進化能力保證了它的高效。

當其他系統(tǒng)在重復執(zhí)行同類任務(wù)時，耗時和 Token 消耗基本是一條直線，只有 GA 越用越好用。5 次重復運行后，運行時間從 102 秒降至 66 秒，Token 消耗從 20 萬直接腰斬至 10 萬。

這不是簡單的緩存復用，而是GA 把第一次試錯的經(jīng)驗，自動提煉成了可復用的標準操作流程，讓后續(xù)任務(wù)真正實現(xiàn)了「站在肩膀上出發(fā)」。

重復運行效率提升曲線圖

這種進化能力還能跨任務(wù)泛化。在 8 個不同網(wǎng)頁任務(wù)的重復測試中，GA 后續(xù)執(zhí)行的 Token 消耗平均下降 79.3%，最高單任務(wù)節(jié)省達 92.4%。任務(wù)越復雜、依賴鏈條越長，節(jié)省效果越顯著。

相比之下，主流智能體系統(tǒng)在多次運行中數(shù)據(jù)波動不定，仍在重復探索，而GA 展現(xiàn)出清晰的「冷啟動→快速收斂」模式，真正學會了如何學習。

跨任務(wù) Token 收斂對比圖

長期進化：從「學徒」到「專家」的蛻變

長期進化的性能更高。第一輪執(zhí)行時，GA 需要 7 分 30 秒、調(diào)用 32 次大模型、消耗 22.2 萬 Token；而到了第九輪，僅需 1 分 38 秒、5 次調(diào)用、2.3 萬 Token 即可完成同等任務(wù)，Token 消耗減少 89.6%，調(diào)用次數(shù)減少 84.4%。

這種從探索到執(zhí)行、從文本 SOP 到可執(zhí)行代碼的進化，不是人工干預的結(jié)果，而是系統(tǒng)自主完成的。

九輪進化軌跡數(shù)據(jù)圖

網(wǎng)頁瀏覽：在混亂中保持清醒

網(wǎng)頁是智能體的「終極考場」，一個網(wǎng)頁的訪問動輒為 Agent 引入上百萬 token 開銷，而 GA 在這里同樣表現(xiàn)出色。

在最具挑戰(zhàn)的 BrowseComp-ZH 多跳推理任務(wù)中，GA 準確率達到 0.60，是主流智能體系統(tǒng) 0.20 的整整 3 倍，同時 Token 消耗僅為其三分之一；在真實網(wǎng)頁任務(wù)中，GA 以 0.26M Token 獲得 0.577 分，主流智能體系統(tǒng)消耗 0.76M Token 僅得 0.50 分。

面對海量 HTML 噪聲和動態(tài) DOM 元素，GA 的上下文壓縮與分層記憶機制展現(xiàn)出壓倒性優(yōu)勢，真正做到「在復雜環(huán)境中不迷路」。

網(wǎng)頁瀏覽性能對比圖

關(guān)鍵發(fā)現(xiàn)：重新思考智能體設(shè)計

從 GenericAgent 的開發(fā)中，研究團隊提煉出五個關(guān)鍵發(fā)現(xiàn)，這些發(fā)現(xiàn)對 LLM 智能體系統(tǒng)的設(shè)計具有廣泛相關(guān)性。

發(fā)現(xiàn)一：上下文信息密度是結(jié)構(gòu)性約束

上下文信息密度不是「可選」的優(yōu)化目標，而是每個智能體系統(tǒng)必須通過設(shè)計面對的結(jié)構(gòu)性約束。只要智能體使用 LLM 作為其推理引擎，每個決策步驟的質(zhì)量最終在單次前向傳播內(nèi)確定，無論工具、記憶容量或工作流復雜度如何，都無法規(guī)避此約束。

發(fā)現(xiàn)二：存在智能體系統(tǒng)的最小完備能力集

在信息密度的結(jié)構(gòu)性約束下，智能體只需實現(xiàn)三種能力。任何不服務(wù)于這三種能力之一的設(shè)計都在引入額外復雜度，從而降低信息密度。

工具接口：智能體與外部世界交互的唯一通道；
上下文管理：對應(yīng)于語言模型的輸入，任務(wù)狀態(tài)、中間結(jié)果、工具輸出和所有其他內(nèi)容在進入上下文前必須主動過濾；
記憶形成：對應(yīng)于跨任務(wù)知識積累，如果不將交互中驗證的內(nèi)容保留為可復用記憶，每個任務(wù)都從頭開始。

發(fā)現(xiàn)三：更低 Token 消耗對應(yīng)更好任務(wù)性能

這一發(fā)現(xiàn)違反直覺，因為普遍假設(shè)是更長的推理鏈和更多交互輪次反映更徹底的深思熟慮，因此應(yīng)產(chǎn)生更好結(jié)果。然而，實驗結(jié)果在長周期智能體執(zhí)行設(shè)置中系統(tǒng)地指向相反結(jié)論。

在 Lifelong AgentBench 上，GA 僅消耗 Claude Code 輸入 Token 的 27.7% 和 OpenClaw 的 15.5%，同時實現(xiàn)更高的 100% 任務(wù)完成率。

超過某個點后，額外 Token 不會引入更多有用信息，反而通過位置偏差、注意力稀釋和有效窗口收縮降低推理質(zhì)量。消耗更多 Token 的智能體更是上下文管理的系統(tǒng)性失效導致的，通過額外交互補償每步?jīng)Q策質(zhì)量的退化，而非改進它。

發(fā)現(xiàn)四：權(quán)限定義智能體能力的上限

智能體能接觸多少環(huán)境，就能獲得多少智能。

智能體能感知什么、能作用于什么、能從什么反饋中學習，直接決定它能發(fā)展的推理鏈復雜度和能解決的任務(wù)難度。一個小規(guī)模沙箱中的 agent，不論他多么安全，他的智能水平是極其有限的。在智能體探索階段鎖定行動邊界，等同于在系統(tǒng)設(shè)計階段預先封頂其能力上限。縮小探索邊界不是構(gòu)建有用智能體的路徑，其終點是一個安全但無用的系統(tǒng)。

發(fā)現(xiàn)五：最小架構(gòu)是智能體自主進化的必要前提

開發(fā)團隊提出一個新的、更長遠意義的「自進化」三個維度：

技能整合
自主探索
架構(gòu)自更新

因此，當架構(gòu)足夠精簡時，Agent 可以審視和修改自身，最終實現(xiàn) Agent 的自進化。一個擁有數(shù)十萬行代碼的系統(tǒng)對智能體是不透明的 —— 它既無法理解也無法修改。相比之下，幾千行的核心代碼庫是可讀、可理解、可修改的。在 GA 的最小架構(gòu)中，作為原生執(zhí)行面的自托管 CLI 自然使子智能體能夠讀取和修改核心代碼庫，使架構(gòu)自更新成為實際的、可實現(xiàn)的。

結(jié)語：智能體的可靠方向

GenericAgent 的技術(shù)報告拆解出了一套全新的智能體架構(gòu)設(shè)計框架，它揭示了大量現(xiàn)有 Agent 的設(shè)計是盲目的。GenericAgent 僅用 3000 多行核心代碼實現(xiàn)的能力，充分展示了智能體未來發(fā)展的無限前景。

GenericAgent 自 2026 年 1 月 11 日起已經(jīng)開源，目前在 Github 已獲超過 5.2K+ Star，進入 Github 趨勢榜。歡迎大家一起見證智能體的進化時刻！

開源鏈接：https://github.com/lsdefine/GenericAgent
GA 小白使用指南（圖文版本）: https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb
GA 官方教程：https://github.com/datawhalechina/hello-generic-agent

敬請關(guān)注 GenericAgent 的商業(yè)落地版本，更智能、更省錢、更安全、更穩(wěn)定的 Dintal Claw 的最新動態(tài)！

團隊以往研究工作：

還需付費卸載龍蝦？這只龍蝦能直接「殺死」OpenClaw

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651021300&idx=1&sn=a346a3bdee36b5285bc239186be4318a&scene=21&poc_token=HGgt6GmjGRIXIAcNJWAXmlcXszciMd2reVrVUxU1

一只能安裝龍蝦的龍蝦，才是好龍蝦！

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651020372&idx=1&sn=8f29daff11cb7723f5c523134b303386&scene=21&poc_token=HHgt6GmjaPNexhwaPahPzz3Ox6H_qiujpeAG4Hzm

一個 Agent，發(fā)出了「人生」第一條朋友圈

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651018653&idx=1&sn=5d8578072edd5a01bd4f4fbfb20aadb8&scene=21&poc_token=HIgt6GmjblQla9nv290pv3T3GZPoyVZ5G72HLxoZ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.