![]()
機器之心發(fā)布
當 AI 智能體不再只是「一次性工具」,而是能夠持續(xù)學習、自我進化的「數(shù)字伙伴『數(shù)字同事』,會發(fā)生什么?自進化智能體應(yīng)該采取怎樣的設(shè)計原則?
全球首個基于「上下文信息密度最大化」設(shè)計原則的自進化智能體系統(tǒng) ——GenericAgent(GA),正式發(fā)布其技術(shù)報告。
報告顯示,GA 能在保持任務(wù)準確率前提下,比同類競爭對手節(jié)省近 10 倍 Token。報告深度解讀了 GA 的核心設(shè)計理念,介紹了自進化智能體的評測基準,并給出了評測數(shù)據(jù),全面剖析 GA 的自進化能力以及智能體設(shè)計的可靠思路!
整個報告長達 47 頁,今天大家可以一睹為快!
![]()
- Github 實時更新版本鏈接:https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdf
- arxiv 版本鏈接:https://arxiv.org/abs/2604.17091
GA 是什么?
GenericAgent(GA)是復旦大學知識工場實驗室旗下 A3 實驗室(Advantage AI Agent 實驗室,與深圳夸夸菁領(lǐng)科技有限公司合作)構(gòu)建的一個通用型、自進化 LLM 智能體系統(tǒng)。
GA 是下一代自組織、自學習、自進化的通用智能體的代表之一,是一個擁有「生命感」,能夠在用戶使用調(diào)教下快速學習與成長的數(shù)字生命。GA 技術(shù)的商業(yè)應(yīng)用版是 DinTal Claw,旨在將這一自進化架構(gòu)深度應(yīng)用于政企場景,打造低成本、高效率、安全可控的「數(shù)智員工」實戰(zhàn)標桿。
GA 自 2026 年 1 月 11 日開源以來,一度在 github trending python 編程語言登頂?shù)谝弧A篛penAI、Google 等頭部AI企業(yè)的開源系統(tǒng)。
![]()
![]()
先上結(jié)論:GA 強在哪?
- 任務(wù)完成率更高:在多個基準測試中,GA 實現(xiàn) 100% 準確率,全面領(lǐng)先主流智能體系統(tǒng);
- Token 消耗更低:相同任務(wù)下,Token 消耗僅為主流智能體系統(tǒng)的 15%-35%,省錢又高效;
- 越用越聰明:重復執(zhí)行相同任務(wù)時,Token 消耗可降低高達 89.6%,真正實現(xiàn)「經(jīng)驗復用」;
- 網(wǎng)頁瀏覽更強:在復雜多跳搜索任務(wù)中,準確率是基線系統(tǒng)的 3 倍,同時消耗更少資源。
![]()
GenericAgent 整體架構(gòu)圖
為什么你需要關(guān)注 GA?
最近,從 Claude Code、OpenAI Codex 到 Openclaw,AI 正在從被動的文本生成器,轉(zhuǎn)變?yōu)槟軌蛑鲃硬僮鹘K端、文件系統(tǒng)、瀏覽器的「目標導向型代理」。但是,一個直接的問題擺在用戶面前:「他們真的好用嗎?」
- 智能體「記性差」,聊著聊著就忘了
傳統(tǒng)智能體隨著交互增多,上下文越來越長,即「上下文爆炸」。關(guān)鍵信息反而被淹沒。結(jié)果就是:步驟越多,出錯率越高。
- 每次任務(wù)都從零開始,經(jīng)驗無法積累
今天總結(jié)的經(jīng)驗,明天換個會話就沒了。智能體一直在「重復造輪子」。Token 消耗隨任務(wù)數(shù)量線性增長,但有效能力卻保持停滯,形成一個沒有累積交互回報的「停滯循環(huán)」。
核心洞見:信息密度才是關(guān)鍵
面對這些問題,研究團隊提出了一個重磅觀點:
長周期性能的決定因素,不是上下文長度,而是在有限的上下文預算內(nèi)能夠維持多少與決策相關(guān)的信息。
換句話說,上下文信息密度才是核心。通過最大化上下文信息密度可以保證:決策信息不遺漏、冗余信息被消除、上下文可讀性高(次要但重要)。
GenericAgent:四大機制打造自進化智能體
基于「上下文信息密度最大化」這一核心原則,GA 通過四個緊密關(guān)聯(lián)的組件實現(xiàn)了 Agent:
機制一:最小原子工具集
工具最小化不是限制,而是 GA 在減少交互開銷的同時保持通用能力的核心機制。
GA 只保留了 9 個原子工具,分為五類能力:文件操作、代碼執(zhí)行、網(wǎng)頁交互、記憶管理、人在回路。并且,這幾個原子工具能夠通過組合泛化,造出新的工具來解決復雜任務(wù)。
有趣的是,僅「code_run」這一個工具在理論上就是圖靈完備的,可以復制所有其他工具的功能。那為什么還要保留其他 8 個工具?答案是:最小原子工具集可以降低任務(wù)的決策成本。
![]()
上表為長程復雜任務(wù)結(jié)果。五項任務(wù)涵蓋文檔生成(PDF/PPT 創(chuàng)建)、SQL 協(xié)作查詢生成、實驗分析報告撰寫、結(jié)合網(wǎng)絡(luò)檢索的采購決策,以及研究論文復現(xiàn)可行性分析,本表報告的是長程任務(wù)集上的平均結(jié)果。
機制二:分層按需記憶
記憶的核心是按需存取。GA 的關(guān)鍵設(shè)計是默認僅注入元記憶和 L1 索引層,遵循 L1→L2/L3 路由鏈,僅在需要時檢索更深層的事實或程序知識。這樣,記憶不會穩(wěn)步擠占當前任務(wù)所需的活躍上下文預算。
GA 將記憶組織為四層架構(gòu)
- L1 索引層:緊湊指針,包括高頻入口點、關(guān)鍵詞映射和少量硬約束;
- L2 事實層:經(jīng)過驗證且穩(wěn)定的事實信息,長期有效;
- L3 SOP 層:可復用的程序性知識,包括任務(wù)工作流、前置條件、關(guān)鍵執(zhí)行步驟、常見失敗案例及相應(yīng)調(diào)試 / 恢復策略;
- L4 原始會話存檔層:歷史執(zhí)行會話,用于持久化和可追溯性。
更巧妙的是,隨著 L2 和 L3 增長,L1 保持有界。每個 L1 條目僅記錄知識類別的「存在性」—— 而非其內(nèi)容。
這種極端壓縮之所以可行,是因為 LLM 本身充當解碼器:一旦它識別出相關(guān)能力或事實存在,就可以通過工具調(diào)用從更深層檢索完整內(nèi)容。
![]()
上表為 GA 等在 LoCoMo 上的長期事實記憶評估。GA 基于自身優(yōu)越的記憶架構(gòu)設(shè)計,確保了記憶的高效召回。
機制三:自進化機制
GA 將自進化是一個顯式且可檢查的流程。
什么在進化?解決任務(wù)的 策略,而非原子工具。工具接口和用戶交互是任務(wù)無關(guān)的,在運行時保持不變。相反,所有任務(wù)特定能力都編碼在 SOP 文件和可復用腳本中。
知識如何積累? 通過分層記憶,GA 確保在一個會話中獲得的知識在后續(xù)會話中立即可用。
進化的質(zhì)量如何控制? GA 在低記憶層級(L4)保留原始行動軌跡,但不允許它們直接向上傳播。L3 的可復用程序僅通過顯式整合步驟創(chuàng)建,在子目標完成或成功從失敗中恢復等有意義的時間點觸發(fā)。
![]()
在相同任務(wù)五次重復運行中,只有 GenericAgent 隨著任務(wù)經(jīng)驗的積累不斷提升工作效率。
機制四:上下文截斷與壓縮
GA 聚焦于壓縮而非擴展 —— 將更高密度的信息打包到更小的窗口中,優(yōu)于將稀釋的內(nèi)容輸入更大的窗口。
GA 使用四種不同粒度的上下文修剪機制:
- 工具輸出截斷:控制單個消息的大小;
- 標簽級壓縮:從舊消息中移除低價值片段;
- 消息驅(qū)逐:當整體預算超出時移除最舊內(nèi)容;
- 工作記憶錨點提示詞:確保任務(wù)關(guān)鍵信息在驅(qū)逐后保持可見。
這四種機制協(xié)同工作,確保活躍上下文不隨交互輪數(shù)線性增長。
![]()
在安裝 20 個技能并經(jīng)過高強度使用后,只有 GA 有效防止了上下文膨脹。
評估結(jié)果:效率與性能的雙重勝利
研究團隊在多個基準測試上對 GA 進行了全面評估。
核心結(jié)論:性能更強,成本更低
先來看最硬核的評測結(jié)果。在 SOP-bench、Lifelong AgentBench 和 RealFinBench 三大基準測試中,GA 的表現(xiàn)堪稱驚艷。
在 SOP-bench 和 Lifelong AgentBench 上,GA 以 100% 的準確率全面領(lǐng)先;在更貼近真實場景的 RealFinBench 上,GA 以 65% 的準確率登頂行業(yè)第一。
同等任務(wù)下,GA 的 Token 消耗僅為其它主流智能體系統(tǒng)的 15% 到 35%,真正做到了「花小錢辦大事」。
![]()
任務(wù)完成率與 Token 效率對比圖
越用越聰明:重復執(zhí)行效率躍遷
GA 自進化能力保證了它的高效。
當其他系統(tǒng)在重復執(zhí)行同類任務(wù)時,耗時和 Token 消耗基本是一條直線,只有 GA 越用越好用。5 次重復運行后,運行時間從 102 秒降至 66 秒,Token 消耗從 20 萬直接腰斬至 10 萬。
這不是簡單的緩存復用,而是GA 把第一次試錯的經(jīng)驗,自動提煉成了可復用的標準操作流程,讓后續(xù)任務(wù)真正實現(xiàn)了「站在肩膀上出發(fā)」。
![]()
重復運行效率提升曲線圖
這種進化能力還能跨任務(wù)泛化。在 8 個不同網(wǎng)頁任務(wù)的重復測試中,GA 后續(xù)執(zhí)行的 Token 消耗平均下降 79.3%,最高單任務(wù)節(jié)省達 92.4%。任務(wù)越復雜、依賴鏈條越長,節(jié)省效果越顯著。
相比之下,主流智能體系統(tǒng)在多次運行中數(shù)據(jù)波動不定,仍在重復探索,而GA 展現(xiàn)出清晰的「冷啟動→快速收斂」模式,真正學會了如何學習。
![]()
跨任務(wù) Token 收斂對比圖
長期進化:從「學徒」到「專家」的蛻變
長期進化的性能更高。第一輪執(zhí)行時,GA 需要 7 分 30 秒、調(diào)用 32 次大模型、消耗 22.2 萬 Token;而到了第九輪,僅需 1 分 38 秒、5 次調(diào)用、2.3 萬 Token 即可完成同等任務(wù),Token 消耗減少 89.6%,調(diào)用次數(shù)減少 84.4%。
這種從探索到執(zhí)行、從文本 SOP 到可執(zhí)行代碼的進化,不是人工干預的結(jié)果,而是系統(tǒng)自主完成的。
![]()
九輪進化軌跡數(shù)據(jù)圖
網(wǎng)頁瀏覽:在混亂中保持清醒
網(wǎng)頁是智能體的「終極考場」,一個網(wǎng)頁的訪問動輒為 Agent 引入上百萬 token 開銷,而 GA 在這里同樣表現(xiàn)出色。
在最具挑戰(zhàn)的 BrowseComp-ZH 多跳推理任務(wù)中,GA 準確率達到 0.60,是主流智能體系統(tǒng) 0.20 的整整 3 倍,同時 Token 消耗僅為其三分之一;在真實網(wǎng)頁任務(wù)中,GA 以 0.26M Token 獲得 0.577 分,主流智能體系統(tǒng)消耗 0.76M Token 僅得 0.50 分。
面對海量 HTML 噪聲和動態(tài) DOM 元素,GA 的上下文壓縮與分層記憶機制展現(xiàn)出壓倒性優(yōu)勢,真正做到「在復雜環(huán)境中不迷路」。
![]()
網(wǎng)頁瀏覽性能對比圖
關(guān)鍵發(fā)現(xiàn):重新思考智能體設(shè)計
從 GenericAgent 的開發(fā)中,研究團隊提煉出五個關(guān)鍵發(fā)現(xiàn),這些發(fā)現(xiàn)對 LLM 智能體系統(tǒng)的設(shè)計具有廣泛相關(guān)性。
發(fā)現(xiàn)一:上下文信息密度是結(jié)構(gòu)性約束
上下文信息密度不是「可選」的優(yōu)化目標,而是每個智能體系統(tǒng)必須通過設(shè)計面對的結(jié)構(gòu)性約束。只要智能體使用 LLM 作為其推理引擎,每個決策步驟的質(zhì)量最終在單次前向傳播內(nèi)確定,無論工具、記憶容量或工作流復雜度如何,都無法規(guī)避此約束。
發(fā)現(xiàn)二:存在智能體系統(tǒng)的最小完備能力集
在信息密度的結(jié)構(gòu)性約束下,智能體只需實現(xiàn)三種能力。任何不服務(wù)于這三種能力之一的設(shè)計都在引入額外復雜度,從而降低信息密度。
- 工具接口:智能體與外部世界交互的唯一通道;
- 上下文管理:對應(yīng)于語言模型的輸入,任務(wù)狀態(tài)、中間結(jié)果、工具輸出和所有其他內(nèi)容在進入上下文前必須主動過濾;
- 記憶形成:對應(yīng)于跨任務(wù)知識積累,如果不將交互中驗證的內(nèi)容保留為可復用記憶,每個任務(wù)都從頭開始。
發(fā)現(xiàn)三:更低 Token 消耗對應(yīng)更好任務(wù)性能
這一發(fā)現(xiàn)違反直覺,因為普遍假設(shè)是更長的推理鏈和更多交互輪次反映更徹底的深思熟慮,因此應(yīng)產(chǎn)生更好結(jié)果。然而,實驗結(jié)果在長周期智能體執(zhí)行設(shè)置中系統(tǒng)地指向相反結(jié)論。
在 Lifelong AgentBench 上,GA 僅消耗 Claude Code 輸入 Token 的 27.7% 和 OpenClaw 的 15.5%,同時實現(xiàn)更高的 100% 任務(wù)完成率。
超過某個點后,額外 Token 不會引入更多有用信息,反而通過位置偏差、注意力稀釋和有效窗口收縮降低推理質(zhì)量。消耗更多 Token 的智能體更是上下文管理的系統(tǒng)性失效導致的,通過額外交互補償每步?jīng)Q策質(zhì)量的退化,而非改進它。
發(fā)現(xiàn)四:權(quán)限定義智能體能力的上限
智能體能接觸多少環(huán)境,就能獲得多少智能。
智能體能感知什么、能作用于什么、能從什么反饋中學習,直接決定它能發(fā)展的推理鏈復雜度和能解決的任務(wù)難度。一個小規(guī)模沙箱中的 agent,不論他多么安全,他的智能水平是極其有限的。在智能體探索階段鎖定行動邊界,等同于在系統(tǒng)設(shè)計階段預先封頂其能力上限。縮小探索邊界不是構(gòu)建有用智能體的路徑,其終點是一個安全但無用的系統(tǒng)。
發(fā)現(xiàn)五:最小架構(gòu)是智能體自主進化的必要前提
開發(fā)團隊提出一個新的、更長遠意義的「自進化」三個維度:
- 技能整合
- 自主探索
- 架構(gòu)自更新
因此,當架構(gòu)足夠精簡時,Agent 可以審視和修改自身,最終實現(xiàn) Agent 的自進化。一個擁有數(shù)十萬行代碼的系統(tǒng)對智能體是不透明的 —— 它既無法理解也無法修改。相比之下,幾千行的核心代碼庫是可讀、可理解、可修改的。在 GA 的最小架構(gòu)中,作為原生執(zhí)行面的自托管 CLI 自然使子智能體能夠讀取和修改核心代碼庫,使架構(gòu)自更新成為實際的、可實現(xiàn)的。
結(jié)語:智能體的可靠方向
GenericAgent 的技術(shù)報告拆解出了一套全新的智能體架構(gòu)設(shè)計框架,它揭示了大量現(xiàn)有 Agent 的設(shè)計是盲目的。GenericAgent 僅用 3000 多行核心代碼實現(xiàn)的能力,充分展示了智能體未來發(fā)展的無限前景。
GenericAgent 自 2026 年 1 月 11 日起已經(jīng)開源,目前在 Github 已獲超過 5.2K+ Star,進入 Github 趨勢榜。歡迎大家一起見證智能體的進化時刻!
- 開源鏈接:https://github.com/lsdefine/GenericAgent
- GA 小白使用指南(圖文版本): https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb
- GA 官方教程:https://github.com/datawhalechina/hello-generic-agent
敬請關(guān)注 GenericAgent 的商業(yè)落地版本,更智能、更省錢、更安全、更穩(wěn)定的 Dintal Claw 的最新動態(tài)!
團隊以往研究工作:
- 還需付費卸載龍蝦?這只龍蝦能直接「殺死」OpenClaw
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651021300&idx=1&sn=a346a3bdee36b5285bc239186be4318a&scene=21&poc_token=HGgt6GmjGRIXIAcNJWAXmlcXszciMd2reVrVUxU1
- 一只能安裝龍蝦的龍蝦,才是好龍蝦!
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651020372&idx=1&sn=8f29daff11cb7723f5c523134b303386&scene=21&poc_token=HHgt6GmjaPNexhwaPahPzz3Ox6H_qiujpeAG4Hzm
- 一個 Agent,發(fā)出了「人生」第一條朋友圈
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651018653&idx=1&sn=5d8578072edd5a01bd4f4fbfb20aadb8&scene=21&poc_token=HIgt6GmjblQla9nv290pv3T3GZPoyVZ5G72HLxoZ
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.