網易首頁 > 網易號 > 正文申請入駐

最新Agent論文洞察：為什么說AI的未來在上下文，不在參數？

2025-11-17 18:21:31　來源: GeekSavvy

北京舉報

分享至

大家好，最近看到一篇很有意思的論文——《Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models》，它提出了一個顛覆性的觀點：AI的未來可能不在參數規模的擴大，而在于上下文的動態優化。今天我想和大家分享這個框架的價值，以及它對AI發展的啟示。

當前AI應用面臨一個普遍痛點：大多數系統依賴權重更新來改進性能，比如微調模型需要大量標注數據、昂貴的計算資源，而且每次更新都要重新訓練，周期長達幾周甚至幾個月。這種模式不僅成本高，還難以適應快速變化的任務需求。而ACE框架的創新之處在于，它把上下文當作動態的"playbook"而非靜態的prompt，讓模型通過自我反思和經驗積累實現實時改進，無需修改任何參數。這可能是AI系統從"靜態工具"轉向"自適應智能體"的關鍵一步。

權重更新的局限與上下文工程的興起

過去十年，AI的進步很大程度上依賴于參數規模的擴大——從GPT-2的1.5億參數到GPT-4的萬億級參數，模型能力確實在提升。但這種路徑存在明顯局限：首先，參數更新成本極高，訓練一次GPT-4級別的模型需要數千萬美元，不是所有企業都能負擔；其次，泛化性有限，微調后的模型往往在特定任務表現好，但在其他任務上可能出現性能下降；最后，無法實時適應，面對新任務或新場景，必須重新訓練或微調，周期長且靈活性差。

與之相對，上下文工程提供了一條更高效的路徑。它把模型的輸入上下文當作動態的知識庫，通過實時調整上下文內容來引導模型行為，不需要修改任何參數。這種模式的優勢顯而易見：一是實時性，可以快速適應新任務；二是低成本，不需要昂貴的訓練資源；三是可解釋性，上下文的變化清晰可見，便于調試和優化。ACE框架正是這種思路的代表，它把上下文從靜態的指令升級為動態的"playbook"，讓模型在執行任務時不斷學習和改進。

真正的智能不在于擁有多少參數，而在于如何巧妙地運用上下文。這是我從ACE框架中得到的最深體會。就像人類一樣，聰明的人不是記住所有知識，而是知道如何快速找到并運用所需的知識——ACE框架正是讓模型具備了這種能力。

ACE框架的三模塊深度解析：像團隊一樣工作的AI系統

ACE框架的核心是三個相互協作的模塊：Generator、Reflector和Curator。這三個模塊像一個高效的團隊，各自承擔不同職責，共同推動上下文的進化。下面我來詳細解析每個模塊的作用：

Generator：探索者——生成推理軌跡

Generator的角色類似于做實驗的研究員，它負責接收問題并生成完整的推理軌跡。比如在解決AppWorld的任務時，Generator會輸出從理解問題、調用工具到執行代碼的所有步驟。這個過程不僅是為了得到答案，更重要的是暴露模型的思考過程，為后續的反思提供素材。Generator的關鍵在于生成詳細、真實的軌跡，而不是追求完美的結果——因為即使失敗的軌跡，也能為模型提供寶貴的教訓。

Reflector：復盤者——提取經驗教訓

Reflector就像團隊里的復盤導師，它會仔細分析Generator生成的軌跡，找出成功的經驗和失敗的原因。比如，如果Generator在調用API時出錯，Reflector會指出錯誤類型（如參數不匹配）、影響（任務失敗）和改進建議（檢查API文檔中的參數要求）。Reflector的獨特之處在于結構化反思：它不會簡單地說"你錯了"，而是輸出具體、可操作的教訓，比如"當處理用戶的文件操作請求時，必須先驗證文件路徑是否存在"。這種結構化的反思是上下文進化的關鍵燃料。

Curator：管理者——構建動態知識庫

Curator是上下文的管理員，它把Reflector提取的教訓整理成結構化的條目，并增量更新到上下文里。這里的關鍵是"增量"——Curator不會重寫整個上下文，而是添加新的條目或修改已有條目，避免了傳統方法中的"上下文崩潰"問題。此外，Curator還采用了"grow-and-refine"機制：一方面不斷添加新的經驗，另一方面定期清理冗余或過時的內容，確保上下文始終保持高效。比如，當Curator發現某個策略被多次驗證有效時，會提升它的優先級；而當某個策略被證明過時，會將其標記為廢棄。

這三個模塊的協作模式解決了傳統上下文工程的兩大痛點： brevity bias （過度追求簡潔導致信息丟失）和 context collapse （反復重寫導致上下文質量下降）。通過分工協作，ACE框架讓上下文像活的有機體一樣，不斷吸收新信息，優化舊知識。

實驗效果：小模型也能戰勝大模型的秘密武器

ACE框架的效果如何？論文中的實驗數據給出了令人信服的答案。我特別關注了兩個場景的結果：AppWorld智能體任務和金融分析基準，這兩個場景分別代表了動態交互和專業領域的典型需求。

AppWorld任務：小模型匹配GPT-4.1的生產級性能

在AppWorld基準測試中，ACE框架讓開源小模型DeepSeek-V3.1（參數規模遠小于GPT-4.1）達到了與GPT-4.1生產級agent相當的性能。具體來說：

? 在整體平均準確率上，ACE框架將ReAct基線從42.4%提升到59.5%，提升幅度達17.1%；
? 在挑戰集上，ACE框架的表現甚至超過了GPT-4.1的IBM CUGA agent，TGC指標提升8.4%；
? 更令人驚訝的是， 即使沒有標注數據 ，ACE框架也能實現14.8%的性能提升——這意味著模型可以通過自我反思實現無監督學習。

這個結果打破了我們對模型規模的迷信：不是只有大模型才能做復雜任務，小模型加上好的上下文工程，同樣可以達到頂尖水平。

金融分析：專業領域的精準提升

在金融分析的FiNER和Formula基準測試中，ACE框架同樣表現出色：

? FiNER（金融實體識別）準確率從70.7%提升到78.3%，提升7.6%；
? Formula（金融數值推理）準確率從67.5%提升到85.5%，提升18.0%；
? 兩個任務的平均提升達8.6%，遠超傳統的prompt優化方法。

金融領域的提升尤其有意義，因為這里需要處理大量專業知識（如XBRL規則）和復雜推理。ACE框架通過積累領域特定的策略，讓模型快速掌握這些知識，而不需要重新訓練——這對于需要實時適應新監管要求的金融行業來說，價值不可估量。

技術優勢：低成本、低延遲、無需標注數據的三重突破

ACE框架的成功不僅在于性能提升，更在于它解決了傳統AI系統的成本和效率問題。論文中的數據顯示，ACE框架在以下三個方面實現了突破：

低成本：資源消耗大幅降低

? 離線適應成本 ：與GEPA相比，ACE框架的rollout數量減少75.1%，延遲降低82.3%；
? 在線適應成本 ：與Dynamic Cheatsheet相比，token成本減少83.6%，延遲降低91.5%；
? 模型規模 ：使用小模型DeepSeek-V3.1即可達到頂尖性能，避免了大模型的高昂部署成本。

這些數據意味著，ACE框架讓高性能AI系統的部署成本降低了一個數量級——這對于中小企業來說是巨大的福音。

低延遲：實時自我改進

ACE框架的增量更新機制確保了上下文的更新速度極快。傳統的權重更新需要數小時甚至數天，而ACE框架的上下文更新可以在毫秒級完成。這種低延遲特性讓模型能夠實時適應新任務，比如在客服場景中，模型可以從每一次對話中學習，不斷提升服務質量。

無需標注數據：打破數據依賴

ACE框架最令人興奮的特點之一是不需要標注數據。它通過Generator生成的軌跡和Reflector的反思，自動提取有用的知識——這解決了AI應用中最昂貴的環節：數據標注。比如在AppWorld任務中，ACE框架在無標注數據的情況下，仍然實現了14.8%的性能提升，這在傳統方法中是不可想象的。

結論：上下文工程將重塑AI的未來

通過對ACE框架的分析，上下文工程是AI系統自我改進的關鍵路徑。它不僅解決了傳統參數更新的局限，還為AI系統帶來了前所未有的靈活性和適應性。以下是我對未來的三點展望：

1. 小模型的春天即將到來

ACE框架證明，小模型加上好的上下文工程，可以達到大模型的性能。這意味著未來AI應用將不再一味追求參數規模，而是轉向高效的上下文管理。對于企業來說，這將大大降低AI應用的門檻——不需要花費數百萬美元訓練大模型，只需要用小模型加上ACE框架，就能構建出高性能的AI系統。

2. 自適應AI系統成為主流

ACE框架讓AI系統具備了實時學習的能力。未來的AI系統將不再是"訓練一次用很久"的靜態工具，而是像人類一樣不斷學習、不斷進步的動態智能體。比如在醫療領域，AI系統可以從每一次診斷中學習，不斷提升準確率；在金融領域，它可以實時適應新的監管政策。

3. 上下文工程師成為新職業

隨著上下文工程的重要性提升，上下文工程師將成為AI領域的新職業。他們的職責是設計和優化AI系統的上下文管理機制，讓模型能夠高效地積累和運用知識。這將是一個融合AI技術、領域知識和用戶體驗的交叉崗位，具有廣闊的發展前景。

最后，我想給AI開發者和企業提一個建議：不要再只關注模型的參數規模，而是把更多精力放在上下文工程上。因為真正的智能，不在于擁有多少知識，而在于如何巧妙地運用知識——這正是ACE框架教給我們的道理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.