網易首頁 > 網易號 > 正文申請入駐

LangChain Agent 年度報告：輸出質量仍是 Agent 最大障礙，客服、研究是最快落地場景

2025-12-22 21:05:38　來源: FounderPark

北京舉報

分享至

2025 年，讓 Agent 實際投產、落地應用的最大障礙已經不再是成本問題了，而是「質量」。如何讓 Agent 輸出可靠、準確的內容，仍然是最難的部分。

近期，LangChain 通過對工程師、產品經理、企業高管等 1300 名行業人士進行調查，深度調研了 AI Agent 目前最真實的應用情況。

進入 2026 年，企業對于 Agent 的討論焦點，已經從「要不要做」全面轉向了「如何規模化、可靠且高效地用好」。

6 個關鍵結論：

Agent 實際落地應用趨勢明顯。57% 的受訪者已將 Agent 投入到生產環境中，且規模越大的企業，落地速度越快；
客戶服務、研究與數據分析是目前 Agent 最火熱的兩大應用方向，兩者合計占據了所有應用場景的一半以上。說明，在重復性高、知識密集或直接面向客戶的工作中，Agent 能最大化地創造價值；
確保 Agent 輸出的結果穩定可靠，依然是商業化落地中最棘手的難題。相比之下，成本已不再是大家最頭疼的問題，行業的關注點正從「省錢」轉向「如何讓產品做得又快又好」；
Agent 的「可觀測性」已經成為行業標配。大多數團隊，都會對 Agent 進行全面追蹤，記錄內部運行狀態和行為模式；
關于 Agent Evals 的實踐還不夠成熟。約半數團隊會進行離線評估，只有約三分之一的團隊會在真實的生產數據上進行在線評估。
Coding Agent 是大家在日常工作中使用最頻繁的。此外，仍有相當一部分受訪者表示，除了聊天或編程助手，還沒用過其他類型的 Agent。

??關注 Founder Park，最及時最干貨的創業分享

超 17000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產品曝光渠道

01規模越大的企業，

落地 Agent 速度越快

調研數據顯示，超過一半（57.3%）的受訪者已經將 Agent 投入實際生產，另有 30.4% 的人正在開發且有明確的上線計劃。

這一數字比去年的 51% 有了明顯增長，行業正在從「概念驗證」快速邁向「價值實現」階段。

規模越大，行動越快

一個有趣的現象是，萬人以上的大型企業中，已經有 67% 將 Agent 投入生產，24% 正在積極開發并計劃部署；而在百人以下的小公司，這個比例是 50% 和 36%。這說明，大型企業憑借平臺、安全和基礎設施上等方面的資源優勢，能更快地將 Agent 從試驗品變成穩定可靠的生產力工具。

02落地最快的場景：
客戶服務、研究與數據分析

客戶服務（26.5%）成為最普遍的 Agent 用例，研究與數據分析（24.4%）緊隨其后。兩者合計占據了所有應用場景的一半以上。

客戶服務用例的亮眼數據，說明企業正在大膽地將 Agent 直接推向一線，面向真實客戶，不僅僅是限于內部使用。
同時，Agent 在企業內部也創造了顯著價值，例如，有 18% 的受訪者將其用于內部工作流程自動化，來提升員工效率。
研究與數據分析用例的普及，再次證明了 Agent 在海量信息整合、跨源推理和加速知識型工作方面的核心優勢。

值得注意的是，今年的應用場景分布更廣，說明 Agent 的應用正在從幾個早期領域向更多元化的方向滲透。

規模化應用中的場景差異

在萬人以上的大企業中，提升內部生產力（26.8%）反超客戶服務，成為第一大應用場景。這或許說明，大企業傾向于先在內部用 AI 提升團隊運營效率，然后再將其推廣到外部客戶。

03輸出質量仍是 Agent 落地的最大障礙

和去年一樣，質量仍然是阻礙 Agent 大規模應用的最大障礙，三分之一的受訪者將質量視為主要瓶頸。這里的質量問題，指的是 Agent 的準確性、相關性、輸出結果的一致性，以及在維持適切語調、遵循品牌或政策規范方面的能力。

延遲（20%）則成為第二大挑戰。當 Agent 被用于客服或代碼生成這類實時交互場景時，響應速度直接決定了用戶體驗的好壞。這也反映出團隊必須在「效果」和「速度」之間做出權衡，功能更強、步驟更多的 Agent 雖然能產出更高質量的結果，但響應速度往往也更慢。

一個積極的變化是，隨著模型價格下降和技術優化，成本已不再是大家最頭疼的問題。團隊的關注點正從單純的開銷轉向如何讓 Agent 運行得更好、更快。

不同規模企業的痛點問題不一樣

對于員工數超過 2000 人的企業來說，質量問題仍然是首要障礙。但對安全問題（24.9%）的關注度超過了延遲問題，成為僅次于質量的第二大挑戰。

對于員工數超過 1 萬的企業，在開放式回答中，許多大企業提到「幻覺」和生成內容的一致性是保證質量的最大挑戰，同時在上下文工程及大規模管理上下文方面方面也是困難重重。

04Agent 執行流程的可觀測性成為行業標配

能夠追蹤 Agent 多步推理鏈和工具調用的能力，已成為一項基本要求。89% 的企業已為其 Agent 實施了某種形式的可觀察性，其中 62% 擁有詳細的追蹤能力，允許他們審查單個步驟和工具調用。

在已有 Agent 投入生產的受訪者中，這一比例甚至更高：94% 部署了可觀察性，其中 71.5% 具備了完整的追蹤能力。這揭示了 Agent 工程的一條基本準則：如果無法洞察 Agent 的推理與行動過程，團隊將無法可靠地排查故障、優化性能，也無法與內外部的利益相關者建立信任。

追蹤 Agent 多步推理鏈和工具調用的能力，已經成為了一項行業標配。高達 89% 的團隊部署了可觀察性系統，其中 62% 能夠進行細粒度的追蹤，審查每一步的細節。

對于已經投入生產的 Agent 項目，這個比例高達 94%，其中 71.5% 具備了完整的追蹤能力。這背后是 Agent 工程領域的一個基本共識：如果無法洞察 Agent 的思考推理與行動過程，團隊將無法可靠地排查故障、優化性能，也無法與內外部的利益相關者建立信任。

05Agent 評估越來越得到重視

雖然可觀察性已經普及，但 Agent 評估仍是相對較新的領域。

超過半數（52.4%）的企業表示，會通過測試集進行離線評估，這說明許多團隊已認識到在部署前發現性能衰退和驗證 Agent 行為的重要性。

在線評估（37.3%）的采用率較低，但隨著團隊開始監控 Agent 在真實世界中的表現，這個比例正在增長。

當 Agent 進入生產環境后，評估變得更為重要。「不進行任何評估」的團隊比例從 29.5% 大幅下降至 22.8%。進行在線評估的比例則上升至 44.8%，因為團隊需要通過觀察真實的生產數據來實時發現問題。

但大多數團隊仍然是從離線評估入手，因為門檻更低、設置更明確。

在評估方法上，行業呈現出了混合模式。近四分之一的團隊會同時采用離線和在線兩種評估方式。

大家普遍依賴人機結合的方法：一方面，采用將大語言模型用作評判者（LLM-as-judge）（53.3%）的方式來擴大評估的覆蓋面，同時通過人工審查來保證評估深度；另一方面，通過人工審查（59.8%）來保證評估的深度，尤其是在處理精細或高風險場景時。

相比之下，像 ROUGE 和 BLEU 這樣的傳統機器學習指標采用率較低，因為它們不適合評估開放式、存在多個合規答案的 Agent 交互場景。

06GPT 占主導，

但混合使用多種模型是常態

雖然 OpenAI 模型在采用率上占主導地位，但幾乎沒有團隊會把雞蛋放在一個籃子里。

超過三分之二的企業正在使用 OpenAI 的 GPT 模型，超過四分之三的團隊在生產或開發中會使用多種模型。大家越來越傾向于根據任務的復雜度、成本和延遲，靈活地將任務分配給不同的模型，而不是綁定在某一個平臺上。

盡管商業 API 提供了便利，但在內部署模型對許多組織而言仍是一項重要策略。超過三分之一的組織仍在投資部署開源模型，主要是出于成本優化、數據主權或行業監管合規的考慮。

與此同時，微調（Fine-tuning）仍然沒有成為主流選擇。57% 的組織沒有進行微調，而是更依賴于提示工程和 RAG（檢索增強生成）技術。主要是因為微調需要在數據收集、標注、訓練基礎設施和持續維護上進行大量投入，目前仍是少數高價值或專業化場景的選擇。

07日常工作中，

還是編程類 Agent 被用得最多

在日常工作中，最常用哪些 Agent？在開放式問答中，我們發現了幾個清晰的模式：

編程 Agent 主導日常工作流。

到目前為止，絕大多數被提及的都是編程類工具，如 Claude Code，Cursor，GitHub Copilot，Amazon Q、Windsurf 和 Antigravity 等工具。這些工具被廣泛用于代碼生成、調試和測試。

研究類 Agent 是第二大常用類別

第二常見的模式是由 ChatGPT、Claude、Gemini、Perplexity 及類似工具驅動的研究與深度研究 Agent。這些 Agent 被用于探索新領域、總結長篇文檔以及整合跨源信息，常常在同一工作流程中與編程 Agent 協同使用。

基于 LangChain 和 LangGraph 構建的自定義 Agent 也廣受歡迎。

許多團隊正在利用這些框架構建內部專用的 Agent，用于 QA 測試、知識庫搜索、SQL/文本轉 SQL、需求規劃、客戶支持和工作流自動化等場景。

值得注意的是，仍有相當一部分受訪者表示，除了聊天或編程助手，他們還沒用過其他類型的 Agent。這說明，雖然 Agent 概念很火，但「一切皆可 Agent」的愿景仍處于非常早期的階段。

注：報告研究方法

本報告的數據來源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期間進行的一項公開調查，共收到 1340 份有效回復。

行業分布 Top 5：科技（占受訪者的 63%）、金融服務（占受訪者的 10%）、醫療健康（占受訪者的 6%）、教育（占受訪者的 4%）、消費品（占受訪者的 3%）、制造業（占受訪者的 3%）。

公司規模分布：少于 100 人（占受訪者的 49%）、100-500 人（占受訪者的 18%）、500-2000 人（占受訪者的 15%）、2000-10,000 人（占受訪者的 9%）、超過 10,000 人（占受訪者的 9%）。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.