2025 年,讓 Agent 實際投產、落地應用的最大障礙已經不再是成本問題了,而是「質量」。如何讓 Agent 輸出可靠、準確的內容,仍然是最難的部分。
近期,LangChain 通過對工程師、產品經理、企業高管等 1300 名行業人士進行調查,深度調研了 AI Agent 目前最真實的應用情況。
進入 2026 年,企業對于 Agent 的討論焦點,已經從「要不要做」全面轉向了「如何規模化、可靠且高效地用好」。
6 個關鍵結論:
Agent 實際落地應用趨勢明顯。57% 的受訪者已將 Agent 投入到生產環境中,且規模越大的企業,落地速度越快;
客戶服務、研究與數據分析是目前 Agent 最火熱的兩大應用方向,兩者合計占據了所有應用場景的一半以上。說明,在重復性高、知識密集或直接面向客戶的工作中,Agent 能最大化地創造價值;
確保 Agent 輸出的結果穩定可靠,依然是商業化落地中最棘手的難題。相比之下,成本已不再是大家最頭疼的問題,行業的關注點正從「省錢」轉向「如何讓產品做得又快又好」;
Agent 的「可觀測性」已經成為行業標配。大多數團隊,都會對 Agent 進行全面追蹤,記錄內部運行狀態和行為模式;
關于 Agent Evals 的實踐還不夠成熟。約半數團隊會進行離線評估,只有約三分之一的團隊會在真實的生產數據上進行在線評估。
Coding Agent 是大家在日常工作中使用最頻繁的。此外,仍有相當一部分受訪者表示,除了聊天或編程助手,還沒用過其他類型的 Agent。
??關注 Founder Park,最及時最干貨的創業分享
超 17000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
落地 Agent 速度越快
調研數據顯示,超過一半(57.3%)的受訪者已經將 Agent 投入實際生產,另有 30.4% 的人正在開發且有明確的上線計劃。
這一數字比去年的 51% 有了明顯增長,行業正在從「概念驗證」快速邁向「價值實現」階段。
規模越大,行動越快
一個有趣的現象是,萬人以上的大型企業中,已經有 67% 將 Agent 投入生產,24% 正在積極開發并計劃部署;而在百人以下的小公司,這個比例是 50% 和 36%。這說明,大型企業憑借平臺、安全和基礎設施上等方面的資源優勢,能更快地將 Agent 從試驗品變成穩定可靠的生產力工具。
![]()
02落地最快的場景:
客戶服務、研究與數據分析
客戶服務(26.5%)成為最普遍的 Agent 用例,研究與數據分析(24.4%)緊隨其后。兩者合計占據了所有應用場景的一半以上。
![]()
客戶服務用例的亮眼數據,說明企業正在大膽地將 Agent 直接推向一線,面向真實客戶,不僅僅是限于內部使用。
同時,Agent 在企業內部也創造了顯著價值,例如,有 18% 的受訪者將其用于內部工作流程自動化,來提升員工效率。
研究與數據分析用例的普及,再次證明了 Agent 在海量信息整合、跨源推理和加速知識型工作方面的核心優勢。
值得注意的是,今年的應用場景分布更廣,說明 Agent 的應用正在從幾個早期領域向更多元化的方向滲透。
規模化應用中的場景差異
在萬人以上的大企業中,提升內部生產力(26.8%)反超客戶服務,成為第一大應用場景。這或許說明,大企業傾向于先在內部用 AI 提升團隊運營效率,然后再將其推廣到外部客戶。
03輸出質量仍是 Agent 落地的最大障礙
和去年一樣,質量仍然是阻礙 Agent 大規模應用的最大障礙,三分之一的受訪者將質量視為主要瓶頸。這里的質量問題,指的是 Agent 的準確性、相關性、輸出結果的一致性,以及在維持適切語調、遵循品牌或政策規范方面的能力。
![]()
延遲(20%)則成為第二大挑戰。當 Agent 被用于客服或代碼生成這類實時交互場景時,響應速度直接決定了用戶體驗的好壞。這也反映出團隊必須在「效果」和「速度」之間做出權衡,功能更強、步驟更多的 Agent 雖然能產出更高質量的結果,但響應速度往往也更慢。
一個積極的變化是,隨著模型價格下降和技術優化,成本已不再是大家最頭疼的問題。團隊的關注點正從單純的開銷轉向如何讓 Agent 運行得更好、更快。
不同規模企業的痛點問題不一樣
對于員工數超過 2000 人的企業來說,質量問題仍然是首要障礙。但對安全問題(24.9%)的關注度超過了延遲問題,成為僅次于質量的第二大挑戰。
![]()
對于員工數超過 1 萬的企業,在開放式回答中,許多大企業提到「幻覺」和生成內容的一致性是保證質量的最大挑戰,同時在上下文工程及大規模管理上下文方面方面也是困難重重。
04Agent 執行流程的可觀測性成為行業標配
能夠追蹤 Agent 多步推理鏈和工具調用的能力,已成為一項基本要求。89% 的企業已為其 Agent 實施了某種形式的可觀察性,其中 62% 擁有詳細的追蹤能力,允許他們審查單個步驟和工具調用。
![]()
在已有 Agent 投入生產的受訪者中,這一比例甚至更高:94% 部署了可觀察性,其中 71.5% 具備了完整的追蹤能力。這揭示了 Agent 工程的一條基本準則:如果無法洞察 Agent 的推理與行動過程,團隊將無法可靠地排查故障、優化性能,也無法與內外部的利益相關者建立信任。
![]()
追蹤 Agent 多步推理鏈和工具調用的能力,已經成為了一項行業標配。高達 89% 的團隊部署了可觀察性系統,其中 62% 能夠進行細粒度的追蹤,審查每一步的細節。
對于已經投入生產的 Agent 項目,這個比例高達 94%,其中 71.5% 具備了完整的追蹤能力。這背后是 Agent 工程領域的一個基本共識:如果無法洞察 Agent 的思考推理與行動過程,團隊將無法可靠地排查故障、優化性能,也無法與內外部的利益相關者建立信任。
05Agent 評估越來越得到重視
雖然可觀察性已經普及,但 Agent 評估仍是相對較新的領域。
超過半數(52.4%)的企業表示,會通過測試集進行離線評估,這說明許多團隊已認識到在部署前發現性能衰退和驗證 Agent 行為的重要性。
在線評估(37.3%)的采用率較低,但隨著團隊開始監控 Agent 在真實世界中的表現,這個比例正在增長。
![]()
當 Agent 進入生產環境后,評估變得更為重要。「不進行任何評估」的團隊比例從 29.5% 大幅下降至 22.8%。進行在線評估的比例則上升至 44.8%,因為團隊需要通過觀察真實的生產數據來實時發現問題。
![]()
但大多數團隊仍然是從離線評估入手,因為門檻更低、設置更明確。
在評估方法上,行業呈現出了混合模式。近四分之一的團隊會同時采用離線和在線兩種評估方式。
![]()
大家普遍依賴人機結合的方法:一方面,采用將大語言模型用作評判者(LLM-as-judge)(53.3%)的方式來擴大評估的覆蓋面,同時通過人工審查來保證評估深度;另一方面,通過人工審查(59.8%)來保證評估的深度,尤其是在處理精細或高風險場景時。
相比之下,像 ROUGE 和 BLEU 這樣的傳統機器學習指標采用率較低,因為它們不適合評估開放式、存在多個合規答案的 Agent 交互場景。
![]()
06GPT 占主導,
但混合使用多種模型是常態
雖然 OpenAI 模型在采用率上占主導地位,但幾乎沒有團隊會把雞蛋放在一個籃子里。
超過三分之二的企業正在使用 OpenAI 的 GPT 模型,超過四分之三的團隊在生產或開發中會使用多種模型。大家越來越傾向于根據任務的復雜度、成本和延遲,靈活地將任務分配給不同的模型,而不是綁定在某一個平臺上。
![]()
盡管商業 API 提供了便利,但在內部署模型對許多組織而言仍是一項重要策略。超過三分之一的組織仍在投資部署開源模型,主要是出于成本優化、數據主權或行業監管合規的考慮。
與此同時,微調(Fine-tuning)仍然沒有成為主流選擇。57% 的組織沒有進行微調,而是更依賴于提示工程和 RAG(檢索增強生成)技術。主要是因為微調需要在數據收集、標注、訓練基礎設施和持續維護上進行大量投入,目前仍是少數高價值或專業化場景的選擇。
![]()
07日常工作中,
還是編程類 Agent 被用得最多
在日常工作中,最常用哪些 Agent?在開放式問答中,我們發現了幾個清晰的模式:
編程 Agent 主導日常工作流。
到目前為止,絕大多數被提及的都是編程類工具,如 Claude Code,Cursor,GitHub Copilot,Amazon Q、Windsurf 和 Antigravity 等工具。這些工具被廣泛用于代碼生成、調試和測試。
研究類 Agent 是第二大常用類別
第二常見的模式是由 ChatGPT、Claude、Gemini、Perplexity 及類似工具驅動的研究與深度研究 Agent。這些 Agent 被用于探索新領域、總結長篇文檔以及整合跨源信息,常常在同一工作流程中與編程 Agent 協同使用。
基于 LangChain 和 LangGraph 構建的自定義 Agent 也廣受歡迎。
許多團隊正在利用這些框架構建內部專用的 Agent,用于 QA 測試、知識庫搜索、SQL/文本轉 SQL、需求規劃、客戶支持和工作流自動化等場景。
![]()
值得注意的是,仍有相當一部分受訪者表示,除了聊天或編程助手,他們還沒用過其他類型的 Agent。這說明,雖然 Agent 概念很火,但「一切皆可 Agent」的愿景仍處于非常早期的階段。
注:報告研究方法
本報告的數據來源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期間進行的一項公開調查,共收到 1340 份有效回復。
行業分布 Top 5:科技(占受訪者的 63%)、金融服務(占受訪者的 10%)、醫療健康(占受訪者的 6%)、教育(占受訪者的 4%)、消費品(占受訪者的 3%)、制造業(占受訪者的 3%)。
公司規模分布:少于 100 人(占受訪者的 49%)、100-500 人(占受訪者的 18%)、500-2000 人(占受訪者的 15%)、2000-10,000 人(占受訪者的 9%)、超過 10,000 人(占受訪者的 9%)。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.