<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LangChain Agent 年度報告:輸出質量仍是 Agent 最大障礙,客服、研究是最快落地場景

      0
      分享至

      2025 年,讓 Agent 實際投產、落地應用的最大障礙已經不再是成本問題了,而是「質量」。如何讓 Agent 輸出可靠、準確的內容,仍然是最難的部分。

      近期,LangChain 通過對工程師、產品經理、企業高管等 1300 名行業人士進行調查,深度調研了 AI Agent 目前最真實的應用情況。

      進入 2026 年,企業對于 Agent 的討論焦點,已經從「要不要做」全面轉向了「如何規模化、可靠且高效地用好」。

      6 個關鍵結論:

      • Agent 實際落地應用趨勢明顯。57% 的受訪者已將 Agent 投入到生產環境中,且規模越大的企業,落地速度越快;

      • 客戶服務、研究與數據分析是目前 Agent 最火熱的兩大應用方向,兩者合計占據了所有應用場景的一半以上。說明,在重復性高、知識密集或直接面向客戶的工作中,Agent 能最大化地創造價值;

      • 確保 Agent 輸出的結果穩定可靠,依然是商業化落地中最棘手的難題。相比之下,成本已不再是大家最頭疼的問題,行業的關注點正從「省錢」轉向「如何讓產品做得又快又好」;

      • Agent 的「可觀測性」已經成為行業標配。大多數團隊,都會對 Agent 進行全面追蹤,記錄內部運行狀態和行為模式;

      • 關于 Agent Evals 的實踐還不夠成熟。約半數團隊會進行離線評估,只有約三分之一的團隊會在真實的生產數據上進行在線評估。

      • Coding Agent 是大家在日常工作中使用最頻繁的。此外,仍有相當一部分受訪者表示,除了聊天或編程助手,還沒用過其他類型的 Agent。

      ??關注 Founder Park,最及時最干貨的創業分享

      超 17000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

      邀請從業者、開發人員和創業者,飛書掃碼加群:

      進群后,你有機會得到:

      • 最新、最值得關注的 AI 新品資訊;

      • 不定期贈送熱門新品的邀請碼、會員碼;

      • 最精準的AI產品曝光渠道

      01規模越大的企業,

      落地 Agent 速度越快

      調研數據顯示,超過一半(57.3%)的受訪者已經將 Agent 投入實際生產,另有 30.4% 的人正在開發且有明確的上線計劃。

      這一數字比去年的 51% 有了明顯增長,行業正在從「概念驗證」快速邁向「價值實現」階段。

      規模越大,行動越快

      一個有趣的現象是,萬人以上的大型企業中,已經有 67% 將 Agent 投入生產,24% 正在積極開發并計劃部署;而在百人以下的小公司,這個比例是 50% 和 36%。這說明,大型企業憑借平臺、安全和基礎設施上等方面的資源優勢,能更快地將 Agent 從試驗品變成穩定可靠的生產力工具。


      02落地最快的場景:
      客戶服務、研究與數據分析

      客戶服務(26.5%)成為最普遍的 Agent 用例,研究與數據分析(24.4%)緊隨其后。兩者合計占據了所有應用場景的一半以上。


      • 客戶服務用例的亮眼數據,說明企業正在大膽地將 Agent 直接推向一線,面向真實客戶,不僅僅是限于內部使用。

      • 同時,Agent 在企業內部也創造了顯著價值,例如,有 18% 的受訪者將其用于內部工作流程自動化,來提升員工效率。

      • 研究與數據分析用例的普及,再次證明了 Agent 在海量信息整合、跨源推理和加速知識型工作方面的核心優勢。

      值得注意的是,今年的應用場景分布更廣,說明 Agent 的應用正在從幾個早期領域向更多元化的方向滲透。

      規模化應用中的場景差異

      在萬人以上的大企業中,提升內部生產力(26.8%)反超客戶服務,成為第一大應用場景。這或許說明,大企業傾向于先在內部用 AI 提升團隊運營效率,然后再將其推廣到外部客戶。

      03輸出質量仍是 Agent 落地的最大障礙

      和去年一樣,質量仍然是阻礙 Agent 大規模應用的最大障礙,三分之一的受訪者將質量視為主要瓶頸。這里的質量問題,指的是 Agent 的準確性、相關性、輸出結果的一致性,以及在維持適切語調、遵循品牌或政策規范方面的能力。


      延遲(20%)則成為第二大挑戰。當 Agent 被用于客服或代碼生成這類實時交互場景時,響應速度直接決定了用戶體驗的好壞。這也反映出團隊必須在「效果」和「速度」之間做出權衡,功能更強、步驟更多的 Agent 雖然能產出更高質量的結果,但響應速度往往也更慢。

      一個積極的變化是,隨著模型價格下降和技術優化,成本已不再是大家最頭疼的問題。團隊的關注點正從單純的開銷轉向如何讓 Agent 運行得更好、更快。

      不同規模企業的痛點問題不一樣

      對于員工數超過 2000 人的企業來說,質量問題仍然是首要障礙。但對安全問題(24.9%)的關注度超過了延遲問題,成為僅次于質量的第二大挑戰。


      對于員工數超過 1 萬的企業,在開放式回答中,許多大企業提到「幻覺」和生成內容的一致性是保證質量的最大挑戰,同時在上下文工程及大規模管理上下文方面方面也是困難重重。

      04Agent 執行流程的可觀測性成為行業標配

      能夠追蹤 Agent 多步推理鏈和工具調用的能力,已成為一項基本要求。89% 的企業已為其 Agent 實施了某種形式的可觀察性,其中 62% 擁有詳細的追蹤能力,允許他們審查單個步驟和工具調用。


      在已有 Agent 投入生產的受訪者中,這一比例甚至更高:94% 部署了可觀察性,其中 71.5% 具備了完整的追蹤能力。這揭示了 Agent 工程的一條基本準則:如果無法洞察 Agent 的推理與行動過程,團隊將無法可靠地排查故障、優化性能,也無法與內外部的利益相關者建立信任。


      追蹤 Agent 多步推理鏈和工具調用的能力,已經成為了一項行業標配。高達 89% 的團隊部署了可觀察性系統,其中 62% 能夠進行細粒度的追蹤,審查每一步的細節。

      對于已經投入生產的 Agent 項目,這個比例高達 94%,其中 71.5% 具備了完整的追蹤能力。這背后是 Agent 工程領域的一個基本共識:如果無法洞察 Agent 的思考推理與行動過程,團隊將無法可靠地排查故障、優化性能,也無法與內外部的利益相關者建立信任。

      05Agent 評估越來越得到重視

      雖然可觀察性已經普及,但 Agent 評估仍是相對較新的領域。

      超過半數(52.4%)的企業表示,會通過測試集進行離線評估,這說明許多團隊已認識到在部署前發現性能衰退和驗證 Agent 行為的重要性。

      在線評估(37.3%)的采用率較低,但隨著團隊開始監控 Agent 在真實世界中的表現,這個比例正在增長。


      當 Agent 進入生產環境后,評估變得更為重要。「不進行任何評估」的團隊比例從 29.5% 大幅下降至 22.8%。進行在線評估的比例則上升至 44.8%,因為團隊需要通過觀察真實的生產數據來實時發現問題。


      但大多數團隊仍然是從離線評估入手,因為門檻更低、設置更明確。

      在評估方法上,行業呈現出了混合模式。近四分之一的團隊會同時采用離線和在線兩種評估方式。


      大家普遍依賴人機結合的方法:一方面,采用將大語言模型用作評判者(LLM-as-judge)(53.3%)的方式來擴大評估的覆蓋面,同時通過人工審查來保證評估深度;另一方面,通過人工審查(59.8%)來保證評估的深度,尤其是在處理精細或高風險場景時。

      相比之下,像 ROUGE 和 BLEU 這樣的傳統機器學習指標采用率較低,因為它們不適合評估開放式、存在多個合規答案的 Agent 交互場景。


      06GPT 占主導,

      但混合使用多種模型是常態

      雖然 OpenAI 模型在采用率上占主導地位,但幾乎沒有團隊會把雞蛋放在一個籃子里。

      超過三分之二的企業正在使用 OpenAI 的 GPT 模型,超過四分之三的團隊在生產或開發中會使用多種模型。大家越來越傾向于根據任務的復雜度、成本和延遲,靈活地將任務分配給不同的模型,而不是綁定在某一個平臺上。


      盡管商業 API 提供了便利,但在內部署模型對許多組織而言仍是一項重要策略。超過三分之一的組織仍在投資部署開源模型,主要是出于成本優化、數據主權或行業監管合規的考慮。

      與此同時,微調(Fine-tuning)仍然沒有成為主流選擇。57% 的組織沒有進行微調,而是更依賴于提示工程和 RAG(檢索增強生成)技術。主要是因為微調需要在數據收集、標注、訓練基礎設施和持續維護上進行大量投入,目前仍是少數高價值或專業化場景的選擇。


      07日常工作中,

      還是編程類 Agent 被用得最多

      在日常工作中,最常用哪些 Agent?在開放式問答中,我們發現了幾個清晰的模式:

      編程 Agent 主導日常工作流。

      到目前為止,絕大多數被提及的都是編程類工具,如 Claude Code,Cursor,GitHub Copilot,Amazon Q、Windsurf 和 Antigravity 等工具。這些工具被廣泛用于代碼生成、調試和測試。

      研究類 Agent 是第二大常用類別

      第二常見的模式是由 ChatGPT、Claude、Gemini、Perplexity 及類似工具驅動的研究與深度研究 Agent。這些 Agent 被用于探索新領域、總結長篇文檔以及整合跨源信息,常常在同一工作流程中與編程 Agent 協同使用。

      基于 LangChain 和 LangGraph 構建的自定義 Agent 也廣受歡迎。

      許多團隊正在利用這些框架構建內部專用的 Agent,用于 QA 測試、知識庫搜索、SQL/文本轉 SQL、需求規劃、客戶支持和工作流自動化等場景。


      值得注意的是,仍有相當一部分受訪者表示,除了聊天或編程助手,他們還沒用過其他類型的 Agent。這說明,雖然 Agent 概念很火,但「一切皆可 Agent」的愿景仍處于非常早期的階段。

      注:報告研究方法

      本報告的數據來源于 LangChain 在 2025 年 11 月 18 日至 12 月 2 日期間進行的一項公開調查,共收到 1340 份有效回復。

      行業分布 Top 5:科技(占受訪者的 63%)、金融服務(占受訪者的 10%)、醫療健康(占受訪者的 6%)、教育(占受訪者的 4%)、消費品(占受訪者的 3%)、制造業(占受訪者的 3%)。

      公司規模分布:少于 100 人(占受訪者的 49%)、100-500 人(占受訪者的 18%)、500-2000 人(占受訪者的 15%)、2000-10,000 人(占受訪者的 9%)、超過 10,000 人(占受訪者的 9%)。

      轉載原創文章請添加微信:founderparker

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價暴漲不用慌!官方“定調”:中國接得住,底氣全在這兒

      油價暴漲不用慌!官方“定調”:中國接得住,底氣全在這兒

      跳跳歷史
      2026-03-21 16:10:53
      A股:周末,大消息傳來,要做好準備,周一將迎來更大的暴風雨?

      A股:周末,大消息傳來,要做好準備,周一將迎來更大的暴風雨?

      云鵬敘事
      2026-03-21 18:01:08
      真神仙專業!中國道教學院招生了,包含道教歷史與神仙等5個專業,計劃招30名本科生,16名研究生

      真神仙專業!中國道教學院招生了,包含道教歷史與神仙等5個專業,計劃招30名本科生,16名研究生

      觀威海
      2026-03-21 15:43:14
      殲20總師被除名:任央企高管,最近露面照曝出,事發全過程被還原

      殲20總師被除名:任央企高管,最近露面照曝出,事發全過程被還原

      博士觀察
      2026-03-20 12:20:55
      全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

      全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

      新智元
      2026-03-21 10:11:37
      男子蹭飯260頓后續:拒拿2000賠償硬剛,正臉曝光,同學認出社死

      男子蹭飯260頓后續:拒拿2000賠償硬剛,正臉曝光,同學認出社死

      奇思妙想草葉君
      2026-03-20 14:13:32
      爽,公司全員裁撤,就地解散!

      爽,公司全員裁撤,就地解散!

      黯泉
      2026-03-21 12:20:16
      悲劇了!40多萬買游戲裝備跌成8萬!男子哭訴是父母給他結婚錢…

      悲劇了!40多萬買游戲裝備跌成8萬!男子哭訴是父母給他結婚錢…

      火山詩話
      2026-03-21 05:54:08
      普京:俄羅斯是伊朗艱難時刻的忠實伙伴

      普京:俄羅斯是伊朗艱難時刻的忠實伙伴

      新華社
      2026-03-21 17:42:04
      51歲港星廣東縣城賣10元云吞,凌晨5點起床,擦桌子收碗筷超勤快

      51歲港星廣東縣城賣10元云吞,凌晨5點起床,擦桌子收碗筷超勤快

      韓小娛
      2026-03-17 11:28:35
      中俄印三角崩盤,普京推“新三角”:中方攤牌,死穴不破免談

      中俄印三角崩盤,普京推“新三角”:中方攤牌,死穴不破免談

      觀星賞月
      2026-03-22 00:03:03
      突發!伊朗下重手了!

      突發!伊朗下重手了!

      財經要參
      2026-03-21 20:20:03
      山姆官方緊急回應,網友卻不買賬

      山姆官方緊急回應,網友卻不買賬

      中國零售信息
      2026-03-22 00:07:32
      minimax 大肆抄襲kimi!開發者本人吐槽后被光速踢出群聊,怒發律師函誓要剛到底

      minimax 大肆抄襲kimi!開發者本人吐槽后被光速踢出群聊,怒發律師函誓要剛到底

      回旋鏢
      2026-03-21 07:27:27
      蘋果官網標錯價格!大量用戶搶空 2TB 產品

      蘋果官網標錯價格!大量用戶搶空 2TB 產品

      XCiOS俱樂部
      2026-03-20 09:38:29
      醫生告誡:腦梗早期不是手腳麻,而是頻繁出現5癥狀,千萬別忽視

      醫生告誡:腦梗早期不是手腳麻,而是頻繁出現5癥狀,千萬別忽視

      醫學科普匯
      2026-03-19 21:15:03
      回大陸后我才敢講:真正的臺灣省,和網上說的根本不是一回事

      回大陸后我才敢講:真正的臺灣省,和網上說的根本不是一回事

      番外行
      2026-03-21 13:43:52
      2026年2月女神榜:新人輩出,老將穩坐!

      2026年2月女神榜:新人輩出,老將穩坐!

      碧波萬覽
      2026-03-22 01:14:35
      2次落后2次追平!泰國火箭力阻世界第1進決賽,特奧會或泡湯?

      2次落后2次追平!泰國火箭力阻世界第1進決賽,特奧會或泡湯?

      劉姚堯的文字城堡
      2026-03-21 21:11:08
      張康陽現狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

      張康陽現狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

      青杉依舊啊啊
      2026-03-19 22:10:26
      2026-03-22 01:52:49
      FounderPark incentive-icons
      FounderPark
      關注AI創業,專注和創業者聊真問題
      1179文章數 159關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      手機
      藝術
      房產
      親子
      軍事航空

      手機要聞

      終端市場集體喊“漲” 手機面板持續走“跌”

      藝術要聞

      斯托揚畫作:她們的眼神能勾動你的心!

      房產要聞

      全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

      親子要聞

      教育部發布通知,幼兒園將迎來大變動,家長:幸福來得太突然!

      軍事要聞

      特朗普:正考慮逐步降級對伊朗的軍事行動

      無障礙瀏覽 進入關懷版