<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      幾乎都在掛羊頭賣狗肉,AI Agent的泡沫現在到底有多大?(上)

      0
      分享至



      Agent、Agnet?Agent!說起今年的 AI 浪潮,除了年初 DeepSeek 引領的一波強化學習熱,行業內最受關注的,莫過于各種各樣的 AI Agent 以及 “ 類 Agent ”。

      不知從什么時候開始,Agnet 變成了一種萬能公式,什么都可以套進去一下。但,Agent 真的有那么好嗎?真的有競爭力嗎?

      “ Manus 前陣子剛推出的新功能Wide Research,我覺得非常不具備競爭力,對提高產品競爭力沒有什么用。” 某大型金融企業 AI 技術專家王顯( 化名 )向知危表示。

      從 “ 次日即舊 ” 的榜單到被基礎模型一輪升級清場的產品,2025 年的Agent 創業,熱鬧背后是可憐的留存率與漸趨同質的體驗。

      幾乎所有 Agent 產品都在講 “ 更聰明、更全能、更自動化 ”,但用戶只試用一次就離開的比例居高不下,Demo 能飛,落地常摔,這是否意味著通用型 Agent 的敘事正在透支?

      本文,知危把鏡頭拉遠,看看泡沫究竟來自資本驅動、技術錯配,還是場景誤判?

      我們將邀請來自大型企業、創業公司的多位一線實踐者,以 Manus 近期的新產品 Wide Research 和公司跑路、撤資事件為引,追問國內外 Agent 泡沫亂象現實、背后的原因,以及未來 Agent 賽道的生存規則。

      在交流過程中,知危發現,通用與垂直的取舍和統合是決定去留的關鍵。

      實際上,今年 Agent 大火, 主要是在 tool-use 上取得突破,《 知識圖譜:認知智能理論與實戰 》、《 知識增強大模型 》與《 比 RAG 更強- 知識增強 LLM 型應用程式實戰 》作者、大模型技術專家王文廣向知危表示,“ 具體來看,從編程到browser-use,再到 computer-use,以及隨著 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增強,能夠更高效地從外部獲取信息,以及與外部系統進行交互。”

      平安保險技術平臺組負責人張森森進一步向知危解釋道,“ 技術層面上,協議逐漸成熟,能力外延擴大,可以通過 MCP 協議等方式應用到更多場景。應用層面上,有些長尾場景得到了覆蓋,比如從瀏覽器信息助手到執行動作的轉變:過去只是提供答案,現在能幫助完成動作。生態層面也降低了一些成本。”
      “ 過去廠商比拼模型參數,現在還要比拼模型加生態工具的組合能力,市場競爭焦點已經發生轉移。”

      但這其中,以 Manus 為代表的通用 Agent 類產品一直飽受爭議。

      一方面,資本甚是青睞,另一方面,用戶詬病不止。直到最近,Manus 先是跑路,把公司總部從國內搬遷到新加坡,隨后推出了 Wide Research 產品,再之后又被曝出將可能因為安全審查問題被強制撤銷融資。

      在整個賽道中,炒作了大半年的 Agent 概念,也開始面臨越來越顯性的質疑。

      王顯向知危詳細解釋了為何 Wide Research 缺乏競爭力,“ 第一,Wide Research確實提高了并行處理的效率,但也非常消耗計算資源和調用額度,所以它的定價非常貴。”
      “ 第二,沒有看到它與單體高性能的 Deep Research 在性能準確度、成本效率上的公開對比或測試,所以不能確定它在使用大量并行任務后,效果是否真的得到提升。”

      “ 最重要的一點是,它仍然沒有解決場景壁壘的問題。”
      “ 它沒有專業數據、沒有專屬工具鏈、沒有行業認證、沒有與業務深度綁定的集成,也沒有與高價值業務場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構建場景護城河。”

      “ 當然,早期采用淺而寬的策略來獲客沒有問題,但長期來看,Manus無法抵御模型廠商的下沉和垂直廠商的滲透。”

      “ 所以在我看來,Manus 自始至今,從產品角度而言,思路是完全失敗的。”

      AI 技術專家和創業者陳為也基本持一致的觀點:“ Wide Research 的本質是 ‘ 規模化通用任務執行器 ’,效率高,但沒有解決 ‘ 決策 ’ 問題。”

      “ 用戶會發現,當他們遇到真正復雜的問題時,這個通用 Agent 還是幫不上忙,最終不得不轉向專業的垂直產品或人工服務,導致用戶留存率不高。”

      如果擴大到任意的通用 Agent,則它們都具備一個看似有吸引力但實則致命的特點:任務范圍模糊。

      知言吉智 CEO 付瑞吉向知危表示,“ 任務范圍模糊一定會對產品帶來不利的影響。一方面,當一個 Agent 宣稱能做所有事情時,它往往在任何一個領域都做不到最好;另一方面,任務范圍模糊,意味著用戶對于這個 Agent 到底能幫自己解決什么問題也會有困惑,那么這個產品的認知成本就非常高。”



      付瑞吉進一步向知危解釋了近期 Agent 泡沫興起的創業者心態:“ 大模型的出現讓大家覺得開發門檻降低了,感覺 ‘ 人人都能做 Agent ’。許多開發者和創業公司認為將其包裝成一個能解決各種問題的 ‘ 超級助手 ’,能迅速吸引大量 C 端用戶。通用型 Agent 的核心賣點就是 ‘ 解決所有問題 ’。但現實是,目前為止沒有任何一個 Agent 能真正做到這一點。

      王顯更是認為這場泡沫的興起是創業公司和資本共謀的產物,“ Manus 根本不是在做產品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創始人是拿到融資后真正深入場景做產品還是卷錢跑路,只有創始人自己才知道。產品非常失敗,但營銷可以說非常成功。”

      付瑞吉補充道,“ 營銷只能負責將大眾的注意力吸引過來,但 Agent 不同于內容類的產品( 如短視頻 )只要用戶的注意力就夠了,它還是要解決用戶的實際問題的,如果用戶發現產品 ‘ 華而不實 ’,則很難留存。”

      沐瞳科技大數據負責人薛趙明則認為這種產品模式有一定合理性,但還是要區分 ToC 和 ToB 的邏輯,“ ToC 和 ToB 是兩種邏輯,ToC 需要具備多樣性,這個多樣性也代表了用戶選擇的多樣性,產品力不足的會很快在市場的浪潮中褪去,因為這是一個非常燒錢的賽道,沒有用戶的沉淀和付費是很難長期堅持的。ToB 又是另一個商業邏輯,必須強調可落地和可交付,否則便是無用的。”

      王顯以 Wide Research 為例解釋了為何通用 Agent 產品現階段對于企業用戶無用,“ 對于企業而言,Wide Research 并沒有說明 Agent 是如何分工、如何合作、如何整合各自結果的,它們之間的協調協議和調度機制也不明確。那我最后怎么去做審計呢?作為企業,我必須審計這個過程是否合規,以及在執行過程中到底發生了什么。所以我沒辦法信任它給出的最終結果。”

      “ 尤其是在金融行業,我們可能花了很長時間跑出一個結果,如果它直接告訴我買哪只股票、投哪家公司,我不可能只憑這個結果就去執行。”

      Manus 雖然接受了中外多個基金的投資,但運營主要面向海外市場,而且總部已經搬遷到新加坡,其代表的只是 Agent 泡沫的一小部分組成。

      但聚焦到國內,情況也并不樂觀,甚至可以說有太多相似之處。

      薛趙明表示,“ 實際上,當前無論是創業公司,還是一線的云廠商的產品,大部分的產品都還是在一個特定場景下去演示,真正的規模化落地還是偏少。”

      張森森表示,“ 國內很多 Agent 產品功能繁多,但基本都是快速堆疊,痛點不聚焦。”

      “ 比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產品,不乏大廠參與其中。它們都有通用 Agent 的特點,功能多但不精。寫代碼準確率不高,數據分析缺少可解釋性,設計產出質量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實現。很少有明確與工作流、KPI 綁定的可交付結果。”

      “ 具體到一些金融類工具型 APP( 公司主體一般沒有正式的金融業務牌照 ),比如炒股平臺,會提供所謂的智能投顧功能。當我打開某只股票時,它可能提示該股票出現‘紅三兵’,未來可能上漲,但這樣的判斷缺乏準確性。”
      “ 因為它只是摘錄過去的一些市場信息,而二級市場的信息來源非常多,決策點也很多,這類產品完全無法體現這些復雜因素。看起來像是做了一個智能投顧,但實際上既沒有真正實現投資組合優化、風險控制,也無法對接交易系統,無法支撐其宣傳的定位。”


      目前市面上沒有一家能真正把智能投顧功能做好。實際上,大部分經紀公司都有相關部門去做這件事。問題在于,一方面他們覺得必須做,另一方面看到大模型似乎能解決問題,就開始投入開發,完成后立刻做宣傳,聲稱接入了大模型并具備某種能力。”

      “但這里的問題在于,他們的宣傳能力與實際能力并不匹配,并非能力完全無用,而是存在明顯落差。”

      王文廣表示,“ 成功演示的往往是任務中那 20% 的標準化部分,而真正構成工作核心的,是那 80% 的、充滿‘長尾異常’的復雜現實。”

      就連大家目前普遍主動或被動接觸過的AI搜索,其實也還很初級,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能夠多輪使用簡單工具或者單輪使用復雜工具,但是多輪使用復雜工具( 例如搜索工具 )的能力還沒有達到生產可用。從BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面還有很大的提升空間。這種差距的原因在于大模型在使用通用工具上的能力還沒有迎來ChatGPT時刻。”

      白鯨開源 CEO 郭煒向知危總結道,“ 目前整體來看,各種 Agent 產品給人的驚喜度確實不夠。因為現在 Agent 技術本身還沒有進入成熟或真正可用階段,技術生態不完善。甚至關于Agent 的理念,大家都還沒有想清楚。”

      “ 國內大多數所謂的 Agent 其實并不是真正的 Agent,只是為了吸引眼球而這么命名。在我理解中,能夠替代 ToB SaaS 和 ToC APP 的那種 Agent 產品還沒有出現。國內品牌都是如此。”

      “ 換句話說,現在的 Agent 大多是套了自然語言交互外殼的 RPA( 軟件機器人流程自動化 ),普遍缺乏深度。那為什么不直接用 RPA 呢?RPA 還沒有幻覺。”

      這種 “ 名不副實 ”的現象,王文廣指出,是所謂的“智能體洗白”( Agent Washing ),在行業中已非常普遍。

      “ 這是 ‘ 能力泡沫 ’ 的直接產物。公司利用市場對 ‘ Agent ’ 一詞的追捧來吸引投資和用戶。最直接的例子是,有權威報道指出,全球幾乎所有在 2022 年底 ChatGPT 之前就在所謂的 RPA 等賽道上有所成就的企業,都在掛智能體的羊頭賣 RPA 的狗肉。”

      Gartner 今年 6 月的市場分析報道表明,其在測試的 ‘ 數千款 ’ 所謂的 Agent 產品中,只有約 130 款真正符合標準。

      “ 所以,可以做個簡單的排除法,尋找智能體或大模型落地的供應商,首先排除掉以往做過 RPA 的企業,這可以避免一半的坑。投資也是一樣。”

      王文廣還總結了 C 端和 B 端 Agent 泡沫的一般特征,“ToC 泡沫主要由對 ‘ 通用個人助理 ’ 的夢想驅動,ToB 泡沫更多是由企業的提高生產力、降低成本的焦慮所驅動。”

      “ ToC 的這種愿景極具吸引力,容易引發病毒式傳播和媒體的廣泛關注,從而在短期內催生出極高的估值和用戶增長預期,但當產品體驗達不到預期,用戶會毫不猶豫地離開。”

      “ ToB 領域則由于企業軟件的銷售周期長、決策鏈條復雜,并且一旦部署,即使效果不佳,替換成本也相對較高,從而顯得其泡沫更具欺騙性,也更慢地顯現。

      如果將國內外的 Agent 泡沫現象綜合起來,則又是另一番景象。

      張森森解釋道,“ 國內外的 Agent 泡沫表現并不相同。比如美國,其優勢是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消費級助手類 Agent 的投資方可能來自硅谷大基金。這些機構在早期投資時,美國對數據安全還沒有嚴格限制。但隨著數據隱私法比如 GDPR、CCPA 等監管措施落地,尤其是在跨境場景下,AI的安全審核要求變高,很多競爭者被迫增加合規與差異化投入,結果加快了行業洗牌速度,把不少做通用型 APP 的企業淘汰出局。”

      “ 國內的泡沫很特殊,雖然用戶集中在 C 端,但泡沫幾乎只存在于 B 端。原因是 B 端企業受補貼、國產化等政策影響,同時市場內卷嚴重,用戶更注重實用性而非炒作。B 端用戶相對冷靜,因此很多 ToB 初創公司迅速倒閉,一些去年還在討論的公司今年已經消失,泡沫破滅速度會很快。”



      當前的 Agent 產品普遍缺陷明顯,可以從產品、工程、場景等多方面理解。

      產品層面主要是可靠性不足。對于為何大部分 ToC Agent 產品中,90% 的用戶用一次就離開,郭煒表示,“ 這很正常,因為它還不如直接用 APP。真正的 Agent 應該比 APP 更方便、更簡單。”

      “ 而如果是 To B 產品,必須比現有軟件更簡單、準確、方便。本來用戶點三下鼠標就能完成的事,現在用 Agent 卻要用自然語言先說一句話,然后再跟它說十句話,才能替代原本三次點擊的工作。這樣的體驗讓人寧愿直接點鼠標。”

      王文廣表示,“ 換句話說,最根本的原因是,對于大多數真實世界任務,用戶為驗證和修正 AI Agent 輸出所付出的心智成本和時間成本,超過了 Agent 本身所節省的成本。”

      “ ‘ 通用個人助理 ’ 承諾的是一個科幻級別的未來。其所要處理的任務,如預訂家庭旅行、管理個人財務、安排重要會議,都具有一個共同點:高信任要求。例如,用戶需要確信 Agent 不會訂錯機票、不會泄露財務信息、不會搞砸會議時間。”

      “ 然而,當前大模型的 ‘ 幻覺 ’、知識陳舊等問題和 Agent 執行的脆弱性,使得其可靠性極低。”

      “ 這種 ‘ 高信任要求 ’ 與 ‘ 低可靠性 ’ 之間的巨大鴻溝,或未能穩定地跨越從 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 無法獲得用戶長期留存的根本原因。用戶可以容忍一個聊天機器人講錯一個歷史知識,但絕不能容忍一個 Agent 訂錯一張機票。”

      而且目前 Agent 產品有從訂閱制走向按結果付費的趨勢,這其實也給通用 Agent 創業公司帶來了壓力。 “ 這種商業模式的演進,本質上是一次風險轉移,將產品無效的風險從客戶身上轉移到了服務提供商身上,而 ToC 的通用 Agent 的不可靠性使其極難承受這種風險。反倒是 ToB 領域,可以選擇合適的場景,通過效果所創造的價值進行分成,是有利的。”

      張森森從工程角度總結了許多 Agent 產品無法落地的原因:“ 第一,真實環境非常復雜,不可能像實驗環境那樣數據干凈。現實中數據質量往往較差,接口口徑不一致。”

      “ 第二,很多接口需要跨系統權限訪問,要做 SSO( 單點登錄 ),還涉及數據脫敏,這些環節很容易卡住,導致平臺間的對接受阻。工具本身存在脆弱性,比如瀏覽器系統自動化可能對 DOM 版本極其敏感,API 的速率限制等問題也可能導致頻繁重試。”

      “ 第三,存在狀態和記憶缺失的問題。就像長鏈路任務中缺乏持久狀態,上下文無法保存,狀態機失效,無法接著上次任務繼續,只能從頭開始。”

      “ 第四,缺少驗證和回滾機制,沒有二次校驗或回滾策略。”

      “ 第五,SLA( 服務商與客戶之間對質量標準、性能指標等的約定 )和成本存在約束。企業使用時必須考慮成本,服務需要有保障,確保 TCO( 總擁有成本 )大于業務收益。”

      “ 第六,缺乏合規與審計能力。生產過程要可追溯、可解釋,并具備權限與操作流程控制。但在各個平臺的演示中幾乎看不到這一點,而這恰恰是企業最重要的需求。

      在場景層面,郭煒認為,這個原因可以非常簡單,“ 沒有真正深入到用戶場景中去做。”

      “ 大部分 Agent 仍是由處在特別早期階段的創業者在推動。但真正有價值的 Agent,需要在某個業務領域有深厚積累的人或公司來做。”

      張森森持相似觀點,“ 實際上,國內外當前都太把技術當回事了,太關注技術使得大家在做大模型和Agent都是圍繞技術來構建的。通俗來說就是,技術有什么東西,我做什么東西。”

      王文廣補充道,“ 當前,AI 公司往往不了解業務,業務公司則沒有準確理解AI智能體技術。對 AI 方或業務方來說,都應該了解技術邊界,知道智能體能做什么不能做什么,同時結合業務,才會做好這事。”

      但 Agent 不只是獨立地去攻克一個個場景就可以了,其帶來的變革是生態級別的。

      郭煒表示,“ Agent 本身是一個大的生態,就像軟件或 SaaS 生態一樣。未來它會形成一個完整的生態體系,只有這個生態真正建立起來,才能形成所謂的 Agentic Stack,在 Agent 時代承接并轉化原有生態。”

      “ 這個生態規模很大。以 ToC 的手機端為例,目前手機端還沒有出現通用型APP,需要在垂直領域中出現對應的 Agent,例如類似國內的攜程、小紅書等級別并且更方便的Agent,才能支撐起生態的第一層。”
      “ 生態的第二層才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一個入口。”

      “ 而入口之爭本質是流量之爭,而不是技術或產品本身。誰能夠搶占新一代 Agent 的流量,誰就能在通用 Agent 領域占據優勢。”

      從這個角度看,似乎 Manus 的流量打法也有一定的合理性?但王顯并不這么認為,他指出應用層的創業公司沒有機會去搶占這個流量入口。


      也就是說,創業公司無法繞過生態的第一層,直接跳到第二層,成為流量入口。“ 創業公司現有的 Agent 產品要結合到生態鏈中去,比如蘋果或者微信的生態,再把AI能力融合進去,相當于通過 AI 對已有生態鏈做增強。要實現這一點,要么擁有場景,要么擁有數據。”

      如果想直接跳躍到第二層生態,就會面臨 Manus 當前的困境,“ 從用戶視角來看,Manus 這類產品已經出現用戶數量下滑、使用意愿不足的情況。無論是創業公司還是老牌公司,首先要解決的就是生存問題。產品必須有正向 ROI,要能價值兌現,且使用成本不能太高。但 Manus 的產品正好存在價值兌現不足的問題,而且時間、學習和金錢成本都過高。”

      王顯還認為,流量入口也不是 OpenAI 這類公司的發展方向。“ OpenAI 是創業公司,但也是大模型廠商,肯定不會去做流量入口。相比 Anthropic、Google,OpenAI 更面向大眾,比如 ChatGPT、Sora 這樣的產品,特征是注重體驗、規模化和生態擴展。他們的目標是底層基礎設施供應,同時在 C 端和長尾 B 端場景做推廣。”

      郭煒表示,“ 像蘋果這樣的公司,天然具備優勢去打造移動端的完全通用型 Agent。理想狀態下,用戶只需說一句 ‘ 幫我訂一張去上海的機票 ’,通用助手Agent 就能自動調用多個 APP 或 Agent 服務協同完成整個流程。”

      “ 在 ToB 領域也是類似的邏輯,每個垂直方向的 SaaS 都會出現對應的 Agent,需要是真正意義上屬于 Agent 時代的軟件,之后才會出現入口級通用 Agent。否則,入口級通用 Agent 即使想做,也無法與底層垂直領域的 Agent 有效銜接。即便使用 MCP 的 Server 來連接,中間也會損失大量信息,導致結果不準確,無法滿足客戶需求。”

      “ 現階段應優先在垂直領域啟動 Agent 落地,無論是 To B 還是 To C,都應在原有賽道中先行深耕,逐步培育生態。”



      以上,我們描述了 Agent 泡沫的總體情況,可以看到,造成這一現象的根本,還是在技術受限、行業規律甚至一些痼疾的背景下,創業公司和大廠對 Agent 產品在生態中的定位有著錯誤的認識。

      接下來,知危將對這些背景進行更加細致的闡述。

      其中,技術受限包括 MCP 協議限制、AI 幻覺限制、多智能體擴展限制、上下文長度限制、大模型智能限制等。

      行業規律、痼疾則指向資本炒作、大模型行業競爭的殘酷規律以及國內特有的老問題。



      郭煒表示,“ 關于使用 MCP Server 會導致信息損失,這一點非常重要。最終,Agent 應該采用 A2A( Agent to Agent )的協議,服務于垂直Agent之間的通信,才能完整完成任務。”

      “ 而 MCP 是通用 Agent 與外部數據源之間的通信協議。當調用 MCP 時,不可避免地會將自然語言信息轉換成結構化的 query 或結構化的 ADB 請求來執行操作,這一轉換的準確率需要由調用方來保證。但通用 Agent 要在專業領域內準確地將專業詞匯翻譯成精確指令,再交由原有程序執行,在現實中非常困難。”
      “ 以我們正在做的 Data Agent 為例,這項工作需要較長時間推進,因為必須自底向上完成建設。過去的數據底層通常是裸數據,例如 CSV 文件,里面是各種原始數據。未來需要將這些數據轉化為帶有語義的 Contextual Data Unit( CDU ),才能被上層 Agent 有效消費。因此必須了解企業所有表的字段含義及數據意義,需要非常專業的數據獲取廠商來完成。”

      “ 例如,‘ 消費金額 ’ 必須明確對應哪個系統、什么業務的消費金額,Agent 才能理解。否則,如果上層 Agent 僅接到 ‘ 獲取消費金額 ’ 的指令,它必須再去解析并定位到 Salesforce 系統中的特定交易表及其規則。比如讓 MCP Server 將請求翻譯成 SQL 再下發到 Salesforce 查詢數據,但它并不知道 ‘ 消費金額 ’ 在當前語境下的具體含義,是來自 Salesforce、SAP,還是其他系統。它甚至不了解 Salesforce、SAP 分別是什么。”

      “ 這不僅是當前 Agent 技術無法實現的,甚至人類在缺乏上下文的情況下也很難完成。”

      “ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一層通用 Agent ’ 就能實現的,而必須由基于 A2A 的多個專業領域的 Agent 相互協作( Agent + Agent )實現。”

      “ 相比之下,提示詞專業性、token 成本爆炸等都是更加次要的,會隨著時間自然解決。”



      Agent 還有一個永遠無法解決的問題,那就是底層大模型的幻覺。已有研究證明,大模型無法從理論上完全消除幻覺。
      “ 在現有大模型技術下,有許多場景嘗試進行完全 Agent 化,但效果并不理想。”

      “ 以自動編碼為例,各種號稱能夠代替人類編碼的工具,無論是帶 Agent 的 Claude Code、Cursor,還是Augment Code等,都無法真正替代程序員的工作。無論是初級、中級還是高級崗位,都仍需配備人類程序員進行檢驗和監督。否則一旦幻覺出現且缺乏有效控制,風險極高。例如,近期某公司在使用自動化工具 Replit 時出現誤操作,導致數據庫被刪除。”

      “ 目前也沒有特別好的方式來自動定位和追溯幻覺。在校驗中,雖然無法校驗所有環節,但可以抽檢一兩個關鍵點,并用傳統方法或知識庫進行糾錯和約束。”

      “ 幻覺在前期溝通階段有一定優勢,因為它可能帶來一些創新性想法。但在企業落地執行階段,應盡量控制甚至避免使用大模型。在 Agent 執行任務時,為緩解幻覺,只有借助 workflow 才能保證足夠的確定性。”

      “ 總之,大模型和 Agent 在目前更多是作為效率工具,顯著提升了開發能力。例如,我自己現在幾乎沒有時間寫代碼,對一些新發布的 Python 函數也不了解,但大模型能夠知曉并直接為我生成代碼,還能解釋邏輯。這樣我只需驗證邏輯是否正確并運行,就能快速完成任務。這種方式不僅比我親自編寫代碼更快,有時生成的算法思路甚至比我原本設想的更好。”

      王文廣指出,思維鏈的幻覺其實在 Agent 產品中也非常常見,“ 這通常被稱為過程幻覺,即 AI 編造了一個它并未執行或執行失敗的操作過程。

      “ 它輸出的不是真實的操作日志,而是它生成的一個 ‘ 看起來像是成功了的 ’ 操作日志。例如,它聲稱 ‘ 我已經成功運行了測試,所有測試都通過了 ’,但實際上它可能根本沒有能力或權限去運行測試,或者實際測試運行失敗了。”

      “ 從這點也可以看出,在許多情況下, 單純依靠大模型,存在非常多無法解決的問題。如果把所有問題當做一個平面,大模型能夠解決的問題是平面上的布,無法解決的問題是孔,那么可以看到,這個平面是千瘡百孔的。”



      在 Agent 框架設計方面,目前領域內有一個被過分炒作的概念,那就是多智能體。

      當前實際應用中,智能體之間的交互主要限于兩個智能體。編程體驗后來居上的 Claude Code 也沒有使用多智能體協作機制。

      張森森表示,“ 單智能體或雙智能體已經能覆蓋 80% 的企業業務場景,此外,限于雙智能體也是出于成本考量。”

      “ 具體來說,多智能體會顯著增加復雜度,容錯設計難度提升,開發、維護、算力成本更高,收益和成本不匹配。引入更多智能體未必能提升效果,同時也難以抵消延遲,并會使得系統更加不穩定。用戶體驗最終取決于響應速度,穩定性方面,智能體越多越容易跑偏,可能出現循環對話、信息丟失等問題,還需要額外監督和約束,復雜度會越來越高。”

      “ 多智能體的案例也有,比如一些游戲公司在做 AI 團隊游戲,在沙盒環境里嘗試多智能體交互。但對大部分企業而言,并不需要這種復雜度。”

      王文廣補充道,“雖然在一些對協調和優化要求極高的特定領域,已經出現了更復雜的、已實際落地的多智能體系統案例,但絕大多數情況下, 應該優先解決簡單的問題。”



      基礎模型能力方面,當前非常核心的一個限制還是上下文長度。雖然 OpenAI、Anthropic、谷歌等 AI 公司一直宣稱模型上下文達到數十萬、上百萬 token,但Reddit 社區反饋其中水分很大,有時幾萬 token 輸入下,模型準確率就大幅下降。

      張森森表示,“ 實際體驗來看,大部分廠商宣稱的上下文長度確實水分很大,別說兩三千行代碼,甚至一千多行時就開始丟失信息了。”

      “上下文長度代表了基礎模型能力的天花板,特別在 Coding Agent 場景中,基本就是硬天花板的程度。”

      “ 在企業內部優化這個問題不僅很難,而且也不是靠企業自己能完全解決的。可選的方案有:代碼檢索以及更加智能的代碼檢索;動態上下文管理,只加載與本次修改相關的依賴文件。但這些都治標不治本。”

      “ 對資深程序員來說影響不大,他們能很快發現邏輯缺口。”

      “ 但對初學者來說,一旦項目規模大,IDE 頻繁加載就會崩潰。項目規模一大,就會涉及很多模塊和依賴,甚至是跨模態的復雜系統。模型不得不頻繁丟失上下文、重新加載信息,導致迭代過程完全斷裂,忘記之前的決策,甚至可能出現重復造輪子的情況。”

      郭煒補充道,“ 當前的限制不僅來自模型本身,還與底層芯片架構有關,包括顯存、外部存儲等都需要進一步提升。”

      王顯認為,在硬件基礎設施的限制下,上下文長度瓶頸對于國內而言將是更嚴峻的問題。

      “ 國外芯片比如英偉達 H100、A100 這樣的高端 GPU,能夠更高效地進行分片計算,處理幾十萬、上百萬 token 上下文。同時它們也有軟件層面的優化,比如 FlashAttention 工具、針對張量計算的優化配置等,這些都是通過軟硬件結合來提升性能的。”

      “ 相比之下,國內主要通過算法優化和軟件工程做一些 ‘ 曲線救國 ’ 的工作。類似的,DeepSeek、Kimi 等團隊也在發布各種上下文剪裁、分層記憶、稀疏 Attention 等方法,其實都是一些面向低成本的方案。”


      “ 一些國內廠商號稱自己的高端 GPU 在浮點性能、顯存、寬帶等各方面和 H100 很相近,但其實還是有很大差距的。國外的頂配集群,比如 H100 加 NVLink Switch,能輕松地應對百萬級 token 推理。”

      王文廣表示,“ 實際上就是 AI 芯片的存儲容量和帶寬限制了推理的極限,不管是國內外都是這樣的。”

      “ HBM 是通用 GPGPU 最好的選擇,但專用的推理芯片有很多不同的路線,比如使用 3D 堆疊的專門的 AI 芯片。

      “ 國內有一些如 CiMicro.AI 這樣非常前沿的AI芯片公司,和寒武紀、華為、海光等走了不同的路線,將 3D DRAM 用于 AI 推理芯片上,如果成功流片,帶寬能夠得到極大的提升,比英偉達用的 HBM 還高一個量級,從而大模型的推理速度將得到極大的提升,長上下文和深度思考則會對 Agent 有極大的促進。”



      除了上下文長度之外,更大的限制,自然來自基礎模型的智能極限了,特別是近期被詬病平庸的 GPT-5 發布后。

      客觀來看,GPT-5 的更新點是在產品層面,把幻覺降得特別低,這在消費級用戶看來不太友好,但對編程來說非常有用,可靠性很高。對于專業用戶而言,有時甚至比 Claude 4 還好用一些,因為 GPT-5 在 Agentic Coding 中傾向 “ 精準定位問題 ” 和 “ 最小侵入修改 ”,而 Claude 4 自主性更強,寫的代碼更復雜,需要特別提醒才會選用最簡方案。

      那么,從這個角度看,一直以消費級用戶為主體的 OpenAI 未來是否想更多向 B 端推進?


      張森森表示,“ 如果是,那也是不得已而為之。現在 GPT-5 是通過多模型路由來提高上限,基本意味著大模型的 Scaling Law 幾乎已經失效,單模型上很難再高效提升。其實 GPT-5 的發布本身就有點 ‘ 難產 ’ 的意味,更像是一種形式,而不是自然的過程。未來基礎模型能否進一步進化,還需要觀察。”
      “ 這也是為什么大家都在強化 Agent 能力。相比基礎模型,Agent 的可解釋性相對更好一些,能更好結合具體業務場景去提升實際能力。但基礎模型往往也決定了 Agent 的上限。”
      “ 后面大模型的走向可能更多會朝垂直方向發展,參數量未必再無限增大,而是聚焦在更細分的場景。”

      大模型廠商經常在營銷中刻意忽視模型當前的智能上限,而過分強調可以放心地依賴大模型全權執行工作,比如 Claude 甚至介紹了一種簡單粗暴的使用經驗,他們內部用 Claude Code 寫代碼的時候,有一個原則就是 “ 不行就重來 ”。

      王文廣表示,“ ‘ 不行就重來 ’ 的策略,跟金錢和時間等無關,跟解決問題的復雜程度有關。簡單來說,在原型探索階段或者簡單的應用中,是一種有效的捷徑,但在嚴肅的、可維護的較為復雜的生產環境中,這是一種不可持續且極具破壞性的工作模式。”

      對于基礎模型本身,王文廣則認為還會繼續進步,“ 整個 Agent 生態系統,也都在等待基礎模型的下一次重大突破。一旦新的、更強大的基礎模型出現,它將立刻抬高整個 Agent 生態系統的能力天花板,催生出新的應用。”

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      轉發野三坡隧道事故視頻被要求刪除,還有網友稱發生了爆炸

      轉發野三坡隧道事故視頻被要求刪除,還有網友稱發生了爆炸

      映射生活的身影
      2025-12-20 19:18:13
      突然爆雷,深圳總部幾乎搬空!有人投入700多萬元

      突然爆雷,深圳總部幾乎搬空!有人投入700多萬元

      晉江電視臺
      2025-12-20 13:06:55
      “邪修大法”做家務就是快!一分錢不花,家里就窗明幾凈~

      “邪修大法”做家務就是快!一分錢不花,家里就窗明幾凈~

      裝修秀
      2025-12-19 11:30:03
      美國國家級算力動員啟動!10萬顆英偉達Blackwell GPU,助AI基礎設施全面升級

      美國國家級算力動員啟動!10萬顆英偉達Blackwell GPU,助AI基礎設施全面升級

      爆角追蹤
      2025-12-20 11:58:16
      內地上映第二天,電影《阿凡達3》票房破2億,觀眾:電影時長太長,看完體驗很不好

      內地上映第二天,電影《阿凡達3》票房破2億,觀眾:電影時長太長,看完體驗很不好

      臺州交通廣播
      2025-12-20 13:51:54
      同仁堂集團就南極磷蝦油事件致歉:全面開展品牌清理行動

      同仁堂集團就南極磷蝦油事件致歉:全面開展品牌清理行動

      界面新聞
      2025-12-20 09:03:27
      聞名后世的“桑弘羊之問”,難倒了中國歷代的知識精英!

      聞名后世的“桑弘羊之問”,難倒了中國歷代的知識精英!

      尚曦讀史
      2025-12-19 10:28:06
      克林頓與愛潑斯坦案受害者共浴照片披露

      克林頓與愛潑斯坦案受害者共浴照片披露

      揚子晚報
      2025-12-20 11:50:57
      一國總理出面熄火,中日罕見統一戰線,這件事情,必須得有個說法

      一國總理出面熄火,中日罕見統一戰線,這件事情,必須得有個說法

      博覽歷史
      2025-12-19 19:20:06
      愛潑斯坦惡魔島重磅照片全公開!首曝各國名流權貴玩樂畫面,受害者多達1200人?

      愛潑斯坦惡魔島重磅照片全公開!首曝各國名流權貴玩樂畫面,受害者多達1200人?

      英國報姐
      2025-12-20 21:08:42
      國防部:與柬泰邊境沖突無關,不要主觀臆測

      國防部:與柬泰邊境沖突無關,不要主觀臆測

      觀察者網
      2025-12-18 19:24:05
      降息50基點!剛剛,集體宣布!

      降息50基點!剛剛,集體宣布!

      證券時報
      2025-12-20 19:40:06
      江蘇富二代杜浩楠去世,媽媽含淚:睡了一覺人就沒了,你們要警惕

      江蘇富二代杜浩楠去世,媽媽含淚:睡了一覺人就沒了,你們要警惕

      筆墨V
      2025-12-19 11:50:39
      21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

      21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

      阿天愛旅行
      2025-12-17 00:16:32
      不是迷信!冬至,記得:3不洗,3不去,別大意

      不是迷信!冬至,記得:3不洗,3不去,別大意

      狼小妖
      2025-12-20 00:12:55
      上海一對情侶戀愛時男方說“我養你”,分手后女方以此為證,拒絕返還40余萬元!測謊實驗后,法院判了

      上海一對情侶戀愛時男方說“我養你”,分手后女方以此為證,拒絕返還40余萬元!測謊實驗后,法院判了

      都市快報橙柿互動
      2025-12-20 09:35:12
      成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經營,警方介入調查

      成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經營,警方介入調查

      封面新聞
      2025-12-20 19:21:27
      波蘭總統當面向澤連斯基“發難”:烏克蘭人不知感激

      波蘭總統當面向澤連斯基“發難”:烏克蘭人不知感激

      參考消息
      2025-12-20 21:25:31
      寧波大學附屬婦女兒童醫院發布情況說明后又刪了

      寧波大學附屬婦女兒童醫院發布情況說明后又刪了

      第一財經資訊
      2025-12-20 21:55:59
      柬埔寨電詐分子上演大逃亡,場面震撼!

      柬埔寨電詐分子上演大逃亡,場面震撼!

      環球熱點快評
      2025-12-20 07:53:18
      2025-12-21 04:19:00
      知危 incentive-icons
      知危
      投資不立危墻之下
      512文章數 1828關注度
      往期回顧 全部

      科技要聞

      許四清:具身智能的"ChatGPT時刻"還未到來

      頭條要聞

      臺北致4人身亡嫌犯被指是"大陸籍" 蔣萬安回應

      頭條要聞

      臺北致4人身亡嫌犯被指是"大陸籍" 蔣萬安回應

      體育要聞

      我開了20年大巴,現在是一名西甲主帥

      娛樂要聞

      2026央視跨年晚會陣容曝光,豪華陣仗

      財經要聞

      求解“地方財政困難”

      汽車要聞

      嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

      態度原創

      親子
      教育
      藝術
      健康
      時尚

      親子要聞

      邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

      教育要聞

      別逼孩子死磕高二數學了!我用3個“懶方法”,讓倒數娃沖進前20

      藝術要聞

      投資26億!廣州“獨角獸”的總部大樓,躍出地面!

      這些新療法,讓化療不再那么痛苦

      最顯腿細的騎士靴,誰穿誰是腿精

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲va中文字幕无码久久| 欧美18videosex性欧美tube1080 | 情侣作爱视频网站| 日产国产精品亚洲系列| 影音先锋资源| 国产亚洲欧美日韩俺去了| 大地资源网第二页免费观看| 中文字幕免费不卡二区| 91九色视频| 国产精品看高国产精品不卡| 乐至县| 日本无码一区二区| 北岛玲中文字幕人妻系列| 国精产品一区一区三区有限公司| 77777五月色婷婷丁香视频| 无遮挡aaaaa大片免费看| 在线免费看AV| 亚洲国产欧美在线人成大黄瓜| 国产精品毛片一区二区三区| 精品无码a久久| 色wwwww| 色一情一乱一伦一区二区三区| 久久精品国产久精国产| 亚洲国产精品美女久久久久| 青草伊人网| 国产主播第一页| 少妇愉情理伦片高潮日本| 国产成人无码一区二区三区在线| 施秉县| 色图综合网| 蜜臂AV| 在线观看av网站| japanese边做边乳喷| 亚洲爱婷婷色婷婷五月| 亚洲综合另类小说色区色噜噜| 激情婷婷五月| 亚洲激情图片| 亚洲精品久久久久久无码色欲四季| 无限看片在线版免费视频大全| 亚洲国产成人精品女人久久久| 蜜桃av网站|