![]()
Agent、Agnet?Agent!說起今年的 AI 浪潮,除了年初 DeepSeek 引領的一波強化學習熱,行業內最受關注的,莫過于各種各樣的 AI Agent 以及 “ 類 Agent ”。
不知從什么時候開始,Agnet 變成了一種萬能公式,什么都可以套進去一下。但,Agent 真的有那么好嗎?真的有競爭力嗎?
“ Manus 前陣子剛推出的新功能Wide Research,我覺得非常不具備競爭力,對提高產品競爭力沒有什么用。” 某大型金融企業 AI 技術專家王顯( 化名 )向知危表示。
從 “ 次日即舊 ” 的榜單到被基礎模型一輪升級清場的產品,2025 年的Agent 創業,熱鬧背后是可憐的留存率與漸趨同質的體驗。
幾乎所有 Agent 產品都在講 “ 更聰明、更全能、更自動化 ”,但用戶只試用一次就離開的比例居高不下,Demo 能飛,落地常摔,這是否意味著通用型 Agent 的敘事正在透支?
本文,知危把鏡頭拉遠,看看泡沫究竟來自資本驅動、技術錯配,還是場景誤判?
我們將邀請來自大型企業、創業公司的多位一線實踐者,以 Manus 近期的新產品 Wide Research 和公司跑路、撤資事件為引,追問國內外 Agent 泡沫亂象現實、背后的原因,以及未來 Agent 賽道的生存規則。
在交流過程中,知危發現,通用與垂直的取舍和統合是決定去留的關鍵。
實際上,今年 Agent 大火, 主要是在 tool-use 上取得突破,《 知識圖譜:認知智能理論與實戰 》、《 知識增強大模型 》與《 比 RAG 更強- 知識增強 LLM 型應用程式實戰 》作者、大模型技術專家王文廣向知危表示,“ 具體來看,從編程到browser-use,再到 computer-use,以及隨著 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增強,能夠更高效地從外部獲取信息,以及與外部系統進行交互。”
平安保險技術平臺組負責人張森森進一步向知危解釋道,“ 技術層面上,協議逐漸成熟,能力外延擴大,可以通過 MCP 協議等方式應用到更多場景。應用層面上,有些長尾場景得到了覆蓋,比如從瀏覽器信息助手到執行動作的轉變:過去只是提供答案,現在能幫助完成動作。生態層面也降低了一些成本。”
“ 過去廠商比拼模型參數,現在還要比拼模型加生態工具的組合能力,市場競爭焦點已經發生轉移。”
但這其中,以 Manus 為代表的通用 Agent 類產品一直飽受爭議。
一方面,資本甚是青睞,另一方面,用戶詬病不止。直到最近,Manus 先是跑路,把公司總部從國內搬遷到新加坡,隨后推出了 Wide Research 產品,再之后又被曝出將可能因為安全審查問題被強制撤銷融資。
在整個賽道中,炒作了大半年的 Agent 概念,也開始面臨越來越顯性的質疑。
王顯向知危詳細解釋了為何 Wide Research 缺乏競爭力,“ 第一,Wide Research確實提高了并行處理的效率,但也非常消耗計算資源和調用額度,所以它的定價非常貴。”
“ 第二,沒有看到它與單體高性能的 Deep Research 在性能準確度、成本效率上的公開對比或測試,所以不能確定它在使用大量并行任務后,效果是否真的得到提升。”
“ 最重要的一點是,它仍然沒有解決場景壁壘的問題。”
“ 它沒有專業數據、沒有專屬工具鏈、沒有行業認證、沒有與業務深度綁定的集成,也沒有與高價值業務場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構建場景護城河。”
“ 當然,早期采用淺而寬的策略來獲客沒有問題,但長期來看,Manus無法抵御模型廠商的下沉和垂直廠商的滲透。”
“ 所以在我看來,Manus 自始至今,從產品角度而言,思路是完全失敗的。”
AI 技術專家和創業者陳為也基本持一致的觀點:“ Wide Research 的本質是 ‘ 規模化通用任務執行器 ’,效率高,但沒有解決 ‘ 決策 ’ 問題。”
“ 用戶會發現,當他們遇到真正復雜的問題時,這個通用 Agent 還是幫不上忙,最終不得不轉向專業的垂直產品或人工服務,導致用戶留存率不高。”
如果擴大到任意的通用 Agent,則它們都具備一個看似有吸引力但實則致命的特點:任務范圍模糊。
知言吉智 CEO 付瑞吉向知危表示,“ 任務范圍模糊一定會對產品帶來不利的影響。一方面,當一個 Agent 宣稱能做所有事情時,它往往在任何一個領域都做不到最好;另一方面,任務范圍模糊,意味著用戶對于這個 Agent 到底能幫自己解決什么問題也會有困惑,那么這個產品的認知成本就非常高。”
![]()
付瑞吉進一步向知危解釋了近期 Agent 泡沫興起的創業者心態:“ 大模型的出現讓大家覺得開發門檻降低了,感覺 ‘ 人人都能做 Agent ’。許多開發者和創業公司認為將其包裝成一個能解決各種問題的 ‘ 超級助手 ’,能迅速吸引大量 C 端用戶。通用型 Agent 的核心賣點就是 ‘ 解決所有問題 ’。但現實是,目前為止沒有任何一個 Agent 能真正做到這一點。”
王顯更是認為這場泡沫的興起是創業公司和資本共謀的產物,“ Manus 根本不是在做產品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創始人是拿到融資后真正深入場景做產品還是卷錢跑路,只有創始人自己才知道。產品非常失敗,但營銷可以說非常成功。”
付瑞吉補充道,“ 營銷只能負責將大眾的注意力吸引過來,但 Agent 不同于內容類的產品( 如短視頻 )只要用戶的注意力就夠了,它還是要解決用戶的實際問題的,如果用戶發現產品 ‘ 華而不實 ’,則很難留存。”
沐瞳科技大數據負責人薛趙明則認為這種產品模式有一定合理性,但還是要區分 ToC 和 ToB 的邏輯,“ ToC 和 ToB 是兩種邏輯,ToC 需要具備多樣性,這個多樣性也代表了用戶選擇的多樣性,產品力不足的會很快在市場的浪潮中褪去,因為這是一個非常燒錢的賽道,沒有用戶的沉淀和付費是很難長期堅持的。ToB 又是另一個商業邏輯,必須強調可落地和可交付,否則便是無用的。”
王顯以 Wide Research 為例解釋了為何通用 Agent 產品現階段對于企業用戶無用,“ 對于企業而言,Wide Research 并沒有說明 Agent 是如何分工、如何合作、如何整合各自結果的,它們之間的協調協議和調度機制也不明確。那我最后怎么去做審計呢?作為企業,我必須審計這個過程是否合規,以及在執行過程中到底發生了什么。所以我沒辦法信任它給出的最終結果。”
“ 尤其是在金融行業,我們可能花了很長時間跑出一個結果,如果它直接告訴我買哪只股票、投哪家公司,我不可能只憑這個結果就去執行。”
Manus 雖然接受了中外多個基金的投資,但運營主要面向海外市場,而且總部已經搬遷到新加坡,其代表的只是 Agent 泡沫的一小部分組成。
但聚焦到國內,情況也并不樂觀,甚至可以說有太多相似之處。
薛趙明表示,“ 實際上,當前無論是創業公司,還是一線的云廠商的產品,大部分的產品都還是在一個特定場景下去演示,真正的規模化落地還是偏少。”
張森森表示,“ 國內很多 Agent 產品功能繁多,但基本都是快速堆疊,痛點不聚焦。”
“ 比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產品,不乏大廠參與其中。它們都有通用 Agent 的特點,功能多但不精。寫代碼準確率不高,數據分析缺少可解釋性,設計產出質量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實現。很少有明確與工作流、KPI 綁定的可交付結果。”
“ 具體到一些金融類工具型 APP( 公司主體一般沒有正式的金融業務牌照 ),比如炒股平臺,會提供所謂的智能投顧功能。當我打開某只股票時,它可能提示該股票出現‘紅三兵’,未來可能上漲,但這樣的判斷缺乏準確性。”
“ 因為它只是摘錄過去的一些市場信息,而二級市場的信息來源非常多,決策點也很多,這類產品完全無法體現這些復雜因素。看起來像是做了一個智能投顧,但實際上既沒有真正實現投資組合優化、風險控制,也無法對接交易系統,無法支撐其宣傳的定位。”
“目前市面上沒有一家能真正把智能投顧功能做好。實際上,大部分經紀公司都有相關部門去做這件事。問題在于,一方面他們覺得必須做,另一方面看到大模型似乎能解決問題,就開始投入開發,完成后立刻做宣傳,聲稱接入了大模型并具備某種能力。”
“但這里的問題在于,他們的宣傳能力與實際能力并不匹配,并非能力完全無用,而是存在明顯落差。”
王文廣表示,“ 成功演示的往往是任務中那 20% 的標準化部分,而真正構成工作核心的,是那 80% 的、充滿‘長尾異常’的復雜現實。”
就連大家目前普遍主動或被動接觸過的AI搜索,其實也還很初級,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能夠多輪使用簡單工具或者單輪使用復雜工具,但是多輪使用復雜工具( 例如搜索工具 )的能力還沒有達到生產可用。從BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面還有很大的提升空間。這種差距的原因在于大模型在使用通用工具上的能力還沒有迎來ChatGPT時刻。”
白鯨開源 CEO 郭煒向知危總結道,“ 目前整體來看,各種 Agent 產品給人的驚喜度確實不夠。因為現在 Agent 技術本身還沒有進入成熟或真正可用階段,技術生態不完善。甚至關于Agent 的理念,大家都還沒有想清楚。”
“ 國內大多數所謂的 Agent 其實并不是真正的 Agent,只是為了吸引眼球而這么命名。在我理解中,能夠替代 ToB SaaS 和 ToC APP 的那種 Agent 產品還沒有出現。國內品牌都是如此。”
“ 換句話說,現在的 Agent 大多是套了自然語言交互外殼的 RPA( 軟件機器人流程自動化 ),普遍缺乏深度。那為什么不直接用 RPA 呢?RPA 還沒有幻覺。”
這種 “ 名不副實 ”的現象,王文廣指出,是所謂的“智能體洗白”( Agent Washing ),在行業中已非常普遍。
“ 這是 ‘ 能力泡沫 ’ 的直接產物。公司利用市場對 ‘ Agent ’ 一詞的追捧來吸引投資和用戶。最直接的例子是,有權威報道指出,全球幾乎所有在 2022 年底 ChatGPT 之前就在所謂的 RPA 等賽道上有所成就的企業,都在掛智能體的羊頭賣 RPA 的狗肉。”
Gartner 今年 6 月的市場分析報道表明,其在測試的 ‘ 數千款 ’ 所謂的 Agent 產品中,只有約 130 款真正符合標準。
“ 所以,可以做個簡單的排除法,尋找智能體或大模型落地的供應商,首先排除掉以往做過 RPA 的企業,這可以避免一半的坑。投資也是一樣。”
王文廣還總結了 C 端和 B 端 Agent 泡沫的一般特征,“ToC 泡沫主要由對 ‘ 通用個人助理 ’ 的夢想驅動,ToB 泡沫更多是由企業的提高生產力、降低成本的焦慮所驅動。”
“ ToC 的這種愿景極具吸引力,容易引發病毒式傳播和媒體的廣泛關注,從而在短期內催生出極高的估值和用戶增長預期,但當產品體驗達不到預期,用戶會毫不猶豫地離開。”
“ ToB 領域則由于企業軟件的銷售周期長、決策鏈條復雜,并且一旦部署,即使效果不佳,替換成本也相對較高,從而顯得其泡沫更具欺騙性,也更慢地顯現。”
如果將國內外的 Agent 泡沫現象綜合起來,則又是另一番景象。
張森森解釋道,“ 國內外的 Agent 泡沫表現并不相同。比如美國,其優勢是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消費級助手類 Agent 的投資方可能來自硅谷大基金。這些機構在早期投資時,美國對數據安全還沒有嚴格限制。但隨著數據隱私法比如 GDPR、CCPA 等監管措施落地,尤其是在跨境場景下,AI的安全審核要求變高,很多競爭者被迫增加合規與差異化投入,結果加快了行業洗牌速度,把不少做通用型 APP 的企業淘汰出局。”
“ 國內的泡沫很特殊,雖然用戶集中在 C 端,但泡沫幾乎只存在于 B 端。原因是 B 端企業受補貼、國產化等政策影響,同時市場內卷嚴重,用戶更注重實用性而非炒作。B 端用戶相對冷靜,因此很多 ToB 初創公司迅速倒閉,一些去年還在討論的公司今年已經消失,泡沫破滅速度會很快。”
![]()
當前的 Agent 產品普遍缺陷明顯,可以從產品、工程、場景等多方面理解。
產品層面主要是可靠性不足。對于為何大部分 ToC Agent 產品中,90% 的用戶用一次就離開,郭煒表示,“ 這很正常,因為它還不如直接用 APP。真正的 Agent 應該比 APP 更方便、更簡單。”
“ 而如果是 To B 產品,必須比現有軟件更簡單、準確、方便。本來用戶點三下鼠標就能完成的事,現在用 Agent 卻要用自然語言先說一句話,然后再跟它說十句話,才能替代原本三次點擊的工作。這樣的體驗讓人寧愿直接點鼠標。”
王文廣表示,“ 換句話說,最根本的原因是,對于大多數真實世界任務,用戶為驗證和修正 AI Agent 輸出所付出的心智成本和時間成本,超過了 Agent 本身所節省的成本。”
“ ‘ 通用個人助理 ’ 承諾的是一個科幻級別的未來。其所要處理的任務,如預訂家庭旅行、管理個人財務、安排重要會議,都具有一個共同點:高信任要求。例如,用戶需要確信 Agent 不會訂錯機票、不會泄露財務信息、不會搞砸會議時間。”
“ 然而,當前大模型的 ‘ 幻覺 ’、知識陳舊等問題和 Agent 執行的脆弱性,使得其可靠性極低。”
“ 這種 ‘ 高信任要求 ’ 與 ‘ 低可靠性 ’ 之間的巨大鴻溝,或未能穩定地跨越從 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 無法獲得用戶長期留存的根本原因。用戶可以容忍一個聊天機器人講錯一個歷史知識,但絕不能容忍一個 Agent 訂錯一張機票。”
而且目前 Agent 產品有從訂閱制走向按結果付費的趨勢,這其實也給通用 Agent 創業公司帶來了壓力。 “ 這種商業模式的演進,本質上是一次風險轉移,將產品無效的風險從客戶身上轉移到了服務提供商身上,而 ToC 的通用 Agent 的不可靠性使其極難承受這種風險。反倒是 ToB 領域,可以選擇合適的場景,通過效果所創造的價值進行分成,是有利的。”
張森森從工程角度總結了許多 Agent 產品無法落地的原因:“ 第一,真實環境非常復雜,不可能像實驗環境那樣數據干凈。現實中數據質量往往較差,接口口徑不一致。”
“ 第二,很多接口需要跨系統權限訪問,要做 SSO( 單點登錄 ),還涉及數據脫敏,這些環節很容易卡住,導致平臺間的對接受阻。工具本身存在脆弱性,比如瀏覽器系統自動化可能對 DOM 版本極其敏感,API 的速率限制等問題也可能導致頻繁重試。”
“ 第三,存在狀態和記憶缺失的問題。就像長鏈路任務中缺乏持久狀態,上下文無法保存,狀態機失效,無法接著上次任務繼續,只能從頭開始。”
“ 第四,缺少驗證和回滾機制,沒有二次校驗或回滾策略。”
“ 第五,SLA( 服務商與客戶之間對質量標準、性能指標等的約定 )和成本存在約束。企業使用時必須考慮成本,服務需要有保障,確保 TCO( 總擁有成本 )大于業務收益。”
“ 第六,缺乏合規與審計能力。生產過程要可追溯、可解釋,并具備權限與操作流程控制。但在各個平臺的演示中幾乎看不到這一點,而這恰恰是企業最重要的需求。”
在場景層面,郭煒認為,這個原因可以非常簡單,“ 沒有真正深入到用戶場景中去做。”
“ 大部分 Agent 仍是由處在特別早期階段的創業者在推動。但真正有價值的 Agent,需要在某個業務領域有深厚積累的人或公司來做。”
張森森持相似觀點,“ 實際上,國內外當前都太把技術當回事了,太關注技術使得大家在做大模型和Agent都是圍繞技術來構建的。通俗來說就是,技術有什么東西,我做什么東西。”
王文廣補充道,“ 當前,AI 公司往往不了解業務,業務公司則沒有準確理解AI智能體技術。對 AI 方或業務方來說,都應該了解技術邊界,知道智能體能做什么不能做什么,同時結合業務,才會做好這事。”
但 Agent 不只是獨立地去攻克一個個場景就可以了,其帶來的變革是生態級別的。
郭煒表示,“ Agent 本身是一個大的生態,就像軟件或 SaaS 生態一樣。未來它會形成一個完整的生態體系,只有這個生態真正建立起來,才能形成所謂的 Agentic Stack,在 Agent 時代承接并轉化原有生態。”
“ 這個生態規模很大。以 ToC 的手機端為例,目前手機端還沒有出現通用型APP,需要在垂直領域中出現對應的 Agent,例如類似國內的攜程、小紅書等級別并且更方便的Agent,才能支撐起生態的第一層。”
“ 生態的第二層才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一個入口。”
“ 而入口之爭本質是流量之爭,而不是技術或產品本身。誰能夠搶占新一代 Agent 的流量,誰就能在通用 Agent 領域占據優勢。”
從這個角度看,似乎 Manus 的流量打法也有一定的合理性?但王顯并不這么認為,他指出應用層的創業公司沒有機會去搶占這個流量入口。
也就是說,創業公司無法繞過生態的第一層,直接跳到第二層,成為流量入口。“ 創業公司現有的 Agent 產品要結合到生態鏈中去,比如蘋果或者微信的生態,再把AI能力融合進去,相當于通過 AI 對已有生態鏈做增強。要實現這一點,要么擁有場景,要么擁有數據。”
如果想直接跳躍到第二層生態,就會面臨 Manus 當前的困境,“ 從用戶視角來看,Manus 這類產品已經出現用戶數量下滑、使用意愿不足的情況。無論是創業公司還是老牌公司,首先要解決的就是生存問題。產品必須有正向 ROI,要能價值兌現,且使用成本不能太高。但 Manus 的產品正好存在價值兌現不足的問題,而且時間、學習和金錢成本都過高。”
王顯還認為,流量入口也不是 OpenAI 這類公司的發展方向。“ OpenAI 是創業公司,但也是大模型廠商,肯定不會去做流量入口。相比 Anthropic、Google,OpenAI 更面向大眾,比如 ChatGPT、Sora 這樣的產品,特征是注重體驗、規模化和生態擴展。他們的目標是底層基礎設施供應,同時在 C 端和長尾 B 端場景做推廣。”
郭煒表示,“ 像蘋果這樣的公司,天然具備優勢去打造移動端的完全通用型 Agent。理想狀態下,用戶只需說一句 ‘ 幫我訂一張去上海的機票 ’,通用助手Agent 就能自動調用多個 APP 或 Agent 服務協同完成整個流程。”
“ 在 ToB 領域也是類似的邏輯,每個垂直方向的 SaaS 都會出現對應的 Agent,需要是真正意義上屬于 Agent 時代的軟件,之后才會出現入口級通用 Agent。否則,入口級通用 Agent 即使想做,也無法與底層垂直領域的 Agent 有效銜接。即便使用 MCP 的 Server 來連接,中間也會損失大量信息,導致結果不準確,無法滿足客戶需求。”
“ 現階段應優先在垂直領域啟動 Agent 落地,無論是 To B 還是 To C,都應在原有賽道中先行深耕,逐步培育生態。”
![]()
以上,我們描述了 Agent 泡沫的總體情況,可以看到,造成這一現象的根本,還是在技術受限、行業規律甚至一些痼疾的背景下,創業公司和大廠對 Agent 產品在生態中的定位有著錯誤的認識。
接下來,知危將對這些背景進行更加細致的闡述。
其中,技術受限包括 MCP 協議限制、AI 幻覺限制、多智能體擴展限制、上下文長度限制、大模型智能限制等。
行業規律、痼疾則指向資本炒作、大模型行業競爭的殘酷規律以及國內特有的老問題。
![]()
郭煒表示,“ 關于使用 MCP Server 會導致信息損失,這一點非常重要。最終,Agent 應該采用 A2A( Agent to Agent )的協議,服務于垂直Agent之間的通信,才能完整完成任務。”
“ 而 MCP 是通用 Agent 與外部數據源之間的通信協議。當調用 MCP 時,不可避免地會將自然語言信息轉換成結構化的 query 或結構化的 ADB 請求來執行操作,這一轉換的準確率需要由調用方來保證。但通用 Agent 要在專業領域內準確地將專業詞匯翻譯成精確指令,再交由原有程序執行,在現實中非常困難。”
“ 以我們正在做的 Data Agent 為例,這項工作需要較長時間推進,因為必須自底向上完成建設。過去的數據底層通常是裸數據,例如 CSV 文件,里面是各種原始數據。未來需要將這些數據轉化為帶有語義的 Contextual Data Unit( CDU ),才能被上層 Agent 有效消費。因此必須了解企業所有表的字段含義及數據意義,需要非常專業的數據獲取廠商來完成。”
“ 例如,‘ 消費金額 ’ 必須明確對應哪個系統、什么業務的消費金額,Agent 才能理解。否則,如果上層 Agent 僅接到 ‘ 獲取消費金額 ’ 的指令,它必須再去解析并定位到 Salesforce 系統中的特定交易表及其規則。比如讓 MCP Server 將請求翻譯成 SQL 再下發到 Salesforce 查詢數據,但它并不知道 ‘ 消費金額 ’ 在當前語境下的具體含義,是來自 Salesforce、SAP,還是其他系統。它甚至不了解 Salesforce、SAP 分別是什么。”
“ 這不僅是當前 Agent 技術無法實現的,甚至人類在缺乏上下文的情況下也很難完成。”
“ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一層通用 Agent ’ 就能實現的,而必須由基于 A2A 的多個專業領域的 Agent 相互協作( Agent + Agent )實現。”
“ 相比之下,提示詞專業性、token 成本爆炸等都是更加次要的,會隨著時間自然解決。”
![]()
Agent 還有一個永遠無法解決的問題,那就是底層大模型的幻覺。已有研究證明,大模型無法從理論上完全消除幻覺。
“ 在現有大模型技術下,有許多場景嘗試進行完全 Agent 化,但效果并不理想。”
“ 以自動編碼為例,各種號稱能夠代替人類編碼的工具,無論是帶 Agent 的 Claude Code、Cursor,還是Augment Code等,都無法真正替代程序員的工作。無論是初級、中級還是高級崗位,都仍需配備人類程序員進行檢驗和監督。否則一旦幻覺出現且缺乏有效控制,風險極高。例如,近期某公司在使用自動化工具 Replit 時出現誤操作,導致數據庫被刪除。”
“ 目前也沒有特別好的方式來自動定位和追溯幻覺。在校驗中,雖然無法校驗所有環節,但可以抽檢一兩個關鍵點,并用傳統方法或知識庫進行糾錯和約束。”
“ 幻覺在前期溝通階段有一定優勢,因為它可能帶來一些創新性想法。但在企業落地執行階段,應盡量控制甚至避免使用大模型。在 Agent 執行任務時,為緩解幻覺,只有借助 workflow 才能保證足夠的確定性。”
“ 總之,大模型和 Agent 在目前更多是作為效率工具,顯著提升了開發能力。例如,我自己現在幾乎沒有時間寫代碼,對一些新發布的 Python 函數也不了解,但大模型能夠知曉并直接為我生成代碼,還能解釋邏輯。這樣我只需驗證邏輯是否正確并運行,就能快速完成任務。這種方式不僅比我親自編寫代碼更快,有時生成的算法思路甚至比我原本設想的更好。”
王文廣指出,思維鏈的幻覺其實在 Agent 產品中也非常常見,“ 這通常被稱為過程幻覺,即 AI 編造了一個它并未執行或執行失敗的操作過程。”
“ 它輸出的不是真實的操作日志,而是它生成的一個 ‘ 看起來像是成功了的 ’ 操作日志。例如,它聲稱 ‘ 我已經成功運行了測試,所有測試都通過了 ’,但實際上它可能根本沒有能力或權限去運行測試,或者實際測試運行失敗了。”
“ 從這點也可以看出,在許多情況下, 單純依靠大模型,存在非常多無法解決的問題。如果把所有問題當做一個平面,大模型能夠解決的問題是平面上的布,無法解決的問題是孔,那么可以看到,這個平面是千瘡百孔的。”
![]()
在 Agent 框架設計方面,目前領域內有一個被過分炒作的概念,那就是多智能體。
當前實際應用中,智能體之間的交互主要限于兩個智能體。編程體驗后來居上的 Claude Code 也沒有使用多智能體協作機制。
張森森表示,“ 單智能體或雙智能體已經能覆蓋 80% 的企業業務場景,此外,限于雙智能體也是出于成本考量。”
“ 具體來說,多智能體會顯著增加復雜度,容錯設計難度提升,開發、維護、算力成本更高,收益和成本不匹配。引入更多智能體未必能提升效果,同時也難以抵消延遲,并會使得系統更加不穩定。用戶體驗最終取決于響應速度,穩定性方面,智能體越多越容易跑偏,可能出現循環對話、信息丟失等問題,還需要額外監督和約束,復雜度會越來越高。”
“ 多智能體的案例也有,比如一些游戲公司在做 AI 團隊游戲,在沙盒環境里嘗試多智能體交互。但對大部分企業而言,并不需要這種復雜度。”
王文廣補充道,“雖然在一些對協調和優化要求極高的特定領域,已經出現了更復雜的、已實際落地的多智能體系統案例,但絕大多數情況下, 應該優先解決簡單的問題。”
![]()
基礎模型能力方面,當前非常核心的一個限制還是上下文長度。雖然 OpenAI、Anthropic、谷歌等 AI 公司一直宣稱模型上下文達到數十萬、上百萬 token,但Reddit 社區反饋其中水分很大,有時幾萬 token 輸入下,模型準確率就大幅下降。
張森森表示,“ 實際體驗來看,大部分廠商宣稱的上下文長度確實水分很大,別說兩三千行代碼,甚至一千多行時就開始丟失信息了。”
“上下文長度代表了基礎模型能力的天花板,特別在 Coding Agent 場景中,基本就是硬天花板的程度。”
“ 在企業內部優化這個問題不僅很難,而且也不是靠企業自己能完全解決的。可選的方案有:代碼檢索以及更加智能的代碼檢索;動態上下文管理,只加載與本次修改相關的依賴文件。但這些都治標不治本。”
“ 對資深程序員來說影響不大,他們能很快發現邏輯缺口。”
“ 但對初學者來說,一旦項目規模大,IDE 頻繁加載就會崩潰。項目規模一大,就會涉及很多模塊和依賴,甚至是跨模態的復雜系統。模型不得不頻繁丟失上下文、重新加載信息,導致迭代過程完全斷裂,忘記之前的決策,甚至可能出現重復造輪子的情況。”
郭煒補充道,“ 當前的限制不僅來自模型本身,還與底層芯片架構有關,包括顯存、外部存儲等都需要進一步提升。”
王顯認為,在硬件基礎設施的限制下,上下文長度瓶頸對于國內而言將是更嚴峻的問題。
“ 國外芯片比如英偉達 H100、A100 這樣的高端 GPU,能夠更高效地進行分片計算,處理幾十萬、上百萬 token 上下文。同時它們也有軟件層面的優化,比如 FlashAttention 工具、針對張量計算的優化配置等,這些都是通過軟硬件結合來提升性能的。”
“ 相比之下,國內主要通過算法優化和軟件工程做一些 ‘ 曲線救國 ’ 的工作。類似的,DeepSeek、Kimi 等團隊也在發布各種上下文剪裁、分層記憶、稀疏 Attention 等方法,其實都是一些面向低成本的方案。”
“ 一些國內廠商號稱自己的高端 GPU 在浮點性能、顯存、寬帶等各方面和 H100 很相近,但其實還是有很大差距的。國外的頂配集群,比如 H100 加 NVLink Switch,能輕松地應對百萬級 token 推理。”
王文廣表示,“ 實際上就是 AI 芯片的存儲容量和帶寬限制了推理的極限,不管是國內外都是這樣的。”
“ HBM 是通用 GPGPU 最好的選擇,但專用的推理芯片有很多不同的路線,比如使用 3D 堆疊的專門的 AI 芯片。
“ 國內有一些如 CiMicro.AI 這樣非常前沿的AI芯片公司,和寒武紀、華為、海光等走了不同的路線,將 3D DRAM 用于 AI 推理芯片上,如果成功流片,帶寬能夠得到極大的提升,比英偉達用的 HBM 還高一個量級,從而大模型的推理速度將得到極大的提升,長上下文和深度思考則會對 Agent 有極大的促進。”
![]()
除了上下文長度之外,更大的限制,自然來自基礎模型的智能極限了,特別是近期被詬病平庸的 GPT-5 發布后。
客觀來看,GPT-5 的更新點是在產品層面,把幻覺降得特別低,這在消費級用戶看來不太友好,但對編程來說非常有用,可靠性很高。對于專業用戶而言,有時甚至比 Claude 4 還好用一些,因為 GPT-5 在 Agentic Coding 中傾向 “ 精準定位問題 ” 和 “ 最小侵入修改 ”,而 Claude 4 自主性更強,寫的代碼更復雜,需要特別提醒才會選用最簡方案。
那么,從這個角度看,一直以消費級用戶為主體的 OpenAI 未來是否想更多向 B 端推進?
張森森表示,“ 如果是,那也是不得已而為之。現在 GPT-5 是通過多模型路由來提高上限,基本意味著大模型的 Scaling Law 幾乎已經失效,單模型上很難再高效提升。其實 GPT-5 的發布本身就有點 ‘ 難產 ’ 的意味,更像是一種形式,而不是自然的過程。未來基礎模型能否進一步進化,還需要觀察。”
“ 這也是為什么大家都在強化 Agent 能力。相比基礎模型,Agent 的可解釋性相對更好一些,能更好結合具體業務場景去提升實際能力。但基礎模型往往也決定了 Agent 的上限。”
“ 后面大模型的走向可能更多會朝垂直方向發展,參數量未必再無限增大,而是聚焦在更細分的場景。”
大模型廠商經常在營銷中刻意忽視模型當前的智能上限,而過分強調可以放心地依賴大模型全權執行工作,比如 Claude 甚至介紹了一種簡單粗暴的使用經驗,他們內部用 Claude Code 寫代碼的時候,有一個原則就是 “ 不行就重來 ”。
王文廣表示,“ ‘ 不行就重來 ’ 的策略,跟金錢和時間等無關,跟解決問題的復雜程度有關。簡單來說,在原型探索階段或者簡單的應用中,是一種有效的捷徑,但在嚴肅的、可維護的較為復雜的生產環境中,這是一種不可持續且極具破壞性的工作模式。”
對于基礎模型本身,王文廣則認為還會繼續進步,“ 整個 Agent 生態系統,也都在等待基礎模型的下一次重大突破。一旦新的、更強大的基礎模型出現,它將立刻抬高整個 Agent 生態系統的能力天花板,催生出新的應用。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.