作者|子川
來源|AI先鋒官
關于大模型智能體哪家強這個問題終于有一個明確的答案啦!最近,由國家工業信息安全發展研究中心賽昇實驗室牽頭,給阿里云百煉、騰訊云智能體開發平臺、扣子及百度智能云千帆安排一場測試。不再是看數據,而是測試實際場景的表現。
此次測試圍繞RAG、工作流和Agent三大核心維度展開,涵蓋政府、電商、電力等多個場景。
測試標準非常嚴謹,統一采用DeepSeek R1進行推理,DeepSeek V3進行問答。數據上,30份文本(10萬字級)、5張結構化表格(1.5萬+記錄)、10組圖文,構成600+問題的試卷,外加13條端到端流程,從網頁到API,全程監控表現。得到的結論很直接。
RAG領域:文本理解已基本定型,但結構化數據分析和多模態協同仍是行業共同的“軟肋”。
工作流領域:功能基本可用,但仍需精細調優,參數的動態捕獲和異常回滾機制,是衡量其智能程度的關鍵指標。
Agent領域:其能力的上限,在于工具生態的豐富度和工程實現的魯棒性。多工具的協同作戰能力和任務的閉環完成度,直接決定了用戶體驗的高度。
四家平臺的測試結果成功出爐了,有人歡喜,有人愁。
阿里云百煉
優勢:結構化數據接入、參數提取和工作流流程控制穩健,底層架構成熟。
需提升:純文本RAG處理結構化數據局限,圖文問答和部分工具調用穩定性有待提高。
騰訊云智能體開發平臺
優勢:端到端流程打通,原生工具鏈完善,在多工具協同、參數提取及流程容錯上表現均衡領先。RAG在知識庫外問題拒答率高,圖文配圖回答率領先。
需提升:RAG多表查詢偶有偏差,工作流意圖識別精細度可優化。
扣子
優勢:輕量化插件系統與靈活工作流節點組合,開發效率高。
需提升:RAG多文檔信息有遺漏,結構化數據問答和API調用穩定性需補強;工作流參數提取和意圖識別有待加強;Agent圖表顯示存在技術瑕疵。
百度智能云千帆
優勢:結構化引擎與跨表聚合能力扎實,自有生態工具整合度高。
需提升:R AG圖文問答存在流程bug,工作流參數提取仍需加強;Agent圖表生成需用戶手動轉化,多工具協同完整性及工具調用穩定性有提升空間。
下面是完整的報告。
一、測試概述(1)測試背景與核心內容
在產業智能化轉型加速的背景下,大模型驅動的智能體(Agent)已形成多場景滲透態勢。智能體因其具備知識增強、流程編排和智能決策等核心能力,正重塑企業級服務的技術生態。
為用戶更好地了解大模型智能體典型場景應用情況,對智能體開發平臺(以下簡稱“平臺”)技術實現路徑與行業適配機制進行研究。
本次測試選取阿里云百煉、騰訊云智能體開發平臺、扣子及百度智能云千帆四個典型智能體開發平臺的個人電腦端,圍繞業務智能化的驅動能力展開測試。
結合智能體的技術演進態勢和行業應用實踐,本報告確立RAG能力、工作流能力、智能體工具調用三個關鍵能力維度進行測試評估。
1.RAG能力測試:RAG能力評估重點考察平臺的知識增強機制,旨在驗證RAG在真實業務場景中的綜合表現,包括知識檢索精度、邏輯推理能力以及用戶體驗的平衡性。
重點評估三個維度:
一是多模態知識處理能力:包括文本、表格、圖文等不同類型載體的處理:
二是任務復雜度適應能力:蓋從單點信息提取到跨文檔關聯推理的不同難度層級;
三是交互機制完備性:包含拒處理、澄清反饋、湖源引用等關鍵功能。
2.工作流(Workflow)能力測試:工作流能力重點考察復雜場景下平臺的流程控制機制,評估多輪對話中的流程穩定性與控制精度。
以智能客服典型業務場景的訂單咨詢、退換貨等能力為研究對象,聚焦參數動態提取、異常回退、意圖識別與容錯處理等關鍵智能性。
3.Agent 能力測試:Agent能力圍繞工具調用智能化水平與復雜任務處理體驗,考察單工具邏輯判斷、多工具協同及提示詞指令執行能力,驗證智能體對內外部工具調用協同的意圖識別、選擇科學性與答案整合效果。
(二)測試方法與數據說明
本節圍繞智能體開發平臺核心能力評估,系統闡述了測試方法與數據情況。
研究通過構建貼合企業級服務典型業務場景的標準化框架,結合多態測試數據集、統一配置的智能體/工作流、綜合性問題集,以及多樣化調用與過程采集方式,實現對平臺核心能力的系統測試與分析;
同時明確了測試涉及的基礎知識數據與響應結果數據的具體構成、來源及特征,為后續研究的科學性與可靠性奠定了方法與數據基礎。
1.測試方法
本次測試基于模擬真實應用場景,構建標準化測試框架實現對大模型驅動的智能體開發平臺核心能力的系統測試、比對、分析。
場景構建方法。場景構建選取企業級服務中的客戶服務、訂單處理、知識問答等典型業務場景,精準還原真實業務流程中的交互邏輯與任務需求,以此保障測試場景與實際業務的高度貼合。
數據集構建方法。數據集構建針對多模態知識處理需求,構建包含政策文檔、業務規范等純文本,訂單數據、客戶信息等結構化表格,產品說明、操作指南等圖文數據的測試數據集,實現對不同知識載體類型與業務領域的全面覆蓋。
智能體/工作流配置方法。智能體/工作流配置依據各智能體的技術架構,在線配置相應的智能體與工作流模塊。推理模型統一設定為DeepSeekRl,問答模型統一設定為 DeepSeekV3,其余參數采用系統默認設置。
僅對影響核心能力評估的關鍵配置進行必要對齊(若部分智能體默認模型無法切換,則保留其默認配置)。
測試問題及設計方法。測試問題集設計以行業真實業務流程和應用場景為依托,圍繞三大核心能力維度,設計包含15個測試項、600+測試問題的綜合性問題集眚煩箏様企個銜匏屁問題均標注對應能力維度與預期輸出,作為評估基準。
調用與過程采集方法。調用與過程采集通過網頁交互與API接口調用兩種方式,模擬用戶操作與系統集成場景,采集各智能體在問題處理過程中的響應結果及流程軌跡,為后續的統計分析提供便利。
2.數據說明
本次測試使用及產生的數據主要包含基礎知識數據、響應結果數據。
基礎知識數據說明。基礎知識涵蓋政府、電商、電力3個行業的業務資料,包括純文本文檔 30份(總字數約10萬字)、結構化表格5張(含15000+條記錄)、圖文內容10組(含產品圖、流程圖等)。數據來源為公開政策文件、行業報告及模擬業務場景生成的標準化資料,確保數據的典型性與可控性。
響應結果坼嗩軒據說明。響應結果包括文本生成內容、知識來源引用、流程參數變忸胄鴎堅諍慰壕氹茂工?瞓殍具調用記錄等,數據記錄涵蓋時間戳、處理狀態、錯誤信息等元數據,為能力分析提供完整軌跡。
(三)免責聲明
測試時效性說明。本測試開展時間為2025年5月20日-2025年6月15日,所有準確率計算方法見附件,所有計算結果限于測試時間內成立。
測試限制性說明。本測試基于特定模型版本與測試場景,實際應用效果可能因業務需求、配置調整及技術迭代產生差異。測試結果不構成任何商業推薦,用戶需結合自身場景進行獨立驗證與選型決策,
測試缺陷性說明。本測試僅針對各平臺用戶終端小樣本體驗,有可能存在數據缺失、技術環境不完全、樣品版本 bug等缺陷限制。
本次測試最終解釋權歸國家工業信息安全發展研究中心賽昇實驗室所有。
一、RAG 能力測試
RAG 定義:英文全稱是Retrieval-AugmentedGeneration,中文全稱是檢索增強生成。
是一種通過數據檢索改進模型內容生成效果的技術方案,它引入來自外掛向量數據庫、知識圖譜或網絡的數據,對原始問題補充增強后輸入給大模型,有效緩解幻覺問題,并提高知識更新速度與生成可追溯性(來源:微軟研究院)。
(一)RAG 測試采用指標
本次測試對RAG 能力的評估從檢索精準度、知識覆蓋廣度等六大核心維度展開。
一是檢索精準度,衡量召回相關文檔的準確率與冗余信息過濾能力;
二是知識覆蓋廣度,評估對領域內知識的覆蓋完整性及邊緣信息的處理能力;
三是推理融合度,考察將檢索結果與問題深度結合、生成邏輯連貫回答的水平;
四是時效性響應關注檢索與生成的整體效率及動態知識更新適配性;
五是多模態適配性,檢驗對文本、表格、圖片等多元數據的處理能力;
六是魯棒性表現,評估面對模糊問題、噪聲數據時的容錯與修正能力。
(二)測試實施
本次測試重點探索RAG在深度行業場景中的落地能力,構建了基于知識載體多樣性、任務復雜度與機制完備性的三維評估體系。選取政策咨詢、電商客服、銷售數據分析等6個典型場景,構建500+個高質量問題集。測試任務具體設計以文本問答、結構化數據問答及圖文問答為主。
1.文本問答任務。在檢驗RAG知識整合與意圖理解方面,綜合設置了包含單文檔查詢、多文檔交叉驗證、邊緣案例等任務形式;在檢驗智能體交互魯棒性方面融入語義模糊問題、知識庫外問題及多輪對話。
2.結構化數據問答任務。為考察RAG結構化數據處理能力,基于訂單數據表與SKU表,設計單表查詢、多表關聯統計等復雜任務。
3.圖文問答任務。為考察RAG的0CR圖片文字識別技術、多模態內容關聯與配圖回答能力,設置圖片內容識別、圖表關聯檢索、多態信息融合等任務。
(三)文本問答任務
實際測試時,設計專精特新政策咨詢以及電商客服規定查詢兩種場景,問題設計聚焦單文檔精確定位、多文檔交叉驗證與綜合、語義模糊意圖理解、知識庫外問題拒答機制等能力維度,旨在全面檢驗RAG系統在純文本領域的檢索、理解、整合與生成能力。
1.文本處理能力表現優異
各平臺在文本問題處理上展現出較強的準確性,純文本問題得分普遍較高:均能實現意圖識別,并在知識庫中定位對應文檔、合理組織反饋。單文檔問題少量丟分,主要源于回答不完整或存在少量“幻覺”信息。
多文檔文本問題表現良好,所有模型回復準確率超 80%,丟分主因是多文檔結合時存在少量信息遺漏,導致回答不夠全面。個別平臺調用結果穩定性不足,如扣子在進行API調用時,有一定比例的內容無法從知識庫獲取,而其網頁端提問可正確回答。
2.拒答與澄清追問處理差異化
在采用同樣拒答配置情況下,騰訊云智能體開發平臺對知識庫中不存在的問題實現 100%拒答,其他平臺則出現不同程度基于模型知識而非知識庫內容的回復。
面對需要澄清和追問的問題,各平臺均傾向于直接提供所有相關信息供用戶參考,其中扣子對于所有問題均未給出追問清,但在多數場景也可以符合用戶需求。
![]()
3.來源引用策略傾向提供全面信息
在默認配置下,四個平臺在來源引用方面都傾向于盡可能提供全面的參考信息。特別是在處理多文檔問題時,雖然這種做法可能導致一定程度的信息余,但能夠通過多源佐證幫助用戶更全面地理解信息背景。
(四)結構化數據問答任務
本次測試圍繞銷售數據分析場景,基于實際訂單表與在售商品SKU表數據,針對單表查詢、單表統計、多表匹配查詢、多表匹配統計4類典型任務展開,考察平臺結構化數據處理能力。
鑒于RAG在復雜數據分析場景的局限性,當前主流平臺均對結構化數據分析場景進行了優化:阿里云百煉、百度智能云千帆與扣子均設置了獨立的結構化數據導入模塊,通過字段類型預定義、格式標準化等機制強化數據規范性。其中,阿里云百煉和扣子進一步設計數據庫插件,支持多表關聯查詢與動態計算。而騰訊云智能體開發平臺則采用后臺自動化處理方案,簡化用戶操作但弱化了過程可控性。
![]()
根據測試數據分析,各平臺表現差異的關鍵因素在于其對處理流程的調優精細程度。
從結果返回看,阿里云百煉仍然是基于文檔切片,在跨表關聯、多條件組合統計時易出現信息遺漏與聚合誤差,凸顯純文本檢索模式對結構化分析場景的適配局限;
騰訊云智能體開發平臺單表查詢表現優異,但在多表查詢時存在SL查詢未能正確執行的情況,導致返回結果出現偏差;扣子在部分場景下存在自然語言到結構化查詢的轉換問題,主要表現為邏輯條件遺漏或語義理解偏差,從而導致返回結果異常;
百度智能云千帆在單表統計、多表關聯等任務中表現穩定,體現了其結構化引擎能較好處理復雜條件篩選與跨表聚合。
通過自然語言交互實現對復雜數據的操作仍是行業共性挑戰。研究表明,各平臺在嵌套條件解析(如“銷售額前五且庫存低于警戒值的商品”)、字段格式容錯(如中英文標點混用)以及多表路徑推導等任務中均存在失誤,反映出語義理解與結構化計算協同的不足。
此類問題暴露出當前技術需進一步優化的方向:一方面需增強自然語言到查詢語句的精準映射能力,建立上下文感知與模糊匹配機制;另一方面需強化字段格式兼容性校驗,通過預處理與后驗證雙環節來保障數據分析的可靠性。
(五)圖文問答任務
圖文問答任務場景設計為風電行業市場與技術資料分析,采用各平臺默認推薦的多模態模型,主要考察圖片提問與配圖回答能力,以及顯式/非顯式調用情況下圖片輸出的準確性與完整性。
1.具備圖片解析與文字識別的底層技術基礎
各平臺均具備成熟的 0CR圖片文字識別技術,能夠有效解析圖片內容并識別用戶提問意圖,但在研究場景下的實際表現存在一定差異:阿里云百煉(91.7%)、騰訊云智能體開發平臺(83.3%)、扣子(83.3%)對圖片提問的識別能力較強,而百度智能云千帆識別率低的原因在于流程bug(3次不同時段測試綜合結果),未能成功調用已上傳的圖片,導致圖片解析鏈路斷裂。
在基于文檔的圖片定位任務中,所有平臺均無法準確檢索儲能逆變器PCS等特定技術圖片的關聯信息,暴露多模態的場景優化深度仍有提升空間。
![]()
2.多模態內容關聯與配圖回答率分化
各平臺配圖回答率呈現梯度差異:騰訊云智能體開發平臺在顯式/非顯式調用場景下以 55%的正確回答率領先,百度智能云千帆存在圖片顯示故障但文檔定位邏輯正確,而阿里云百煉因網頁端圖片顯示異常導致配圖正確率為0%(3次不同時段測試綜合結果)。研究顯示,顯式調用圖片指令可提升輸出比率,表明用戶交互設計對多模態輸出效果存在直接影響。
![]()
3.圖片輸出質量控制機制存在普遍性缺失
各平臺在圖片輸出環節均出現內容校驗失效問題,典型表現為返回與答案無關的頁面裝飾性圖片而非業務場景所需的技術圖表,反映當前平臺缺乏對輸出圖片內容相關性和準確性的有效校驗機制。
![]()
三、工作流能力測試
工作流定義:一類能夠完全自動執行的經營過程,根據一系列預設的過程規則,將文檔、信息或任務在不同的執行者之間進行傳遞與執行(來源:國際工作流管理聯盟(Workflow Management Coalition,WfMC)。其本質是為復雜任務提供標準化、可預測的執行框架,尤其在需要嚴格步驟控制的業務場景中展現不可替代的價值。
(一)工作流測試采用指標
本次測試對工作流能力的評估從參數動態提取、異常回退等四大核心維度展開一是參數動態提取,評估從對話中精準識別訂單號、地址等關鍵信息的能力;二是異常回退,檢驗參數修改或意圖切換時流程回復與狀態恢復的穩定性;三是意圖識別,考察區分咨詢、操作等用戶真實意圖的準確性;四是容錯處理,驗證對模糊表述、混淆信息等異常輸入的包容與修正能力。同時關注端到端流程準確率、參數提取成功率等指標,全面衡量復雜場景下的流程控制精度。
(二)測試實施
工作流能力測試以訂單修改為核心場景,基于包含13條端到端工作流、共計80+個問題的問題集,全面覆蓋參數提取、回退、意圖識別及流程容錯四個關鍵環節。測試通過模擬用戶在多輪對話中的多樣化需求,如一般咨詢、修改配送地址、訂單退貨等,同時故意引入“盡快送達”等模糊表述以及“放棄修改并取消訂單”等意圖切換情況,著重驗證系統在參數動態管理與流程控制方面的穩定性。在測試過程中,詳細記錄了端到端流程準確率、參數提取成功率及意圖識別率等關鍵指標深入分析不同平臺在異常輸入下的容錯能力與恢復能力。
各平臺工作流核心能力表現如下:
![]()
測試數據顯示,各平臺在意圖識別環節均保持較高水平,流程終止節點判斷準確率達100%。
參數提取環節表現分化,阿里云百煉與騰訊云智能體開發平臺提取準確率為 75.0%,高于百度智能云千帆與扣子,差異主要體現在混淆信息中訂單號等關鍵字段的識別效果。
端到端流程準確率方面,阿里云百煉和騰訊云智能體開發平臺準確率接近 70%,扣子和百度智能云千帆略低,這一差異主要源于參數提取節點的影響。
整體來看,各平臺在工作流節點執行層面均能達成基礎功能要求,但在復雜信息處理場景下的技術實現深度與節點細節調優水平存在一定差異。
結合典型錯誤案例進一步分析,在意圖識別方面,除扣子外,其他平臺都會出現“什么情況下,可以退貨?”直接判定為退貨意圖并進入退貨流程,而非輸出退貨相關流程信息,
這體現出部分平臺在意圖識別的精細度上存在不足,未能準確區分咨詢意圖與操作意圖。
在參數提取方面,百度智能云千帆、扣子在面對復雜長段文字中存在混淆信息的情況,無法正確提取多處出現的訂單編號,而是直接輸出提示詞中的示例訂單編號,暴露出僅依賴大模型進行參數提取在復雜場景下的局限性,
![]()
綜合以上數據分析結果,可以發現:
1.工作流具備基礎可用性但仍有提升空間
各平臺工作流已具備基礎可用性,在合理配置下能滿足電商客服等復雜場景的基礎需求。各平臺整體得分差異不大,不過該得分基于基本一致的默認配置得出,若經過精細化調整,其表現仍有提升空間。例如百度智能云千帆和扣子在參數提取環節針對多訂單、地址等信息提取的失分項,可通過整合代碼工具等方式加以改進。
2.不同平臺在工作流配置上呈現多維度差異化設計
各平臺的工作流配置均根據自身產品特性進行了深度優化,通過個性化模塊設計,重點圍繞大模型能力調用、工具集成適配和邏輯流程編排等關鍵維度展開。
一個典型差異體現在對于“任務流”和“對話流”的處理:
阿里云百煉和扣子從工作流創建階段就將對話管理系統與任務執行引警分離,百度智能云千帆和騰訊云智能體開發平臺則采用融合設計。
其中,騰訊云智能體開發平臺通過全局Agent機制實現實時對話交互管理、上下文參數自動提取、流程狀態智能監控,并支持參數回退、對話終止等復雜場景的智能識別和處理,
另外一個典型差異體現在節點封裝方面:騰訊云智能體開發平臺將“參數提取”獨立抽象為單獨節點:阿里云百煉與百度智能云千帆分別提供獨立的MCP(ModelContext Protocol,模型上下文協議)節點組件;扣子則構建了包含9組近40個節點類型的豐富矩陣。
這些差異化設計既影響了用戶配置的操作門檻與使用體驗,也在場景適配性上形成了不同側重,使得各平臺在流程搭建、功能調試、場景落地等操作環節中,展現出各具特色的優勢與局限性。
![]()
總之,當前工作流系統仍定位為輔助決策工具,其運行邏輯無法完全脫離業務人員的專業判斷,否則極易引發流程斷點或業務邏輯處理錯誤。
從配置層面看,工作流的搭建需要操作人員同時具備業務場景理解能力與大模型技術認知能力,這種雙重知識儲備的要求形成了較高的使用門檻。
即便在經過抽象簡化的測試場景中,參數提取偏愀外差、意圖識別誤差等問題仍可能出現,這進一步凸顯了人工千預在復雜業務處理中的不可替代性--無論是流程規則的精細化調校,還是異常場景的柔性處置,均需專業人員結合業務經驗與技術特性進行動態校準。
四、Agent 能力測試
智能體 Agent定義:Agent是由大語言模型動態編排自身工作流并自主調用工具以實現目標的系統。其核心包含三個特征:感知、決策與行動,強調其在運行時的自主性與工具擴展性(來源:Anthropic)。
(一)Agent 測試采用指標
本次測試重點評估智能體 Agent的工具調用能力,從四大維度展開。
一是意圖理解深度,衡量智能體對模糊指令、隱含需求及復雜表述的解析能力,包括多輪對話中的上下文延續性、語義歧義消解精度等:
二是操作協同性,評估用戶與智能體在任務拆解、工具調用等環節的配合流暢度,涉及步驟銜接自然度、用戶干預成本等;
三是反饋有效性,考察智能體輸出結果的可理解性、錯誤提示的明確性及操作引導的實用性:四是機制完備性,檢驗交互過程中的異常處理(如操作回退、功能解釋)等關鍵功能的覆蓋度。
測試通過構建包含日常咨詢、復雜任務處理等典型場景的測試集,模擬不同用戶操作習慣與需求類型,采集交互軌跡與用戶反饋數據,實現對Agent能力的系統測試。
(二)測試實施
當前,智能體技術仍處于發展初期,其功能生態與工具鏈尚未完全成熟。
在此背景下,工具調用能力成為衡量智能體實用性的核心指標之一。本次測試以DeepSeek R1為基礎模型,集成天氣查詢、數據分析、圖表生成等6大類通用工具設計40+筅廼刑個問題集,重點考查以下工具調用維度:
單工具調用:驗證基礎意圖識別與工具匹配準確性。
多工具協同:檢驗任務分解與工具鏈式調用的完整性。
提示詞顯式調用:明確在對話中顯式指定調用工具的執行效果。
測試過程中,通過標準化流程記錄單工具調用完成率、多工具調用完成率及提示詞調用完成率,重點分析智能體在工具選擇合理性、調用完成度方面的表現。
各平臺智能體能力對比如下:
![]()
在統一推理模型支撐下,各平臺智能體均構建了基礎工具調度機制,實現從用戶需求到工具調用的邏輯映射。
例如,面對“規劃5月14日從北京出發到山西的5日假期行程”的指令,所有智能體均能識別“路徑規劃+天氣查詢+聯網搜索”的工具組合需求,展現出標準化的任務分解能力。
基礎推理模型的強邏輯能力保障了工具意圖識別的一致性,各平臺智能體在工具調用效果上的差異主要源于平臺級生態支撐與流程優化水平。其中,騰訊云智能體開發平臺在本項測試中表現突出,工具本身的功能完整性與響應穩定性直接提升了調用成功率。
1.插件/工具生態成熟度與集成深度,生態綁定決定能力邊界。
各家平臺普遍依托自身既有生態進行工具接入與能力編排:百度智能云千帆優先整合百度文庫、百科、地圖等內容與數據資產,強化智能體的信息調取與生成支撐:騰訊云智能體開發平臺通過與騰訊文檔、騰訊地圖等原生工具的深度打通,構建了較為完整的工具鏈結構;扣子以輕量化工具生態見長,支持快速插件開發和嵌入;阿里云百煉則聯動釘釘、高德地圖等業務模塊,嘗試將智能體嵌入辦公、生活等實際場景中。
2.技術穩健性與細節打磨,非核心邏輯短板影響端到端能力和用戶體驗。
各平臺智能體均存在不同程度的工具調用流程斷點問題。如百度智能云千帆盡管能通過代碼解釋器生成圖表繪制代碼,但未將代碼執行結果轉化為可視化圖表并直接輸出,需用戶額外操作,降低了多工具協同的完整性。
![]()
技術實現層面的瑕疵導致調用失敗或結果異常,影響最終輸出質量和用戶體驗如阿里云百煉、百度智能云千帆均出現過三方天氣/地圖工具認證失敗導致調用中斷的情況;扣子在繪制數據圖表時,存在由于字體問題導致中文標簽無法顯示的現象。這些問題雖未影響基礎工具調用邏輯,但對最終結果輸出和用戶體驗造成一定影響。
![]()
總的來看,當前各平臺智能體仍處于通用工具整合的初級階段,在基礎意圖識別與單工具調用上已具備可用性,但在多工具深度協同、行業垂直工具適配及端到端流程閉環上仍有顯著提升空間。各平臺已搭建智能體能力的技術框架,但真正實現“工具即服務”的智能化調度,仍需在生態建設、流程閉環與細節優化上持續投入。研究表明當前發展的瓶頸分為多工具深度協同與自動化閉環能力不足、技術實現穩健性亟待加強以及行業垂直工具適配與生態廣度深度不足三點。
一是多工具深度協同與自動化閉環能力不足。流程斷點(如圖表代碼執行與呈現分離)是普遍存在的短板,阻礙了復雜任務的無縫完成和用戶體驗的提升。
二是技術實現穩健性亟待加強。鑒權失敗、渲染錯誤等技術瑕疵雖不否定核心架構,但對實用性和可靠性構成顯著挑戰,需在工程層面重點投入。
三是行業垂直工具適配與生態廣度深度不足。當前集成工具多為通用型,針對金融、醫療、工業等垂直領域的專業工具適配深度和覆蓋廣度遠遠不夠,限制了智能體在專業場景的落地價值。
各平臺智能體已成功搭建底層技術框架,證明了其可行性。然而,從“能調用工具”到真正實現“工具即服務”的智能化、自動化、高可靠的服務調度與交付,仍需在生態建設、流程閉環、技術穩健性以及垂直場景深耕上持續投入與突破。當前正處于智能體實用化能力構建的關鍵爬坡期,解決上述瓶頸是邁向下一階段成熟應用的必經之路。
五、總結與展望
從三大核心維度測試結果可見,當前智能體開發平臺能力呈現“基礎能力趨同產品路徑分化”的競爭格局。各平臺在文本處理、流程控制等基礎場景已形成標準化能力,但在復雜場景處理、多模態協同及工具生態建設上表現出一定差異。
各平臺差異性主要體現在技術路徑選擇與工程實現深度上。阿里云百煉在結構化數據接入、參數提取穩定性及工作流流程控制等方面表現穩健,體現了其底層架構設計的成熟性與系統響應的魯棒性.
百度智能云千帆在數據庫集成等細分能力上展現出一定優勢;
扣子則以輕量化插件系統和靈活工作流節點組合,提升了開發效率與定制適配能力;
騰訊云智能體開發平臺則憑借端到端的流程打通能力和完善的原生工具鏈支持,在多工具協同調用、參數自動提取與流程容錯處理等多個維度均實現較為均衡的表現。
![]()
智能體開發平臺間競爭力的實質已逐步由單點能力比拼轉向體系能力構建。未來的發展將取決于三個關鍵路徑的持續演進。
首先,場景深度適配是實現價值落地的前提。僅具備技術能力遠不足以支撐復雜場景的業務化部署,智能體必須進一步提升模型與真實任務需求之間的耦合精度圍繞特定行業、細分任務構建標準化知識單元與任務模板,成為“從能用到好用”的關鍵一環。
其次,技術鏈厚度構建決定智能體的系統執行能力。大模型能力的釋放必須依賴穩定的調用機制與閉環的流程體系。當前部分平臺在節點設計、狀態控制與工具響應穩定性方面仍存在中斷或冗余路徑,需通過組件顆粒度優化與自動化控制鏈路增強系統韌性。
最后,生態廣度拓展將成為智能體可持續發展的關鍵變量。智能體能力的邊界不止于自身,而取決于其與外部MCP合作體系及開發者社群的連接能力。隨著開發者需求走向定制化與多行業融合,平臺必須進一步釋放底層能力接口,推動第三方工具插件接入標準化,并建設完備的開放工具市場,打造“平臺+生態”的雙輪驅動能力體系。
總的來看,智能體開發平臺正處于能力體系構建的關鍵爬坡期。當前競爭尚未形成不可逾越的技術壁壘,未來能否構建穩定、可用、可擴展的智能體服務體系,將決定平臺在產業智能化轉型進程中的角色位次。以場景適配為牽引,以技術鏈完善為支撐,以生態擴展為保障,唯有實現從“任務完成”向“任務統籌”再到“服務自治”的跨越,方能真正走出實驗性應用,邁入生產級交付。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.