![]()
數據智能時代的到來讓我們對人工智能的期望越來越高,尤其是在數據處理和分析方面。然而,中科院自動化所與字節跳動Seed團隊、抖音等機構的研究人員最近發布的一項重要研究卻給我們潑了一盆冷水。這項名為"DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle"的研究于2024年12月5日發表在arXiv平臺上,論文編號為arXiv:2512.04324v1。研究團隊包括來自中科院自動化所的雷方語、孟錦祥等,字節跳動Seed的鄒鑫、楊瑞怡等,以及加州大學圣迭戈分校、新加坡國立大學等機構的研究人員。感興趣的讀者可以通過該論文編號在arXiv平臺查閱完整論文內容。
研究團隊發現,即便是目前最先進的AI模型,在處理企業級數據工程和分析任務時的表現也遠不如我們預期的那樣出色。這個發現對于那些正在考慮用AI來替代數據分析師和數據工程師工作的企業來說,可能需要重新思考自己的計劃了。
一、為什么現有的AI測試都不夠真實
當前大多數測試AI數據能力的基準測試就像是在考駕照時只測試倒車入庫,卻從來不測試在真實道路上的駕駛能力一樣。現有的測試通常只關注單一的代碼生成能力,比如讓AI寫一個SQL查詢語句,或者完成一個簡單的數據分析腳本。這就好比只測試廚師能不能切菜,卻不測試能不能做出一道完整的菜。
研究團隊指出,真實的企業數據工作其實包含兩個截然不同但又緊密相關的部分。第一個部分叫做數據工程,就像是建造一座房子的地基和框架結構。數據工程師需要把散亂的原始數據(比如各種銷售記錄、用戶行為日志等)整理成整齊有序的數據表,就像把雜亂無章的建筑材料按照圖紙組裝成可以居住的房屋一樣。這個過程不僅僅是寫幾行代碼那么簡單,而是需要設計整個數據處理的流水線,確保各個環節能夠協調配合,并且在需求變化時能夠靈活調整。
第二個部分叫做數據分析,更像是房子建好后的室內設計和裝修。數據分析師拿到整理好的數據后,需要深入挖掘其中的商業洞察,就像室內設計師要根據住戶的需求和喜好來設計出既美觀又實用的居住空間。這個過程充滿了開放性和創造性,沒有標準答案,需要分析師根據具體的商業問題提出假設,設計分析方案,解讀結果,并最終給出可行的建議。
然而,目前絕大多數測試AI數據能力的基準都只關注其中某個小片段。有些測試只看AI能不能寫出正確的SQL語句,有些只看能不能做簡單的統計分析,卻很少有測試能夠全面評估AI在整個數據智能生命周期中的表現。這就像只測試一個人能不能擰螺絲,卻不測試能不能組裝一臺復雜機器一樣。
二、DAComp:一個更加真實的AI能力測試場
為了解決這個問題,研究團隊開發了DAComp這個全新的測試基準。如果把現有的AI測試比作駕校的科目一理論考試,那么DAComp就更像是真實的道路駕駛考試,不僅要測試基礎技能,更要測試在復雜真實環境中的綜合應用能力。
DAComp包含了210個精心設計的任務,完整覆蓋了企業級數據智能工作的全流程。這些任務不是簡單的代碼片段生成,而是需要AI完成真正的端到端數據項目。比如在數據工程部分,AI不是只需要寫一兩個SQL查詢,而是要從零開始構建包含幾十個相互關聯文件、總共數千行代碼的完整數據管道系統。這就像是要求建筑師不僅要會畫設計圖,還要能夠協調各個工種,確保整棟樓房按照設計順利建成。
在數據工程測試中,研究團隊設計了三種不同類型的挑戰。首先是架構設計任務,就像是給AI一個模糊的需求描述,比如"我們想要分析銷售團隊的表現",然后看AI能不能設計出完整的技術方案和數據模型規劃。接著是實施任務,給AI一份詳細的技術規格書,看它能不能從零開始構建出完整的數據處理系統。最后是演進任務,給AI一個已經存在的數據系統,然后提出新的需求變更,看它能不能在不破壞現有功能的前提下,安全地更新和擴展系統。
這些任務的復雜程度遠超我們的想象。一個典型的實施任務平均需要處理包含400多個字段的數據表,生成超過2000行代碼,涉及30多個不同的文件,并且這些文件之間還存在復雜的依賴關系。這就像是要求AI不僅要會做菜,還要能夠管理一個大型餐廳的整個后廚運作,協調各個崗位,確保每道菜都能按時保質地送到客人面前。
在數據分析方面,DAComp的設計更加開放和靈活,更接近真實的商業分析場景。傳統的測試通常會給AI一個問題,然后看它能不能得出標準答案。但DAComp中的數據分析任務更像是真實的商業咨詢項目,沒有標準答案,需要AI自己制定分析策略,選擇合適的方法,解讀復雜的結果,并最終形成有實際價值的商業建議。
比如一個典型的分析任務可能是:"分析我們公司在不同地區和不同市場細分中的業務表現差異,找出表現最好的組合,并提出擴張建議。"這個任務看似簡單,但實際上需要AI進行戰略性思考、制定多步驟分析計劃、處理復雜的數據關系、解讀中間結果的含義,并最終綜合出可操作的建議。這就像是要求AI不僅要會計算,還要能夠像資深商業顧問一樣進行戰略思考和決策建議。
三、如何公平準確地評估AI的表現
評估AI在這些復雜任務上的表現是一個巨大的挑戰。對于數據工程任務,研究團隊采用了程序執行的方式來評估,就像是檢驗建筑質量一樣,不僅要看圖紙畫得對不對,更要看實際建出來的房子能不能正常使用。
研究團隊設計了三個層次的評估標準。第一個層次叫做組件得分,就像是檢查房子的每個房間是否都按照設計要求建造完成。第二個層次叫做級聯失敗得分,更加嚴格,就像是檢查整個房子的水電系統是否能夠正常運作,如果上游的水管有問題,下游的所有設施都會受到影響。第三個層次叫做成功率,是最嚴格的標準,要求整個項目必須100%完美才算通過,就像是要求房子的每個細節都必須完美無缺。
對于數據分析任務的評估則更加復雜,因為這些任務本身就沒有標準答案。研究團隊開發了一套創新的分層評分體系,就像是評判藝術作品或者創意作品一樣。他們不是簡單地看AI給出的答案對不對,而是從多個維度來評估AI分析的質量。
這套評分體系包含六個維度。完整性維度檢查AI是否全面回答了問題的所有方面,就像檢查一份報告是否涵蓋了所有要求的內容。準確性維度驗證AI的計算和事實陳述是否正確,就像檢查報告中的數據和引用是否準確。洞察性維度評估AI是否能夠從數據中發現有價值的商業洞察,而不是僅僅羅列數字。可讀性維度評估AI的輸出是否清晰易懂,是否能夠讓商業決策者輕松理解。分析深度維度考察AI是否使用了合適的分析方法,是否進行了深入的探索。可視化維度則評估AI是否能夠創建有效的圖表來支持其分析結論。
為了確保評估的公平性和一致性,研究團隊還引入了AI評委的概念。他們使用先進的大語言模型作為評委,按照精心設計的評分標準對AI的輸出進行評估。這就像是在藝術比賽中使用專業評委一樣,雖然不能做到絕對客觀,但可以確保評估的專業性和一致性。研究團隊還通過大量的驗證實驗確認了這種AI評委方法的可靠性,發現它與人類專家的評判結果高度一致。
四、令人意外的測試結果
當研究團隊使用DAComp對目前最先進的AI模型進行測試時,結果令人驚訝。即便是被認為最強大的AI模型,在面對這些真實的企業級任務時也表現得相當吃力,遠沒有我們想象中那么能干。
在數據工程任務上,即便是表現最好的GPT-5模型,其綜合得分也僅有43%左右,嚴格成功率更是只有20%。這意味著在10個真實的數據工程項目中,AI只能完美完成2個,其余8個都會存在各種問題。這就像是一個剛畢業的工程師,雖然基礎知識不錯,但在處理復雜實際項目時還是會力不從心。
更有趣的是,研究團隊發現AI在組件級別的表現往往還不錯,比如單獨寫一個SQL查詢語句時準確率可能達到60-70%,但一旦需要協調多個組件形成完整系統時,性能就會急劇下降。這種現象被研究團隊稱為"管道編排瓶頸",就像是一個樂隊中每個樂手單獨演奏都很不錯,但一起合奏時就亂套了。
在數據分析任務上,AI的表現同樣不盡如人意。即便是最強的模型,綜合得分也很少超過50%,這意味著AI生成的分析報告中有一半以上的內容存在問題。研究團隊發現,AI在執行計算方面表現相對較好,就像是一個很好的計算器,但在戰略性思考、洞察發現和結果解讀方面明顯不足。
特別值得注意的是,研究團隊發現了一種有趣的現象,他們稱之為"計算器行為"。一些在推理能力方面表現出色的AI模型,比如專門為數學和邏輯推理優化的模型,雖然能夠準確計算出各種數字和統計結果,但在將這些數字轉化為有意義的商業洞察方面卻表現糟糕。這就像是一個數學天才,雖然能夠快速準確地完成各種復雜計算,但不知道如何將計算結果應用到實際的商業決策中。
五、AI到底卡在了哪些環節
通過深入分析AI的失敗案例,研究團隊發現了幾個關鍵的瓶頸點。在數據工程方面,最大的問題是依賴關系管理。現代的數據系統就像是一個復雜的工廠流水線,每個環節都依賴于前面環節的輸出,而AI經常搞錯這些依賴關系。比如它可能會讓步驟B依賴于步驟C的結果,而步驟C又需要步驟B的輸出,形成循環依賴,導致整個系統無法運行。
另一個主要問題是SQL遺漏。隨著數據處理層次的提高,從基礎的數據清理到高級的業務邏輯實現,AI遺漏必要代碼的概率顯著增加。在基礎層面,AI可能只會遺漏10%的必要代碼,但在高級業務邏輯層面,這個比例可能上升到40%以上。這就像是建房子時,地基打得還不錯,但到了裝修階段就開始丟三落四。
在數據分析方面,AI的主要問題集中在三個階段。首先是規劃階段,AI經常不能全面理解業務需求,導致分析方向偏離實際需要。這就像是醫生沒有全面了解病人癥狀就開始治療一樣。其次是執行階段,雖然AI的計算能力不錯,但經常在復雜的多步驟分析中出錯,特別是在需要綜合考慮多個因素時。最后是解讀階段,這是AI表現最差的環節,它往往不能將分析結果轉化為有意義的商業洞察和可操作的建議。
研究團隊還發現了一個有趣的現象,叫做"中等規模編輯困境"。在修改現有代碼時,AI處理小幅修改(比如修改幾行代碼)和大幅修改(比如重寫整個模塊)的效果都還不錯,但對于中等規模的修改(比如修改幾十行代碼)表現最差。這是因為小修改通常比較直觀,大修改往往涉及重復性的模板代碼,而中等規模的修改往往涉及最復雜的業務邏輯變更,需要深入理解代碼的語義和業務含義。
六、不同類型分析任務的難度差異
研究團隊還深入分析了不同類型數據分析任務的難度差異,發現了一個清晰的難度梯度。他們將數據分析任務分為五個類型,按照難度從低到高排列。
描述性分析是最容易的,就像是回答"發生了什么"這樣的問題。比如計算各個地區的銷售額,或者統計不同產品類別的市場占有率。AI在這類任務上表現相對較好,因為主要涉及基礎的數據匯總和計算。
診斷性分析難度明顯增加,需要回答"為什么會發生"這樣的問題。比如分析某個地區銷售下滑的原因,或者探索客戶流失的關鍵因素。這類任務需要AI進行更深入的數據挖掘和因果關系推理。
戰略性分析是最困難的,需要回答"我們應該怎么做"這樣的問題。比如制定市場擴張策略,或者優化產品組合。這類任務不僅需要準確的數據分析,更需要商業判斷和戰略思維。
模式識別任務介于中等難度,主要是發現數據中隱藏的規律和關聯。比如識別客戶行為模式,或者發現產品銷售的季節性規律。
客戶分群任務也屬于中等難度,主要是根據不同特征對客戶或產品進行分類。比如根據購買行為對客戶進行細分,或者根據性能特征對產品進行分組。
研究結果顯示,AI在描述性分析上的表現明顯優于其他類型,而在診斷性和戰略性分析上的表現相對較差。這個發現很有啟發性,說明目前的AI更像是一個高效的數據計算器,而不是真正的數據分析師或商業顧問。
七、中英文能力對比
研究團隊還專門測試了AI在處理中文數據分析任務時的表現,發現了一些有趣的現象。他們專門創建了DAComp的中文版本(DAComp-zh),包含了同樣復雜度的中文數據分析任務。
總體而言,AI在中文任務上的表現與英文任務相當,沒有顯著差異。這說明語言本身不是主要瓶頸,AI面臨的核心挑戰是分析思維和業務理解能力,而不是語言理解能力。然而,研究團隊也發現,在一些需要深入文化背景理解的任務中,AI的表現會有所下降。比如在分析中國特有的商業模式或消費習慣時,AI經常不能準確把握其中的微妙之處。
這個發現對于中國企業考慮使用AI進行數據分析具有重要意義。雖然語言不是障礙,但AI對于本土商業環境和文化背景的理解仍然有限,在制定本土化策略時需要人類專家的參與和指導。
八、技術評估方法的創新
DAComp的一個重要貢獻是開發了一套全新的AI評估方法,特別是對于開放性任務的評估。傳統的AI測試通常只有標準答案,就像選擇題一樣,答對了就是100分,答錯了就是0分。但現實中的數據分析任務往往沒有標準答案,更像是作文或者藝術創作,需要更加細致和專業的評估方法。
研究團隊開發的分層評分體系就像是高考作文的評分標準,不僅看結果,更看過程和質量。他們為每個分析任務設計了詳細的評分細則,明確規定了什么樣的分析方法是可接受的,什么樣的結論是有價值的,什么樣的表達是清晰的。
更重要的是,他們解決了一個長期困擾AI評估的問題:如何公平評估那些沒有預先設想到的解決方案。在傳統測試中,如果AI使用了一種全新的分析方法,評估系統往往不知道如何打分。DAComp通過引入方法論評估的概念,即使AI使用了完全不同的分析路徑,只要方法科學合理,執行正確,結論有價值,就能獲得相應的分數。
為了驗證這套評估方法的可靠性,研究團隊進行了大規模的人機對比實驗。他們讓人類專家和AI評委同時對數千個分析報告進行評分,發現兩者的一致性非常高,相關系數超過0.8。這說明AI評委確實能夠像人類專家一樣進行專業評估,而且更加一致和高效。
九、對企業數字化轉型的啟示
DAComp的研究結果對于正在進行數字化轉型的企業具有重要啟示。首先,它提醒我們不要過度高估AI的當前能力。雖然AI在某些特定任務上表現出色,但在復雜的端到端業務流程中仍然需要大量人工干預和監督。
其次,研究結果顯示,AI更適合作為人類專家的助手,而不是替代者。在數據工程方面,AI可以幫助快速生成代碼框架和處理標準化任務,但復雜的系統架構設計和業務邏輯實現仍然需要經驗豐富的工程師。在數據分析方面,AI可以快速完成基礎的數據計算和圖表生成,但深入的業務洞察和戰略建議仍然需要資深分析師的參與。
研究團隊特別強調,企業在部署AI數據工具時需要建立完善的質量控制機制。由于AI容易在復雜任務中出現各種錯誤,特別是在依賴關系管理和結果解讀方面,企業需要設置多層檢查點,確保AI生成的代碼能夠正常運行,分析結論能夠指導實際決策。
另外,研究結果也提示企業需要重新思考人才培養策略。未來的數據工程師和數據分析師需要更多地承擔系統架構師和業務顧問的角色,專注于那些需要創造性思維和戰略判斷的高價值工作,而將標準化的代碼實現和基礎計算交給AI來處理。
十、未來研究方向和改進空間
雖然當前AI在企業級數據任務上的表現不夠理想,但研究團隊也指出了幾個有希望的改進方向。首先是增強AI的系統性思維能力。目前的AI模型在處理單個任務時表現不錯,但在協調多個任務形成完整系統時就會出現問題。未來的研究可能需要專門訓練AI的項目管理和系統集成能力。
其次是提高AI的商業理解能力。目前的AI更像是一個技術專家,對代碼和算法很熟悉,但對商業邏輯和業務流程的理解有限。未來可能需要專門的商業AI訓練,讓AI更好地理解不同行業的特點和需求。
研究團隊還提出了一個有趣的想法,就是開發專門的數據智能AI,而不是使用通用的大語言模型。這些專門的AI可能會在數據處理和分析方面表現更好,就像專業工具通常比萬能工具更高效一樣。
另一個重要的研究方向是人機協作模式的優化。既然AI和人類各有優勢,如何設計最佳的協作流程,讓AI負責它擅長的部分,人類負責需要創造性和判斷力的部分,將是一個重要的研究課題。
研究團隊也計劃繼續擴展DAComp基準,增加更多類型的任務和更多的評估維度。他們特別希望能夠加入實時數據處理、多模態數據分析、以及更加復雜的商業場景模擬,以便更全面地評估AI的數據智能能力。
說到底,DAComp的研究揭示了一個重要事實:AI的發展雖然迅速,但在復雜的企業級應用中仍然有很大的改進空間。這并不意味著AI無用,而是提醒我們需要更加理性地看待AI的能力邊界,在充分發揮AI優勢的同時,也要認識到人類專業知識的不可替代價值。對于企業來說,關鍵不是盲目追求AI自動化,而是找到人機協作的最佳平衡點,讓技術真正服務于商業目標。這項研究為我們提供了寶貴的參考基準,幫助我們更準確地評估和部署AI數據工具,推動數字化轉型的健康發展。
Q&A
Q1:DAComp測試發現AI在數據工程上表現如何?
A:即使是最強的GPT-5模型在數據工程任務上綜合得分也只有43%,嚴格成功率僅20%。這意味著在10個真實項目中,AI只能完美完成2個,其余都存在問題。主要瓶頸在于無法有效協調多個組件形成完整系統。
Q2:為什么AI在數據分析上也表現不佳?
A:AI在數據分析上最高得分也很少超過50%。主要問題是AI更像"計算器",雖然計算準確但缺乏戰略思維。它在執行計算方面還不錯,但在規劃分析策略、發現商業洞察和提出可操作建議方面明顯不足。
Q3:DAComp與其他AI測試有什么不同?
A:DAComp是首個測試完整數據智能生命周期的基準。不同于只測試單個代碼片段的傳統測試,DAComp包含210個企業級任務,涉及數千行代碼的完整系統構建,更接近真實工作場景。它同時評估數據工程的系統構建能力和數據分析的開放性推理能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.