![]()
“中國的Data+AI平臺,不僅僅是復制Databricks那么簡單。
過去兩年,關于AI的敘事有一個明顯的轉折點。
一開始,所有人都在看參數量、模型榜單和Demo效果——誰的模型更大、更“聰明”,就能多占據幾天話題中心。很快,行業發現:真正決定AI能走多遠的,除了模型有多好,還包括“業務到底敢不敢、能不能用起來”。
從“大模型卷參數”,到“智能體上崗”,AI產業進入了第二階段。這個階段的主角,不再只是模型公司,還包括那些能夠把數據、算力、模型、應用串成閉環的平臺型玩家。
在全球市場上,Databricks是這類玩家的典型代表,這也是支撐其上千億美元估值的基礎。
在中國,也有一家走上類似路徑的公司——袋鼠云。這家公司最早以“數據中臺”起家,如今正把自己重構成一個“多模態數據智能中臺+AI應用開發平臺”的提供者。
如果我們把Databricks看作“美國式Data+AI平臺”的代表,那么袋鼠云顯然正在探索一種“中國式的同類物”。
現在,問題就變成:
·為什么Databricks能被視為AI時代的“數據基礎設施標桿”?
·袋鼠云又憑什么被拿來和Databricks放在同一個坐標系里討論?
·在Data+AI這條路上,它們到底是“對標者”,還是在不同土壤中生長出的“同路人”?
要回答這些問題,需要先把時間撥回各自的起點。
類似的成長經歷
指向共同的方向
Databricks和袋鼠云的成長軌跡中,第一個共同點,是都從“數據工程效率”這個問題出發。
Databricks成立于2013年,創始團隊來自加州大學伯克利的AMPLab,也是 Apache Spark的核心研發者。它最早要解決的問題,其實非常樸素:在 Hadoop之后,能不能有一套更快、更靈活,同時又更適合開發者使用的大數據處理引擎?Spark因此誕生,也因為Databricks的推動,逐漸從實驗室走向大規模商用。
袋鼠云的起點,則扎根在中國企業數字化的現場。公司成立于2015年,從一開始就圍繞“企業數據中臺”來做產品和項目。一端對接的是復雜的業務系統和歷史IT遺留,一端是各地不斷冒出的新型數據需求,袋鼠云要做的,是用一套“數棧”平臺,把分散的存算資源和數據資產統起來,再疊加可用的數據開發與治理能力。
一個站在開源社區和云生態的中心,一個泡在政企、金融、能源等行業里。它們的起點不同,但共通之處很明顯:都在試圖解決“數據底座不好用”這件事,都在著力提升數據開發效率。
從這個意義上說,它們做的其實是同一種生意:先把“數據的地板”鋪平,再談上面的AI與應用。
第二個共同點,發生在它們的發展“拐點”階段——當純粹的大數據平臺,開始感知到AI時代的到來。
這兩家公司都不滿足于止步于“數據層”。Databricks往上走,做了Unity Catalog、MLflow和后來一系列Mosaic AI能力,目標是把數據、特征、模型和Agent統一在一套平臺里。
袋鼠云則往上疊AIMetrics智能指標平臺、AIWorks智能體開發應用平臺等產品,從多模態數據的開發治理、數據資產、指標體系構建到AI應用編排,形成一整套從數據到智能的縱向棧。
![]()
袋鼠云Data+AI產品體系
如果用一句話概括,它們都在完成同一件事:從“給工程師用的數據平臺”,變成“給業務用的Data+AI平臺”。
第三個共同點,在于它們今天想扮演的角色——不限于做某個環節的工具,而是企業內部“智能生產力系統”的中樞。
袋鼠云VSDatabricks
有幾分“神似”?
當我們把Databricks和袋鼠云放進一個對照表里,會發現兩者在產品結構上的“相似點”,比我們想象的多。
![]()
核心平臺——工具組合背后的平臺野心
Databricks的核心組件,被拆開來看是一串熟悉的名字:Delta Lake管存儲與事務,Unity Catalog管元數據與權限,MLflow管模型全生命周期,Notebook是開發與協作的工作空間。這些組件一個個看并不新鮮,但組合之后,就變成了一個高度一體化的平臺。
袋鼠云今天的產品體系,也走向了類似的組合方式:底層是數棧DataZen(多模態數據智能中臺),負責結構化與非結構化、多模態數據的采集、開發、治理與統一管理,其中也包含用于資產管理與治理的DataAssets能力模塊。在這一底座之上,是構建指標體系與智能分析鏈路的AIMetrics,將多模態數據加工為可描述業務的指標體系,并支持問數、歸因、預測等能力;以及企業級AIWorks 智能體應用開發平臺,承接模型、知識庫、指標體系與上下游業務流程,通過應用編排與工作流,將數據資產、指標體系與模型能力組合成可落地的AI應用。
整體來看,袋鼠云的技術棧邏輯從“多模態數據中臺→數據資產治理→指標體系構建→AI應用編排”逐層向上推進,形成數據與智能深度融合的縱向技術閉環。
本質上,兩家公司都在做同樣的事情:用一套可持續演進的平臺,把零散的工具和能力“熔”成一個體系。
數據底座——一個偏“云原生”,一個更適配中國環境
Databricks的數據底座是Spark+Delta Lake。它站在公有云的中心,假設環境相對統一:主流芯片和操作系統相對標準,客戶更關心的是性能、彈性與協作效率。
袋鼠云的EasyMR,則是在中國復雜的基礎設施現實中長出來的:既要承接 Hadoop/Hive等老系統的數據和作業,又要兼容Spark/Flink等新型引擎;既要在公有云跑,也要在信創環境里跑,適配鯤鵬、麒麟、統信UOS等軟硬件組合。私有化部署能力,讓其具備更嚴格的數據安全保障。湖倉一體對它來說,不只是技術架構的選擇,更是工程落地的剛需。
從技術觀感上看,一個更“云原生”,一個某種意義上更適配中國產業環境的落地要求。
但在更高的抽象層面,它們做的是同一件事——為AI和數據工作負載提供一個統一、穩定、可擴展的運行底座。
治理與資產化——從“能用”到“好用、可管、可追溯”
隨著模型與應用在企業里擴散,數據治理不再是一個“合規部門的問題”,而是平臺的基礎功能。
Databricks用Unity Catalog做統一的目錄與權限管理,把誰能看什么數據、數據從哪來、被哪些作業引用、在什么環境中被調用,都納入到一個中樞里管理。這讓企業在大規模使用數據和模型時,至少知道“自己在用什么”。
袋鼠云的DataAssets,則在此基礎上加入了更多“資產化”的思考:除了元數據、血緣、權限之外,它還強調數據與指標的統一管理,將不同系統、不同應用、不同部門的口徑拉回到同一套目錄下,再疊加質量評估與資產評估機制,以適應中國企業對“統一口徑”“審計可追溯”“資產入表”等更具體的治理訴求。
可以說,Unity Catalog更偏“技術治理中樞”,DataAssets更像是“業務視角下的數據資產經營平臺”。這背后體現的是兩種制度環境、兩種企業文化下對“治理”的不同理解。
智能體與應用開發——Agent是起點,不是終點
Agent已經成了過去一年最熱的關鍵詞之一。
Databricks通過Mosaic AI提供Agent Framework與RAG工具鏈,幫助客戶利用企業內部數據構建對話式、任務型智能體應用,從而把大模型能力“裝進”業務流程。
袋鼠云則在AIWorks中,提供了模型管理、知識庫構建、應用編排、MCP服務等能力。對于很多已經有數據中臺、指標平臺的客戶來說,AIWorks更像是在原有基礎上加的一層“智能力場”:可以直接調數據資產與指標體系,去組裝一個個針對具體業務場景的AI應用。
兩者的思路都很清晰:Agent不只是一個新的“產品形態”,而是“數據+模型+業務”的編排方式。真正重要的,是誰能提供那套“把東西串起來的工具”。
多模態與行業方案——誰離業務更近
在多模態能力上,Databricks更偏向“平臺集成”:通過與第三方工具、模型與服務對接,來支持非結構化數據的處理與分析。它的優勢在于開放度高、生態豐富。
袋鼠云則在DataZen中把多模態視為“內建能力”:同一平臺里既有結構化數據的采集與開發,也有文本、圖片、視頻等非結構化數據的處理,加上指標、API、AI應用開發的能力,形成一整套“多模態數據中臺+應用工廠”。這套組合,與它在能源礦產、新銳零售、先進制造等行業的實踐緊密綁定。
在行業方案上,這種差異更明顯:Databricks提供的是偏通用的平臺能力,由生態伙伴和客戶自行完成最后一公里;袋鼠云則采用“平臺+交付”的模式,在央國企、能源礦產、新銳零售、先進制造、金融等領域深度參與項目,直接對業務結果負責。
信創與出海——兩個極端下的同一命題
Databricks不需要考慮國產替代問題,它更關注的是如何在AWS、Azure、GCP上跑得更快、覆蓋更多客戶、連接更多ISV/SI伙伴。
袋鼠云則恰恰相反:它必須首先適應中國復雜的信創環境,確保在本地芯片、本地操作系統、本地數據庫上穩定運行,并在此基礎上,再去探索在AWS等海外云上的部署實踐,與Snowflake、BigQuery等海外云數倉進行數據協同。
如果說Databricks面對的是“如何更好地融入全球云生態”,那袋鼠云面前的問題,則是“如何在滿足本地合規與信創要求的前提下,仍然保持技術演進速度”。兩者都在解的是“生態嵌入”這道題,只是解法不同。
兩個故事,一個方向
從表面看,Databricks和袋鼠云有足夠多的相似之處:都誕生于大數據時代的“基礎設施建設潮”,都經歷了從數據平臺向Data+AI平臺的轉型,都在構建覆蓋數據、模型、應用的縱向一體化架構。
但真正重要的,是要真正看清楚這兩家公司,看清整個市場,我們需要理解幾件事情:
第一點,是市場本身在發生結構性變化。
在早期,大模型廠商主打的是MaaS(模型即服務,Model-as-a-Service):企業可以按調用量買模型,用它來做生成、問答、摘要等。但實踐證明,模型能力可以通過API復用,真正稀缺的,是“數據+治理+智能+交互”一體化的平臺能力——也就是我們可以稱之為DIaaS(數據智能即服務,Data Intelligence-as-a-Service)。
企業更關注的是:能不能把內部雜亂的數據真正治理好、連起來;能不能在統一的平臺上,讓業務能提問、模型能理解、系統能執行;能不能讓數據從靜態資產,變成在指標、AI應用、決策鏈之間流動的“智能資產”。
Databricks與袋鼠云所做的事情,本質上都是在填補這一空白。
第二點,是它們所代表的“新范式”——數據治理為本,AI為用。
Databricks正在構建的是一種“美國式企業AI協作平臺”:假設企業已經有成熟的云基礎設施,有一定規模的數據團隊與工程團隊,平臺的任務是把這些人和資源高效組織在一起,降低從數據到智能應用的摩擦。
袋鼠云則構建的是一種“國產可控+行業融合+AI應用”的中國式范式:它必須同時面對信創要求、行業復雜性、本地服務與交付壓力,在這樣的環境下,平臺不僅要“好用”,更要“可控、可監管、可落地”。
共同之處在于,兩者都在強調:數據治理是前提,AI是其上的“使用層”;平臺是結構,行業是落點。
第三點,是未來的增長空間。
大模型已經證明了泛化能力,但在企業側的真正落地,往往卡在“數據接不進去,結果用不出來”。于是,越來越多的企業開始意識到:真正的壁壘不僅僅在于“有沒有模型”,還在于“有沒有一條打通從數據資產到AI應用的管道”。
這條管道,如果被某一類平臺穩定掌握,它們就會變成AI時代的“水電公司”:
·一端接企業的數據資產與業務系統;
·一端接模型、算力與新一代AI技術;
·中間則是源源不斷流動的數據流、特征流、模型流和決策流。
Databricks和袋鼠云,正在不同的區域、不同的制度與技術環境中,嘗試扮演這樣的角色。
從這個意義上說,兩家公司都是在同一條技術演化曲線上、不同坐標點上的“同行者”。
寫在最后——不只是簡單平替,更是時代的共鳴
在很多傳播語境中,把袋鼠云稱作“中國版Databricks”是一個高效的類比——它能迅速幫人建立坐標感。但如果只看到這個類比,就會忽略掉一個更重要的事實:中國的技術土壤與產業結構,決定了不可能有一個“一模一樣的 Databricks”。
真正有價值的,不是去尋找誰復制了誰,而是去觀察:在同一個“Data+AI”時代命題下,不同地區、不同制度、不同客戶需求,如何塑造出各自的基礎設施玩家。
Databricks提供的是一個答案,袋鼠云則在給出另一個。
如果說大模型是這場浪潮最耀眼的“前臺演員”,那么像Databricks和袋鼠云這樣的平臺公司,更多時候是在燈光之外——他們鋪設地板、搭起舞臺,把一個個模型、算法和應用,嵌入真正復雜的現實世界。
而這場關于“數據智能基礎設施”的遠征,現在才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.