![]()
在過去幾年中,數據基礎設施的演進始終圍繞一個核心問題展開:如何更快地分析數據?
但進入 2026 年,這個問題正在被重新定義。隨著 AI 應用的爆發式增長,數據系統不再只是分析工具,而逐漸成為 智能系統的一部分。數據不再只是被查詢,而是被 Agent 調用、被模型理解、被系統實時消費。
在這樣的背景下,Apache Doris 社區提出了 2026 年的年度主題:
Scale Intelligence, Accelerate Insight
如果說過去 Doris 關注的是更快的數據分析,那么在 2026 年,我們要回答的問題是:
當AI成為主流負載之后,數據庫應該演進成什么樣子?
01
2025:變化的起點
回看 2025 年,Apache Doris 的演進路徑其實已經顯露出這一變化的方向。
過去一年,社區發布了兩個重要版本——3.1 與 4.0,分別在數據分析能力與檢索能力上實現了關鍵突破。
在 3.1 版本中,進一步夯實了 Doris 在半結構化數據分析場景與 Lakehouse 上的基礎能力,并在大量生產環境中得到穩定應用。
在半結構化數據分析上,圍繞面向 JSON 的 ,持續完善功能并優化性能,同時提升倒排索引與全文檢索在空間利用率與可擴展性上的表現,并引入更靈活的 tokenizer 插件機制;
在 Lakehouse 方向,增強了對 Iceberg、Paimon 等外部數據源的支持能力,物化視圖與查詢優化能力持續提升,同時優化了數據寫入與更新性能。
在 3.1 版本中,大量的精力被投入到一個看似比較局部的能力上——JSON,在當時主要是為日志、事件等半結構化數據服務。但進入AI時代,這類結構不穩定、模式不固定的數據,正在成為主流數據形態。
到了 4.0,這種變化進一步加速。
相較于 3.1,4.0 的核心演進可以概括為“”的建立。越來越多的業務負載從結構化與半結構化數據,延伸至非結構化數據分析場景。從數據庫視角來看,這一變化本質上對語義檢索能力提出了更高要求。
以典型應用為例,企業需要對音頻、視頻、圖像等非結構化數據進行 embedding,將其轉化為向量形式存儲,并在此基礎上實現語義檢索。
基于這一趨勢,Doris 在 4.0 版本中正式引入了 ,從而實現在同一引擎內對結構化數據、半結構化數據以及向量數據的統一檢索。
而這,也讓 Doris 的定位發生本質的轉變:從一個分析型數據庫,走向一個能夠在AI時代同時承載分析與檢索的統一數據平臺。
02
AI 帶來哪些機遇與挑戰?
進入 2026 年,AI 正在從應用層快速滲透至數據基礎設施層。
首先,數據形態發生顯著變化。以 Agent 交互、模型輸出與用戶行為記錄為代表的數據,大量以 JSON 形式存在,且在規模與結構上高度不確定。這使問題不再只是能否支持 JSON,而是:
在 schema 持續變化、列數不斷膨脹的情況下,如何仍然保持高效的存儲與分析能力?
由此延伸出的,是AI可觀測性(AI Observability)問題。圍繞 Agent 行為日志展開分析,正在重塑傳統以 trace、logs、metrics 為核心的分析方式,成為理解系統運行機制與識別行為模式的重要手段。
與此同時,AI數據還帶來了更高并發與更強實時性的要求。單個 Agent 請求往往會觸發大量底層訪問,從而顯著提高系統對并發處理能力與響應時效的要求。未來的使用模式,將更強調快速反饋,而非長時間等待復雜推理過程完成。
此外,統一平臺的重要性進一步提升。企業更傾向于在同一數據基礎上,同時支持分析、檢索等多樣化需求,從而降低系統復雜度并保證數據一致性。
03
2026 年:從場景看演進
圍繞這些變化,Doris 在 2026 年的演進可以從四類關鍵場景來理解。
半結構化數據分析 & AI 可觀測性
AI 應用帶來的一個直接變化,是 JSON 等半結構化數據的快速增長。問題的關鍵在于如何在深層嵌套結構、列數持續擴展的情況下,仍然保持可接受的存儲成本與查詢性能。與此同時,隨著 Agent、LLM tracing 等新型應用快速發展,圍繞 JSON 日志的分析也正逐步成為 AI 可觀測性的重要組成部分。
在技術路徑上,持續增強 Variant Type,在兼顧靈活性的同時兼具列式存儲性能;構建統一的可觀測性數據底座,將 trace、logs、metrics 等統一納入 Doris,并與 OpenTelemetry 等生態深度集成。
在具體實現上,支持深層嵌套 JSON 結構,持續優化稀疏列與字符串列的高效存儲機制,以提升存儲效率與查詢性能。
在此基礎上,繼續完善列式能力支持,如部分列更新、索引能力及超寬表處理,進一步強化 Variant 類型在 JSON 與半結構化數據分析場景中的整體支撐能力。
在此背景下,AI可觀測性也逐漸成為這一場景的重要延伸。此前,社區已通過相關實踐展示了,并從中識別包括安全風險在內的多種行為模式,這正是 AI 可觀測性的典型應用場景之一。
混合檢索與分析(HSAP)
在 AI 場景中,檢索范式正在從單一模式走向融合。在混合檢索出現之前,用戶通常需要額外引入向量數據庫或 Elasticsearch 等檢索系統,以滿足語義檢索與全文檢索需求。然而,這種割裂式架構存在明顯局限:僅依賴向量檢索時,精確匹配能力不足;僅依賴文本檢索時,又難以覆蓋語義相關但不包含關鍵詞的內容。
基于這一背景,Doris 在 4.0 版本中引入了混合檢索能力,使用戶能夠通過單一 SQL 同時完成全文檢索、語義打分與向量檢索,從而兼顧關鍵詞精確匹配與語義召回能力。
在 2026 年,混合檢索與分析及相關能力將進一步增強:
持續增強語義檢索與 Vector Search,引入基于磁盤的 ANN 算法與數據結構,以支持百億級向量的高效存儲與檢索。
進一步融合向量能力與存儲計算體系,包括在 Merge-on-Write 上構建可更新索引、優化索引優先訪問路徑,以及提升向量數據壓縮與管理效率。
持續增強全局索引與延遲物化能力,以優化以 TopN 為主的語義檢索查詢,在減少數據訪問量的同時顯著提升性能。
探索開放湖格式上的向量能力建設,使用戶在無需遷移數據的前提下,即可在 Iceberg、Paimon 等數據湖之上實現高效的向量檢索與分析,進一步打通湖倉一體化生態。
多模態場景 & AI SQL
作為以 SQL 為核心的數據庫系統,Doris 最初面向結構化數據設計,但隨著 AI 應用發展,多模態需求快速增長,推動其在該方向持續演進。
Doris 在這一方向的核心目標,是降低數據處理門檻并統一處理流程:
AISQL 與 PythonUDF結合,形成覆蓋數據預處理、特征提取、向量構建與分析的一體化能力體系,支撐更加完整的多模態數據處理鏈路。
引入 File 數據類型,該數據類型在不同執行環境下可具備不同語義。如在 SQL 中用于訪問文件元數據,在 AI SQL 或 Python UDF 中則可直接處理文件內容,從而支持 embedding 與內容分析。
通過上述能力的逐步完善,Doris 的目標是在多模態場景下,依托統一的數據平臺,為用戶提供從數據接入、處理到分析的端到端能力支持。
面向 Agent 的分析能力
當數據庫的主要調用方從人轉向 Agent,交互方式也隨之改變。僅依賴 Text-to-SQL 難以支撐復雜場景,因為 Agent 在缺乏語義信息時難以穩定生成正確查詢。
因此,Doris 在 2026 年將重點建設:
加強語義層建設,包括數據標簽體系與元數據開放 API,以支持構建更靈活、可控的語義層,并提升 Agent 交互質量。
持續推進 Data Agent 集成,使數據庫具備面向 Agent 的原生服務能力,從而支持更自然的交互與更準確的結果返回。
完善元數據API,強化對外部 Catalog 的集成能力,以對接統一的數據管理、權限與語義體系,為 Agent 提供一致、可靠的數據理解基礎。
04
2026 年:從能力看演進
上述場景的落地,最終依賴于底層能力的持續演進。
查詢引擎:能力、性能與穩定性提升
在 2026 年,查詢引擎的演進將圍繞三個核心目標展開。
能力完善。提供更豐富且兼容性更強的 SQL 語法與函數支持,包括 ASOF Join、Recursive CTE、UNNEST 等能力;持續推進語法簡化與兼容性增強,降低 Lakehouse 場景下的遷移成本;MERGE INTO 能力增強,支持在單條 SQL 或事務中完成更完整的 CDC 流程。
性能優化。強化 Condition Cache,緩存 Block 級過濾結果以降低運行時計算開銷;重構 ZoneMap(智能索引)表達式,提升數據過濾效率;提升復雜列場景(JSON)列裁剪能力,支撐高并發場景下穩定性能表現。
大規模任務的執行能力與穩定性提升,即“Run Big, Run Stable”。優化 Spill-to-Disk 與 Global Buffer Mgmt 內存管理能力,系統在資源受限情況下仍能穩定執行大規模任務。
同時,持續完善查詢可觀測性,使用戶在調度平臺與交互式查詢場景中直觀地理解執行狀態。
存儲引擎:規模、緩存與彈性優化
在存儲層面,圍繞規模(Scale)、緩存(Cache)與彈性(Elasticity)三個核心方向展開。
在規模方面,重點解決超寬表場景與大規模 Tablet 帶來的元數據與管理問題,比如 JSON 經 Variant 子列抽取后,列數可能擴展至數千甚至上萬列,類似問題在 Parquet 等列式系統中同樣存在。
在緩存方面,持續優化 Smart Caching 加強跨計算組緩存預熱、細粒度緩存策略及分布式共享緩存能力;緩存策略也將支持基于時間范圍、表級或分區級定義緩存策略,或對特定熱點分區進行定向預熱。
在彈性方面,結合云基礎設施優化動態伸縮能力,提升擴縮容效率、優化多計算組讀寫分離,以及通過元數據持久化與本地緩存機制加快節點啟動過程,降低切換帶來的性能影響。
總體而言,存儲層的演進一方面面向更大規模與更復雜數據結構,另一方面致力于在存算分離架構下提供更加穩定、高效的實時服務能力。
開放數據湖:讀寫能力與統一治理
在開放數據湖方向,隨著 Lakehouse 架構逐步成為主流,Iceberg、Paimon 等開放湖格式持續演進。2026 年,Doris 將圍繞讀(Read)、寫(Write)與治理(Govern)三個核心維度展開能力建設。
查詢能力:在不遷移數據的前提下,讓湖表查詢性能盡可能接近內表。優化在 Iceberg、Paimon 等湖表的實時查詢能力,增強 Parquet Page Cache 與本地 File Block Cache,并將 Condition Cache 擴展至湖表場景,同時通過 Distributed Planning 優化超大規模湖表的元數據規劃與解析。
湖表管理能力:支持 Iceberg 與 Paimon 的完整生命周期管理,包括 DDL 與 DML(Update、Delete、Merge Into)。同時持續跟進生態演進,如 Iceberg V3 行級血緣與 Paimon 索引能力。
生態接入能力:一方面,深化與 Flink 的集成,推進 Streaming Lakehouse;另一方面,擴展 Arrow Flight 能力,并引入基于 Arrow Flight 的 Catalog,降低多數據源接入成本,拓展數據訪問邊界。
統一治理能力:加強與各類 Catalog 服務的深度集成,包括支持第三方認證接入、兼容 Iceberg 與 Paimon 的 REST Catalog 標準,以及完善自身元數據 Open API 能力。使 Doris 能無縫融入現有數據治理體系。
06
結束語
數據形態正在從結構化走向 JSON、向量與多模態,數據使用方式也從面向人擴展到面向 Agent 。數據庫面對的,不再是單一分析負載,而是分析、檢索與 AI Agent 并存的復合負載。
Apache Doris 在 2026 年的規劃,核心不再只是提升分析性能,而是響應AI時代數據基礎設施的根本變化。
Scale Intelligence, Accelerate Insight,不僅是年度主題,也定義了 Doris 在AI時代的演進方向。
如果你對這些方向感興趣,或者正在做相關探索,歡迎了解和參與 Apache Doris 社區:
想看看最新能力 可以體驗最新版本
想了解實現細節 可以閱讀官方文檔
有實踐經驗或問題 歡迎一起交流討論
也歡迎一起參與開源貢獻,讓這些能力真正落地
GitHub: https://github.com/apache/doris
官方網站:https://doris.apache.org
PREVIOUS RECOMMENDATIONS
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.