網易首頁 > 網易號 > 正文申請入駐

AI 成為主流負載后，數據基礎設施將如何演進？｜Apache Doris 2026 Roadmap

2026-04-14 17:42:05　來源: 開源中國

廣東舉報

分享至

在過去幾年中，數據基礎設施的演進始終圍繞一個核心問題展開：如何更快地分析數據？

但進入 2026 年，這個問題正在被重新定義。隨著 AI 應用的爆發式增長，數據系統不再只是分析工具，而逐漸成為智能系統的一部分。數據不再只是被查詢，而是被 Agent 調用、被模型理解、被系統實時消費。

在這樣的背景下，Apache Doris 社區提出了 2026 年的年度主題：

Scale Intelligence, Accelerate Insight

如果說過去 Doris 關注的是更快的數據分析，那么在 2026 年，我們要回答的問題是：

當AI成為主流負載之后，數據庫應該演進成什么樣子？

2025：變化的起點

回看 2025 年，Apache Doris 的演進路徑其實已經顯露出這一變化的方向。

過去一年，社區發布了兩個重要版本——3.1 與 4.0，分別在數據分析能力與檢索能力上實現了關鍵突破。

在 3.1 版本中，進一步夯實了 Doris 在半結構化數據分析場景與 Lakehouse 上的基礎能力，并在大量生產環境中得到穩定應用。

在半結構化數據分析上，圍繞面向 JSON 的，持續完善功能并優化性能，同時提升倒排索引與全文檢索在空間利用率與可擴展性上的表現，并引入更靈活的 tokenizer 插件機制；
在 Lakehouse 方向，增強了對 Iceberg、Paimon 等外部數據源的支持能力，物化視圖與查詢優化能力持續提升，同時優化了數據寫入與更新性能。

在 3.1 版本中，大量的精力被投入到一個看似比較局部的能力上——JSON，在當時主要是為日志、事件等半結構化數據服務。但進入AI時代，這類結構不穩定、模式不固定的數據，正在成為主流數據形態。

到了 4.0，這種變化進一步加速。

相較于 3.1，4.0 的核心演進可以概括為“”的建立。越來越多的業務負載從結構化與半結構化數據，延伸至非結構化數據分析場景。從數據庫視角來看，這一變化本質上對語義檢索能力提出了更高要求。

以典型應用為例，企業需要對音頻、視頻、圖像等非結構化數據進行 embedding，將其轉化為向量形式存儲，并在此基礎上實現語義檢索。

基于這一趨勢，Doris 在 4.0 版本中正式引入了，從而實現在同一引擎內對結構化數據、半結構化數據以及向量數據的統一檢索。

而這，也讓 Doris 的定位發生本質的轉變：從一個分析型數據庫，走向一個能夠在AI時代同時承載分析與檢索的統一數據平臺。

AI 帶來哪些機遇與挑戰？

進入 2026 年，AI 正在從應用層快速滲透至數據基礎設施層。

首先，數據形態發生顯著變化。以 Agent 交互、模型輸出與用戶行為記錄為代表的數據，大量以 JSON 形式存在，且在規模與結構上高度不確定。這使問題不再只是能否支持 JSON，而是：

在 schema 持續變化、列數不斷膨脹的情況下，如何仍然保持高效的存儲與分析能力？

由此延伸出的，是AI可觀測性（AI Observability）問題。圍繞 Agent 行為日志展開分析，正在重塑傳統以 trace、logs、metrics 為核心的分析方式，成為理解系統運行機制與識別行為模式的重要手段。

與此同時，AI數據還帶來了更高并發與更強實時性的要求。單個 Agent 請求往往會觸發大量底層訪問，從而顯著提高系統對并發處理能力與響應時效的要求。未來的使用模式，將更強調快速反饋，而非長時間等待復雜推理過程完成。

此外，統一平臺的重要性進一步提升。企業更傾向于在同一數據基礎上，同時支持分析、檢索等多樣化需求，從而降低系統復雜度并保證數據一致性。

2026 年：從場景看演進

圍繞這些變化，Doris 在 2026 年的演進可以從四類關鍵場景來理解。

半結構化數據分析 & AI 可觀測性

AI 應用帶來的一個直接變化，是 JSON 等半結構化數據的快速增長。問題的關鍵在于如何在深層嵌套結構、列數持續擴展的情況下，仍然保持可接受的存儲成本與查詢性能。與此同時，隨著 Agent、LLM tracing 等新型應用快速發展，圍繞 JSON 日志的分析也正逐步成為 AI 可觀測性的重要組成部分。

在技術路徑上，持續增強 Variant Type，在兼顧靈活性的同時兼具列式存儲性能；構建統一的可觀測性數據底座，將 trace、logs、metrics 等統一納入 Doris，并與 OpenTelemetry 等生態深度集成。
在具體實現上，支持深層嵌套 JSON 結構，持續優化稀疏列與字符串列的高效存儲機制，以提升存儲效率與查詢性能。

在此基礎上，繼續完善列式能力支持，如部分列更新、索引能力及超寬表處理，進一步強化 Variant 類型在 JSON 與半結構化數據分析場景中的整體支撐能力。

在此背景下，AI可觀測性也逐漸成為這一場景的重要延伸。此前，社區已通過相關實踐展示了，并從中識別包括安全風險在內的多種行為模式，這正是 AI 可觀測性的典型應用場景之一。

混合檢索與分析（HSAP）

在 AI 場景中，檢索范式正在從單一模式走向融合。在混合檢索出現之前，用戶通常需要額外引入向量數據庫或 Elasticsearch 等檢索系統，以滿足語義檢索與全文檢索需求。然而，這種割裂式架構存在明顯局限：僅依賴向量檢索時，精確匹配能力不足；僅依賴文本檢索時，又難以覆蓋語義相關但不包含關鍵詞的內容。

基于這一背景，Doris 在 4.0 版本中引入了混合檢索能力，使用戶能夠通過單一 SQL 同時完成全文檢索、語義打分與向量檢索，從而兼顧關鍵詞精確匹配與語義召回能力。

在 2026 年，混合檢索與分析及相關能力將進一步增強：

持續增強語義檢索與 Vector Search，引入基于磁盤的 ANN 算法與數據結構，以支持百億級向量的高效存儲與檢索。
進一步融合向量能力與存儲計算體系，包括在 Merge-on-Write 上構建可更新索引、優化索引優先訪問路徑，以及提升向量數據壓縮與管理效率。
持續增強全局索引與延遲物化能力，以優化以 TopN 為主的語義檢索查詢，在減少數據訪問量的同時顯著提升性能。
探索開放湖格式上的向量能力建設，使用戶在無需遷移數據的前提下，即可在 Iceberg、Paimon 等數據湖之上實現高效的向量檢索與分析，進一步打通湖倉一體化生態。

多模態場景 & AI SQL

作為以 SQL 為核心的數據庫系統，Doris 最初面向結構化數據設計，但隨著 AI 應用發展，多模態需求快速增長，推動其在該方向持續演進。

Doris 在這一方向的核心目標，是降低數據處理門檻并統一處理流程：

AISQL 與 PythonUDF結合，形成覆蓋數據預處理、特征提取、向量構建與分析的一體化能力體系，支撐更加完整的多模態數據處理鏈路。
引入 File 數據類型，該數據類型在不同執行環境下可具備不同語義。如在 SQL 中用于訪問文件元數據，在 AI SQL 或 Python UDF 中則可直接處理文件內容，從而支持 embedding 與內容分析。

通過上述能力的逐步完善，Doris 的目標是在多模態場景下，依托統一的數據平臺，為用戶提供從數據接入、處理到分析的端到端能力支持。

面向 Agent 的分析能力

當數據庫的主要調用方從人轉向 Agent，交互方式也隨之改變。僅依賴 Text-to-SQL 難以支撐復雜場景，因為 Agent 在缺乏語義信息時難以穩定生成正確查詢。

因此，Doris 在 2026 年將重點建設：

加強語義層建設，包括數據標簽體系與元數據開放 API，以支持構建更靈活、可控的語義層，并提升 Agent 交互質量。
持續推進 Data Agent 集成，使數據庫具備面向 Agent 的原生服務能力，從而支持更自然的交互與更準確的結果返回。
完善元數據API，強化對外部 Catalog 的集成能力，以對接統一的數據管理、權限與語義體系，為 Agent 提供一致、可靠的數據理解基礎。

2026 年：從能力看演進

上述場景的落地，最終依賴于底層能力的持續演進。

查詢引擎：能力、性能與穩定性提升

在 2026 年，查詢引擎的演進將圍繞三個核心目標展開。

能力完善。提供更豐富且兼容性更強的 SQL 語法與函數支持，包括 ASOF Join、Recursive CTE、UNNEST 等能力；持續推進語法簡化與兼容性增強，降低 Lakehouse 場景下的遷移成本；MERGE INTO 能力增強，支持在單條 SQL 或事務中完成更完整的 CDC 流程。
性能優化。強化 Condition Cache，緩存 Block 級過濾結果以降低運行時計算開銷；重構 ZoneMap（智能索引）表達式，提升數據過濾效率；提升復雜列場景（JSON）列裁剪能力，支撐高并發場景下穩定性能表現。
大規模任務的執行能力與穩定性提升，即“Run Big， Run Stable”。優化 Spill-to-Disk 與 Global Buffer Mgmt 內存管理能力，系統在資源受限情況下仍能穩定執行大規模任務。

同時，持續完善查詢可觀測性，使用戶在調度平臺與交互式查詢場景中直觀地理解執行狀態。

存儲引擎：規模、緩存與彈性優化

在存儲層面，圍繞規模（Scale）、緩存（Cache）與彈性（Elasticity）三個核心方向展開。

在規模方面，重點解決超寬表場景與大規模 Tablet 帶來的元數據與管理問題，比如 JSON 經 Variant 子列抽取后，列數可能擴展至數千甚至上萬列，類似問題在 Parquet 等列式系統中同樣存在。
在緩存方面，持續優化 Smart Caching 加強跨計算組緩存預熱、細粒度緩存策略及分布式共享緩存能力；緩存策略也將支持基于時間范圍、表級或分區級定義緩存策略，或對特定熱點分區進行定向預熱。
在彈性方面，結合云基礎設施優化動態伸縮能力，提升擴縮容效率、優化多計算組讀寫分離，以及通過元數據持久化與本地緩存機制加快節點啟動過程，降低切換帶來的性能影響。

總體而言，存儲層的演進一方面面向更大規模與更復雜數據結構，另一方面致力于在存算分離架構下提供更加穩定、高效的實時服務能力。

開放數據湖：讀寫能力與統一治理

在開放數據湖方向，隨著 Lakehouse 架構逐步成為主流，Iceberg、Paimon 等開放湖格式持續演進。2026 年，Doris 將圍繞讀（Read）、寫（Write）與治理（Govern）三個核心維度展開能力建設。

查詢能力：在不遷移數據的前提下，讓湖表查詢性能盡可能接近內表。優化在 Iceberg、Paimon 等湖表的實時查詢能力，增強 Parquet Page Cache 與本地 File Block Cache，并將 Condition Cache 擴展至湖表場景，同時通過 Distributed Planning 優化超大規模湖表的元數據規劃與解析。
湖表管理能力：支持 Iceberg 與 Paimon 的完整生命周期管理，包括 DDL 與 DML（Update、Delete、Merge Into）。同時持續跟進生態演進，如 Iceberg V3 行級血緣與 Paimon 索引能力。
生態接入能力：一方面，深化與 Flink 的集成，推進 Streaming Lakehouse；另一方面，擴展 Arrow Flight 能力，并引入基于 Arrow Flight 的 Catalog，降低多數據源接入成本，拓展數據訪問邊界。
統一治理能力：加強與各類 Catalog 服務的深度集成，包括支持第三方認證接入、兼容 Iceberg 與 Paimon 的 REST Catalog 標準，以及完善自身元數據 Open API 能力。使 Doris 能無縫融入現有數據治理體系。

結束語

數據形態正在從結構化走向 JSON、向量與多模態，數據使用方式也從面向人擴展到面向 Agent 。數據庫面對的，不再是單一分析負載，而是分析、檢索與 AI Agent 并存的復合負載。

Apache Doris 在 2026 年的規劃，核心不再只是提升分析性能，而是響應AI時代數據基礎設施的根本變化。

Scale Intelligence, Accelerate Insight，不僅是年度主題，也定義了 Doris 在AI時代的演進方向。

如果你對這些方向感興趣，或者正在做相關探索，歡迎了解和參與 Apache Doris 社區：

想看看最新能力可以體驗最新版本
想了解實現細節可以閱讀官方文檔
有實踐經驗或問題歡迎一起交流討論
也歡迎一起參與開源貢獻，讓這些能力真正落地

GitHub: https://github.com/apache/doris

官方網站：https://doris.apache.org

PREVIOUS RECOMMENDATIONS

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.