網易首頁 > 網易號 > 正文申請入駐

演講實錄 | 楊傳輝：AI 時代，OceanBase 帶來了哪些產品革新？

2025-11-27 11:22:24　來源: ITPUB學院

北京舉報

分享至

編者按

11 月 18 日，2025 OceanBase 年度發布會在北京舉行。現場發布并開源了 OceanBase 首款 AI 原生混合搜索數據庫 seekdb（簡稱 seekdb ）。作為 OceanBase “Data x AI”戰略的關鍵一環，OceanBase 4.4 一體化融合版本也正式發布。

在之后的分享中，OceanBase CTO 楊傳輝以“OceanBase：打造 AI 時代的一體化數據庫”為題，介紹了 OceanBase 在 AI 時代的產品革新和演進。他表示，在 AI 時代，一體化架構所承載的核心技術能力，只會愈發重要。在他看來，向量搜索是 AI 數據庫的初級階段，而最終，所有向量搜索都會逐步演進為混合搜索 —— 能否支持混合搜索，正是衡量 AI 數據庫核心實力的關鍵分水嶺。

以下為演講實錄：

各位來賓、數據庫領域的新老朋友，大家上午好。剛剛我們正式發布并開源了 OceanBase 首款 AI 原生混合搜索數據庫 seekdb，也提到了混合搜索這一核心方向。今天我的分享，同樣圍繞 AI 展開，主題是 “打造 AI 時代的一體化數據庫”。

相信不少嘉賓在展區已經感受到，這次發布會和以往有明顯不同 —— 我們帶來了大量 AI 相關的新產品。所以今天的分享，我不會聚焦 TP 或分析 AP，核心想和大家聊聊我們對 AI 時代、混合搜索與 seekdb 的思考，以及近期的開發進展。

AI時代一體化數據庫的變與不變

首先，我們不妨回顧一下數據庫技術范式的演進。數據庫技術奠基人之一 E.F.Codd 于 1970 年提出關系模型，當時這一模型主要面向交易場景；1993 年，他又提出了面向分析的 OLAP。而最近幾年，業界涌現的所有新數據庫產品，本質上都是面向 AI 的 —— 既包括大家熟悉的各類向量數據庫，也涵蓋 Supabase等熱門產品。不難發現，整個數據庫領域的技術范式，正從原本的支撐應用服務，逐步延伸到智能服務的全新階段。

我們注意到，Oracle、MongoDB 等業界主流數據庫，也正紛紛在自身引擎中新增搜索能力，以此適配 AI 原生場景的需求。在 AI 領域有個常見概念叫 AI Ready，而我們認為，AI Ready 必然會向 AI Native 逐步演進。所謂 AI Native，絕非僅做好數據準備那么簡單，核心是將模型能力深度集成到數據庫中，最終實現數據與模型在數據庫內的原生融合。近期行業內的多起收購事件也印證了這一趨勢 ——MongoDB 收購 Voyage AI、Elastic 收購 Jina AI，核心訴求都是推動數據與模型的融合，我們高度認同這一行業趨勢。

AI 時代的到來，既給數據庫領域帶來了巨大挑戰，更孕育著前所未有的發展機遇。

首先，AI 時代的數據庫，數據處理量會持續激增，用戶與租戶規模也將迎來量級式增長。與此同時，AI 還會給數據庫帶來全新的工作負載 —— 我們將其定義為“面向 Agent 的多路混合搜索”。

在 AI 時代，數據庫的處理范疇不再局限于結構化數據與少量半結構化數據，還需要承載更多半結構化乃至無結構化數據。這意味著，除了傳統關系模型，數據庫還需支持 JSON 處理半結構化數據，并為無結構化數據構建各類語義索引，比如大家熟知的向量索引、圖索引、全文索引等。在此基礎上，我們更需要一套能覆蓋結構化、半結構化、無結構化數據的混合搜索能力。

AI 還帶來了顯著的技術平權效應。過去，數據庫主要由專業人士通過開發應用程序來使用，而在今天的 AI 時代，即便沒有計算機相關背景，普通人也能借助大模型輕松開發自己的 Agent。這也意味著，未來數據庫的用戶量與租戶數量，必將實現倍數級的爆發式增長。

聊完了 AI 時代數據庫的變化，我們更要明確數據庫的變與不變。其中一點我堅信不疑：數據庫領域不僅不會被取代，在 AI 時代還會變得愈發重要。

無論 AI 如何迭代演進，數據庫的核心基礎能力始終不可或缺：我們仍需要可靠的數據庫引擎，解決單機、分布式及多云平臺的各類問題；仍需要行存數據庫支撐交易場景，列存數據庫處理分析需求，更需要強大的 SQL 優化器應對 HTAP 混合負載。同時，數據庫還需提供豐富的 SQL 功能，助力大家平滑完成從 MySQL、Oracle 等系統的升級。

混合搜索是 AI 數據庫的關鍵分水嶺

在 AI 時代，一體化架構所承載的核心技術能力，只會愈發重要。一提到 AI 數據庫，很多人首先想到的是向量搜索，但在我看來，向量搜索只是 AI 數據庫的初級階段。最終，所有向量搜索都會逐步演進為混合搜索 —— 能否支持混合搜索，正是衡量 AI 數據庫核心實力的關鍵分水嶺。

大家都知道，大模型具備強大的計算能力，但缺乏長期記憶。這就需要數據庫為大模型提供支撐：存儲并管理其上下文信息，同時精準輸出大模型所需的上下文。這個過程，也被稱為 “上下文工程”。要做好“上下文工程”，首先需要通過向量搜索、向量嵌入解決 “找相似” 的問題。但 “找相似” 只是上下文工程的一部分，除此之外，還可能需要通過全文搜索實現 “找相同”，或借助知識圖譜與圖索引，挖掘全局相關的信息。

“上下文工程”往往還涉及大量元數據管理，這就需要依托關系型數據庫的能力 —— 通過關系過濾、關系查找縮小檢索范圍。每一路檢索都會產出部分結果，最終要將各路結果融合，并經過全局重排序(rerank)，才能為大模型輸出其真正需要的精準結果。這正是混合檢索的核心邏輯。

首先，高性能且功能完備的向量搜索，是多路混合搜索的核心基礎。目前，OceanBase 向量搜索性能已達到業界開源向量數據庫的最優水平—— 無論是稠密向量還是稀疏向量，在向量數據庫領域主流 benchmark 測試中均表現突出。同時，我們的磁盤向量索引，在構建時間與存儲占用兩方面，也實現了業界領先。

具備強大的向量搜索能力后，我們進一步實現了向量搜索與全文搜索的深度融合，通過多路搜索顯著提升召回效果。

左側圖示清晰呈現了不同搜索方式的召回表現：僅采用單一搜索路徑（無論全文搜索、稠密向量還是稀疏向量），都難以達到最優召回效果；唯有將稀疏向量、稠密向量與全文搜索相結合，才能實現更優的召回表現，達成 1+1 大于 2 的協同效應。

值得一提的是，OceanBase 不僅擁有上述高性能向量搜索能力，還已落地生產級全文搜索功能。更重要的是，這兩大能力均構建于 OceanBase 數據庫原生架構之上，天然繼承了分布式架構的彈性擴展特性與對象存儲的高效適配能力。

在 AI 場景中，除了要開展多路搜索，還需妥善管理 AI 場景下的元數據。要做好 AI 數據庫的元數據管理，不僅需要支持元數據的實時寫入與事務一致性，還需實現元數據檢索結果與多路搜索結果的 SQL 級聯動。毫無疑問，支持 HTAP 的關系型數據庫是更優選擇。通過將關系模型與向量、全文、JSON 能力深度融合，OceanBase 最終形成了全面的混合搜索能力。

下面我簡單分享幾個 OceanBase 混合檢索的客戶實踐案例：

貨拉拉基于 OceanBase 混合檢索，搭建了一站式企業 AI 數據底座。貨拉拉的 AI 應用場景十分豐富，涵蓋知識庫、AI Coding、Agent 平臺、ChatBI 等。此前，他們曾使用多款不同產品，包括搜索產品 V search 及兩款不同的向量數據庫；升級至 OceanBase 后，實現了多產品合一，不僅解決了原有開源組件的穩定性問題，還直接復用 OceanBase 的高可用能力，達成 RPO=0、RTO＜8 秒的高標準。

聯通也是借助 OceanBase 的混合搜索能力，構建了公司級統一知識庫平臺，該場景此前采用 “關系數據庫 + 全文向量搜索數據庫” 的架構。將兩者融合至 OceanBase 后，在 10 億級向量規模下，OceanBase 的處理效率達到原全文向量搜索數據庫的兩倍以上；同時通過融合關系查找與多路搜索，成功解決了知識庫的元數據管理難題，包括精細化權限管控及靈活的用戶間權限共享需求。

螞蟻百寶箱基于混合搜索實現了智能體在線搜索。此前他們曾使用向量數據庫、搜索產品及 OceanBase 本身分別管理不同數據，最終全部融合至一套 OceanBase 后，不僅幫助客戶統一了技術棧，還將業務層的多產品融合搜索能力下沉至數據庫層，極大簡化了數據架構。

AI 時代需要怎樣的數據架構？

實現 AI 場景下的混合搜索，主要有兩種路徑：

第一種實現方式是從頭開始搭建一個混合搜索的數據庫；第二種方式是直接基于關系數據庫增加混合搜索的功能。

在我看來，第二種路徑更具優勢，核心原因有兩點：1.關系型數據庫不管是在功能完備性、易用性還是生態成熟度上，均遠超其他非關系型數據庫；2.支撐 AI 場景，除了要有混合搜索能力，底層還需一套現代數據架構。

以 OceanBase 為代表的關系型數據庫，已具備成熟的現代數據架構 —— 這種架構技術壁壘高，也是 AI 時代數據庫的 Foundation。

那么什么是現代數據架構？我認為核心包含三個點：

第一個點：現代數據架構一定是非常好用的；

第二個點：現代數據架構一定是非常靈活的；

第三個點：一定是面向未來能夠支撐 AI 的。

現代數據架構的底層核心是一體化架構，用戶想要什么功能，數據庫就提供相應的功能，無需根據功能的不同而選擇不同的存儲產品、學習不同的技術棧。現在的數據庫架構非常靈活，在部署模式上，用戶可自由選擇上云、不上云或特定云平臺。

同時，現代數據架構也需要能夠支持按需使用。數據量小時用小規格部署，數據量增長后無縫擴容，完美適配從初創到規模化的全階段需求。

更關鍵的是，現代數據架構需原生支持 AI 場景。除了前文提到的混合搜索能力，原生多租戶能力也至關重要 —— 因為 AI 時代，數據庫的使用者早已不局限于 DBA 或計算機專業開發人員，每一個普通人都能通過大模型輕松構建自己的 AI Agent。

一體化架構的核心，我將其總結為 “三多”：多負載、多模態、混合多云。

多負載：一套數據庫引擎即可全面支持交易、分析、AI 等各類工作負載；
多模態：兼容多樣化數據類型與索引 —— 既涵蓋結構化數據的關系模型、半結構化數據的 JSON 格式，也支持無結構化數據的各類語義索引，比如向量、全文、圖索引等；
混合多云：賦予用戶完全的部署自由，可自主選擇上云、不上云或特定云平臺。更關鍵的是，用戶只需使用一套產品，就能實現跨所有公有云、混合云平臺的自動升級，無需額外適配。

目前，OB Cloud 已成為業界支持公有云平臺最多的云數據庫產品，已兼容 7 朵主流云：國內涵蓋阿里云、華為云、騰訊云、百度云四大平臺，海外覆蓋 AWS、Azure、GCP 三大平臺。我們的 OB Cloud 已落地 16 個國家和地區，覆蓋超 60 個地域、240 多個可用區，無論你身處全球哪個角落、哪個時區，都能便捷獲取 OB Cloud 一體化云數據庫。

同時，依托一體化架構，我們實現了多云及混合云環境下的用戶體驗一致性，更支持跨云高可用能力。當用戶需要跨云升級時，OceanBase 可全程保障業務連續性，確保升級過程中業務不中斷。

AI 場景的工作負載具有極強的不確定性。AI Agent 這個生態雖然數量眾多，但多數都默默無聞，僅有少數會迎來爆發式流量，且這類流量往往具備突發特性。因此，我們必須提供支持彈性伸縮架構的 Serverless 方案，以靈活應對流量波動。

此外，AI 場景需要管理海量數據 —— 包含大量長上下文數據，既有文本類型，也有多模態類型。這些數據中，大部分屬于冷數據，僅近期高頻訪問、用戶重點關注的數據為熱數據。基于此，我們通過支持對象存儲的冷熱分離方案，高效解決海量數據的存儲與管理難題。

螞蟻集團也正基于 OceanBase 開展大模型預訓練工作。為做好大模型預訓練，螞蟻需要將海量網頁內容提取至內部，再進行網頁的數據清洗與標注。這些網頁數據中，大部分屬于冷數據，但仍有部分網頁更新頻繁，因此我們通過基于對象存儲的冷熱分離方案，高效適配這一需求；同時，數據清洗與標注場景的流量具有明顯突發性，當一批網頁數據集中涌入時，需要動態調度計算資源實現彈性處理，而在這一過程中，就需要用到 OceanBase 的 Serverless 方案。

數模融合，一個正在被驗證的趨勢

我認為，數據與模型的深度融合，必將是未來的核心趨勢。在數據庫內直接集成模型能力，能大幅降低模型開發與使用的復雜度。

以我們的混合搜索為例：當文檔進入數據庫內部后，除了進行數據處理外，也需要對文檔做切片、解析、embedding，以及多路搜索。這一過程既用到數據處理能力，也集成了模型服務能力，包括 Parse 解析模型、embedding 模型、Rerank 模型等。

為此，OceanBase 支持了“Document in, Data out”，用戶只需將文檔寫入數據庫，通過混合搜索，就能一步獲取所需結果，真正實現開箱即用。相比傳統開發模式 —— 我們需自行尋找各類模型與組件，反復實驗拼湊，有了“Document in, Data out”，用戶真正能開箱即用，大幅降低了 AI 應用的開發復雜度。

當數據庫集成了模型服務之后，OceanBase 也同時提供了 MaaS 平臺。所謂的 MaaS 就是 Model As a Service，提供了后訓練到在線推理服務的全流程管理。MaaS 平臺支持微調等后訓練，我們也支持對模型做量化，也支持做推理的加速、模型的評測，以及各種算力的調度、模型的管理等。如今，OceanBase 的 MaaS 平臺已經支持了業界不同場景主流的大語言模型，包括海外和國產 GPU。

AI 原生數據庫的設計，必然要秉持開源、開放的核心理念。剛才我們已經正式發布了 OceanBase 首款 AI 原生混合搜索數據庫 seekdb——基于 Apache2.0 協議的 AI 原生混合數據庫，主要有以下核心能力與優勢如下：

首先，seekdb 支持多模混合搜索，僅需一條查詢，就能同時檢索關系、JSON、向量、全文等多種類型的數據；其次，它內置 AI Function 功能。因構筑于 OceanBase 原生架構之上，所以它也天然繼承了 OceanBase 原生的能力，包括 HTAP混合負載處理、MySQL 高度兼容等能力。

可能有朋友會問，seekdb 是不是 OceanBase 的輕量版？答案是，兩者并不同。它遠比輕量版更輕, 輕上加輕。此前 OceanBase 輕量版最低配置為 2C 8G，而 seekdb 首個版本已支持 1C2G ，未來還會把它的內存需求進一步降低至 1G 甚至 500M。這意味著，seekdb 不僅能部署在臺式機、桌面端，未來更可適配各類嵌入式環境。

seekdb 是基于 Apache 2.0 協議的開源產品，我們希望與業界開發者共同探索，到底什么才是真正的 AI 原生數據庫。因為有了業界開發者的參與，我相信，seekdb 的迭代速度也必將大幅提升。同時， OceanBase在 AI 的能力上將會跟進 seekdb 能力演進，為大規模、超大型 AI 應用提供落地能力和支撐。歡迎大家訪問 OceanBase seekdb 的官方網站—— oceanbase.ai，也誠摯邀請現場及線上的開發者們加入OceanBase seekdb的開源社區共建開放生態。

OceanBase seekdb是一款專為開發者打造的 AI 原生數據庫，只需三行代碼，就能快速構建應用，實現關系、JSON、向量、全文的混合搜索。這里給大家舉一個簡單的例子：

第一步，創建一個集合；第二步，在集合中添加文檔，并且可靈活指定文檔的元數據；第三步，直接使用 OceanBase 的混合搜索接口，直接獲取最終結果。

今天，我們也正式開源了 OceanBase 的 PowerRAG 產品。PowerRAG 被認為是 OceanBase 基于混合搜索的最佳實踐。PowerRAG在 RAGFlow 的框架之上構建，有兩個特點。第一個特點，是基于混合搜索做的重新設計；第二個特點，該產品已在螞蟻集團內部真實業務場景中落地應用，具備成熟的企業級能力。PowerRAG 文檔解析、處理能力，以及最終召回的效果，是具備企業級能力的，要好于業界已有的 RAG 解決方案。

同時，今天我們也正式發布并且開源 PowerMem 解決方案， PowerMem 和 PowerRAG 一樣，也是基于混合搜索的一個解決方案。它兼容 Mem0 接口，幫助開發者、用戶去管理大語言模型的上下文。同時，PowerMem 的性能在 LOCOMO Berchmark 里達到了業界開源 Memory 解決方案的 SOTA 水平（State of the Art），歡迎在座的朋友以及線上的開發者關注和加入 OceanBase 的 PowerRAG 以及 PowerMem 開源社區。

今天是 seekdb 是發布的第一天，我們已經和業界產品進行了生態對接。這里面既包括全球知名的產品 Dify、Qoder，也包括 AI 領域的創業公司。當然，我相信這些創業公司在剛開始的時候就選擇 OceanBase 這樣一個能夠解決增長問題的產品，他們未來的增長也一定會有更多的可能。

未來，我相信所有數據類的產品都會用 AI 的方式重新改造一遍。ODC 是 OceanBase 面向開發者的工具，ODC 正式推出 DataPilot。對于 ODC 而言，大家都非常熟悉它的自然語言轉化為 SQL，Text2SQL 的功能。但是，如果采用業界經典的 Text2SQL 的解決方案，會面臨一個很大的問題，那就是準確率永遠都沒有辦法滿足業務的需求。

Text2SQL 領域有個權威榜單BIRD-bench，行業內普遍認為，該榜單得分達到 80 分左右后，再想突破就十分困難。而 OceanBase 創新性地采用了 Text2Metrics 解決方案：我們先定義統一指標，對領域術語進行標準化規范，再通過這些指標約束大語言模型的生成范圍。通過這一方式，我們將自然語言到 SQL 的轉化準確率提升至 90 分以上 —— 目前已達到 92.2%，且在特定業務場景下，準確率仍有進一步提升空間。要知道，只有達到 90 分以上乃至更高的準確率，自然語言轉 SQL 技術才能真正落地生產系統，具備實實在在的業務價值。

我們還采用 Agentic AI 理念，對診斷監控產品 OAS 進行了全新設計。具體來說，我們采用 Agentic AI Multi-Agent 架構，它有一個主 Agent 負責核心的任務拆解與分配，再將不同細分任務精準下發給對應的專項 Agent 執行 —— 這個架構相信很多在場嘉賓都非常熟悉。通過這一升級，OAS 實現了從查指標、找問題到對話即診斷的跨越。用戶只需通過自然對話，就能全程完成診斷流程，系統還會一步步呈現診斷過程中的詳細信息。這既方便開發者人工介入干預，也讓 OAS 真正具備了在生產系統中落地應用的實用價值。

今天我們也正式發布了OceanBase AI Stack 智能一體機。OceanBase 智能一體機最核心的組件是 OceanBase 的一體化架構，支持多模混合搜索的數據庫。數據庫之上，我們集成了 PowerRAG、Agent 開發平臺，以及 OceanBase 數據領域的Agent—— 包括之前提到的 ODC DataPilot、基于 Agentic AI 改造的 OAS 等。數據庫之下則搭載了 MaaS 平臺，可靈活支持各類模型與算力部署。

OceanBase AI 智能一體機有兩大特點：第一是功能全面覆蓋，從底層的算力，海外或者國產算力支持，到模型、數據、RAG，到 Agent 開發，再到數據領域智能體，能完整覆蓋企業從數據底座搭建到 AI 應用開發的全生命周期需求；第二個特點，就是超高性價比，它定價親民，無需高昂成本，企業就能直接擁有 OceanBase 這套完善的端到端解決方案。

最后，我們還是回到 OceanBase 的內核，我們看看這一次OceanBase 的內核，到底帶來哪些全新的能力？

OceanBase 4.4 版本是面向混合負載的 TP/AP 融合及向量增強 LTS 版本，它融合了 OceanBase 4.2.5 LTS 的 OLTP 能力與 OceanBase 4.3.5 LTS 的 AP 及向量能力，能夠同時兼顧核心系統以及多元化業務系統對數據庫的需求。

在 OLTP 的性能方面，OceanBase4.4 版本相比 4.2.5 有了進一步的提升，有大量主鍵沖突的場景，性能提升 15% 到 42%，回表場景的性能提升 5.7% 到 9.5%，PL 性能提升會更加明顯，對于 UDF 執行的性能是提升了 2.3 倍，循環計算的性能提供了 4 倍，動態語句的處理性能提升了 3.6 倍，AP 的性能也提到了進一步的提升。相比 4.3.5 LTS，它的數據導入性能在 ClickBench 這個場景提升 37%，實時分析性能對于 ClickBench 提升 4%，TPC-H 提升 10%，TPC-DS 提升 13.7%，向量索引的性能也是得到進一步的提升。

向量索引總共有兩種索引方式，IVF 和 HNSW。IVF 的索引提升 15%，HNSW 的性能提升 4%-32%。同時在向量索引上，也針對 ARM 架構進行大量的優化，在 ARM 架構，性能有倍數的提升。

OceanBase 4.4 版本的內核能力也做進一步增強。它具備更強的安全能力以及 Oracle 的兼容能力。OceanBase 4.4 版本不僅支持全密態數據庫，還支持聯邦查詢和數據湖的融合，能夠幫助企業，尤其是金融與政企行業企業打通數據孤島。

OceanBase 4.4 版本同時支持存算一體架構，以及公有云上的存儲計算分離部署模式，適配多樣化部署需求。更值得關注的是，該版本新增了一項核心能力 —— 實時增量物化視圖。這一功能大幅強化了 OceanBase 的 HTAP 實力：讓一套引擎既能穩定支撐 OLTP 核心交易處理，又能通過動態實時的增量物化視圖，實現多維度的實時分析，實現真正的HTAP。

結語

各位嘉賓、朋友，AI 時代的浪潮已然來臨。無論你是企業管理者，還是深耕技術的同行，大家都在思考：如何真正把 AI 用好、用深、用在業務里。在這樣的背景下，一個開放、靈活、具備多模與混合搜索能力的數據庫，正成為企業邁向 AI 的關鍵基礎。它能幫你高效管理企業數據，更能將數據能力與 AI 能力深度融入業務流程，讓 Data 與 AI 真正落地生根，為業務創造實實在在的價值。

這就是我的分享，感謝大家一直以來對 OceanBase 持續的支持。謝謝！

更多企業在數據庫與AI上的應用實踐，大會中的精彩回放和資料，可通過下方鏈接，前往查看：https://www.oceanbase.com/conference2025/resources?utm_source=itpub&utm_campaign=1127

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.