編者按
11 月 18 日,2025 OceanBase 年度發布會在北京舉行。現場發布并開源了 OceanBase 首款 AI 原生混合搜索數據庫 seekdb(簡稱 seekdb )。作為 OceanBase “Data x AI”戰略的關鍵一環,OceanBase 4.4 一體化融合版本也正式發布。
在之后的分享中,OceanBase CTO 楊傳輝以“OceanBase:打造 AI 時代的一體化數據庫”為題,介紹了 OceanBase 在 AI 時代的產品革新和演進。他表示,在 AI 時代,一體化架構所承載的核心技術能力,只會愈發重要。在他看來,向量搜索是 AI 數據庫的初級階段,而最終,所有向量搜索都會逐步演進為混合搜索 —— 能否支持混合搜索,正是衡量 AI 數據庫核心實力的關鍵分水嶺。
以下為演講實錄:
![]()
各位來賓、數據庫領域的新老朋友,大家上午好。剛剛我們正式發布并開源了 OceanBase 首款 AI 原生混合搜索數據庫 seekdb,也提到了混合搜索這一核心方向。今天我的分享,同樣圍繞 AI 展開,主題是 “打造 AI 時代的一體化數據庫”。
相信不少嘉賓在展區已經感受到,這次發布會和以往有明顯不同 —— 我們帶來了大量 AI 相關的新產品。所以今天的分享,我不會聚焦 TP 或分析 AP,核心想和大家聊聊我們對 AI 時代、混合搜索與 seekdb 的思考,以及近期的開發進展。
![]()
AI時代一體化數據庫的變與不變
首先,我們不妨回顧一下數據庫技術范式的演進。數據庫技術奠基人之一 E.F.Codd 于 1970 年提出關系模型,當時這一模型主要面向交易場景;1993 年,他又提出了面向分析的 OLAP。而最近幾年,業界涌現的所有新數據庫產品,本質上都是面向 AI 的 —— 既包括大家熟悉的各類向量數據庫,也涵蓋 Supabase等 熱門產品。不難發現,整個數據庫領域的技術范式,正從原本的支撐應用服務,逐步延伸到智能服務的全新階段。
我們注意到,Oracle、MongoDB 等業界主流數據庫,也正紛紛在自身引擎中新增搜索能力,以此適配 AI 原生場景的需求。在 AI 領域有個常見概念叫 AI Ready,而我們認為,AI Ready 必然會向 AI Native 逐步演進。所謂 AI Native,絕非僅做好數據準備那么簡單,核心是將模型能力深度集成到數據庫中,最終實現數據與模型在數據庫內的原生融合。近期行業內的多起收購事件也印證了這一趨勢 ——MongoDB 收購 Voyage AI、Elastic 收購 Jina AI,核心訴求都是推動數據與模型的融合,我們高度認同這一行業趨勢。
AI 時代的到來,既給數據庫領域帶來了巨大挑戰,更孕育著前所未有的發展機遇。
首先,AI 時代的數據庫,數據處理量會持續激增,用戶與租戶規模也將迎來量級式增長。與此同時,AI 還會給數據庫帶來全新的工作負載 —— 我們將其定義為“面向 Agent 的多路混合搜索”。
在 AI 時代,數據庫的處理范疇不再局限于結構化數據與少量半結構化數據,還需要承載更多半結構化乃至無結構化數據。這意味著,除了傳統關系模型,數據庫還需支持 JSON 處理半結構化數據,并為無結構化數據構建各類語義索引,比如大家熟知的向量索引、圖索引、全文索引等。在此基礎上,我們更需要一套能覆蓋結構化、半結構化、無結構化數據的混合搜索能力。
AI 還帶來了顯著的技術平權效應。過去,數據庫主要由專業人士通過開發應用程序來使用,而在今天的 AI 時代,即便沒有計算機相關背景,普通人也能借助大模型輕松開發自己的 Agent。這也意味著,未來數據庫的用戶量與租戶數量,必將實現倍數級的爆發式增長。
聊完了 AI 時代數據庫的變化,我們更要明確數據庫的變與不變。其中一點我堅信不疑:數據庫領域不僅不會被取代,在 AI 時代還會變得愈發重要。
無論 AI 如何迭代演進,數據庫的核心基礎能力始終不可或缺:我們仍需要可靠的數據庫引擎,解決單機、分布式及多云平臺的各類問題;仍需要行存數據庫支撐交易場景,列存數據庫處理分析需求,更需要強大的 SQL 優化器應對 HTAP 混合負載。同時,數據庫還需提供豐富的 SQL 功能,助力大家平滑完成從 MySQL、Oracle 等系統的升級。
![]()
混合搜索是 AI 數據庫的關鍵分水嶺
在 AI 時代,一體化架構所承載的核心技術能力,只會愈發重要。一提到 AI 數據庫,很多人首先想到的是向量搜索,但在我看來,向量搜索只是 AI 數據庫的初級階段。最終,所有向量搜索都會逐步演進為混合搜索 —— 能否支持混合搜索,正是衡量 AI 數據庫核心實力的關鍵分水嶺。
大家都知道,大模型具備強大的計算能力,但缺乏長期記憶。這就需要數據庫為大模型提供支撐:存儲并管理其上下文信息,同時精準輸出大模型所需的上下文。這個過程,也被稱為 “上下文工程”。要做好“上下文工程”,首先需要通過向量搜索、向量嵌入解決 “找相似” 的問題。但 “找相似” 只是上下文工程的一部分,除此之外,還可能需要通過全文搜索實現 “找相同”,或借助知識圖譜與圖索引,挖掘全局相關的信息。
“上下文工程”往往還涉及大量元數據管理,這就需要依托關系型數據庫的能力 —— 通過關系過濾、關系查找縮小檢索范圍。每一路檢索都會產出部分結果,最終要將各路結果融合,并經過全局重排序(rerank),才能為大模型輸出其真正需要的精準結果。這正是混合檢索的核心邏輯。
首先,高性能且功能完備的向量搜索,是多路混合搜索的核心基礎。目前,OceanBase 向量搜索性能已達到業界開源向量數據庫的最優水平—— 無論是稠密向量還是稀疏向量,在向量數據庫領域主流 benchmark 測試中均表現突出。同時,我們的磁盤向量索引,在構建時間與存儲占用兩方面,也實現了業界領先。
具備強大的向量搜索能力后,我們進一步實現了向量搜索與全文搜索的深度融合,通過多路搜索顯著提升召回效果。
![]()
左側圖示清晰呈現了不同搜索方式的召回表現:僅采用單一搜索路徑(無論全文搜索、稠密向量還是稀疏向量),都難以達到最優召回效果;唯有將稀疏向量、稠密向量與全文搜索相結合,才能實現更優的召回表現,達成 1+1 大于 2 的協同效應。
值得一提的是,OceanBase 不僅擁有上述高性能向量搜索能力,還已落地生產級全文搜索功能。更重要的是,這兩大能力均構建于 OceanBase 數據庫原生架構之上,天然繼承了分布式架構的彈性擴展特性與對象存儲的高效適配能力。
在 AI 場景中,除了要開展多路搜索,還需妥善管理 AI 場景下的元數據。要做好 AI 數據庫的元數據管理,不僅需要支持元數據的實時寫入與事務一致性,還需實現元數據檢索結果與多路搜索結果的 SQL 級聯動。毫無疑問,支持 HTAP 的關系型數據庫是更優選擇。通過將關系模型與向量、全文、JSON 能力深度融合,OceanBase 最終形成了全面的混合搜索能力。
下面我簡單分享幾個 OceanBase 混合檢索的客戶實踐案例:
貨拉拉基于 OceanBase 混合檢索,搭建了一站式企業 AI 數據底座。貨拉拉的 AI 應用場景十分豐富,涵蓋知識庫、AI Coding、Agent 平臺、ChatBI 等。此前,他們曾使用多款不同產品,包括搜索產品 V search 及兩款不同的向量數據庫;升級至 OceanBase 后,實現了多產品合一,不僅解決了原有開源組件的穩定性問題,還直接復用 OceanBase 的高可用能力,達成 RPO=0、RTO<8 秒的高標準。
聯通也是借助 OceanBase 的混合搜索能力,構建了公司級統一知識庫平臺,該場景此前采用 “關系數據庫 + 全文向量搜索數據庫” 的架構。將兩者融合至 OceanBase 后,在 10 億級向量規模下,OceanBase 的處理效率達到原全文向量搜索數據庫的兩倍以上;同時通過融合關系查找與多路搜索,成功解決了知識庫的元數據管理難題,包括精細化權限管控及靈活的用戶間權限共享需求。
螞蟻百寶箱基于混合搜索實現了智能體在線搜索。此前他們曾使用向量數據庫、搜索產品及 OceanBase 本身分別管理不同數據,最終全部融合至一套 OceanBase 后,不僅幫助客戶統一了技術棧,還將業務層的多產品融合搜索能力下沉至數據庫層,極大簡化了數據架構。
![]()
AI 時代需要怎樣的數據架構?
實現 AI 場景下的混合搜索,主要有兩種路徑:
第一種實現方式是從頭開始搭建一個混合搜索的數據庫;第二種方式是直接基于關系數據庫增加混合搜索的功能。
在我看來,第二種路徑更具優勢,核心原因有兩點:1.關系型數據庫不管是在功能完備性、易用性還是生態成熟度上,均遠超其他非關系型數據庫;2.支撐 AI 場景,除了要有混合搜索能力,底層還需一套現代數據架構。
以 OceanBase 為代表的關系型數據庫,已具備成熟的現代數據架構 —— 這種架構技術壁壘高,也是 AI 時代數據庫的 Foundation。
那么什么是現代數據架構?我認為核心包含三個點:
第一個點:現代數據架構一定是非常好用的;
第二個點:現代數據架構一定是非常靈活的;
第三個點:一定是面向未來能夠支撐 AI 的。
現代數據架構的底層核心是一體化架構,用戶想要什么功能,數據庫就提供相應的功能,無需根據功能的不同而選擇不同的存儲產品、學習不同的技術棧。現在的數據庫架構非常靈活,在部署模式上,用戶可自由選擇上云、不上云或特定云平臺。
同時,現代數據架構也需要能夠支持按需使用。數據量小時用小規格部署,數據量增長后無縫擴容,完美適配從初創到規模化的全階段需求。
更關鍵的是,現代數據架構需原生支持 AI 場景。除了前文提到的混合搜索能力,原生多租戶能力也至關重要 —— 因為 AI 時代,數據庫的使用者早已不局限于 DBA 或計算機專業開發人員,每一個普通人都能通過大模型輕松構建自己的 AI Agent。
一體化架構的核心,我將其總結為 “三多”:多負載、多模態、混合多云。
- 多負載:一套數據庫引擎即可全面支持交易、分析、AI 等各類工作負載;
- 多模態:兼容多樣化數據類型與索引 —— 既涵蓋結構化數據的關系模型、半結構化數據的 JSON 格式,也支持無結構化數據的各類語義索引,比如向量、全文、圖索引等;
- 混合多云:賦予用戶完全的部署自由,可自主選擇上云、不上云或特定云平臺。更關鍵的是,用戶只需使用一套產品,就能實現跨所有公有云、混合云平臺的自動升級,無需額外適配。
目前,OB Cloud 已成為業界支持公有云平臺最多的云數據庫產品,已兼容 7 朵主流云:國內涵蓋阿里云、華為云、騰訊云、百度云四大平臺,海外覆蓋 AWS、Azure、GCP 三大平臺。我們的 OB Cloud 已落地 16 個國家和地區,覆蓋超 60 個地域、240 多個可用區,無論你身處全球哪個角落、哪個時區,都能便捷獲取 OB Cloud 一體化云數據庫。
同時,依托一體化架構,我們實現了多云及混合云環境下的用戶體驗一致性,更支持跨云高可用能力。當用戶需要跨云升級時,OceanBase 可全程保障業務連續性,確保升級過程中業務不中斷。
AI 場景的工作負載具有極強的不確定性。AI Agent 這個生態雖然數量眾多,但多數都默默無聞,僅有少數會迎來爆發式流量,且這類流量往往具備突發特性。因此,我們必須提供支持彈性伸縮架構的 Serverless 方案,以靈活應對流量波動。
此外,AI 場景需要管理海量數據 —— 包含大量長上下文數據,既有文本類型,也有多模態類型。這些數據中,大部分屬于冷數據,僅近期高頻訪問、用戶重點關注的數據為熱數據。基于此,我們通過支持對象存儲的冷熱分離方案,高效解決海量數據的存儲與管理難題。
螞蟻集團也正基于 OceanBase 開展大模型預訓練工作。為做好大模型預訓練,螞蟻需要將海量網頁內容提取至內部,再進行網頁的數據清洗與標注。這些網頁數據中,大部分屬于冷數據,但仍有部分網頁更新頻繁,因此我們通過基于對象存儲的冷熱分離方案,高效適配這一需求;同時,數據清洗與標注場景的流量具有明顯突發性 ,當一批網頁數據集中涌入時,需要動態調度計算資源實現彈性處理,而在這一過程中,就需要用到 OceanBase 的 Serverless 方案。
![]()
數模融合,一個正在被驗證的趨勢
我認為,數據與模型的深度融合,必將是未來的核心趨勢。在數據庫內直接集成模型能力,能大幅降低模型開發與使用的復雜度。
以我們的混合搜索為例:當文檔進入數據庫內部后,除了進行數據處理外,也需要對文檔做切片、解析、embedding,以及多路搜索。這一過程既用到數據處理能力,也集成了模型服務能力,包括 Parse 解析模型、embedding 模型、Rerank 模型等。
為此,OceanBase 支持了“Document in, Data out”,用戶只需將文檔寫入數據庫,通過混合搜索,就能一步獲取所需結果,真正實現開箱即用。相比傳統開發模式 —— 我們需自行尋找各類模型與組件,反復實驗拼湊,有了“Document in, Data out”,用戶真正能開箱即用,大幅降低了 AI 應用的開發復雜度。
當數據庫集成了模型服務之后,OceanBase 也同時提供了 MaaS 平臺。所謂的 MaaS 就是 Model As a Service,提供了后訓練到在線推理服務的全流程管理。MaaS 平臺支持微調等后訓練,我們也支持對模型做量化,也支持做推理的加速、模型的評測,以及各種算力的調度、模型的管理等。如今,OceanBase 的 MaaS 平臺已經支持了業界不同場景主流的大語言模型,包括海外和國產 GPU。
AI 原生數據庫的設計,必然要秉持開源、開放的核心理念。剛才我們已經正式發布了 OceanBase 首款 AI 原生混合搜索數據庫 seekdb——基于 Apache2.0 協議的 AI 原生混合數據庫,主要有以下核心能力與優勢如下:
首先,seekdb 支持多模混合搜索,僅需一條查詢,就能同時檢索關系、JSON、向量、全文等多種類型的數據;其次,它內置 AI Function 功能。因構筑于 OceanBase 原生架構之上,所以它也天然繼承了 OceanBase 原生的能力,包括 HTAP混合負載處理、MySQL 高度兼容等能力。
可能有朋友會問,seekdb 是不是 OceanBase 的輕量版?答案是,兩者并不同。它遠比輕量版更輕, 輕上加輕。此前 OceanBase 輕量版最低配置為 2C 8G,而 seekdb 首個版本已支持 1C2G ,未來還會把它的內存需求進一步降低至 1G 甚至 500M。這意味著,seekdb 不僅能部署在臺式機、桌面端,未來更可適配各類嵌入式環境。
![]()
seekdb 是基于 Apache 2.0 協議的開源產品,我們希望與業界開發者共同探索,到底什么才是真正的 AI 原生數據庫。因為有了業界開發者的參與,我相信,seekdb 的迭代速度也必將大幅提升。同時, OceanBase在 AI 的能力上將會跟進 seekdb 能力演進,為大規模、超大型 AI 應用提供落地能力和支撐。歡迎大家訪問 OceanBase seekdb 的官方網站—— oceanbase.ai,也誠摯邀請現場及線上的開發者們加入OceanBase seekdb的開源社區共建開放生態。
OceanBase seekdb是一款專為開發者打造的 AI 原生數據庫,只需三行代碼,就能快速構建應用,實現關系、JSON、向量、全文的混合搜索。這里給大家舉一個簡單的例子:
第一步,創建一個集合;第二步,在集合中添加文檔,并且可靈活指定文檔的元數據;第三步,直接使用 OceanBase 的混合搜索接口,直接獲取最終結果。
今天,我們也正式開源了 OceanBase 的 PowerRAG 產品。PowerRAG 被認為是 OceanBase 基于混合搜索的最佳實踐。PowerRAG在 RAGFlow 的框架之上構建,有兩個特點。第一個特點,是基于混合搜索做的重新設計;第二個特點,該產品已在螞蟻集團內部真實業務場景中落地應用,具備成熟的企業級能力。PowerRAG 文檔解析、處理能力,以及最終召回的效果,是具備企業級能力的,要好于業界已有的 RAG 解決方案。
同時,今天我們也正式發布并且開源 PowerMem 解決方案, PowerMem 和 PowerRAG 一樣,也是基于混合搜索的一個解決方案。它兼容 Mem0 接口,幫助開發者、用戶去管理大語言模型的上下文。同時,PowerMem 的性能在 LOCOMO Berchmark 里達到了業界開源 Memory 解決方案的 SOTA 水平(State of the Art),歡迎在座的朋友以及線上的開發者關注和加入 OceanBase 的 PowerRAG 以及 PowerMem 開源社區。
今天是 seekdb 是發布的第一天,我們已經和業界產品進行了生態對接。這里面既包括全球知名的產品 Dify、Qoder,也包括 AI 領域的創業公司。當然,我相信這些創業公司在剛開始的時候就選擇 OceanBase 這樣一個能夠解決增長問題的產品,他們未來的增長也一定會有更多的可能。
未來,我相信所有數據類的產品都會用 AI 的方式重新改造一遍。ODC 是 OceanBase 面向開發者的工具,ODC 正式推出 DataPilot。對于 ODC 而言,大家都非常熟悉它的自然語言轉化為 SQL,Text2SQL 的功能。但是,如果采用業界經典的 Text2SQL 的解決方案,會面臨一個很大的問題,那就是準確率永遠都沒有辦法滿足業務的需求。
Text2SQL 領域有個權威榜單BIRD-bench,行業內普遍認為,該榜單得分達到 80 分左右后,再想突破就十分困難。而 OceanBase 創新性地采用了 Text2Metrics 解決方案:我們先定義統一指標,對領域術語進行標準化規范,再通過這些指標約束大語言模型的生成范圍。通過這一方式,我們將自然語言到 SQL 的轉化準確率提升至 90 分以上 —— 目前已達到 92.2%,且在特定業務場景下,準確率仍有進一步提升空間。要知道,只有達到 90 分以上乃至更高的準確率,自然語言轉 SQL 技術才能真正落地生產系統,具備實實在在的業務價值。
我們還采用 Agentic AI 理念,對診斷監控產品 OAS 進行了全新設計。具體來說,我們采用 Agentic AI Multi-Agent 架構,它有一個主 Agent 負責核心的任務拆解與分配,再將不同細分任務精準下發給對應的專項 Agent 執行 —— 這個架構相信很多在場嘉賓都非常熟悉。通過這一升級,OAS 實現了從查指標、找問題到對話即診斷的跨越。用戶只需通過自然對話,就能全程完成診斷流程,系統還會一步步呈現診斷過程中的詳細信息。這既方便開發者人工介入干預,也讓 OAS 真正具備了在生產系統中落地應用的實用價值。
今天我們也正式發布了OceanBase AI Stack 智能一體機。OceanBase 智能一體機最核心的組件是 OceanBase 的一體化架構,支持多模混合搜索的數據庫。數據庫之上,我們集成了 PowerRAG、Agent 開發平臺,以及 OceanBase 數據領域的Agent—— 包括之前提到的 ODC DataPilot、基于 Agentic AI 改造的 OAS 等。數據庫之下則搭載了 MaaS 平臺,可靈活支持各類模型與算力部署。
OceanBase AI 智能一體機有兩大特點:第一是功能全面覆蓋,從底層的算力,海外或者國產算力支持,到模型、數據、RAG,到 Agent 開發,再到數據領域智能體,能完整覆蓋企業從數據底座搭建到 AI 應用開發的全生命周期需求;第二個特點,就是超高性價比,它定價親民,無需高昂成本,企業就能直接擁有 OceanBase 這套完善的端到端解決方案。
最后,我們還是回到 OceanBase 的內核,我們看看這一次OceanBase 的內核,到底帶來哪些全新的能力?
OceanBase 4.4 版本是面向混合負載的 TP/AP 融合及向量增強 LTS 版本,它融合了 OceanBase 4.2.5 LTS 的 OLTP 能力與 OceanBase 4.3.5 LTS 的 AP 及向量能力,能夠同時兼顧核心系統以及多元化業務系統對數據庫的需求。
![]()
在 OLTP 的性能方面,OceanBase4.4 版本相比 4.2.5 有了進一步的提升,有大量主鍵沖突的場景,性能提升 15% 到 42%,回表場景的性能提升 5.7% 到 9.5%,PL 性能提升會更加明顯,對于 UDF 執行的性能是提升了 2.3 倍,循環計算的性能提供了 4 倍,動態語句的處理性能提升了 3.6 倍,AP 的性能也提到了進一步的提升。相比 4.3.5 LTS,它的數據導入性能在 ClickBench 這個場景提升 37%,實時分析性能對于 ClickBench 提升 4%,TPC-H 提升 10%,TPC-DS 提升 13.7%,向量索引的性能也是得到進一步的提升。
向量索引總共有兩種索引方式,IVF 和 HNSW。IVF 的索引提升 15%,HNSW 的性能提升 4%-32%。同時在向量索引上,也針對 ARM 架構進行大量的優化,在 ARM 架構,性能有倍數的提升。
OceanBase 4.4 版本的內核能力也做進一步增強。它具備更強的安全能力以及 Oracle 的兼容能力。OceanBase 4.4 版本不僅支持全密態數據庫,還支持聯邦查詢和數據湖的融合,能夠幫助企業,尤其是金融與政企行業企業打通數據孤島。
OceanBase 4.4 版本同時支持存算一體架構,以及公有云上的存儲計算分離部署模式,適配多樣化部署需求。更值得關注的是,該版本新增了一項核心能力 —— 實時增量物化視圖。這一功能大幅強化了 OceanBase 的 HTAP 實力:讓一套引擎既能穩定支撐 OLTP 核心交易處理,又能通過動態實時的增量物化視圖,實現多維度的實時分析,實現真正的HTAP。
![]()
結語
各位嘉賓、朋友,AI 時代的浪潮已然來臨。無論你是企業管理者,還是深耕技術的同行,大家都在思考:如何真正把 AI 用好、用深、用在業務里。在這樣的背景下,一個開放、靈活、具備多模與混合搜索能力的數據庫,正成為企業邁向 AI 的關鍵基礎。它能幫你高效管理企業數據,更能將數據能力與 AI 能力深度融入業務流程,讓 Data 與 AI 真正落地生根,為業務創造實實在在的價值。
這就是我的分享,感謝大家一直以來對 OceanBase 持續的支持。謝謝!
更多企業在數據庫與AI上的應用實踐,大會中的精彩回放和資料,可通過下方鏈接,前往查看:https://www.oceanbase.com/conference2025/resources?utm_source=itpub&utm_campaign=1127
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.