最近,圖靈獎得主、Postgres 創始人、MIT 與 UC Berkeley 計算機系教授 Mike Stonebraker, 以及數據庫領域大網紅、卡耐基梅隆大學數據庫系教授 Andy Pavlo 聯合主持了一期播客, 回顧了 2025 年 AI 對數據庫的影響、數據庫行業的重大事件,以及 AI 對計算機科學教育和職業發展的作用。
![]()
老馮轉錄了視頻的文字稿,翻譯并點評了一下,供大家參考。
Data 2025:年度回顧 —— Mike Stonebraker 與 Andy Pavlo 對談錄 錄制于 2025 年 12 月 10 日 對談嘉賓:Mike Stonebraker(MIT CSAIL,圖靈獎得主,PostgreSQL 創始人)、Andy Pavlo(卡內基梅隆大學),主持:DBOS 團隊 原文地址:Data 2025: The year in review with Mike Stonebraker 中文譯評:馮若航開場介紹
[0:00] 主持人(DBOS): 大家好,感謝各位參加今天的活動。我們將與 Mike Stonebraker 和 Andy Pavlo 一起回顧 2025 年的技術發展。
今天的議程包括:深入探討 AI 與數據管理之間的相互影響——AI 趨勢如何改變數據管理,數據管理趨勢又如何反過來影響 AI。我們也會談到 AI 在數據庫運維自動化方面的應用。
之后,Andy Pavlo 將回顧今年行業發生的重大事件——里程碑式的進展、收購案、新公司的誕生、已經退出歷史舞臺的公司、被收購的公司,并探討這些變化將如何塑造 2026 年乃至更長遠的數據管理和軟件開發格局。
最后,我們會展開一場非常有意思的討論:AI 正如何影響計算機科學——它改變了教學方式、研究方式,以及許多人的職業發展道路。最后大約留 10 分鐘進行問答。
熟悉 DBOS 的朋友可能知道,它曾經代表 Database Operating System(數據庫操作系統)。這家公司起源于 MIT 和斯坦福的一個研究項目,最初是因為聯合創始人 Matei Zaharia 請 Mike 幫忙解決 Databricks 的持久化分布式隊列問題。這個契機催生了一個研究項目:在分布式數據庫之上構建操作系統,作為 Linux 的潛在替代方案——一個從設計上就更加云原生的系統。
如今,DBOS 代表 Durable Backends that are Observable and Scalable(持久、可觀測、可擴展的后端)——這個縮寫是我后來硬湊的。如果你了解 DBOS,它是一個開源的持久化工作流編排庫,能讓你的應用程序和后端具備故障恢復能力,同時提供可觀測性,并通過更簡便的隊列機制實現彈性擴展。正如一位 DBOS 用戶精辟總結的:DBOS 讓你想搞砸都難。這也是為什么 DBOS 在眾多新興 AI 應用公司中如此受歡迎——他們需要 AI 工作流無論遇到什么意外情況都能按預期運行。
Michael 稍后會詳細講解持久性與 Agentic AI 之間的關系。簡單說,這就是 DBOS。如果你正在構建軟件,想讓它輕松實現防錯和可觀測,可以了解一下 DBOS 開源庫。
你可能會好奇:我們不是數據庫公司,為什么要舉辦數據庫研發的網絡研討會?原因是:Postgres 的發明者 Mike Stonebraker 是 DBOS 的聯合創始人;我們也和 CMU 的 Andy Pavlo 是好朋友——他發明了"數據庫學"(databaseology)這個詞,同時也是 "So You Don't Have To" AI 的創始人,這是一個 AI 驅動的數據庫調優服務,推薦大家去看看。好,閑話少說,讓我們開始今天的議程,聽聽 Andy 和 Mike 怎么說。
第一部分:AI 如何影響數據管理?
[4:03] 主持人: 第一個話題是:AI 如何影響數據管理?數據管理又如何影響 AI?Mike,你先來?
[4:10] Mike Stonebraker: 謝謝 Andy。還有另一位 Andy,你好。我得先說一下,我現在身體不太舒服,狀態不是 100%,所以 Andy P,你得對我手下留情。
Sam Madden 幾周前把生成式 AI 和大語言模型形容為"自切片面包以來最偉大的發明"——他沒有原話這么說,但意思差不多。我的看法要保守得多,讓我分享一下我使用大語言模型的經驗。
【譯注】"自切片面包以來最偉大的發明"(the best thing since sliced bread)是英語中一個常見的俚語,用來形容某樣東西非常了不起、革命性。這個說法源于 1928 年美國發明的預切片面包,當時被認為是家庭生活的重大便利創新。
我關注的是企業數據,所以一個顯而易見的問題是:能不能用大語言模型來查詢數據倉庫?業界有一些公開的基準測試——BIRD、Spider、Spider 2——報告的準確率在 60% 到 90% 之間,看起來相當不錯。但這不是我在真實數據倉庫上的體驗。
我們試了 MIT 數據倉庫的一個子集,里面有學生、課程、教職員工、專業等各種信息。我們找了真實用戶——事實上,我所在的 MIT CSAIL 實驗室就是這個數據倉庫的真實用戶。我們收集了真實用戶的查詢,搞清楚對應的標準 SQL 是什么,于是我們有了一批"自然語言-標準 SQL"的配對數據。
我們用各種 LLM 在 MIT 數據倉庫上測試,準確率是零。不是說很低——是零。什么都查不出來。
然后我們嘗試了所有標準技術——RAG、把查詢分解成更簡單的部分、從其他來源補充數據——準確率勉強提升到 20% 左右。如果我們告訴 LLM 具體要查哪張表或哪幾張表,能提升到 30% 左右。但離實際可用還差得遠。
你可能會說,也許 MIT 的數據是特例。但我們在七個不同的真實數據倉庫上測試,結果每次都一樣。
有些人報告了更好的結果,但我持懷疑態度。原因如下——MIT 數據倉庫有什么特點讓它如此困難?
第一,這不是公開數據。 LLM 根本無法訪問這些數據,因為它們受到各種隱私和安全保護。
第二,MIT 有很多獨特的術語。 如果你想查"過去兩年誰主修了計算機科學"——MIT 數據倉庫回答不了這個問題,因為 MIT 根本不用"計算機科學"這種說法。計算機科學實際上叫 "Course 6.2"。還有 J-term,是一月份的一個月學期。這些東西你不能指望 LLM 知道。
第三個問題是我所說的"語義重疊"。 MIT 的數據倉庫里充滿了物化視圖,這些視圖是為了加速常用查詢而存在的。但問題在于,它給你提供了多種方式來回答同一個查詢,而且語義往往略有不同——比如有些數據是按月的,有些是按周的。
第四是復雜查詢。 這些查詢大多涉及三到四張表的連接,還帶有聚合操作,相當復雜。
[10:00] 因此,如果你的數據庫具有這四個特征中的任何一個——非公開、術語獨特、語義重疊、查詢復雜——我對用 LLM 解決問題不抱樂觀態度。
所以我的思路其實不太一樣。要想把 Text-to-SQL 做好——首先,在企業環境中,真正的問題是這樣的:我有 ERP 系統、CRM 系統,還有一大堆其他系統和大量文本,我想查詢類似"誰既是我的供應商又是我的客戶"這樣的問題。這需要查詢多個私有數據源,既有文本也有 SQL。這本質上是數據湖問題。
怎么解決數據湖問題?讓我舉個簡單的例子。我們有個學生在和德國慕尼黑市合作,處理他們的交通部門數據。有各種各樣的查詢,比如:為什么這個路口的綠燈時間不長一點?或者,電車通過沒有紅綠燈的路口時最高時速是多少?慕尼黑市有六七個不同的數據源,理論上可以回答這些問題。這是典型的數據湖場景。
我的觀點是:最簡單的方法是把這些數據源包裝成一個非常小的 SQL 子集,讓用戶能夠表達他們想要什么。我主張系統的頂層應該是面向 SQL 的,而不是面向 LLM 的。 這是我正在研究的方向。也許這是個特例,也許不是。也許 Amazon 最近發布的 Bedrock 能在這方面有所幫助。
我留給大家一個測試:試著問你最喜歡的 LLM 這個問題——"有多少 MIT 教授有維基百科頁面?"這個查詢有兩個問題。第一,"誰是 MIT 教授"的答案在 MIT 數據倉庫里——我剛才說的那些問題都適用。第二個問題是維基百科,這是另一個數據源,它有個很好用的界面——你輸入某人的名字就能看到他們的頁面。LLM 最近開始能做這個了。但我很容易給你出一個更復雜的問題,它們就答不上來了。
我的思路是:給 MIT 數據倉庫包一層封裝,讓它足夠簡單,能夠通過 Text-to-SQL(或者 Text-to-簡化SQL)來回答問題;然后給維基百科包一層封裝,就是一個"查找 Andy Pavlo"或"查找任何人"的接口。然后把這兩個系統做一個連接操作。要用迭代替換,因為維基百科頁面比 MIT 教授多得多。
在我看來,這變成了一個查詢優化問題——查詢優化器最擅長解決這類問題。這就是我的研究方向。
當然,這些觀點要打很大的折扣。第一,我只關注企業數據,別人可能關注很多其他領域。第二,我主要關注的是防火墻內部、LLM 無法訪問的數據。所以我的經驗可能比較特殊。在我看來,LLM 在某些事情上表現很好,但可能不是所有問題的答案。
好,現在讓 Andy Pavlo 來說說,他對世界的看法要樂觀得多。
第二部分:Andy Pavlo 談 LLM 與 Vibe Coding
[15:21] Andy Pavlo: 說到維基百科,我還想提一嘴——我的維基百科頁面被刪掉了,因為我的簡介里寫我是"在巴爾的摩街頭出生的"(born in the streets of Baltimore),實際上我是在巴爾的摩出生的,但顯然不是在街頭。
【譯注】這里 Andy 在自嘲。"Born in the streets" 聽起來像是說在街頭流浪時出生的,有一種"街頭混混"的既視感,而實際上他只是在巴爾的摩市出生而已。維基百科可能因為來源不可靠或措辭不當而刪除了他的頁面。
總之,我對 LLM 取得的成就要樂觀得多。在自然語言轉 SQL 這件事上,對于某些特定挑戰,確實會有困難。但我更關注的是全新應用(greenfield applications)——未來的企業應用總要從某個地方開始,而它們現在就在開始。
【譯注】Greenfield(綠地)在軟件開發中指從零開始構建的新項目,沒有歷史包袱,與 brownfield(棕地,指在既有系統上改造)相對。
Andrej Karpathy 去年創造了 "vibe coding"(氛圍編程/憑感覺寫代碼) 這個詞,我們看到大量新應用幾乎完全由 LLM 或編程代理生成。你可能會問:"這些代碼比人寫的好還是差?"差不多,因為這些模型是在海量代碼語料上訓練的。人類有時寫好代碼,有時寫爛代碼——LLM 也一樣。
【譯注】Vibe coding 是 Andrej Karpathy(前 OpenAI/Tesla AI 總監)提出的概念,指的是用自然語言描述你想要什么,讓 AI 幫你生成代碼,你只需要"感覺"一下對不對,而不是逐行編寫。這個詞帶有一點調侃意味,暗示程序員只需要"找感覺",不用真正懂代碼。
我對 LLM 作為編程代理的能力相當看好。說說我們自己的經驗:我們在卡內基梅隆教的課程,項目都是用 C++ 寫的。一年前,LLM 能解決一部分項目,但不是全部——它能生成代碼,但不是所有代碼都正確或有用。現在已經到了這樣的程度:我們的項目幾乎可以完全由 LLM 編寫和解決。
所以我認為 vibe coding 是真實存在的趨勢,我們將看到更多基于數據庫的應用涌現。但挑戰在于:你有這么多代理在生成新的應用代碼,這些代碼會和數據庫交互、讀寫數據。現在我們要處理所有涌向數據庫系統的負載。
在 LLM 出現之前,所有應用代碼都是人寫的,它們會訪問數據庫系統,你很幸運才能有一個人類或 DBA 來維護、優化和監控這些數據庫系統。現在人類不寫代碼了,也沒有人類監控數據庫系統了——這簡直是災難的完美配方。
[18:01] 在研究方面,我們已經研究了好幾年如何用機器學習和 AI 技術來自動化數據庫系統的管理和優化。這不是 AI 突然帶來的新能力——人們從 1970 年代就開始嘗試了。最早的工作之一是自動為關系數據庫選擇索引——1976 年 SIGMOD 上就有相關論文。Microsoft 的 AutoAdmin 項目也在做這件事。
但我們研究的是從整體上看待數據庫系統——嘗試調優數據庫系統中所有可調的東西,以應對來自 vibe-coded 應用的隨機查詢,同時關注數據庫系統的整個生命周期。
事實證明,LLM 在這方面相當擅長。我們現在研究的是如何同時調優數據庫系統暴露給你的所有配置。已有很多工作研究如何調優單個方面——"你需要什么最佳索引"或"系統需要什么最佳配置參數"——比如 Postgres 的 shared_buffers 或 MySQL 的 innodb_buffer_pool_size。但所有這些工具都只針對一件事。我們研究的是:如何同時調優所有東西?因為這樣才能找到數據庫的真正全局最優配置。
在我們這個領域的最新工作中,我們不是用 LLM 來做決策,而是用 LLM 來實現不同類型數據庫或不同數據庫部署之間的知識遷移。我們的算法可以在一個流程中調優索引、配置參數、查詢計劃提示、表級參數、索引日志——基本上是 Postgres 暴露給你的所有東西。我們可以把這些全部一起調優。
但問題是,你得為這個特定的數據庫實例訓練非常專用的模型。我們最新的工作是利用 LLM 來識別彼此相似但不完全相同的數據庫。然后我們可以把從調優一個數據庫收集的所有訓練數據,應用到另一個數據庫上——效果出奇地好。
[20:40] 關于這些算法的性能,我要說的是:當前研究表明,這種專門為數據庫優化和調優定制的算法,比 LLM 能做到的好兩到三倍。但 LLM 速度很快——ChatGPT 能在 15 分鐘內給你的數據庫吐出一套方案,而我們最好的算法現在需要 50 分鐘。所以這是速度和質量之間的權衡。根據問題的嚴重程度和你的需求,你可能會選擇其中一個。
[21:21] 現在我們在研究的另一個很酷的東西——也是我非常看好 LLM 的原因——是推理代理(reasoning agents):識別問題,然后決定調用哪個子代理或工具來解決它。比如,如果有異常檢測,數據庫系統有某種延遲問題,推理代理可以決定:"我要運行這個工具來構建索引,因為我認為這就是當前的問題;我要運行另一個工具來優化存儲性能。"
這就是我認為在未來一年左右會出現的真正酷炫的東西:能夠同時審視一堆不同的問題,并決定調用哪個子代理。子代理可以是 LLM,也可以是這些定制算法之一。我認為這非常令人興奮,LLM 在這個領域絕對是顛覆性的。
第三部分:Agentic AI 與數據庫技術
[22:18] Mike Stonebraker: 我認為,至少在數據管理領域,自動調優應該能成功,因為它理應可行,理應具有商業價值。所以我很高興看到"OtterTune 二代"還活著,盡管 OtterTune 本身沒能成功。
【譯注】OtterTune 是 Andy Pavlo 之前創辦的數據庫自動調優公司,后來關閉了。Mike 這里用"Son of OtterTune"(OtterTune 之子)來調侃 Andy 新的創業項目 "So You Don't Have To" AI。
[22:52] Andy Pavlo: 我得說,OtterTune 面臨的挑戰是——因為我們不托管數據庫系統——存在形態問題,需要用戶授權我們連接到他們的數據庫。而且 OtterTune 是被動調優,在系統外部觀察發生了什么,然后做改變,再觀察后來發生了什么。
我們現在做的新工作不同——我們不是要托管數據庫系統,而是尋求與現有平臺集成。如果你在應用程序和數據庫服務器之間放一個代理(想想 PgBouncer、PgCat、PgDog——現在有很多這樣的 Postgres 代理和其他系統的代理),你就能看到查詢到達時的樣子,可以在查詢進入時操縱它們。我們仍然不托管數據庫系統本身,但至少現在我們能看到我們所做改變的效果——這對我們能做的事情產生了很大影響,而 OtterTune 做不到這一點。
從商業角度,我們現在的做法是:不再做一個獨立產品讓用戶注冊、連接數據庫、授權等等,而是在討論與現有平臺做 OEM 白標集成。這讓我們可以專注于 ML 數據庫這一塊,而不用操心開發者體驗和入職流程。
[24:20] Mike Stonebraker: 好吧,祝你好運,希望你成功。
Andy Pavlo: 謝謝 Mike。
[24:26] Mike Stonebraker: 我想談一件事:整個世界都愛上了 Agentic AI。在我看來,Agentic AI 意味著你有一個工作流,里面有些是 LLM,有些是 AI,有些是別的什么。也就是說:如果 LLM 不能直接做某件事,也許你可以在它周圍加一些東西,讓它更成功。我們在 MIT 做了很多這方面的工作。
DBOS 早期發現的一件事是:總體而言,Agentic AI 應用需要持久化計算(durable computing),因為這些東西很多是長時間運行的,如果出錯,你不想從頭再來。所以持久化計算在 Agentic AI 中是個大問題。有一堆商業產品在做這個。
但到目前為止,Agentic AI 基本上是我所說的"只讀"——你查詢一堆地方,然后拼湊出結論,比如"我預測 Andy Pavlo 的 OtterTune 繼任者會成功"之類的。
我認為用不了多久,Agentic AI 就會變成"讀寫"的。這意味著持久化計算本質上就是事務系統中 ACID 的 D(Durability,持久性)。完全是同一回事。現在大家實現持久性的方式都在使用數據庫技術——你有一個日志,如果出了問題,你回滾然后重放。
[26:39] 所以這將是一個數據庫問題,而妙處在于:它要求你把應用狀態放進數據庫。正如 Andy Pavlo 剛才說的,我相信數據庫將逐漸接管應用程序狀態的存儲——因為這樣你就能獲得持久性。
但一旦涉及讀寫……我最喜歡的例子是:假設你在經營一家在線自行車店。服務器端的大致流程是這樣的:客戶進來說"我想買一輛 XYZ 自行車"。你的第一個動作是:"我有沒有這輛車?"所以你需要查詢庫存,如果有就預留它。
第二步,如果有貨,你要確認是否愿意和這個客戶做生意。這可以用 LLM 來判斷:這個客戶是不是退貨太多?信用評級如何?等等。
如果都沒問題,第三步就是收錢——PayPal 或者你喜歡的任何支付系統。如果這也沒問題,就發貨。
所以基本上是四個步驟,每個都是一個事務,大多數涉及更新操作。比如,如果你給履約系統一個錯誤的地址,它就得把所有東西回滾。這些步驟里有一堆更新操作。
[28:36] 這就是涉及更新的場景。你必須處理失敗情況。持久性只處理正向場景——完成你的工作流。你還必須處理回滾,這需要某種原子性的概念。
[29:04] 我認為搞清楚 ACID 對工作流來說到底意味著什么,是一件大事。我正在推銷我為 CIDR 寫的一篇論文,將在一月份發表。我認為那是一個過渡性的解決方案,但不是最終方案。搞清楚這一切還需要一些時間。
另一個問題是:目前 LLM 的架構方式,大多數是非確定性的。所以如果你的代碼有 bug,你很可能無法復現它。數據庫領域的人對此早就知道了。這叫做 Heisenbug(海森堡 bug)——不可復現的 bug,相對于 Bohrbug(玻爾 bug)——可復現的。Jim Gray 很久很久以前寫了很多關于這個的東西。我們顯然要重新審視所有這些問題。
【譯注】Heisenbug 這個名字來源于量子力學的"海森堡不確定性原理"——你一觀察它,它就消失了。Bohrbug 則來源于玻爾的確定性原子模型。這是 Jim Gray 在 1985 年提出的術語,用來描述軟件中兩類不同性質的 bug。
[30:02] 所以我認為,這是一個數據庫技術將對 Agentic AI 產生巨大幫助的領域——讓它實現"ACID-plus"或者不管最終叫什么。我認為這將是一件大事。
關于編程語言方面——事實已經證明它非常有用。Vibe coding 確實有效,在全新應用上效果最好——絕對正確。問題是 95% 的企業程序員不是在做全新項目,他們得處理已有的系統。
而且眾所周知,vibe coding 在代碼結構良好的情況下效果最好。但問題是,典型的企業系統不是這樣的。系統被更新、維護、打補丁、更新、維護、打補丁……最后變得太丑陋了,你只好扔掉重寫。
所以我認為,要想最大限度地利用 vibe coding 的優勢,我們必須改變企業編寫軟件的方式。還有大量工作要做。
第四部分:2025 年行業回顧——并購與市場動態
[31:43] Andy Pavlo: 不僅僅是并購——今年數據庫領域風起云涌。我感覺今年的活動比去年還多。
先說說主要的收購案。最大的一筆可能是 Databricks 收購了 Neon,緊接著 Snowflake 收購了 Crunchy。所以 Postgres 生態有很多動作——我們稍后會談到。
IBM 買了兩家數據庫公司。 年初買了 DataStax——這是開發 Cassandra 的主要公司。然后我記得這周剛宣布收購了 Confluent——Kafka 背后的主要公司。這些都是大手筆。
融資方面,ClickHouse、Supabase 都完成了大額融資。Databricks 又融了一大筆,因為他們總是在融錢,等著 IPO。Informatica 被 Salesforce 收購了。SkyDB 被 MariaDB 又買回去了——這個比較奇怪,因為他們去年好像是把它拆分成獨立公司的,今年又買回來了。
另一個大消息是 Fivetran 正在與 dbt 合并——我想這筆交易明年會完成。
所以是的,又是活動頻繁的一年。
[33:17] 關于倒閉的數據庫公司,我曾預測 2025 年會有更多公司失敗。大約兩年前有一份 Gartner 報告也做了類似的推測。但我能想到倒閉的只有兩三家:Voltron Data 幾周前宣布關閉;Fauna 五月份關閉;還有一家叫 MycaleDB 的中國 MySQL 托管公司今年早些時候倒閉了。
所以我預測錯了。我以為會有更多數據庫公司倒閉。數據庫公司的朋友們告訴我,其實今年相當不錯。這是積極的信號。當然確實有一些公司倒閉了,但沒有我想象的那么多。也許有些公司在苦苦支撐,誰知道呢。
有兩家公司被私募股權收購了:Couchbase 和 SingleStore。SingleStore 被一家叫 Vector 的私募公司收購了——他們幾年前買過 MarkLogic,所以有運營數據庫公司的經驗。但通常私募股權買下一家公司后,會讓它進入維護模式。希望 Couchbase 和 SingleStore 能挺過去。
[34:50] 說到今年的整體氛圍——顯然,Postgres 又是輝煌的一年。說到 Mike——我喜歡開頭介紹里他被列為 Postgres 的發明者,而我被列為一個網絡梗"數據庫學"的發明者。當然不是一回事,但我就當個榮譽收了。另外我們也可以加上圖靈獎——那更重要。
是的,Postgres 今年太瘋狂了。Databricks 買了 Neon,還買了 Mooncake——這讓他們有了讓 Postgres 讀寫 Iceberg 的能力。微軟剛剛發布了 Horizon DB——這是他們托管版的 Postgres,架構類似 Neon,采用存算分離,大概兩三周前宣布的——是他們一直在做的項目。
所以越來越多的 Postgres。
[35:42] 在開源數據庫領域,唯一可能算是 Postgres 競爭對手的是 MySQL——但那條船已經開走了。而且 Oracle 解雇了基本上整個 MySQL 開發團隊,只留下做 HeatWave 的——九月份的事。所以現在真的沒有什么大公司在全力投入 MySQL 的開發。基本上,Postgres 已經贏了。
這真是太令人興奮了。Postgres 的代碼庫——非常漂亮,前端很棒。后端有點問題,我寫過博客文章,我們也報道過這個。
Supabase 整合 OrioleDB 的努力非常令人興奮,因為那是多版本并發控制和其他機制的現代實現。Postgres 的那些機制——Mike,你們當年在 80 年代做的時候,根本沒有其他系統可以參考怎么做。所以希望他們能糾正你們當年在伯克利犯的錯誤。
[36:45] 總之,數據庫商業領域現在非常活躍。正如我說的,大量 vibe coding 應用正在生成,而 Postgres 是很多應用的默認選擇。
還有一件事要提——有兩個重大項目宣布要做分布式 Postgres。一個是 Supabase 的 Multigres,由發明 MySQL Vitess 的那個人領導——Vitess 后來被商業化為 PlanetScale。然后 PlanetScale 也宣布了一個叫 Naki 的項目,試圖做一個類似的分片、無共享版本的 Postgres。
有趣的是,這不是第一次有人嘗試做分布式 Postgres。2000 年代末、2010 年代初有一堆這方面的工作——Translattice、Greenplum,我記得華為也有一個項目。但對于 OLTP 工作負載,沒有人真正成功做出來。
我認為現在有足夠的能量,時機終于到了——你終于可以擁有一個真正可擴展的分布式 Postgres——不管是通過 Multigres 還是 Naki。這是我期待明年會出現的一個重大進展。
第五部分:Postgres 的未來與向量數據庫
[38:14] Mike Stonebraker: 說到 Postgres,我認為 Postgres 已經并將繼續統治世界。原因是所有主要云廠商都把寶押在了 Postgres 用戶接口上。Postgres 的線協議將無處不在。
他們要么選擇一個標準來開發,要么自己搞一套,而每一家都選擇了 Postgres 線協議。
我認為這是一個好選擇的原因是:很多年前 Oracle 收購了 MySQL,這讓社區對 MySQL 能否保持社區屬性產生了疑慮。
我覺得 Postgres 最令人驚嘆的是:這個系統不屬于任何企業——它由一群非常非常聰明的人運營,這些人在各種不同的地方工作。 所以你應該把 Postgres 看作開源本來應該是的樣子。它來自社區,服務于社區。
[39:46] 我還想談幾件事。第一,有人在聊天里提到了 Kumo。是的,我們看過 Kumo。Kumo 做的是預測,不是 Text-to-SQL,他們解決的是不同的問題。
另外,還有其他分布式 Postgres 類的東西。Greenplum 是一個,CockroachDB 是另一個,Yugabyte 也是。還有幾個我一時想不起名字了。但我認為,如果你還沒有把寶押在 Postgres 上,現在這樣做絕對是正確的。
[40:43] 我還想指出,Andy 和我幾年前寫了一篇論文,叫做《What Goes Around Comes Around... and Around》(風水輪流轉……轉眼又一圈)之類的。你們都應該回去讀那篇論文,因為在我看來,那是對未來走向的絕佳預測。
【譯注】這是 Mike Stonebraker 和 Andy Pavlo 在 2024 年發表的論文,是對 2005 年經典論文《What Goes Around Comes Around》的續篇。論文回顧了數據庫領域的技術輪回,指出很多"新"技術其實是舊概念的重新包裝。
舉個例子,現在對向量索引或向量數據庫有很大興趣。那么,什么是向量數據庫?向量數據庫就是一堆關系型的 blob,加上一個圖結構的索引。
讀過 Frank McSherry 工作的人都知道,他清楚地表明:做圖檢索的最佳方法是——盡可能多地對圖進行編碼,把它放進內存,然后寫一個定制的查詢執行器來處理。成功的向量數據庫似乎正是這么做的。
所以我的觀點是:去讀那篇論文吧,我認為它對未來走向的預見性很強。
[42:11] 主持人: 謝謝。我們會把論文鏈接和活動錄像一起分享給大家。
在我們轉向計算機科學的未來之前,快速問一個問題。你剛才提到向量數據庫,有不少關于向量數據庫的問題。Andy,你有沒有特別喜歡的向量數據庫?你對向量數據庫這個領域整體怎么看?
[42:36] Andy Pavlo: 我得小心措辭,免得得罪人。
我是說,我喜歡 Weaviate 的團隊。我沒用過他們的系統,但他們非常開放——開源的,文檔寫得很好——我能理解他們在做什么,比其他家可能更清楚一些。所有向量數據庫公司都來我們這兒做過演講,都在 YouTube 上。
這些向量數據庫公司需要想清楚的問題是——我幾年前和 Weaviate 的 CEO 聊過這個——現在他們不是作為主數據庫在用。正如 Mike 說的,它們基本上是 JSON blob,里面放著向量嵌入,然后他們為這些建索引。現在很多人把它們當成 Elasticsearch 來用——就像數據庫的第二份副本,你可以在上面跑最近鄰搜索,不干擾數據倉庫或常規的 OLTP 工作負載。
[43:48] 所以他們會走到一個十字路口,必須決定:是繼續做一個像 Elasticsearch 那樣的邊緣專用數據庫(這沒問題,有市場),還是想成為主數據庫。如果是后者,你就得開始添加 Postgres、CockroachDB 或 Oracle 提供的所有那些東西——事務、SQL 等等。
所以他們得決定怎么走。
不過我要說,挑戰在于:歸根結底,向量索引就是索引而已。所以對于像 Postgres 這樣高度可擴展的系統,你可以很快添加這些新的索引類型。
值得注意的是,當 ChatGPT 在 2022-2023 年左右成為主流時,然后 RAG 成了人人都在說的熱詞,大家意識到"噢,怎么做 RAG?你需要向量索引"——所有主要數據庫廠商在一年內都添加了向量索引。很多都利用了開源庫,比如 Meta 的 DiskANN 或 FAISS。添加這些東西并不是大工程。
相比之下,當列存儲出現時——那是相當根本性的工程改變,你必須改造系統來支持向量化執行或列存儲。而向量索引,你可以直接塞進去,很快就能跑起來。
[45:23] 所以對我來說,這表明專門的向量數據庫系統的護城河沒那么寬。當然,它們做的事情肯定比 pgvector 好很多,但對于 99% 的人來說,用 pgvector 可能就夠了。
[45:46] Mike Stonebraker: 好,再補充兩點。
第一,花哨的向量索引基本上局限于內存。 所以如果你的問題超出了內存容量,性能會斷崖式下降。
第二,如果你的向量有大量更新,更新索引是個噩夢級的問題。 絕對是噩夢。
所以,如果你的數據是只讀的、規模不大,我認為向量索引沒問題。但如果你有大量更新,問題就復雜得多。而且如果你把索引和數據放在同一個主系統里運行,至少可以保持一致性。
[46:54] Andy Pavlo: 我是說,也不是那么一致,對吧?因為有時候這些索引你得重跑聚類算法,那意味著你得重新掃描所有數據。這和全文搜索的倒排索引面臨的挑戰一樣。它們可能有一個側緩沖區,你先吸收所有寫入,然后最終得運行代價更高的重建任務。
第六部分:GPU 數據庫與 IBM 收購
[47:21] 主持人: 謝謝。關于市場還有一個問題。Andy,你提到 Voltron 關門了。有人問這對 GPU 加速數據庫的未來意味著什么?
[47:33] Andy Pavlo: 好,我得小心點。
我對 GPU 數據庫一直持懷疑態度。2018 年我們有一個研討會系列,邀請了所有主要的 GPU 數據庫廠商來校園。我記得他們會炫耀各種驚人的數字,但那些只適用于能裝進 GPU 內存的數據庫。而且他們總是拿 Greenplum 來比——2018 年誰還在乎 Greenplum 啊?
所以我當時很懷疑,因為這看起來很小眾——你的數據必須足夠小才能裝進 GPU。
但發生變化的是——Voltron 在他們的論文項目或論文系統中展示的(雖然沒有找到產品市場契合點或商業可行性)——他們展示了如何快速地把數據從磁盤流式傳輸到 GPU,讓 GPU 作為整個數據系統的加速器,而不用把所有東西都加載進去。
對我來說,這才是顛覆性的變化。不點名的話,我預計——你們應該預期——2026 年會有一些主要數據庫廠商宣布他們現在支持 GPU 加速。
[49:00] 主持人: 酷。還有一個市場問題。IBM 收購 DataStax(Cassandra)和 Confluent(Kafka 和 Flink)如何改變 IBM 在數據庫市場的地位?
[49:07] Andy Pavlo: 噢,Mike 當過 Informix 的 CTO。他可以講講 IBM,對吧?
我是說,DB2 仍然賺很多錢。IMS 可能還在收維護費。他們在這些老東西上仍然賺很多錢。今天的 IBM 不是 IMS 時代的 IBM,文化和產出都變了。
【譯注】IMS(Information Management System)是 IBM 在 1966 年推出的層次型數據庫,至今仍在一些大型企業的核心系統中運行,是"古董級"但仍在收費的產品。
所以,還得看吧?還得看他們會多深入地參與 DataStax 和 Confluent 的日常運營——是像 Red Hat 那樣讓他們作為衛星公司獨立運作,還是快速整合成 IBM 整體咨詢服務棧的一部分。
[49:56] 對于 Cassandra 來說,Cassandra 源代碼的第二大貢獻者其實是蘋果。蘋果運營著世界上最大的——如果不是最大也是最大之一的——公開 Cassandra 集群。所以我認為 Cassandra 的管理權會沒問題的。
Kafka 的話,還得看。但 Jay 是個聰明人,在 Confluent,我相信他們會想出辦法的。
【譯注】Jay Kreps 是 Kafka 的創始人之一,也是 Confluent 的聯合創始人兼 CEO。
[50:43] Mike Stonebraker: 我認為你們都應該記住的是:IBM 基本上是一家服務公司和定制軟件開發公司。
很明顯發生的事情是 IBM 的客戶一直在要求這兩個系統。所以 IBM 有足夠的閑錢直接買下它們。
但我認為 IBM 有一個遺留硬件業務和一個巨大的遺留軟件業務。他們會繼續榨取這些業務的價值,直到這個電話會議上的每個人都安全退休。
第七部分:計算機科學教育與職業發展的未來
[51:33] 主持人: 好,讓我們換個話題,談談計算機科學以及 AI 如何影響課程設置——MIT、CMU 和其他地方——以及職業機會。
事實上,問答區已經有人問了:在 DBMS 公司找工作需要什么技能?Andy,也許你可以先談談 AI 如何影響了 CMU 的課程?
[51:58] Andy Pavlo: 我得說,現在沒人知道答案。 LLM 在回答考試題目、作業問題上好得驚人。
說個軼事,在我們的數據庫系統入門課上,第一個作業是:我們給你一個數據集,給你問題——有點像在解決 Mike 剛才說的那個問題——你必須寫 SQL 來回答問題。我們相當確定大多數學生在用 LLM。事實上,老實說,我在學期開始時鼓勵他們用 LLM——這是現在任何開發者都應該使用的工具,就像 GDB 或其他調試工具一樣。這就是世界的現狀。
但我要說,最終你必須理解基礎。這是卡內基梅隆一直在更加強調的——我們一直在這方面做得很好,但現在比以往任何時候都更重要。
[52:55] 回到 vibe coding 的話題。你可以讓 LLM 生成一堆代碼,但如果你不理解這些代碼試圖做什么、你試圖實現什么,你就會迷失。
所以我說,你應該學習的是計算機科學的核心基礎,這部分其實沒變。不管是用 JavaScript、C++、Rust 還是什么——語言和工具可能變,但基礎很重要。理解軟件在為你做什么。
[53:40] 關于在數據庫系統公司找工作需要什么技能——我認為目前沒有太大變化。理解系統基礎,理解硬件在做什么。
數據庫的美妙之處在于你必須理解一切——你會接觸到所有層面。所以你必須理解硬件想做什么、操作系統想做什么(或不想為你做什么)、網絡想做什么。理解所有這些。
然后我要強調的是:能夠與你沒有寫過的大型代碼庫互動、操作和理解。同樣,LLM 在這方面很有幫助。
[54:17] 還有調試——因為這個問題不會消失。LLM 還解決不了這個——我認為它們最終會做到。但理解復雜組件如何協同工作、相互交互、識別 bug、識別競態條件和其他問題——這個問題不會消失。這些東西只能通過實踐獲得。有很多方式可以做到。
我得說,現在的資源比 Mike 當學生時好太多了,比我當學生時也好太多。現在有很多東西可以幫助人們理解數據庫系統在做什么。就是去做就行了。
[54:59] Mike Stonebraker: 我認為只要你來自一流大學,主修 CS 就會沒問題——正如 Andy 說的,你會學到如何利用所有可用的工具來提高生產力。
如果你從 Control Data Institute 或那類地方畢業,我認為市場會很糟糕——因為那里只教你寫代碼,而這不會是一個很有市場價值的技能,除非你超級超級超級聰明。
【譯注】Control Data Institute 是美國一家已經倒閉的職業培訓學校,曾經提供計算機相關的職業培訓課程。Mike 這里用它來泛指那些只教技術操作、不注重計算機科學基礎的培訓機構。
[55:48] 所以我認為,一流大學的 CS 專業招生總數可能會持平或下降一段時間。之后會怎樣,我不知道。
[56:00] Andy Pavlo: 但我還要說——一方面是的,因為 AI 幫助了很多事情,找工作會更難。但回到 vibe coding 那點,現在構建東西太容易了。
所以最終目標不一定是去 Google 或 Apple 或誰那里工作——你可以自己干。當然,我知道對很多人來說,由于不同的經濟狀況,說起來容易做起來難。但這也是令人興奮的一點——進入門檻大大降低了。
但同樣,我要說你仍然需要理解基礎。
第八部分:問答——核心數據庫基礎
[56:36] 主持人: 有一個關于基礎的問題。實際上有好幾個。人們在問:你認為最重要的數據庫內部基礎概念是什么?應該學習或掌握哪些來提升職業機會?
[56:52] Andy Pavlo: 我是說,一個——不是要推銷自己的東西——但我們把所有課程材料都放在 YouTube 上了,你可以做所有編程作業,做所有家庭作業,不用付 CMU 一分錢。所以都在那兒,盡管去學吧。
我覺得就是 ACID 那一套,對吧?原子性、一致性、隔離性、持久性。理解那是什么樣子——如何把數據從非易失性存儲移到內存中并進行交互。如何確保人們可以訪問他們的數據而不丟失任何東西。
這些是高層次的基礎。作為其中的一部分,你得理解算法復雜度。你得理解數據結構。你得理解優化技術。你得理解并發控制。一點關系代數的集合論也總是有用的。
[57:54] 我會稱這些為基礎。然后正如我之前說的,數據庫系統的美妙之處在于:無論你對計算的哪個方面感興趣,你都可以在數據庫的背景下做。
如果你喜歡算法,那個領域有很多工作可以看。如果你喜歡網絡,你可以做那個。如果你喜歡編程語言,有一堆嘗試改進 SQL 或改變 SQL 的工作。
無論你對什么感興趣,你都可以在數據庫的背景下做。而且通常人們會為此付你很多錢。所以這就是為什么我對這個領域很看好。
第九部分:為什么選擇成為數據庫研究者?
[58:27] 主持人: 好,我們到整點了,最后一個問題。這是注冊表上有人問的。問題是問你們倆的:你們為什么選擇成為 DBMS 研究者?
Andy Pavlo: Mike,你講講征兵的故事。
[58:46] Mike Stonebraker: 嗯,簡單的答案是:我讀研究生是因為當時有征兵制。 我的選擇是:去加拿大、進監獄、去越南,或者讀研究生。這讓事情變得很簡單。
進了研究生院之后,我設法待到了 26 歲,然后軍隊就不要我了。
【譯注】這里說的是越南戰爭時期(1955-1975)美國的征兵制度。當時年輕男性面臨被征召入伍的風險,但研究生可以獲得延期服役的資格。26 歲之后通常不再被征召。
所以當我找到工作時——順便說一下,我認為我的論文完全是胡扯——當我到伯克利時,我說:"好吧,我得想辦法拿到終身教職,得找個新東西來研究。"
[59:47] 對我產生巨大影響的一件事是伯克利給了我一個導師:Gene Wong(黃煦濤)。Gene 說:"我們來看看這個——Ted Codd 剛剛寫了這篇開創性的論文。"那是 1971 年;他的論文 1970 年發表在 CACM 上。
于是我們開始研究數據方面的東西。Ted Codd 的東西簡單易懂,有一些數學基礎。另一個提案來自數據系統語言委員會(CODASYL),那是個低層次的圖結構的東西,完全是一團糟。
Gene 和我看著彼此說:"怎么可能這么復雜的東西是正確的做法?"
所以這就定下了方向。很多是偶然,但很多是因為在你落腳的大學找到一個好導師。
【譯注】Ted Codd 是關系型數據庫之父,1970 年發表的論文《A Relational Model of Data for Large Shared Data Banks》奠定了關系數據庫的理論基礎。CODASYL(Conference on Data Systems Languages)則提出了網狀數據庫模型,在當時是 Codd 關系模型的主要競爭對手。
[1:01:06] Andy Pavlo: Mike 的故事比較傳奇。
我的情況是,我高中時被逮捕了,我不想進監獄。 所以我查了聯邦監獄管理局的統計數據,看什么類型的美國人進監獄的比例最低?是有博士學位的人。
所以我想,如果我拿個博士,進監獄的可能性就更低了。這就是我決定讀博的原因。
然后數據庫對我來說就是自然而然的事。我在一家不太正經的創業公司工作過,我們切換到 MySQL,我高中時就學了關系模型。太棒了。
Mike Stonebraker: 你應該講講你真的進監獄那次。
Andy Pavlo: 呃,等等。我被逮捕的時候,我們認罪的是地方指控,沒走聯邦程序。所以我從來沒進過監獄。
但我確實試過在監獄向我妻子求婚。他們從來沒真的把我關進去,Mike,因為他們擔心一旦我進了監獄,我就在他們的保險范圍內了。所以如果我出了問題或受傷,他們會被開除。所以我一直在外面的拘留區。
[1:02:25] 主持人: 嗯,好吧。不是我預期的答案,但非常精彩。
結語
[1:02:31] 主持人: 好了,我們得結束了。很抱歉沒能回答所有問題。
感謝 Mike 和 Andy,還有 DBOS 的 Jen,感謝你們幫助舉辦今天的網絡研討會,分享你們的智慧和經驗。
祝你們和所有在線的朋友節日快樂、新年快樂,期待 2026 年的活動再見!
正文完
觀點總結與老馮評論 Mike Stonebraker 的核心觀點 1. 對 LLM 做 Text-to-SQL 持悲觀態度
觀點摘要: 在真實企業數據倉庫上測試 LLM,準確率幾乎為零。原因有四:數據非公開、術語獨特、語義重疊、查詢復雜。他主張用 SQL 封裝數據源,讓查詢優化器解決問題,而非依賴 LLM。
老馮評論: 這是對 Text-to-SQL 炒作的當頭棒喝。學術界和媒體吹捧 60-90% 準確率,但那是在玩具數據集上的成績。一到真實企業環境——MIT 數據倉庫這種用"Course 6.2"代替"計算機科學"的奇葩命名——LLM 立刻原形畢露。
這揭示了 LLM 的本質局限:它們是模式匹配器,不是推理引擎。企業數據的"暗知識"——隱性業務規則、歷史遺留術語——不在訓練語料里,LLM 自然束手無策。Mike 的"SQL 封裝 + 查詢優化器"方案,本質是承認:結構化問題還得用結構化方法解決。
2. Agentic AI 需要 ACID,數據庫技術將大放異彩
觀點摘要: 當前 Agentic AI 是"只讀"的,很快會變成"讀寫"。一旦涉及更新操作(如在線購物流程),就需要事務語義——原子性、持久性、回滾能力。這正是數據庫技術幾十年來解決的問題。
老馮評論: 這是 Mike 最具遠見的觀點。當前 AI Agent 框架基本都是"樂觀執行"——假設一切順利,出錯就重來。這在真實業務場景中是災難。
Mike 用自行車店的例子講得很清楚:查庫存→檢查信用→收款→發貨,每一步都可能失敗,失敗后必須回滾前序操作。這不是新問題——這就是 ACID 事務要解決的問題,只是披了層 AI 的皮。
我完全同意這個判斷:未來 1-2 年,數據庫技術(尤其是工作流事務、Saga 模式)將成為 Agentic AI 的核心基礎設施。DBOS 確實踩準了這個點。 這也是最近 PG 生態的各路 Agent DB 都在蹭 "Git for Data" 熱度的原因 —— 老馮在《Agent 需要什么樣的數據庫?[2]》中剛探討過這個問題。
3. Postgres 已經贏了,押注 Postgres 是正確選擇
觀點摘要: 所有主要云廠商都選擇了 Postgres 線協議。Postgres 的治理模式是"開源該有的樣子"——社區所有,沒有單一企業控制。Oracle 收購 MySQL 后社區失去信任,Postgres 因此受益。
老馮評論: 這是事實陳述,不是預測。Postgres 確實已經贏了——至少在開源關系型數據庫領域。AWS Aurora、Google AlloyDB、Azure Horizon DB、Supabase、Neon……所有人都在 Postgres 生態里玩。
Mike 作為 Postgres 創始人說這話,難免有"王婆賣瓜"之嫌,但客觀來說他沒說錯。MySQL 在 Oracle 手里確實涼了——今年 Oracle 裁掉了幾乎整個 MySQL 團隊。
不過老馮要補充一點:Postgres 贏了"協議戰",但這也意味著 PG 發行版內戰即將打響。詳見《PostgreSQL 主宰數據庫世界,而誰來吞噬 PG?[3]》
4. 向量數據庫是"內存圖索引 + 關系型 blob",護城河不寬
觀點摘要: 向量數據庫本質上是給 JSON blob 加了個圖結構索引。兩大限制:只能在內存里跑(數據大了性能斷崖)、更新索引是噩夢。
老馮評論: 這是對向量數據庫最精準的降維打擊。Pinecone、Weaviate、Milvus 炒得火熱,但 Mike 一句話戳破泡沫:你們做的不過是 Postgres 擴展能做的事。
事實也確實如此——pgvector 出來后,大多數場景根本不需要專門的向量數據庫。Mike 說"99% 的人用 pgvector 就夠了",Andy 也表示認同。
我在兩年前《專用向量數據庫涼了嗎?[4]》一文中就預測過這一點。 向量數據庫公司的出路:要么做到極致性能(服務那 1% 的大規模場景),要么轉型成完整數據庫(加事務、加 SQL)—— 但后者意味著和 Postgres 正面硬剛,幾乎是死路一條。順帶一提,PG 生態里已經有擴展在做 DiskANN 了,在 NVMe SSD 上跑得相當不錯。
Andy Pavlo 的核心觀點 1. Vibe Coding 是真的,LLM 正在改變軟件開發
觀點摘要: Andrej Karpathy 創造的"vibe coding"概念正在成為現實。CMU 的課程項目現在幾乎可以完全由 LLM 解決。代碼質量和人寫的差不多——因為都是從同一個代碼語料庫學來的。
老馮評論: Andy 比 Mike 年輕 40 歲,他的樂觀主義反映了新一代研究者的心態。Vibe coding 確實在發生——GitHub Copilot、Cursor、Claude Code 的普及就是證明。
但 Andy 有一個關鍵前提經常被忽略:vibe coding 只對新項目有效。他自己也承認,95% 的企業程序員不是在做新項目開發。那些幾十年積累下來的屎山——被反復"更新、維護、打補丁"直到丑陋不堪——LLM 同樣束手無策。
所以 vibe coding 的真正影響可能是:新應用開發加速,但遺留系統維護依然是噩夢。這會加劇新舊兩極分化——用 AI 寫的新系統越來越多,老系統越來越沒人愿意碰。
2. 數據庫自動調優需要 LLM + 專用算法的組合
觀點摘要: 專用調優算法比 LLM 好 2-3 倍,但 LLM 快得多(15 分鐘 vs 50 分鐘)。未來方向是用"推理代理"來調度——可能調 LLM,可能調專用算法。
老馮評論: 這是 Andy 作為 OtterTune 創始人的復盤總結。OtterTune 失敗的原因他講得很清楚:形態問題——需要用戶授權連接、被動觀察而非主動干預。新方案通過 proxy 模式解決了這個痛點。
"LLM + 專用算法"的組合思路非常務實:LLM 擅長快速給出"差不多"的答案,專用算法擅長精雕細琢,用推理代理調度兩者,工程上完全可行。
不過我一直有個疑問:數據庫調優真的需要這么復雜嗎? 大多數 Postgres 性能問題,有經驗的 DBA 看 10 分鐘就能定位。用 Pigsty 這樣的發行版,重要參數都已經自動調到對生產"足夠好"的程度——從"足夠好"調到"最優",邊際收益有多大?
真正需要自動調優的場景是:(1) 沒有 DBA 的小公司;(2) 大規模多租戶場景。這兩個市場能養活一家公司嗎?OtterTune 的失敗說明,至少單獨做這個不行。Andy 現在的策略是 OEM 白標集成,比獨立產品務實得多。
3. 計算機科學教育的核心不變:理解基礎
觀點摘要: LLM 能解決 CMU 的作業,但學生仍需理解基礎——ACID、數據結構、算法復雜度、并發控制。語言和工具會變,基礎不變。
老馮評論: 老生常談,但在 AI 時代重提很有必要。Andy 說得對:如果你不理解代碼在做什么,LLM 生成再多代碼也沒用。
Mike 說得更直白:從 Control Data Institute(職業培訓機構)那種地方出來的人會很慘,但一流大學出來的人沒問題。 言下之意:編程正在分化 —— 頂尖人才設計系統,AI 寫代碼,頭部專家發揮幾十倍的效能,普通程序員直接出局。 殘酷,但可能是真實的未來。
4. 向量數據庫護城河不寬,pgvector 對 99% 的人夠用
觀點摘要: 向量索引就是索引,Postgres 一年內就加上了。向量數據庫要么做專用場景(二級索引),要么加事務/SQL 變成完整數據庫——后者意味著和 Postgres 正面競爭。
老馮評論: Andy 在這一點上和 Mike 完全一致——這也說明這是數據庫圈的共識 。老馮覺得,向量數據庫真的已經很無聊了。
總結
Mike Stonebraker 是 “老派智慧” 的代表 —— 50 年數據庫經驗讓他對技術炒作保持警惕。 他的悲觀主義不是因為不懂 AI,而是因為見過太多大風大浪后的一地雞毛了。 他對 Agentic AI 需要 ACID 數據庫 的判斷非常精準,這可能是這場對話中最有價值的洞見。
Andy Pavlo 是"新生代務實派" —— 既不盲目樂觀,也不固守舊觀念。 他承認 OtterTune 失敗的原因,調整策略做 OEM 集成; 他看到 vibe coding 的真實影響,但也承認只對新項目有效。 作為學者,他保持著難得的商業敏感度。
兩人的共識比分歧更重要:Postgres 贏了,向量數據庫過譽了,基礎比工具重要,AI 不會取代理解系統的人。
數據庫老司機
點一個關注 ??,精彩不迷路
對 PostgreSQL, Pigsty,下云 感興趣的朋友
歡迎加入 PGSQL x Pigsty 交流群(搜pigsty-cc)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.