<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      2025 年度數據世界總結:石破天與Andy Pavlo對談錄

      0
      分享至

      最近,圖靈獎得主、Postgres 創始人、MIT 與 UC Berkeley 計算機系教授 Mike Stonebraker, 以及數據庫領域大網紅、卡耐基梅隆大學數據庫系教授 Andy Pavlo 聯合主持了一期播客, 回顧了 2025 年 AI 對數據庫的影響、數據庫行業的重大事件,以及 AI 對計算機科學教育和職業發展的作用。


      老馮轉錄了視頻的文字稿,翻譯并點評了一下,供大家參考。

      Data 2025:年度回顧 —— Mike Stonebraker 與 Andy Pavlo 對談錄 錄制于 2025 年 12 月 10 日 對談嘉賓:Mike Stonebraker(MIT CSAIL,圖靈獎得主,PostgreSQL 創始人)、Andy Pavlo(卡內基梅隆大學),主持:DBOS 團隊 原文地址:Data 2025: The year in review with Mike Stonebraker 中文譯評:馮若航
      開場介紹

      [0:00] 主持人(DBOS): 大家好,感謝各位參加今天的活動。我們將與 Mike Stonebraker 和 Andy Pavlo 一起回顧 2025 年的技術發展。

      今天的議程包括:深入探討 AI 與數據管理之間的相互影響——AI 趨勢如何改變數據管理,數據管理趨勢又如何反過來影響 AI。我們也會談到 AI 在數據庫運維自動化方面的應用。

      之后,Andy Pavlo 將回顧今年行業發生的重大事件——里程碑式的進展、收購案、新公司的誕生、已經退出歷史舞臺的公司、被收購的公司,并探討這些變化將如何塑造 2026 年乃至更長遠的數據管理和軟件開發格局。

      最后,我們會展開一場非常有意思的討論:AI 正如何影響計算機科學——它改變了教學方式、研究方式,以及許多人的職業發展道路。最后大約留 10 分鐘進行問答。

      熟悉 DBOS 的朋友可能知道,它曾經代表 Database Operating System(數據庫操作系統)。這家公司起源于 MIT 和斯坦福的一個研究項目,最初是因為聯合創始人 Matei Zaharia 請 Mike 幫忙解決 Databricks 的持久化分布式隊列問題。這個契機催生了一個研究項目:在分布式數據庫之上構建操作系統,作為 Linux 的潛在替代方案——一個從設計上就更加云原生的系統。

      如今,DBOS 代表 Durable Backends that are Observable and Scalable(持久、可觀測、可擴展的后端)——這個縮寫是我后來硬湊的。如果你了解 DBOS,它是一個開源的持久化工作流編排庫,能讓你的應用程序和后端具備故障恢復能力,同時提供可觀測性,并通過更簡便的隊列機制實現彈性擴展。正如一位 DBOS 用戶精辟總結的:DBOS 讓你想搞砸都難。這也是為什么 DBOS 在眾多新興 AI 應用公司中如此受歡迎——他們需要 AI 工作流無論遇到什么意外情況都能按預期運行。

      Michael 稍后會詳細講解持久性與 Agentic AI 之間的關系。簡單說,這就是 DBOS。如果你正在構建軟件,想讓它輕松實現防錯和可觀測,可以了解一下 DBOS 開源庫。

      你可能會好奇:我們不是數據庫公司,為什么要舉辦數據庫研發的網絡研討會?原因是:Postgres 的發明者 Mike Stonebraker 是 DBOS 的聯合創始人;我們也和 CMU 的 Andy Pavlo 是好朋友——他發明了"數據庫學"(databaseology)這個詞,同時也是 "So You Don't Have To" AI 的創始人,這是一個 AI 驅動的數據庫調優服務,推薦大家去看看。好,閑話少說,讓我們開始今天的議程,聽聽 Andy 和 Mike 怎么說。

      第一部分:AI 如何影響數據管理?

      [4:03] 主持人: 第一個話題是:AI 如何影響數據管理?數據管理又如何影響 AI?Mike,你先來?

      [4:10] Mike Stonebraker: 謝謝 Andy。還有另一位 Andy,你好。我得先說一下,我現在身體不太舒服,狀態不是 100%,所以 Andy P,你得對我手下留情。

      Sam Madden 幾周前把生成式 AI 和大語言模型形容為"自切片面包以來最偉大的發明"——他沒有原話這么說,但意思差不多。我的看法要保守得多,讓我分享一下我使用大語言模型的經驗。

      【譯注】"自切片面包以來最偉大的發明"(the best thing since sliced bread)是英語中一個常見的俚語,用來形容某樣東西非常了不起、革命性。這個說法源于 1928 年美國發明的預切片面包,當時被認為是家庭生活的重大便利創新。

      我關注的是企業數據,所以一個顯而易見的問題是:能不能用大語言模型來查詢數據倉庫?業界有一些公開的基準測試——BIRD、Spider、Spider 2——報告的準確率在 60% 到 90% 之間,看起來相當不錯。但這不是我在真實數據倉庫上的體驗。

      我們試了 MIT 數據倉庫的一個子集,里面有學生、課程、教職員工、專業等各種信息。我們找了真實用戶——事實上,我所在的 MIT CSAIL 實驗室就是這個數據倉庫的真實用戶。我們收集了真實用戶的查詢,搞清楚對應的標準 SQL 是什么,于是我們有了一批"自然語言-標準 SQL"的配對數據。

      我們用各種 LLM 在 MIT 數據倉庫上測試,準確率是。不是說很低——是零。什么都查不出來。

      然后我們嘗試了所有標準技術——RAG、把查詢分解成更簡單的部分、從其他來源補充數據——準確率勉強提升到 20% 左右。如果我們告訴 LLM 具體要查哪張表或哪幾張表,能提升到 30% 左右。但離實際可用還差得遠。

      你可能會說,也許 MIT 的數據是特例。但我們在七個不同的真實數據倉庫上測試,結果每次都一樣。

      有些人報告了更好的結果,但我持懷疑態度。原因如下——MIT 數據倉庫有什么特點讓它如此困難?

      第一,這不是公開數據。 LLM 根本無法訪問這些數據,因為它們受到各種隱私和安全保護。

      第二,MIT 有很多獨特的術語。 如果你想查"過去兩年誰主修了計算機科學"——MIT 數據倉庫回答不了這個問題,因為 MIT 根本不用"計算機科學"這種說法。計算機科學實際上叫 "Course 6.2"。還有 J-term,是一月份的一個月學期。這些東西你不能指望 LLM 知道。

      第三個問題是我所說的"語義重疊"。 MIT 的數據倉庫里充滿了物化視圖,這些視圖是為了加速常用查詢而存在的。但問題在于,它給你提供了多種方式來回答同一個查詢,而且語義往往略有不同——比如有些數據是按月的,有些是按周的。

      第四是復雜查詢。 這些查詢大多涉及三到四張表的連接,還帶有聚合操作,相當復雜。

      [10:00] 因此,如果你的數據庫具有這四個特征中的任何一個——非公開、術語獨特、語義重疊、查詢復雜——我對用 LLM 解決問題不抱樂觀態度。

      所以我的思路其實不太一樣。要想把 Text-to-SQL 做好——首先,在企業環境中,真正的問題是這樣的:我有 ERP 系統、CRM 系統,還有一大堆其他系統和大量文本,我想查詢類似"誰既是我的供應商又是我的客戶"這樣的問題。這需要查詢多個私有數據源,既有文本也有 SQL。這本質上是數據湖問題。

      怎么解決數據湖問題?讓我舉個簡單的例子。我們有個學生在和德國慕尼黑市合作,處理他們的交通部門數據。有各種各樣的查詢,比如:為什么這個路口的綠燈時間不長一點?或者,電車通過沒有紅綠燈的路口時最高時速是多少?慕尼黑市有六七個不同的數據源,理論上可以回答這些問題。這是典型的數據湖場景。

      我的觀點是:最簡單的方法是把這些數據源包裝成一個非常小的 SQL 子集,讓用戶能夠表達他們想要什么。我主張系統的頂層應該是面向 SQL 的,而不是面向 LLM 的。 這是我正在研究的方向。也許這是個特例,也許不是。也許 Amazon 最近發布的 Bedrock 能在這方面有所幫助。

      我留給大家一個測試:試著問你最喜歡的 LLM 這個問題——"有多少 MIT 教授有維基百科頁面?"這個查詢有兩個問題。第一,"誰是 MIT 教授"的答案在 MIT 數據倉庫里——我剛才說的那些問題都適用。第二個問題是維基百科,這是另一個數據源,它有個很好用的界面——你輸入某人的名字就能看到他們的頁面。LLM 最近開始能做這個了。但我很容易給你出一個更復雜的問題,它們就答不上來了。

      我的思路是:給 MIT 數據倉庫包一層封裝,讓它足夠簡單,能夠通過 Text-to-SQL(或者 Text-to-簡化SQL)來回答問題;然后給維基百科包一層封裝,就是一個"查找 Andy Pavlo"或"查找任何人"的接口。然后把這兩個系統做一個連接操作。要用迭代替換,因為維基百科頁面比 MIT 教授多得多。

      在我看來,這變成了一個查詢優化問題——查詢優化器最擅長解決這類問題。這就是我的研究方向。

      當然,這些觀點要打很大的折扣。第一,我只關注企業數據,別人可能關注很多其他領域。第二,我主要關注的是防火墻內部、LLM 無法訪問的數據。所以我的經驗可能比較特殊。在我看來,LLM 在某些事情上表現很好,但可能不是所有問題的答案。

      好,現在讓 Andy Pavlo 來說說,他對世界的看法要樂觀得多。

      第二部分:Andy Pavlo 談 LLM 與 Vibe Coding

      [15:21] Andy Pavlo: 說到維基百科,我還想提一嘴——我的維基百科頁面被刪掉了,因為我的簡介里寫我是"在巴爾的摩街頭出生的"(born in the streets of Baltimore),實際上我是在巴爾的摩出生的,但顯然不是在街頭。

      【譯注】這里 Andy 在自嘲。"Born in the streets" 聽起來像是說在街頭流浪時出生的,有一種"街頭混混"的既視感,而實際上他只是在巴爾的摩市出生而已。維基百科可能因為來源不可靠或措辭不當而刪除了他的頁面。

      總之,我對 LLM 取得的成就要樂觀得多。在自然語言轉 SQL 這件事上,對于某些特定挑戰,確實會有困難。但我更關注的是全新應用(greenfield applications)——未來的企業應用總要從某個地方開始,而它們現在就在開始。

      【譯注】Greenfield(綠地)在軟件開發中指從零開始構建的新項目,沒有歷史包袱,與 brownfield(棕地,指在既有系統上改造)相對。

      Andrej Karpathy 去年創造了 "vibe coding"(氛圍編程/憑感覺寫代碼) 這個詞,我們看到大量新應用幾乎完全由 LLM 或編程代理生成。你可能會問:"這些代碼比人寫的好還是差?"差不多,因為這些模型是在海量代碼語料上訓練的。人類有時寫好代碼,有時寫爛代碼——LLM 也一樣。

      【譯注】Vibe coding 是 Andrej Karpathy(前 OpenAI/Tesla AI 總監)提出的概念,指的是用自然語言描述你想要什么,讓 AI 幫你生成代碼,你只需要"感覺"一下對不對,而不是逐行編寫。這個詞帶有一點調侃意味,暗示程序員只需要"找感覺",不用真正懂代碼。

      我對 LLM 作為編程代理的能力相當看好。說說我們自己的經驗:我們在卡內基梅隆教的課程,項目都是用 C++ 寫的。一年前,LLM 能解決一部分項目,但不是全部——它能生成代碼,但不是所有代碼都正確或有用。現在已經到了這樣的程度:我們的項目幾乎可以完全由 LLM 編寫和解決。

      所以我認為 vibe coding 是真實存在的趨勢,我們將看到更多基于數據庫的應用涌現。但挑戰在于:你有這么多代理在生成新的應用代碼,這些代碼會和數據庫交互、讀寫數據。現在我們要處理所有涌向數據庫系統的負載。

      在 LLM 出現之前,所有應用代碼都是人寫的,它們會訪問數據庫系統,你很幸運才能有一個人類或 DBA 來維護、優化和監控這些數據庫系統。現在人類不寫代碼了,也沒有人類監控數據庫系統了——這簡直是災難的完美配方。

      [18:01] 在研究方面,我們已經研究了好幾年如何用機器學習和 AI 技術來自動化數據庫系統的管理和優化。這不是 AI 突然帶來的新能力——人們從 1970 年代就開始嘗試了。最早的工作之一是自動為關系數據庫選擇索引——1976 年 SIGMOD 上就有相關論文。Microsoft 的 AutoAdmin 項目也在做這件事。

      但我們研究的是從整體上看待數據庫系統——嘗試調優數據庫系統中所有可調的東西,以應對來自 vibe-coded 應用的隨機查詢,同時關注數據庫系統的整個生命周期。

      事實證明,LLM 在這方面相當擅長。我們現在研究的是如何同時調優數據庫系統暴露給你的所有配置。已有很多工作研究如何調優單個方面——"你需要什么最佳索引"或"系統需要什么最佳配置參數"——比如 Postgres 的 shared_buffers 或 MySQL 的 innodb_buffer_pool_size。但所有這些工具都只針對一件事。我們研究的是:如何同時調優所有東西?因為這樣才能找到數據庫的真正全局最優配置。

      在我們這個領域的最新工作中,我們不是用 LLM 來做決策,而是用 LLM 來實現不同類型數據庫或不同數據庫部署之間的知識遷移。我們的算法可以在一個流程中調優索引、配置參數、查詢計劃提示、表級參數、索引日志——基本上是 Postgres 暴露給你的所有東西。我們可以把這些全部一起調優。

      但問題是,你得為這個特定的數據庫實例訓練非常專用的模型。我們最新的工作是利用 LLM 來識別彼此相似但不完全相同的數據庫。然后我們可以把從調優一個數據庫收集的所有訓練數據,應用到另一個數據庫上——效果出奇地好。

      [20:40] 關于這些算法的性能,我要說的是:當前研究表明,這種專門為數據庫優化和調優定制的算法,比 LLM 能做到的好兩到三倍。但 LLM 速度很快——ChatGPT 能在 15 分鐘內給你的數據庫吐出一套方案,而我們最好的算法現在需要 50 分鐘。所以這是速度和質量之間的權衡。根據問題的嚴重程度和你的需求,你可能會選擇其中一個。

      [21:21] 現在我們在研究的另一個很酷的東西——也是我非常看好 LLM 的原因——是推理代理(reasoning agents):識別問題,然后決定調用哪個子代理或工具來解決它。比如,如果有異常檢測,數據庫系統有某種延遲問題,推理代理可以決定:"我要運行這個工具來構建索引,因為我認為這就是當前的問題;我要運行另一個工具來優化存儲性能。"

      這就是我認為在未來一年左右會出現的真正酷炫的東西:能夠同時審視一堆不同的問題,并決定調用哪個子代理。子代理可以是 LLM,也可以是這些定制算法之一。我認為這非常令人興奮,LLM 在這個領域絕對是顛覆性的。

      第三部分:Agentic AI 與數據庫技術

      [22:18] Mike Stonebraker: 我認為,至少在數據管理領域,自動調優應該能成功,因為它理應可行,理應具有商業價值。所以我很高興看到"OtterTune 二代"還活著,盡管 OtterTune 本身沒能成功。

      【譯注】OtterTune 是 Andy Pavlo 之前創辦的數據庫自動調優公司,后來關閉了。Mike 這里用"Son of OtterTune"(OtterTune 之子)來調侃 Andy 新的創業項目 "So You Don't Have To" AI。

      [22:52] Andy Pavlo: 我得說,OtterTune 面臨的挑戰是——因為我們不托管數據庫系統——存在形態問題,需要用戶授權我們連接到他們的數據庫。而且 OtterTune 是被動調優,在系統外部觀察發生了什么,然后做改變,再觀察后來發生了什么。

      我們現在做的新工作不同——我們不是要托管數據庫系統,而是尋求與現有平臺集成。如果你在應用程序和數據庫服務器之間放一個代理(想想 PgBouncer、PgCat、PgDog——現在有很多這樣的 Postgres 代理和其他系統的代理),你就能看到查詢到達時的樣子,可以在查詢進入時操縱它們。我們仍然不托管數據庫系統本身,但至少現在我們能看到我們所做改變的效果——這對我們能做的事情產生了很大影響,而 OtterTune 做不到這一點。

      從商業角度,我們現在的做法是:不再做一個獨立產品讓用戶注冊、連接數據庫、授權等等,而是在討論與現有平臺做 OEM 白標集成。這讓我們可以專注于 ML 數據庫這一塊,而不用操心開發者體驗和入職流程。

      [24:20] Mike Stonebraker: 好吧,祝你好運,希望你成功。

      Andy Pavlo: 謝謝 Mike。

      [24:26] Mike Stonebraker: 我想談一件事:整個世界都愛上了 Agentic AI。在我看來,Agentic AI 意味著你有一個工作流,里面有些是 LLM,有些是 AI,有些是別的什么。也就是說:如果 LLM 不能直接做某件事,也許你可以在它周圍加一些東西,讓它更成功。我們在 MIT 做了很多這方面的工作。

      DBOS 早期發現的一件事是:總體而言,Agentic AI 應用需要持久化計算(durable computing),因為這些東西很多是長時間運行的,如果出錯,你不想從頭再來。所以持久化計算在 Agentic AI 中是個大問題。有一堆商業產品在做這個。

      但到目前為止,Agentic AI 基本上是我所說的"只讀"——你查詢一堆地方,然后拼湊出結論,比如"我預測 Andy Pavlo 的 OtterTune 繼任者會成功"之類的。

      我認為用不了多久,Agentic AI 就會變成"讀寫"的。這意味著持久化計算本質上就是事務系統中 ACID 的 D(Durability,持久性)。完全是同一回事。現在大家實現持久性的方式都在使用數據庫技術——你有一個日志,如果出了問題,你回滾然后重放。

      [26:39] 所以這將是一個數據庫問題,而妙處在于:它要求你把應用狀態放進數據庫。正如 Andy Pavlo 剛才說的,我相信數據庫將逐漸接管應用程序狀態的存儲——因為這樣你就能獲得持久性。

      但一旦涉及讀寫……我最喜歡的例子是:假設你在經營一家在線自行車店。服務器端的大致流程是這樣的:客戶進來說"我想買一輛 XYZ 自行車"。你的第一個動作是:"我有沒有這輛車?"所以你需要查詢庫存,如果有就預留它。

      第二步,如果有貨,你要確認是否愿意和這個客戶做生意。這可以用 LLM 來判斷:這個客戶是不是退貨太多?信用評級如何?等等。

      如果都沒問題,第三步就是收錢——PayPal 或者你喜歡的任何支付系統。如果這也沒問題,就發貨。

      所以基本上是四個步驟,每個都是一個事務,大多數涉及更新操作。比如,如果你給履約系統一個錯誤的地址,它就得把所有東西回滾。這些步驟里有一堆更新操作。

      [28:36] 這就是涉及更新的場景。你必須處理失敗情況。持久性只處理正向場景——完成你的工作流。你還必須處理回滾,這需要某種原子性的概念。

      [29:04] 我認為搞清楚 ACID 對工作流來說到底意味著什么,是一件大事。我正在推銷我為 CIDR 寫的一篇論文,將在一月份發表。我認為那是一個過渡性的解決方案,但不是最終方案。搞清楚這一切還需要一些時間。

      另一個問題是:目前 LLM 的架構方式,大多數是非確定性的。所以如果你的代碼有 bug,你很可能無法復現它。數據庫領域的人對此早就知道了。這叫做 Heisenbug(海森堡 bug)——不可復現的 bug,相對于 Bohrbug(玻爾 bug)——可復現的。Jim Gray 很久很久以前寫了很多關于這個的東西。我們顯然要重新審視所有這些問題。

      【譯注】Heisenbug 這個名字來源于量子力學的"海森堡不確定性原理"——你一觀察它,它就消失了。Bohrbug 則來源于玻爾的確定性原子模型。這是 Jim Gray 在 1985 年提出的術語,用來描述軟件中兩類不同性質的 bug。

      [30:02] 所以我認為,這是一個數據庫技術將對 Agentic AI 產生巨大幫助的領域——讓它實現"ACID-plus"或者不管最終叫什么。我認為這將是一件大事。

      關于編程語言方面——事實已經證明它非常有用。Vibe coding 確實有效,在全新應用上效果最好——絕對正確。問題是 95% 的企業程序員不是在做全新項目,他們得處理已有的系統。

      而且眾所周知,vibe coding 在代碼結構良好的情況下效果最好。但問題是,典型的企業系統不是這樣的。系統被更新、維護、打補丁、更新、維護、打補丁……最后變得太丑陋了,你只好扔掉重寫。

      所以我認為,要想最大限度地利用 vibe coding 的優勢,我們必須改變企業編寫軟件的方式。還有大量工作要做。

      第四部分:2025 年行業回顧——并購與市場動態

      [31:43] Andy Pavlo: 不僅僅是并購——今年數據庫領域風起云涌。我感覺今年的活動比去年還多。

      先說說主要的收購案。最大的一筆可能是 Databricks 收購了 Neon,緊接著 Snowflake 收購了 Crunchy。所以 Postgres 生態有很多動作——我們稍后會談到。

      IBM 買了兩家數據庫公司。 年初買了 DataStax——這是開發 Cassandra 的主要公司。然后我記得這周剛宣布收購了 Confluent——Kafka 背后的主要公司。這些都是大手筆。

      融資方面,ClickHouse、Supabase 都完成了大額融資。Databricks 又融了一大筆,因為他們總是在融錢,等著 IPO。Informatica 被 Salesforce 收購了。SkyDB 被 MariaDB 又買回去了——這個比較奇怪,因為他們去年好像是把它拆分成獨立公司的,今年又買回來了。

      另一個大消息是 Fivetran 正在與 dbt 合并——我想這筆交易明年會完成。

      所以是的,又是活動頻繁的一年。

      [33:17] 關于倒閉的數據庫公司,我曾預測 2025 年會有更多公司失敗。大約兩年前有一份 Gartner 報告也做了類似的推測。但我能想到倒閉的只有兩三家:Voltron Data 幾周前宣布關閉;Fauna 五月份關閉;還有一家叫 MycaleDB 的中國 MySQL 托管公司今年早些時候倒閉了。

      所以我預測錯了。我以為會有更多數據庫公司倒閉。數據庫公司的朋友們告訴我,其實今年相當不錯。這是積極的信號。當然確實有一些公司倒閉了,但沒有我想象的那么多。也許有些公司在苦苦支撐,誰知道呢。

      有兩家公司被私募股權收購了:CouchbaseSingleStore。SingleStore 被一家叫 Vector 的私募公司收購了——他們幾年前買過 MarkLogic,所以有運營數據庫公司的經驗。但通常私募股權買下一家公司后,會讓它進入維護模式。希望 Couchbase 和 SingleStore 能挺過去。

      [34:50] 說到今年的整體氛圍——顯然,Postgres 又是輝煌的一年。說到 Mike——我喜歡開頭介紹里他被列為 Postgres 的發明者,而我被列為一個網絡梗"數據庫學"的發明者。當然不是一回事,但我就當個榮譽收了。另外我們也可以加上圖靈獎——那更重要。

      是的,Postgres 今年太瘋狂了。Databricks 買了 Neon,還買了 Mooncake——這讓他們有了讓 Postgres 讀寫 Iceberg 的能力。微軟剛剛發布了 Horizon DB——這是他們托管版的 Postgres,架構類似 Neon,采用存算分離,大概兩三周前宣布的——是他們一直在做的項目。

      所以越來越多的 Postgres。

      [35:42] 在開源數據庫領域,唯一可能算是 Postgres 競爭對手的是 MySQL——但那條船已經開走了。而且 Oracle 解雇了基本上整個 MySQL 開發團隊,只留下做 HeatWave 的——九月份的事。所以現在真的沒有什么大公司在全力投入 MySQL 的開發。基本上,Postgres 已經贏了

      這真是太令人興奮了。Postgres 的代碼庫——非常漂亮,前端很棒。后端有點問題,我寫過博客文章,我們也報道過這個。

      Supabase 整合 OrioleDB 的努力非常令人興奮,因為那是多版本并發控制和其他機制的現代實現。Postgres 的那些機制——Mike,你們當年在 80 年代做的時候,根本沒有其他系統可以參考怎么做。所以希望他們能糾正你們當年在伯克利犯的錯誤。

      [36:45] 總之,數據庫商業領域現在非常活躍。正如我說的,大量 vibe coding 應用正在生成,而 Postgres 是很多應用的默認選擇。

      還有一件事要提——有兩個重大項目宣布要做分布式 Postgres。一個是 Supabase 的 Multigres,由發明 MySQL Vitess 的那個人領導——Vitess 后來被商業化為 PlanetScale。然后 PlanetScale 也宣布了一個叫 Naki 的項目,試圖做一個類似的分片、無共享版本的 Postgres。

      有趣的是,這不是第一次有人嘗試做分布式 Postgres。2000 年代末、2010 年代初有一堆這方面的工作——Translattice、Greenplum,我記得華為也有一個項目。但對于 OLTP 工作負載,沒有人真正成功做出來。

      我認為現在有足夠的能量,時機終于到了——你終于可以擁有一個真正可擴展的分布式 Postgres——不管是通過 Multigres 還是 Naki。這是我期待明年會出現的一個重大進展。

      第五部分:Postgres 的未來與向量數據庫

      [38:14] Mike Stonebraker: 說到 Postgres,我認為 Postgres 已經并將繼續統治世界。原因是所有主要云廠商都把寶押在了 Postgres 用戶接口上。Postgres 的線協議將無處不在。

      他們要么選擇一個標準來開發,要么自己搞一套,而每一家都選擇了 Postgres 線協議。

      我認為這是一個好選擇的原因是:很多年前 Oracle 收購了 MySQL,這讓社區對 MySQL 能否保持社區屬性產生了疑慮。

      我覺得 Postgres 最令人驚嘆的是:這個系統不屬于任何企業——它由一群非常非常聰明的人運營,這些人在各種不同的地方工作。 所以你應該把 Postgres 看作開源本來應該是的樣子。它來自社區,服務于社區。

      [39:46] 我還想談幾件事。第一,有人在聊天里提到了 Kumo。是的,我們看過 Kumo。Kumo 做的是預測,不是 Text-to-SQL,他們解決的是不同的問題。

      另外,還有其他分布式 Postgres 類的東西。Greenplum 是一個,CockroachDB 是另一個,Yugabyte 也是。還有幾個我一時想不起名字了。但我認為,如果你還沒有把寶押在 Postgres 上,現在這樣做絕對是正確的。

      [40:43] 我還想指出,Andy 和我幾年前寫了一篇論文,叫做《What Goes Around Comes Around... and Around》(風水輪流轉……轉眼又一圈)之類的。你們都應該回去讀那篇論文,因為在我看來,那是對未來走向的絕佳預測。

      【譯注】這是 Mike Stonebraker 和 Andy Pavlo 在 2024 年發表的論文,是對 2005 年經典論文《What Goes Around Comes Around》的續篇。論文回顧了數據庫領域的技術輪回,指出很多"新"技術其實是舊概念的重新包裝。

      舉個例子,現在對向量索引或向量數據庫有很大興趣。那么,什么是向量數據庫?向量數據庫就是一堆關系型的 blob,加上一個圖結構的索引。

      讀過 Frank McSherry 工作的人都知道,他清楚地表明:做圖檢索的最佳方法是——盡可能多地對圖進行編碼,把它放進內存,然后寫一個定制的查詢執行器來處理。成功的向量數據庫似乎正是這么做的。

      所以我的觀點是:去讀那篇論文吧,我認為它對未來走向的預見性很強。

      [42:11] 主持人: 謝謝。我們會把論文鏈接和活動錄像一起分享給大家。

      在我們轉向計算機科學的未來之前,快速問一個問題。你剛才提到向量數據庫,有不少關于向量數據庫的問題。Andy,你有沒有特別喜歡的向量數據庫?你對向量數據庫這個領域整體怎么看?

      [42:36] Andy Pavlo: 我得小心措辭,免得得罪人。

      我是說,我喜歡 Weaviate 的團隊。我沒用過他們的系統,但他們非常開放——開源的,文檔寫得很好——我能理解他們在做什么,比其他家可能更清楚一些。所有向量數據庫公司都來我們這兒做過演講,都在 YouTube 上。

      這些向量數據庫公司需要想清楚的問題是——我幾年前和 Weaviate 的 CEO 聊過這個——現在他們不是作為主數據庫在用。正如 Mike 說的,它們基本上是 JSON blob,里面放著向量嵌入,然后他們為這些建索引。現在很多人把它們當成 Elasticsearch 來用——就像數據庫的第二份副本,你可以在上面跑最近鄰搜索,不干擾數據倉庫或常規的 OLTP 工作負載。

      [43:48] 所以他們會走到一個十字路口,必須決定:是繼續做一個像 Elasticsearch 那樣的邊緣專用數據庫(這沒問題,有市場),還是想成為主數據庫。如果是后者,你就得開始添加 Postgres、CockroachDB 或 Oracle 提供的所有那些東西——事務、SQL 等等。

      所以他們得決定怎么走。

      不過我要說,挑戰在于:歸根結底,向量索引就是索引而已。所以對于像 Postgres 這樣高度可擴展的系統,你可以很快添加這些新的索引類型。

      值得注意的是,當 ChatGPT 在 2022-2023 年左右成為主流時,然后 RAG 成了人人都在說的熱詞,大家意識到"噢,怎么做 RAG?你需要向量索引"——所有主要數據庫廠商在一年內都添加了向量索引。很多都利用了開源庫,比如 Meta 的 DiskANN 或 FAISS。添加這些東西并不是大工程。

      相比之下,當列存儲出現時——那是相當根本性的工程改變,你必須改造系統來支持向量化執行或列存儲。而向量索引,你可以直接塞進去,很快就能跑起來。

      [45:23] 所以對我來說,這表明專門的向量數據庫系統的護城河沒那么寬。當然,它們做的事情肯定比 pgvector 好很多,但對于 99% 的人來說,用 pgvector 可能就夠了。

      [45:46] Mike Stonebraker: 好,再補充兩點。

      第一,花哨的向量索引基本上局限于內存。 所以如果你的問題超出了內存容量,性能會斷崖式下降。

      第二,如果你的向量有大量更新,更新索引是個噩夢級的問題。 絕對是噩夢。

      所以,如果你的數據是只讀的、規模不大,我認為向量索引沒問題。但如果你有大量更新,問題就復雜得多。而且如果你把索引和數據放在同一個主系統里運行,至少可以保持一致性。

      [46:54] Andy Pavlo: 我是說,也不是那么一致,對吧?因為有時候這些索引你得重跑聚類算法,那意味著你得重新掃描所有數據。這和全文搜索的倒排索引面臨的挑戰一樣。它們可能有一個側緩沖區,你先吸收所有寫入,然后最終得運行代價更高的重建任務。

      第六部分:GPU 數據庫與 IBM 收購

      [47:21] 主持人: 謝謝。關于市場還有一個問題。Andy,你提到 Voltron 關門了。有人問這對 GPU 加速數據庫的未來意味著什么?

      [47:33] Andy Pavlo: 好,我得小心點。

      我對 GPU 數據庫一直持懷疑態度。2018 年我們有一個研討會系列,邀請了所有主要的 GPU 數據庫廠商來校園。我記得他們會炫耀各種驚人的數字,但那些只適用于能裝進 GPU 內存的數據庫。而且他們總是拿 Greenplum 來比——2018 年誰還在乎 Greenplum 啊?

      所以我當時很懷疑,因為這看起來很小眾——你的數據必須足夠小才能裝進 GPU。

      但發生變化的是——Voltron 在他們的論文項目或論文系統中展示的(雖然沒有找到產品市場契合點或商業可行性)——他們展示了如何快速地把數據從磁盤流式傳輸到 GPU,讓 GPU 作為整個數據系統的加速器,而不用把所有東西都加載進去。

      對我來說,這才是顛覆性的變化。不點名的話,我預計——你們應該預期——2026 年會有一些主要數據庫廠商宣布他們現在支持 GPU 加速。

      [49:00] 主持人: 酷。還有一個市場問題。IBM 收購 DataStax(Cassandra)和 Confluent(Kafka 和 Flink)如何改變 IBM 在數據庫市場的地位?

      [49:07] Andy Pavlo: 噢,Mike 當過 Informix 的 CTO。他可以講講 IBM,對吧?

      我是說,DB2 仍然賺很多錢。IMS 可能還在收維護費。他們在這些老東西上仍然賺很多錢。今天的 IBM 不是 IMS 時代的 IBM,文化和產出都變了。

      【譯注】IMS(Information Management System)是 IBM 在 1966 年推出的層次型數據庫,至今仍在一些大型企業的核心系統中運行,是"古董級"但仍在收費的產品。

      所以,還得看吧?還得看他們會多深入地參與 DataStax 和 Confluent 的日常運營——是像 Red Hat 那樣讓他們作為衛星公司獨立運作,還是快速整合成 IBM 整體咨詢服務棧的一部分。

      [49:56] 對于 Cassandra 來說,Cassandra 源代碼的第二大貢獻者其實是蘋果。蘋果運營著世界上最大的——如果不是最大也是最大之一的——公開 Cassandra 集群。所以我認為 Cassandra 的管理權會沒問題的。

      Kafka 的話,還得看。但 Jay 是個聰明人,在 Confluent,我相信他們會想出辦法的。

      【譯注】Jay Kreps 是 Kafka 的創始人之一,也是 Confluent 的聯合創始人兼 CEO。

      [50:43] Mike Stonebraker: 我認為你們都應該記住的是:IBM 基本上是一家服務公司和定制軟件開發公司。

      很明顯發生的事情是 IBM 的客戶一直在要求這兩個系統。所以 IBM 有足夠的閑錢直接買下它們。

      但我認為 IBM 有一個遺留硬件業務和一個巨大的遺留軟件業務。他們會繼續榨取這些業務的價值,直到這個電話會議上的每個人都安全退休。

      第七部分:計算機科學教育與職業發展的未來

      [51:33] 主持人: 好,讓我們換個話題,談談計算機科學以及 AI 如何影響課程設置——MIT、CMU 和其他地方——以及職業機會。

      事實上,問答區已經有人問了:在 DBMS 公司找工作需要什么技能?Andy,也許你可以先談談 AI 如何影響了 CMU 的課程?

      [51:58] Andy Pavlo: 我得說,現在沒人知道答案。 LLM 在回答考試題目、作業問題上好得驚人。

      說個軼事,在我們的數據庫系統入門課上,第一個作業是:我們給你一個數據集,給你問題——有點像在解決 Mike 剛才說的那個問題——你必須寫 SQL 來回答問題。我們相當確定大多數學生在用 LLM。事實上,老實說,我在學期開始時鼓勵他們用 LLM——這是現在任何開發者都應該使用的工具,就像 GDB 或其他調試工具一樣。這就是世界的現狀。

      但我要說,最終你必須理解基礎。這是卡內基梅隆一直在更加強調的——我們一直在這方面做得很好,但現在比以往任何時候都更重要。

      [52:55] 回到 vibe coding 的話題。你可以讓 LLM 生成一堆代碼,但如果你不理解這些代碼試圖做什么、你試圖實現什么,你就會迷失。

      所以我說,你應該學習的是計算機科學的核心基礎,這部分其實沒變。不管是用 JavaScript、C++、Rust 還是什么——語言和工具可能變,但基礎很重要。理解軟件在為你做什么。

      [53:40] 關于在數據庫系統公司找工作需要什么技能——我認為目前沒有太大變化。理解系統基礎,理解硬件在做什么。

      數據庫的美妙之處在于你必須理解一切——你會接觸到所有層面。所以你必須理解硬件想做什么、操作系統想做什么(或不想為你做什么)、網絡想做什么。理解所有這些。

      然后我要強調的是:能夠與你沒有寫過的大型代碼庫互動、操作和理解。同樣,LLM 在這方面很有幫助。

      [54:17] 還有調試——因為這個問題不會消失。LLM 還解決不了這個——我認為它們最終會做到。但理解復雜組件如何協同工作、相互交互、識別 bug、識別競態條件和其他問題——這個問題不會消失。這些東西只能通過實踐獲得。有很多方式可以做到。

      我得說,現在的資源比 Mike 當學生時好太多了,比我當學生時也好太多。現在有很多東西可以幫助人們理解數據庫系統在做什么。就是去做就行了。

      [54:59] Mike Stonebraker: 我認為只要你來自一流大學,主修 CS 就會沒問題——正如 Andy 說的,你會學到如何利用所有可用的工具來提高生產力。

      如果你從 Control Data Institute 或那類地方畢業,我認為市場會很糟糕——因為那里只教你寫代碼,而這不會是一個很有市場價值的技能,除非你超級超級超級聰明。

      【譯注】Control Data Institute 是美國一家已經倒閉的職業培訓學校,曾經提供計算機相關的職業培訓課程。Mike 這里用它來泛指那些只教技術操作、不注重計算機科學基礎的培訓機構。

      [55:48] 所以我認為,一流大學的 CS 專業招生總數可能會持平或下降一段時間。之后會怎樣,我不知道。

      [56:00] Andy Pavlo: 但我還要說——一方面是的,因為 AI 幫助了很多事情,找工作會更難。但回到 vibe coding 那點,現在構建東西太容易了。

      所以最終目標不一定是去 Google 或 Apple 或誰那里工作——你可以自己干。當然,我知道對很多人來說,由于不同的經濟狀況,說起來容易做起來難。但這也是令人興奮的一點——進入門檻大大降低了

      但同樣,我要說你仍然需要理解基礎。

      第八部分:問答——核心數據庫基礎

      [56:36] 主持人: 有一個關于基礎的問題。實際上有好幾個。人們在問:你認為最重要的數據庫內部基礎概念是什么?應該學習或掌握哪些來提升職業機會?

      [56:52] Andy Pavlo: 我是說,一個——不是要推銷自己的東西——但我們把所有課程材料都放在 YouTube 上了,你可以做所有編程作業,做所有家庭作業,不用付 CMU 一分錢。所以都在那兒,盡管去學吧。

      我覺得就是 ACID 那一套,對吧?原子性、一致性、隔離性、持久性。理解那是什么樣子——如何把數據從非易失性存儲移到內存中并進行交互。如何確保人們可以訪問他們的數據而不丟失任何東西。

      這些是高層次的基礎。作為其中的一部分,你得理解算法復雜度。你得理解數據結構。你得理解優化技術。你得理解并發控制。一點關系代數的集合論也總是有用的。

      [57:54] 我會稱這些為基礎。然后正如我之前說的,數據庫系統的美妙之處在于:無論你對計算的哪個方面感興趣,你都可以在數據庫的背景下做。

      如果你喜歡算法,那個領域有很多工作可以看。如果你喜歡網絡,你可以做那個。如果你喜歡編程語言,有一堆嘗試改進 SQL 或改變 SQL 的工作。

      無論你對什么感興趣,你都可以在數據庫的背景下做。而且通常人們會為此付你很多錢。所以這就是為什么我對這個領域很看好。

      第九部分:為什么選擇成為數據庫研究者?

      [58:27] 主持人: 好,我們到整點了,最后一個問題。這是注冊表上有人問的。問題是問你們倆的:你們為什么選擇成為 DBMS 研究者?

      Andy Pavlo: Mike,你講講征兵的故事。

      [58:46] Mike Stonebraker: 嗯,簡單的答案是:我讀研究生是因為當時有征兵制。 我的選擇是:去加拿大、進監獄、去越南,或者讀研究生。這讓事情變得很簡單。

      進了研究生院之后,我設法待到了 26 歲,然后軍隊就不要我了。

      【譯注】這里說的是越南戰爭時期(1955-1975)美國的征兵制度。當時年輕男性面臨被征召入伍的風險,但研究生可以獲得延期服役的資格。26 歲之后通常不再被征召。

      所以當我找到工作時——順便說一下,我認為我的論文完全是胡扯——當我到伯克利時,我說:"好吧,我得想辦法拿到終身教職,得找個新東西來研究。"

      [59:47] 對我產生巨大影響的一件事是伯克利給了我一個導師:Gene Wong(黃煦濤)。Gene 說:"我們來看看這個——Ted Codd 剛剛寫了這篇開創性的論文。"那是 1971 年;他的論文 1970 年發表在 CACM 上。

      于是我們開始研究數據方面的東西。Ted Codd 的東西簡單易懂,有一些數學基礎。另一個提案來自數據系統語言委員會(CODASYL),那是個低層次的圖結構的東西,完全是一團糟。

      Gene 和我看著彼此說:"怎么可能這么復雜的東西是正確的做法?"

      所以這就定下了方向。很多是偶然,但很多是因為在你落腳的大學找到一個好導師。

      【譯注】Ted Codd 是關系型數據庫之父,1970 年發表的論文《A Relational Model of Data for Large Shared Data Banks》奠定了關系數據庫的理論基礎。CODASYL(Conference on Data Systems Languages)則提出了網狀數據庫模型,在當時是 Codd 關系模型的主要競爭對手。

      [1:01:06] Andy Pavlo: Mike 的故事比較傳奇。

      我的情況是,我高中時被逮捕了,我不想進監獄。 所以我查了聯邦監獄管理局的統計數據,看什么類型的美國人進監獄的比例最低?是有博士學位的人。

      所以我想,如果我拿個博士,進監獄的可能性就更低了。這就是我決定讀博的原因。

      然后數據庫對我來說就是自然而然的事。我在一家不太正經的創業公司工作過,我們切換到 MySQL,我高中時就學了關系模型。太棒了。

      Mike Stonebraker: 你應該講講你真的進監獄那次。

      Andy Pavlo: 呃,等等。我被逮捕的時候,我們認罪的是地方指控,沒走聯邦程序。所以我從來沒進過監獄。

      但我確實試過在監獄向我妻子求婚。他們從來沒真的把我關進去,Mike,因為他們擔心一旦我進了監獄,我就在他們的保險范圍內了。所以如果我出了問題或受傷,他們會被開除。所以我一直在外面的拘留區。

      [1:02:25] 主持人: 嗯,好吧。不是我預期的答案,但非常精彩。

      結語

      [1:02:31] 主持人: 好了,我們得結束了。很抱歉沒能回答所有問題。

      感謝 Mike 和 Andy,還有 DBOS 的 Jen,感謝你們幫助舉辦今天的網絡研討會,分享你們的智慧和經驗。

      祝你們和所有在線的朋友節日快樂、新年快樂,期待 2026 年的活動再見!

      正文完

      觀點總結與老馮評論 Mike Stonebraker 的核心觀點 1. 對 LLM 做 Text-to-SQL 持悲觀態度

      觀點摘要: 在真實企業數據倉庫上測試 LLM,準確率幾乎為零。原因有四:數據非公開、術語獨特、語義重疊、查詢復雜。他主張用 SQL 封裝數據源,讓查詢優化器解決問題,而非依賴 LLM。

      老馮評論: 這是對 Text-to-SQL 炒作的當頭棒喝。學術界和媒體吹捧 60-90% 準確率,但那是在玩具數據集上的成績。一到真實企業環境——MIT 數據倉庫這種用"Course 6.2"代替"計算機科學"的奇葩命名——LLM 立刻原形畢露。

      這揭示了 LLM 的本質局限:它們是模式匹配器,不是推理引擎。企業數據的"暗知識"——隱性業務規則、歷史遺留術語——不在訓練語料里,LLM 自然束手無策。Mike 的"SQL 封裝 + 查詢優化器"方案,本質是承認:結構化問題還得用結構化方法解決

      2. Agentic AI 需要 ACID,數據庫技術將大放異彩

      觀點摘要: 當前 Agentic AI 是"只讀"的,很快會變成"讀寫"。一旦涉及更新操作(如在線購物流程),就需要事務語義——原子性、持久性、回滾能力。這正是數據庫技術幾十年來解決的問題。

      老馮評論: 這是 Mike 最具遠見的觀點。當前 AI Agent 框架基本都是"樂觀執行"——假設一切順利,出錯就重來。這在真實業務場景中是災難。

      Mike 用自行車店的例子講得很清楚:查庫存→檢查信用→收款→發貨,每一步都可能失敗,失敗后必須回滾前序操作。這不是新問題——這就是 ACID 事務要解決的問題,只是披了層 AI 的皮

      我完全同意這個判斷:未來 1-2 年,數據庫技術(尤其是工作流事務、Saga 模式)將成為 Agentic AI 的核心基礎設施。DBOS 確實踩準了這個點。 這也是最近 PG 生態的各路 Agent DB 都在蹭 "Git for Data" 熱度的原因 —— 老馮在《Agent 需要什么樣的數據庫?[2]》中剛探討過這個問題。

      3. Postgres 已經贏了,押注 Postgres 是正確選擇

      觀點摘要: 所有主要云廠商都選擇了 Postgres 線協議。Postgres 的治理模式是"開源該有的樣子"——社區所有,沒有單一企業控制。Oracle 收購 MySQL 后社區失去信任,Postgres 因此受益。

      老馮評論: 這是事實陳述,不是預測。Postgres 確實已經贏了——至少在開源關系型數據庫領域。AWS Aurora、Google AlloyDB、Azure Horizon DB、Supabase、Neon……所有人都在 Postgres 生態里玩。

      Mike 作為 Postgres 創始人說這話,難免有"王婆賣瓜"之嫌,但客觀來說他沒說錯。MySQL 在 Oracle 手里確實涼了——今年 Oracle 裁掉了幾乎整個 MySQL 團隊。

      不過老馮要補充一點:Postgres 贏了"協議戰",但這也意味著 PG 發行版內戰即將打響。詳見《PostgreSQL 主宰數據庫世界,而誰來吞噬 PG?[3]》

      4. 向量數據庫是"內存圖索引 + 關系型 blob",護城河不寬

      觀點摘要: 向量數據庫本質上是給 JSON blob 加了個圖結構索引。兩大限制:只能在內存里跑(數據大了性能斷崖)、更新索引是噩夢。

      老馮評論: 這是對向量數據庫最精準的降維打擊。Pinecone、Weaviate、Milvus 炒得火熱,但 Mike 一句話戳破泡沫:你們做的不過是 Postgres 擴展能做的事

      事實也確實如此——pgvector 出來后,大多數場景根本不需要專門的向量數據庫。Mike 說"99% 的人用 pgvector 就夠了",Andy 也表示認同。

      我在兩年前《專用向量數據庫涼了嗎?[4]》一文中就預測過這一點。 向量數據庫公司的出路:要么做到極致性能(服務那 1% 的大規模場景),要么轉型成完整數據庫(加事務、加 SQL)—— 但后者意味著和 Postgres 正面硬剛,幾乎是死路一條。順帶一提,PG 生態里已經有擴展在做 DiskANN 了,在 NVMe SSD 上跑得相當不錯。

      Andy Pavlo 的核心觀點 1. Vibe Coding 是真的,LLM 正在改變軟件開發

      觀點摘要: Andrej Karpathy 創造的"vibe coding"概念正在成為現實。CMU 的課程項目現在幾乎可以完全由 LLM 解決。代碼質量和人寫的差不多——因為都是從同一個代碼語料庫學來的。

      老馮評論: Andy 比 Mike 年輕 40 歲,他的樂觀主義反映了新一代研究者的心態。Vibe coding 確實在發生——GitHub Copilot、Cursor、Claude Code 的普及就是證明。

      但 Andy 有一個關鍵前提經常被忽略:vibe coding 只對新項目有效。他自己也承認,95% 的企業程序員不是在做新項目開發。那些幾十年積累下來的屎山——被反復"更新、維護、打補丁"直到丑陋不堪——LLM 同樣束手無策。

      所以 vibe coding 的真正影響可能是:新應用開發加速,但遺留系統維護依然是噩夢。這會加劇新舊兩極分化——用 AI 寫的新系統越來越多,老系統越來越沒人愿意碰。

      2. 數據庫自動調優需要 LLM + 專用算法的組合

      觀點摘要: 專用調優算法比 LLM 好 2-3 倍,但 LLM 快得多(15 分鐘 vs 50 分鐘)。未來方向是用"推理代理"來調度——可能調 LLM,可能調專用算法。

      老馮評論: 這是 Andy 作為 OtterTune 創始人的復盤總結。OtterTune 失敗的原因他講得很清楚:形態問題——需要用戶授權連接、被動觀察而非主動干預。新方案通過 proxy 模式解決了這個痛點。

      "LLM + 專用算法"的組合思路非常務實:LLM 擅長快速給出"差不多"的答案,專用算法擅長精雕細琢,用推理代理調度兩者,工程上完全可行。

      不過我一直有個疑問:數據庫調優真的需要這么復雜嗎? 大多數 Postgres 性能問題,有經驗的 DBA 看 10 分鐘就能定位。用 Pigsty 這樣的發行版,重要參數都已經自動調到對生產"足夠好"的程度——從"足夠好"調到"最優",邊際收益有多大?

      真正需要自動調優的場景是:(1) 沒有 DBA 的小公司;(2) 大規模多租戶場景。這兩個市場能養活一家公司嗎?OtterTune 的失敗說明,至少單獨做這個不行。Andy 現在的策略是 OEM 白標集成,比獨立產品務實得多。

      3. 計算機科學教育的核心不變:理解基礎

      觀點摘要: LLM 能解決 CMU 的作業,但學生仍需理解基礎——ACID、數據結構、算法復雜度、并發控制。語言和工具會變,基礎不變。

      老馮評論: 老生常談,但在 AI 時代重提很有必要。Andy 說得對:如果你不理解代碼在做什么,LLM 生成再多代碼也沒用

      Mike 說得更直白:從 Control Data Institute(職業培訓機構)那種地方出來的人會很慘,但一流大學出來的人沒問題。 言下之意:編程正在分化 —— 頂尖人才設計系統,AI 寫代碼,頭部專家發揮幾十倍的效能,普通程序員直接出局。 殘酷,但可能是真實的未來。

      4. 向量數據庫護城河不寬,pgvector 對 99% 的人夠用

      觀點摘要: 向量索引就是索引,Postgres 一年內就加上了。向量數據庫要么做專用場景(二級索引),要么加事務/SQL 變成完整數據庫——后者意味著和 Postgres 正面競爭。

      老馮評論: Andy 在這一點上和 Mike 完全一致——這也說明這是數據庫圈的共識 。老馮覺得,向量數據庫真的已經很無聊了。

      總結

      Mike Stonebraker 是 “老派智慧” 的代表 —— 50 年數據庫經驗讓他對技術炒作保持警惕。 他的悲觀主義不是因為不懂 AI,而是因為見過太多大風大浪后的一地雞毛了。 他對 Agentic AI 需要 ACID 數據庫 的判斷非常精準,這可能是這場對話中最有價值的洞見。

      Andy Pavlo 是"新生代務實派" —— 既不盲目樂觀,也不固守舊觀念。 他承認 OtterTune 失敗的原因,調整策略做 OEM 集成; 他看到 vibe coding 的真實影響,但也承認只對新項目有效。 作為學者,他保持著難得的商業敏感度。

      兩人的共識比分歧更重要:Postgres 贏了,向量數據庫過譽了,基礎比工具重要,AI 不會取代理解系統的人

      數據庫老司機

      點一個關注 ??,精彩不迷路

      對 PostgreSQL, Pigsty,下云 感興趣的朋友

      歡迎加入 PGSQL x Pigsty 交流群(搜pigsty-cc)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      種種跡象表明,伊朗戰爭要結束了

      種種跡象表明,伊朗戰爭要結束了

      鳳眼論
      2026-04-01 09:44:42
      美伊大戰讓全球看明白解放軍的真實戰力,原來中國當年真沒開玩笑

      美伊大戰讓全球看明白解放軍的真實戰力,原來中國當年真沒開玩笑

      阿龍聊軍事
      2026-03-31 06:08:54
      4秒領先,杜卡迪工程師集體沉默,這車到底誰在造。

      4秒領先,杜卡迪工程師集體沉默,這車到底誰在造。

      三農老歷
      2026-04-01 06:57:35
      以色列空襲貝魯特畫面曝光 機場主干道附近大樓被炸成廢墟

      以色列空襲貝魯特畫面曝光 機場主干道附近大樓被炸成廢墟

      新華社
      2026-04-01 16:15:22
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      銀行不會明說的潛規則:存款超55萬,你就有資格談條件!

      銀行不會明說的潛規則:存款超55萬,你就有資格談條件!

      墜入二次元的海洋
      2026-04-01 12:04:21
      英格蘭崩盤!3 大球星徹底涼了,圖赫爾親手毀了世界杯希望

      英格蘭崩盤!3 大球星徹底涼了,圖赫爾親手毀了世界杯希望

      瀾歸序
      2026-04-01 06:01:40
      TCL與索尼簽署最終協議:38億港元接手索尼電視等業務

      TCL與索尼簽署最終協議:38億港元接手索尼電視等業務

      CNMO科技
      2026-04-01 16:06:06
      蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

      蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

      談史論天地
      2026-02-28 13:35:18
      中央公布重要文件,養老金調整或有變化,若只保留定額調整可行嗎

      中央公布重要文件,養老金調整或有變化,若只保留定額調整可行嗎

      混沌錄
      2026-04-01 17:24:05
      92年給女廠長開車,車壞在荒郊,她看著窗外說:今晚回不去了

      92年給女廠長開車,車壞在荒郊,她看著窗外說:今晚回不去了

      曉艾故事匯
      2025-08-22 17:28:19
      深度長文:讓人類絕望的光速限制,也是外星人無法突破的牢籠!

      深度長文:讓人類絕望的光速限制,也是外星人無法突破的牢籠!

      宇宙時空
      2026-03-31 17:10:48
      國產C929發動機迎來重大突破,35噸大推力碾壓同級,波音空客急了

      國產C929發動機迎來重大突破,35噸大推力碾壓同級,波音空客急了

      粵語音樂噴泉
      2026-03-31 16:56:24
      輕斷食再次封神!復旦大學研究證實,讓肝臟脂肪在5個月內少20.5%

      輕斷食再次封神!復旦大學研究證實,讓肝臟脂肪在5個月內少20.5%

      健康之光
      2026-03-24 08:46:34
      “走腎”黃暴,尺度盛宴,女主一個比一個“胸猛”,此片驚艷

      “走腎”黃暴,尺度盛宴,女主一個比一個“胸猛”,此片驚艷

      棱鏡電影
      2025-12-07 19:24:26
      垃圾時間狂降正負值!詹姆斯成笑話!東契奇狂轟42+5+12創5項紀錄

      垃圾時間狂降正負值!詹姆斯成笑話!東契奇狂轟42+5+12創5項紀錄

      Tracy的籃球博物館
      2026-04-01 13:00:09
      “難怪都不想娶老師!”看完評論區算是明白了,網友直呼太壓抑了

      “難怪都不想娶老師!”看完評論區算是明白了,網友直呼太壓抑了

      夜深愛雜談
      2026-01-31 19:30:15
      特朗普將就伊朗問題發布“重要更新”

      特朗普將就伊朗問題發布“重要更新”

      環球網資訊
      2026-04-01 09:09:36
      支付寶發布支付集成Skill

      支付寶發布支付集成Skill

      每日經濟新聞
      2026-03-31 13:54:14
      中國游客到朝鮮游玩,朝鮮人疑問:為什么中國人是這樣的?

      中國游客到朝鮮游玩,朝鮮人疑問:為什么中國人是這樣的?

      阿尢說歷史
      2026-03-31 21:11:40
      2026-04-02 02:47:00
      老馮云數 incentive-icons
      老馮云數
      數據庫老司機,云計算泥石流,PostgreSQL大法師
      146文章數 55關注度
      往期回顧 全部

      科技要聞

      甲骨文血洗3萬人,47人團隊僅留3人

      頭條要聞

      小伙掃共享單車上的碼虧一套房首付 一夜白頭自扇巴掌

      頭條要聞

      小伙掃共享單車上的碼虧一套房首付 一夜白頭自扇巴掌

      體育要聞

      NBA擴軍,和籃球無關?

      娛樂要聞

      張婉婷已決定離婚 找律師討論婚變事宜

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      藝術
      時尚
      本地
      家居
      教育

      藝術要聞

      太壕了!為了一場演唱會,BIG給拉丁天后夏奇拉建5萬人臨時場館

      襯衫當外套,好時髦

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      家居要聞

      經典配色 晝色銀河

      教育要聞

      省政府:對就業質量不好的專業,落實紅黃牌提示制度

      無障礙瀏覽 進入關懷版