今天上午,我開了 10 路 Codex 并行,用不到半天的時間, 把 DDIA 第二版剛放出的最后四章翻譯完了。預覽地址:https://ddia.vonng.com
這一次出來的譯文讓我很意外:格式、術語、腳注、錨點,基本一步到位; 中文也足夠通順,不再像早些年的“機翻味”。 我當然還會在春節期間做完整審校和細修,但“從底稿到可讀成稿”的距離, 確實被 AI 拉平了。
與此同時,另幾個終端窗口里,, 文檔潤色也在并行推進;我還剛把 。 翻譯 DDIA,只是今天上午的一條支線。
![]()
回想 2017 年翻第一版,我是一個人逐字逐句磨出來的, 前后花了將近三個月的業余時間。 八年過去,同樣是 DDIA,翻譯從“三個月”變成“一個上午”,AI 帶來的生產力的爆炸從未如此直觀。
不過,我更想說的是:在 AI 崛起的當下, DDIA 反而比八年前更值得讀。
先說一句背景:DDIA 為什么值得折騰
可能有些讀者沒聽過 DDIA,或者只是隱約知道“好像是本挺有名的書”。 簡單說說它的分量。
DDIA 全名 Designing Data-Intensive Applications, Martin Kleppmann 2017 年出版,封面是一只野豬,江湖人稱“野豬書”。 Kleppmann 的背景比較特殊:先在 LinkedIn 做大規模數據基礎設施, 后來回劍橋大學做分布式系統研究。 所以這本書站在了一個獨特的交叉點上: 學術論文級別的嚴謹性,解釋的卻是工業界天天面對的真實問題。
![]()
它在全球軟件工程行業里獲得了一種罕見的“共識級”認可。 在 Hacker News、Blind、Reddit 這些工程師社區里, 它被反復推薦為“每個軟件工程師都該讀的書”。 在 Google、Meta、Amazon 的工程團隊中, 它實際上扮演了一種非官方教材的角色: 沒人指定,但系統設計面試、新人 onboarding、架構評審里到處都是它的影子。 亞馬遜數據庫品類暢銷榜首,一占就是八年。
如果拿計算機科學史上的經典來做個坐標系: Brooks 的《人月神話》定義了軟件工程管理的思維框架, GoF 的《設計模式》定義了面向對象設計的共同語言, DDIA 在數據系統領域做了同樣的事。 它不是發明了什么新理論,而是為一個快速演進且日益復雜的領域, 建立了共同的認知框架和分析語言。
它出版八年后依然經久不衰,核心原因是 Kleppmann 做了一個關鍵的寫作決策: 聚焦原理和權衡,而非具體工具。 LSM-Tree vs B-Tree 的權衡、復制與分區的基本矛盾、一致性模型的層級, 這些不會因為某個產品的興衰而過時。 工具會死,原理不朽。
當然,DDIA 也不是零門檻讀物。 有些章節密度極高,讀起來像把一門課壓進一章里; 它也不會教你怎么把某個系統從零配到一。 它的定位一直很清楚:給你一套判斷力,而不是給你一張操作表。
一個倉庫,見證了 AI 能力的演變
DDIA 中文翻譯是一個 GitHub 倉庫,22.6K Star,從 2017 年活到現在。 但我今天想說的不是 Star 數,而是這個倉庫里沉淀著四個不同時間點的翻譯版本, 每一個都定格了當時 AI 翻譯能力的水位線。
2017 年,第一版手工精翻。 純人力時代的產物。工作流是“機翻→粗翻→精翻”三步走: Google 翻譯鋪底,DeepL 潤一遍,最后逐句手工精調。 術語怎么譯、長句怎么斷、段落怎么收束,全靠人。 三個月業余時間,慢,但扎實。這個版本至今仍是整個倉庫的風格基線。
2024 年 9 月,。 DDIA 第二版在 O'Reilly 放出 Early Access,前四章率先可讀。 我決定試試讓 AI 來翻:交給當時的 ChatGPT,給了第一版譯文做參考, 要求保持風格和術語一致。 結果很現實:能看出它“會翻”,但讀起來明顯生硬,術語時不時飄。 評論區有人直說“尷尬”,我自己回頭看也不忍直視。 那個階段的 AI,更像是“把英文換成中文詞”,離“中文技術寫作”還差一口氣。
![]()
2025 年 8 月,。 中間四章放出來,這次換了 Claude Code 搭配 Sonnet 3.7。 比 ChatGPT 好了一截,句子更順、錯誤更少,但讀者反饋仍然是“怪怪的”。 這種“怪”不是語法問題,而是技術寫作的節奏、術語的一致性、 概念落點的穩定性。能讀,但不舒服。
2026 年 2 月,第二版第三部分,Codex 翻譯。 也就是今天。最后四章放出,我開了十路 Codex 并行,一個上午全部完成。 這一次不一樣了:它能從原始 HTML 里抽取出干凈的 Markdown; 它讀懂了 2017 年的舊版譯文,把風格和語感遷移了過來; 我提前整理的三千多個索引術語,它嚴格遵守,全書術語高度一致。 出來的譯文,直接接近精翻水準。
![]()
四個版本,橫跨八年,全部留在同一個 Git 倉庫里。 如果有人想研究 AI 翻譯能力的演進, 這大概是一組相當干凈的對照實驗: 控制變量是書和人,自變量是 AI,因變量是譯文質量。
當然,“一個上午搞定”不意味著我只是按了回車。 術語表是我花功夫整理的,工程流程和提示詞也需要精細設計與校準, 最終的審校和細修也不會省。 AI 再強,也需要一個知道“好的翻譯長什么樣”的人來把關。 但核心事實擺在那:從三個月到一個上午,兩個數量級的變化, 刻在那個倉庫的 Git 歷史里。
AI 越強,DDIA 越值得讀
AI 連翻譯 DDIA 都能一個上午搞定,那人還需要讀 DDIA 嗎?
我的回答是:需要,而且比過去更需要了。
原因不復雜。 我之所以能把 AI 用到接近可交付的程度,不是因為我比別人更會按按鈕, 而是因為有 2017 年那一遍苦功打下來的基線: 我知道術語該怎么譯,知道哪些句子“看著沒錯但不對勁”, 也知道這本書真正想表達的權衡在哪里。
沒有 2017 年那個苦哈哈的我,就不可能有 2026 年這個開十路并行出活的我。
這其實就是 AI 時代一條很樸素的道理: 你不需要比 AI 更會翻譯、更會寫代碼、更會設計架構, 但你需要有能力判斷 AI 給你的東西對不對、好不好、夠不夠。 AI 可以把產出變快,但它不會自動讓產出變對。 你要能判斷“對不對”,才配享受“快不快”。
這種判斷力不是天上掉下來的,它來自你對底層原理的理解。 DDIA 提供的恰恰就是這種理解。
![]()
我現在用 AI 寫代碼,效率確實高了很多,。 但越是這樣,我越常見到一種“危險的順滑”: AI 會非常流暢地給出一個看起來很專業的架構方案,甚至每個名詞都用對了。 你如果缺一套判斷框架,就容易被它的流暢帶跑。
舉兩個很典型的場景。
分布式的誘惑。 AI 很容易給你一套多節點、分片、最終一致性的方案,語氣還很篤定。 但 DDIA 會反復提醒你:分布式不是高級形態,它是成本。 你要先問清楚:你真的需要分布式嗎? 如果數據量沒到那個級別,一臺 PostgreSQL 主庫加幾個只讀副本可能就是最優解。 分布式系統的復雜度是有真實代價的,而這個代價,很多人低估了。
“概念齊全”不等于“決策正確”。 AI 可以把事務隔離級別、復制一致性、RTO/RPO 講得頭頭是道。 但在你的具體業務場景下,該犧牲什么來換取什么? 哪些一致性可以放松,哪些必須守住? 哪些故障要做到秒級恢復,哪些允許分鐘級? 這不是背定義的問題,是拍板的問題。 拍板需要框架,而不是術語表。
DDIA 不是教你操作數據庫的手冊,手冊會被 AI 替代。 它是教你思考數據系統的書,思考框架不會被替代。
第二版新在哪:它把“權衡”提到了臺面上
第二版不是簡單修訂。 它更像一次結構性升級:把“權衡”從全書暗線,提成顯性入口。
![]()
不逐章復述,挑幾條最值得關注的變化。
全新的總綱章節,把架構決策前置。 第二版新增了一個全新的第一章,實際上是一張路線圖: 云服務 vs 自托管、分布式 vs 單節點、OLTP vs OLAP、記錄系統 vs 派生數據。 在你進入任何技術細節之前,先拿到一套完整的決策坐標系。 第一版第一章叫“可靠性、可伸縮性、可維護性”, 第二版改成了“數據系統架構中的權衡”。 光是標題的變化就說明了很多。
向量檢索納入主線。 存儲與檢索章節里,向量嵌入檢索和 B 樹、LSM 樹并列出現。 這不是追熱點,而是一種判斷: Kleppmann 認為向量檢索已經進入數據系統的常規能力范疇。 AI 時代的印記,寫進了教科書的主干。
云原生全面融入。 云數據倉庫、存儲計算分離、云時代運維: 從自建集群到云托管服務,2017 到 2025 年間行業最根本的架構遷移被系統性納入。 相應地,Hadoop MapReduce 等已經退出歷史舞臺的技術被大幅刪減。
分布式事務回歸事務章。 舊版的事務章基本是一個隔離級別教程,分布式事務放在后面的章節里。 新版做了合并:2PC、3PC、XA 事務、恰好一次消息處理,全部納入事務章, 從“并發控制入門”升級為“端到端原子性工程指南”。 現代系統的事務邊界早就不在單機上了,書的結構跟上了現實。
從“知道風險”到“管理風險”。 舊版的分布式系統章主要在說“這些問題會發生”。 新版新增了形式化驗證、模型檢查、故障注入、確定性模擬測試。 不只告訴你問題存在,還給你一套系統性驗證它不會擊穿你的方法論。
倫理獨立成章。 預測分析中的偏見與歧視、隱私與追蹤、數據作為權力資產、GDPR: 數據系統的責任不只是技術正確性,還有社會正確性。 這不是政治正確,而是工程現實: 數據系統已經不可避免地被法律與社會約束包圍, 架構決策不再只由技術指標決定。
一句話概括:第一版更像“建立共同語言”,第二版更像“給你決策地圖”。 更工程,更落地,更現代。 而那些核心原理:B-Tree vs LSM-Tree、復制與分區、一致性模型,依然穩固。 這本身就驗證了第一版的寫作策略:聚焦原理而非工具。
怎么讀:給不同讀者的建議
?新人: 先讀總綱和基礎概念章節,目標是建立坐標系,不要急著讀完。 有了框架,后面遇到具體問題時再回來查對應章節,效率反而更高。?有經驗的工程師: 把它當復盤工具,按主題讀,重點看權衡與邊界。 每章末尾的參考文獻和總結是最好的進階材料,不要跳過。?AI 時代的開發者: 把它當驗收標準。 當 AI 幫你寫了百分之九十九的代碼,你需要有能力判斷那百分之一的關鍵決策。 DDIA 提供的就是這個判斷力。
關于譯文質量
我知道有人天然反感“AI 翻譯”,這很正常。 過去幾年確實有不少“能看但難讀”的技術翻譯消耗了讀者耐心。
所以把我的做法說清楚:AI 在這里是執行層,不是最終把關者。
具體來說,我做了三件事:
1.術語字典化:把三千多個索引術語的譯法固定下來, 用事實來源的方式約束輸出,避免同一概念前后譯法不一。2.風格有基線:2017 年第一版的表達方式已經被讀者接受, 我把它作為風格參考,讓模型遷移語感。3.格式直接交付:HTML 到 Markdown 的處理做成穩定流程, 腳注、錨點、引用一次處理干凈。
不過需要說明:目前的版本還沒有經過人工最終校對,屬于預覽版。 等 EAP 結束正式發布時,我會做一輪完整的人工審核。 如果你在閱讀中發現問題,歡迎提 issue。 翻譯這種事,最怕糊弄,不怕挑刺。
DDIA 與我的八年
最后說點更個人的。
2017 年我翻譯第一版的時候,技術圈正處在一個很典型的“工具爆炸期”: 各種分布式數據庫、數據中臺、大數據體系層出不窮, 很多討論被營銷話術牽著走。 那個時候,不搞分布式好像就落伍了。
我們也試過不少方案:多節點集群、分片架構、不同數據庫體系, 玩過 Citus、Cassandra、TiDB,甚至還自研過分布式數據庫 ttdb…… 后來能下的都下了,留下來的就是“主從 PostgreSQL”這條路。 事實證明這是一條正路。 在當下,就連 OpenAI 這樣規模的獨角獸, 。
原因并不玄學。DDIA 給我的最重要影響,不是某個具體技術點, 而是一種樸素的判斷方式:先把需求、約束、代價攤開,再談方案; 能用簡單系統解決,就不要用復雜系統自找麻煩。 分布式的復雜度從來不是“寫代碼的復雜”, 而是“故障、運維、調試、組織能力”的復雜。 很多團隊真正缺的不是分布式組件,而是駕馭復雜度的工程能力。
這套思維方式后來貫穿了我做 Pigsty 的很多決策: 不追熱點,不賭概念,盡量把系統做成可理解、可維護、可運維的樣子。 回頭看,DDIA 更像給了我一雙眼睛,能穿透噪音, 看清架構設計背后的本質利弊與權衡。
結語
八年前我翻譯了這本書,八年之后, 這依然是對我職業生涯影響最大的一本書。
翻譯這本書,從三個月翻到半天,工具變了很多, 但我越來越確定一件事: 工具越強,認知框架層面的基礎知識就越重要。
新人讀它,建立坐標系,少走三年彎路。 老兵讀它,把散落的經驗串成一張網。 AI 時代讀它,獲得那個“判斷 AI 對不對”的能力。
https://ddia.vonng.com
References
[1] MinIO 的控制臺相關內容補齊: /db/minio-resurrect[2]: https://ddia.vonng.com[3] 核心業務也只是由一套 1 主 50 從的 PostgreSQL 普通集群扛住: /db/openai-pg[4]: https://ddia.vonng.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.