關注飛總聊IT,了解IT行業的方方面面。
2025年夏天,Iceberg V3終于來了。
Iceberg是一大坨屎,很成功的屎。
![]()
尤其是Iceberg V2的時候,引入了所謂的delete file,支持positional delete和equality delete。
這些delete file,如果我們用過有這么多delete file的Iceberg table, 在Trino等引擎中實際導致的內存占用高,線程長期在準備階段無法啟動等待問題,大概就知道這坨屎有多惡心了。
只能說,什么樣的程序員才能設計出這樣的方案來。
而Iceberg V3將全面取締這些做法,而在實際上用Delta的Deletion Vector,棄用 positional delete文件。
這既說明了Databricks買了Iceberg以后,終于可以把自己的技術優勢影響力, 帶進Iceberg社區,更可以讓Iceberg社區看看牛逼兩個字是怎么寫的。
畢竟我已經買了你了,你怎么可能不按照我的方向走呢,更何況,我的技術的確就是比你牛逼。
縱觀Delta和Iceberg這些年的斗爭,只能說,技術牛逼的,毀在騷操作。
2020年初,我司的某些產品需要選一個文件格式,這個事情最后攤到了我頭上來替我司的領導們提供決策建議。
2020年的Delta和Iceberg都不像今天那樣。但是當時通過去看一些架構方面的設計,比如說Metadata的處理,Delta Lake的技術優勢已經是很明顯的。
所以,按照這個技術優勢來看,是應該選Delta Lake了?不是。
我最后給公司高層的建議還是選Iceberg,盡管我非常的不喜歡其中很多技術上的設計。
這源于Delta 的開源策略:我開源一個次品, 然后我自己賣錢的產品有更高級的特性,不開源。
這個策略在Spark上異常成功,但是Databricks公司顯然有了路勁依賴,不知道一個file format想要來個競品,是很容易的事情,一個分布式執行引擎,想要來個競品,那就難多了。
所以,可以預見的事情,就是整個社區都會慢慢的去用Iceberg,而不喜歡次品被Databricks拿捏的Delta。
所以,我當時的推薦也是基于這個考慮,放棄 Delta。但是純粹從技術角度來說,Delta明顯設計上要好。
后續Databricks先是搞了Delta 2.0,用的辦法是把自己所有的重要特性都開源出來,不搞次品了,但是為時已晚。
再后來Delta干脆就做了在保持parquetdata的基礎上,可以輸出Iceberg的metadata的做法,一份數據,多份元數據。
當然,由于Iceberg V2.0的演化,這個策略并不能夠完整的支持所有的Iceberg特性。
結局么,還是沒戲。
于是,終極大招上場了,Databricks砸錢2Billion直接買了Iceberg的開發者的創業公司。
我雖然說比不過你,但是我可以買了你啊。
金錢攻勢下,Databricks終于贏麻了。
Iceberg3.0, Delta的幽靈,到處都是。
不知道Iceberg會不會有4.0。還是說,到時候Delta借尸還魂,自己不是自己了。
推薦飛總知識星球,在私域場合里暢所欲言,聊聊職場發展的事情,和飛總提問交流,這么低的價格不會一直保留,機會難得,一定不要錯過這個的機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.