關(guān)注飛總聊IT,了解IT行業(yè)的方方面面。
2025年夏天,Iceberg V3終于來了。
Iceberg是一大坨屎,很成功的屎。
![]()
尤其是Iceberg V2的時(shí)候,引入了所謂的delete file,支持positional delete和equality delete。
這些delete file,如果我們用過有這么多delete file的Iceberg table, 在Trino等引擎中實(shí)際導(dǎo)致的內(nèi)存占用高,線程長(zhǎng)期在準(zhǔn)備階段無法啟動(dòng)等待問題,大概就知道這坨屎有多惡心了。
只能說,什么樣的程序員才能設(shè)計(jì)出這樣的方案來。
而Iceberg V3將全面取締這些做法,而在實(shí)際上用Delta的Deletion Vector,棄用 positional delete文件。
這既說明了Databricks買了Iceberg以后,終于可以把自己的技術(shù)優(yōu)勢(shì)影響力, 帶進(jìn)Iceberg社區(qū),更可以讓Iceberg社區(qū)看看牛逼兩個(gè)字是怎么寫的。
畢竟我已經(jīng)買了你了,你怎么可能不按照我的方向走呢,更何況,我的技術(shù)的確就是比你牛逼。
縱觀Delta和Iceberg這些年的斗爭(zhēng),只能說,技術(shù)牛逼的,毀在騷操作。
2020年初,我司的某些產(chǎn)品需要選一個(gè)文件格式,這個(gè)事情最后攤到了我頭上來替我司的領(lǐng)導(dǎo)們提供決策建議。
2020年的Delta和Iceberg都不像今天那樣。但是當(dāng)時(shí)通過去看一些架構(gòu)方面的設(shè)計(jì),比如說Metadata的處理,Delta Lake的技術(shù)優(yōu)勢(shì)已經(jīng)是很明顯的。
所以,按照這個(gè)技術(shù)優(yōu)勢(shì)來看,是應(yīng)該選Delta Lake了?不是。
我最后給公司高層的建議還是選Iceberg,盡管我非常的不喜歡其中很多技術(shù)上的設(shè)計(jì)。
這源于Delta 的開源策略:我開源一個(gè)次品, 然后我自己賣錢的產(chǎn)品有更高級(jí)的特性,不開源。
這個(gè)策略在Spark上異常成功,但是Databricks公司顯然有了路勁依賴,不知道一個(gè)file format想要來個(gè)競(jìng)品,是很容易的事情,一個(gè)分布式執(zhí)行引擎,想要來個(gè)競(jìng)品,那就難多了。
所以,可以預(yù)見的事情,就是整個(gè)社區(qū)都會(huì)慢慢的去用Iceberg,而不喜歡次品被Databricks拿捏的Delta。
所以,我當(dāng)時(shí)的推薦也是基于這個(gè)考慮,放棄 Delta。但是純粹從技術(shù)角度來說,Delta明顯設(shè)計(jì)上要好。
后續(xù)Databricks先是搞了Delta 2.0,用的辦法是把自己所有的重要特性都開源出來,不搞次品了,但是為時(shí)已晚。
再后來Delta干脆就做了在保持parquetdata的基礎(chǔ)上,可以輸出Iceberg的metadata的做法,一份數(shù)據(jù),多份元數(shù)據(jù)。
當(dāng)然,由于Iceberg V2.0的演化,這個(gè)策略并不能夠完整的支持所有的Iceberg特性。
結(jié)局么,還是沒戲。
于是,終極大招上場(chǎng)了,Databricks砸錢2Billion直接買了Iceberg的開發(fā)者的創(chuàng)業(yè)公司。
我雖然說比不過你,但是我可以買了你啊。
金錢攻勢(shì)下,Databricks終于贏麻了。
Iceberg3.0, Delta的幽靈,到處都是。
不知道Iceberg會(huì)不會(huì)有4.0。還是說,到時(shí)候Delta借尸還魂,自己不是自己了。
推薦飛總知識(shí)星球,在私域場(chǎng)合里暢所欲言,聊聊職場(chǎng)發(fā)展的事情,和飛總提問交流,這么低的價(jià)格不會(huì)一直保留,機(jī)會(huì)難得,一定不要錯(cuò)過這個(gè)的機(jī)會(huì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.