CIO仍然比以往任何時候都更接近他們夢想的數(shù)據(jù)湖倉
Databricks 收購初創(chuàng)公司 Tabular 的大膽舉動,對其自身的 Delta Lake 數(shù)據(jù)湖解決方案并未起到有效的幫助,無法阻止 Apache Iceberg 的崛起,然而,這一收購可能會影響接下來的發(fā)展。
數(shù)據(jù)湖領(lǐng)域的競爭已經(jīng)結(jié)束,開源的 Apache Iceberg 已經(jīng)獲勝,即便 Databricks 以十億美元收購了由 Iceberg 創(chuàng)始人創(chuàng)立的初創(chuàng)公司 Tabular,也無法改變這一事實。
盡管如此,這一大膽的收購令一些 CIO 感到困惑和分心,他們難以理解為何 Databricks 作為數(shù)據(jù)湖領(lǐng)域的先驅(qū),Delta Lake 的架構(gòu)師,竟會花費巨資收購這家成立僅三年、年收入不足 100 萬美元的初創(chuàng)公司 Tabular,盡管該公司前景廣闊。
一些人猜測,Databricks 可能希望通過這一不確定性,減緩 Iceberg 生態(tài)系統(tǒng)的快速發(fā)展,另一些人則推測,Databricks 可能計劃將 Delta Lake 的項目壓在 Tabular 團隊身上,而 Tabular 團隊目前仍然在積極參與 Iceberg 的開發(fā),這種做法可能既幫助了其自身平臺的發(fā)展,又消耗了 Iceberg 作為另一種數(shù)據(jù)湖表格式的資源。
還有一種假設(shè)是,Databricks 的高層可能對擊敗 Snowflake 的舉動感到興奮,尤其是在 Snowflake 的活動期間通過收購來吸引注意力,據(jù)報道其競爭對手也曾尋求這次收購,或者,Databricks 可能只是希望通過在 Iceberg 領(lǐng)域脫穎而出,來緩解華爾街對其即將上市的不安情緒。
無論原因是什么,Databricks 目前對外所說的關(guān)于開放性和可移植性的好處聽起來都很合適——但措辭模糊,足以讓外界繼續(xù)猜測。
Amazon Web Services (AWS) 的開源戰(zhàn)略和營銷總監(jiān) David Nalley 對我表示:“我確實認為這次收購有點分散注意力,但當(dāng)這種規(guī)模的資金流動時,情況往往就是如此?!?AWS 已將 Iceberg 集成到 AWS Glue 和 Amazon Athena 等分析服務(wù)中,并在過去三年積極參與了 Iceberg 的開發(fā)。“不過,就我看到的所有信號來看,越來越多的人參與其中,開發(fā)速度實際上正在加快。我們對此感到非常興奮?!?/p>
事實上,盡管有各種擔(dān)憂,但目前的大部分工作并不涉及 Iceberg 表格式。內(nèi)部人士表示,該格式相對穩(wěn)定。既然 Iceberg 已確立為默認的表格式,下一步的競爭將圍繞其上的 REST 目錄層展開——即幫助定義 Iceberg 的擴展范圍及數(shù)據(jù)管理能力的 API,這正成為新的競爭戰(zhàn)場。
這也是 Databricks 仍有機會發(fā)揮作用的地方,特別是通過將其平臺下的數(shù)據(jù)與其他競爭平臺上的信息結(jié)合。實際上,Databricks 已經(jīng)朝這個方向努力。6月,在收購 Tabular 的一周后,Databricks 將其數(shù)據(jù)治理工具 Unity Catalog 開源。
Cloudera 產(chǎn)品管理高級副總裁 Venkat Rajaji 表示:“數(shù)據(jù)目錄至關(guān)重要,因為它是企業(yè)管理元數(shù)據(jù)的地方。” Cloudera 也一直在其平臺上投資 Iceberg 和 REST 目錄的能力?!白罱鼑@ Iceberg REST 目錄的創(chuàng)新非常多,因為數(shù)據(jù)戰(zhàn)場已經(jīng)結(jié)束,但元數(shù)據(jù)的戰(zhàn)場才剛剛開始?!?/p>
數(shù)據(jù)湖的吸引力
數(shù)據(jù)湖表格式的推廣幾乎好得讓人難以置信,它們本質(zhì)上是抽象層,賦予了業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家混合和匹配不同數(shù)據(jù)存儲的能力,無論數(shù)據(jù)存儲在哪個地方,也不論使用哪種處理引擎。
一切操作都有記錄,包括元數(shù)據(jù)的變更,這為一系列管理和治理能力鋪平了道路。數(shù)據(jù)本身保持完整,沒有復(fù)制或更改。因此,任何數(shù)量的項目都可以同時訪問這些數(shù)據(jù),而表格式會跟蹤所有這些操作。
CIO們對此表示認可,因為這些表格式取消了為每個項目單獨復(fù)制數(shù)據(jù)的需求,從而減少了存儲費用,并緩解了安全性、可靠性和可管理性方面的問題。理論上,所有這些都能實現(xiàn)不依賴供應(yīng)商的鎖定。
最后一點——沒有類似于“加州旅館”式的陷阱,如專有的增強功能和高昂的外部數(shù)據(jù)轉(zhuǎn)移費用,這些費用通常會將企業(yè)困在專有數(shù)據(jù)倉庫中——在 Iceberg 的設(shè)計中起到了關(guān)鍵作用。當(dāng)時,Iceberg 的創(chuàng)造者們在 Netflix 工作,他們采用了供應(yīng)商中立的方法,這種方法也吸引了像 Apple、Citibank 和 Pinterest 這樣的以數(shù)據(jù)為中心的大公司,并繼續(xù)推動其人氣上升。
Delta Lake 從技術(shù)上講也是開放的,Databricks 將 Delta Lake 捐贈給了 Linux 基金會,差不多在 Netflix 將 Iceberg 項目交給 Apache 軟件基金會的同時,但一些 CIO 擔(dān)心,Databricks 在平臺中的巨大影響力可能讓公司有機會維持并增強其專有的鉤子,例如在 Databricks Runtime 中。
“人們確實有一種感覺,認為 Delta Lake 是一家公司獨創(chuàng)的成果,”Snowflake 的首席工程師 Russell Spitzer 說。Spitzer 在 6 月從 Apple 加入了 Snowflake,同時也是 Iceberg 項目管理委員會 (PMC) 的成員,并在 6 月 Snowflake 捐贈給 Apache 的 REST 兼容 API 項目 Apache Polaris 的孵化 PMC 中擔(dān)任職務(wù)。他還為這兩個項目貢獻了代碼。
“你知道,它是開源的,”Spitzer 說,“但它確實是一個 Databricks 的產(chǎn)品?!?/p>
如果你無法擊敗他們,那就加入他們
Iceberg 的第一波大規(guī)模采用始于 2020 年,當(dāng)時它成為 Apache 的頂級項目,除了 AWS,像 Cloudera 和 Dremio 這樣以開放為中心的供應(yīng)商也開始圍繞 Iceberg 構(gòu)建服務(wù),Google 也在這波浪潮接近尾聲時加入。
大多數(shù)專有數(shù)據(jù)平臺供應(yīng)商在最初的浪潮中選擇旁觀,可能是因為 Iceberg 的“任何數(shù)據(jù)、任何引擎”結(jié)構(gòu)對他們現(xiàn)有的商業(yè)模式構(gòu)成了威脅,而 Snowflake 是個顯著的例外,這家數(shù)據(jù)平臺供應(yīng)商在此期間開始投資 Iceberg,可能是因為它需要一個與其最強大的競爭對手 Delta Lake 抗衡的解決方案。
隨著企業(yè)越來越多地將來自競爭性數(shù)據(jù)倉庫的數(shù)據(jù)與 Iceberg 結(jié)合使用,各大專有平臺供應(yīng)商開始認真地添加對 Iceberg 的支持,這讓他們處于更有利的地位,不僅能夠繼續(xù)管理數(shù)據(jù),還可能托管處理功能。
僅在過去的一年里,Confluent、Oracle 和 Salesforce 都增加了對 Iceberg 的支持。Snowflake 則通過 Polaris 加大了對 Iceberg 的投入。微軟作為最后一家保持觀望的云服務(wù)提供商——很可能因為其對 Delta Lake 的投資——在 6 月份加入了 Snowflake 的發(fā)布活動。當(dāng)然,Databricks 也在快速擴大對 Iceberg 的覆蓋。
“看到 Iceberg 取得的進展,我感到非常驚訝,”Snowflake 的 Spitzer 說,“過去我得向人們解釋為什么他們應(yīng)該關(guān)心 Iceberg,而現(xiàn)在,人人都知道 Iceberg,大家也都知道,所有人都在向它靠攏?!?/p>
一切都與元數(shù)據(jù)有關(guān)
Iceberg 為將不同的數(shù)據(jù)存儲整合到項目中并進行處理奠定了堅實的基礎(chǔ)?,F(xiàn)在,企業(yè)數(shù)據(jù)分析社區(qū)基本上已經(jīng)接受了這一點,下一階段的工作將集中在目錄層面。AWS、Cloudera、Databricks、Snowflake 等公司都在努力讓 Iceberg 能夠處理盡可能多的數(shù)據(jù)并發(fā)揮最佳性能。
“目錄不僅僅關(guān)乎表格式,還涉及治理,”AWS 的開放數(shù)據(jù)分析引擎主管 Roni Burd 說。Burd 還負責(zé)管理該公司對 Iceberg 的貢獻?!耙虼耍谀夸?API 上有另一個巨大的創(chuàng)新機會,即表格式之上的抽象層。這也是我們的客戶所需求的,因為它為他們解決問題開辟了新的前沿?!?/p>