<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Lakehouse最早由Databricks公司提出,其可作為低成本、直接存取雲端儲存並提供傳統DBMS管系統效能和ACID事務、版本、審計、索引、快取、查詢優化的資料管理系統,Lakehouse結合資料湖和資料倉儲的優點:包括資料湖的低成本儲存和開放資料格式存取,資料倉儲強大的管理和優化能力。Delta Lake,Apache Hudi和Apache Iceberg是三種構建Lakehouse的技術。
與此同時,Pulsar提供了一系列特性:包括分層儲存、流式解除安裝、列式解除安裝等,讓其成為一個可以統一批和事件流的儲存層。特別是分層儲存的特性,然Pulsar成為一個輕量級資料湖,但是Pulsar還是缺乏一些效能優化,比如索引,資料版本(在傳統DBMS管理系統中非常常見),引入列式解除安裝程式的目的是為了縮小效能差距,但是還不夠。
本提議嘗試將Apache Pulsar作為Lakehouse,該提案僅提供頂層設計,詳細設計和實現在後面的子提議中解決;
本部分將分解構建Lakehouse需要的關鍵特性,然後分析Pulsar是否滿足要求以及識別還有哪些差距。
Lakehouse有如下關鍵特性:
可以看到Pulsar滿足構建Lakehouse的所有條件。然而現在的分層儲存有很大的效能差距,例如:
這裡旨在解決Pulsar儲存層的效能問題,使Pulsar能作為Lakehouse。
圖1展示了當前Pulsar流的儲存佈局。
當前的方案有一些缺點:
新方案建議在分層儲存中使用Lakehouse儲存解除安裝的資料。該提案建議使用Apache Hudi作為Lakehouse儲存,原因如下:
圖2展示了Pulsar topic新的佈局。
Pulsar不直接支援upsert。它通過主題(topic)壓縮支援upsert。 但是當前的主題壓縮方法既不可延伸,也不高效。
為了支援高效且可延伸的Upsert,該提案建議使用Apache Hudi將壓縮後的資料儲存在分層儲存中。 圖3展示了使用Apache Hudi支援主題壓縮中的有效upserts的方法。
該想法是實現主題壓縮服務。主題壓縮服務可以作為單獨的服務(即Pulsar函數)執行以壓縮主題。
主題壓縮遊標將參照位置的後設資料儲存在儲存Hudi表的分層儲存中。
Hudi會在不同的即時
時間維護對錶執行的所有操作的時間軸
,這有助於提供表的即時檢視,同時還有效地支援按_arrival_順序進行資料檢索。Hudi支援從表中增量拉取變更。我們可以支援通過Hudi表備份的_ReadOnly_主題。這允許應用程式從Pulsar代理流式傳輸Hudi表的變更。圖4展示了這個想法。
當我們開始將所有資料儲存在分層儲存中時,該提案建議不儲存解除安裝或壓縮資料的後設資料,而只依賴分層儲存來儲存解除安裝或壓縮資料的後設資料。
該提案提議在以下目錄佈局中組織解除安裝和壓縮的資料。
- <tenant>/ - <namespace>/ - <topics>/ - segments/ <= Use Hudi to store the list of segments to guarantee ACID - segment_<segment-id> - ... - cursors/ - <cursor A>/ <= Use Hudi to store the compacted table for cursor A. - <cursor B>/ <= ...
[1] Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics. http://cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[2] What is a Lakehouse? https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
[3] Diving Deep into the inner workings of the Lakehouse and Delta Lake. https://databricks.com/blog/2020/09/10/diving-deep-into-the-inner-workings-of-the-lakehouse-and-delta-lake.html
以上就是Apache Pulsar結合Hudi構建Lakehouse方案分析的詳細內容,更多關於Apache Pulsar結合Hudi構建Lakehouse的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45