<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Apache Hudi提供了MVCC並行模型,保證寫入端和讀取端之間快照級別隔離。在本篇部落格中我們將介紹如何設定來管理多個檔案版本,此外還將討論使用者可使用的清理機制,以瞭解如何維護所需數量的舊檔案版本,以使長時間執行的讀取端不會失敗。
Hudi 提供不同的表管理服務來管理資料湖上表的資料,其中一項服務稱為Cleaner(清理服務)。 隨著使用者向表中寫入更多資料,對於每次更新,Hudi會生成一個新版本的資料檔案用於儲存更新後的記錄(COPY_ON_WRITE) 或將這些增量更新寫入紀錄檔檔案以避免重寫更新版本的資料檔案 (MERGE_ON_READ)。 在這種情況下,根據更新頻率,檔案版本數可能會無限增長,但如果不需要保留無限的歷史記錄,則必須有一個流程(服務)來回收舊版本的資料,這就是 Hudi 的清理服務。
在資料湖架構中,讀取端和寫入端同時存取同一張表是非常常見的場景。由於 Hudi 清理服務會定期回收較舊的檔案版本,因此可能會出現長時間執行的查詢存取到被清理服務回收的檔案版本的情況,因此需要使用正確的設定來確保查詢不會失敗。
針對上述場景,我們先了解一下 Hudi 提供的不同清理策略以及需要設定的相應屬性,Hudi提供了非同步或同步清理兩種方式。在詳細介紹之前我們先解釋一些基本概念:
Hudi 清理服務目前支援以下清理策略:
假設使用者每 30 分鐘將資料攝取到 COPY_ON_WRITE 型別的 Hudi 資料集,如下所示:
圖1:每30分鐘將傳入的記錄提取到hudi資料集中
該圖顯示了 DFS 上的一個特定分割區,其中提交和相應的檔案版本是彩色編碼的。在該分割區中建立了 4 個不同的檔案組,如 fileId1、fileId2、fileId3 和 fileId4 所示。 fileId2 對應的檔案組包含所有 5 次提交的記錄,而 fileId4 對應的組僅包含最近 2 次提交的記錄。
假設使用以下設定進行清理:
hoodie.cleaner.policy=KEEP_LATEST_COMMITS hoodie.cleaner.commits.retained=2
Cleaner 通過處理以下事項來選擇要清理的檔案版本:
圖2:保留最近3次提交對應的檔案
假設使用以下設定進行清理:
hoodie.cleaner.policy=KEEP_LATEST_FILE_VERSIONS hoodie.cleaner.fileversions.retained=1
清理服務執行以下操作:
圖3:保留每個檔案組中的最新檔案版本
可以在 此處 中找到有關所有可能設定的詳細資訊以及預設值。
Hudi 的清理表服務可以作為單獨的程序執行,可以與資料攝取一起執行。正如前面提到的,它會清除了任何陳舊檔案。如果您想將它與攝取資料一起執行,可以使用設定同步或非同步執行。或者可以使用以下命令獨立執行清理服務:
[hoodie]$ spark-submit --class org.apache.hudi.utilities.HoodieCleaner --props s3:///temp/hudi-ingestion-config/config.properties --target-base-path s3:///temp/hudi --spark-master yarn-cluster
如果您希望與寫入非同步執行清理服務,可以設定如下內容:
hoodie.clean.automatic=true hoodie.clean.async=true
此外還可以使用 Hudi CLI 來管理 Hudi 資料集。CLI 為清理服務提供了以下命令:
cleans show
clean showpartitions
clean run
可以在 org.apache.hudi.cli.commands.CleansCommand 類 中找到這些命令的更多詳細資訊和相關程式碼。
目前正在進行根據已流逝的時間間隔引入新的清理策略,即無論攝取發生的頻率如何,都可以保留想要的檔案版本,可以在 此處 跟蹤進度。
我們希望這篇部落格能讓您瞭解如何設定 Hudi 清理服務和支援的清理策略。請存取部落格部分 以更深入地瞭解各種 Hudi 概念。
以上就是Apache Hudi的多版本清理服務徹底講解的詳細內容,更多關於Apache Hudi多版本清理服務的資料請關注it145.com其它相關文章!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45