首頁 > 軟體

Matlab操作HDF5檔案範例

2022-06-28 18:05:42

HDF5檔案

在使用Matlab對資料進行預處理時,遇到了記憶體不足的問題,因為資料量太大,在處理完成以前記憶體已經爆滿。如果使用Matlab的.m檔案對檔案進行儲存的話,則需要將資料分割成多個檔案,對後續的處理造成了不便。HDF5檔案則是一種靈活的檔案儲存格式,有一個最大的好處就是在Matlab的處理過程中可以對它進行擴充套件寫入,也就是說不是所有資料處理完以後一次寫入,而是邊處理邊寫入,極大的降低了對系統記憶體的要求。

HDF5檔案類似與一個檔案系統,使用這個檔案本身就可以對資料集(dataset)進行管理。例如下圖所示,HDF5檔案中的資料集皆儲存根目錄/,在根目錄下存在多個group,這樣一些group類似與檔案系統的資料夾,在它們可以儲存別的group,也可以儲存資料集。

對於每一個dataset 而言,除了資料本身之外,這個資料集還會有很多的屬性 attribute,。在hdf5中,還同時支援儲存資料集對應的屬性資訊,所有的屬性資訊的集合就叫做metadata;

使用Matlab操作HDF5檔案

使用Matlab建立HDF5檔案

使用Matlab建立HDF5檔案的函數是h5create,使用如下:

h5create(filename,datasetname,[30, 30 , 3, inf],'Datatype','single','ChunkSize',[30,30,3,1000])

filenameh5檔案的檔名(不知道什麼問題,在我的電腦上使用時,這個函數無法指定路徑)。

datasetname則為資料集的名字,資料集名稱必須以/開頭,比如/G

[30,30,3,inf]位資料集的大小,比如我的資料集為30x30大小的彩色影象,並且我希望數量能夠擴充套件,那麼就可以指定最後以為度為inf,以表示數量不限。

Datatype為資料型別

ChunkSize為資料儲存的最小分塊,為了讓資料能夠具有擴充套件性,所以為新來的資料分配一定的空間大小,對於一個非常大的資料,這個值設定大一點比較好,這樣分塊就會少一點。比如我的資料集中,30x30大小的彩色影象大概有10萬個左右,那麼1000個儲存在一起較為合適,則chunksize設定為:[30,30,3,1000]。

使用Matlab寫入HDF5

在建立了hdf5檔案和資料集以後,則可以對資料集進行寫操作以擴充套件裡面的資料。使用Matlab寫入HDF5檔案的函數是h5write,使用如下:

h5write(fileName,datasetName,data,start,count);

fileName: hdf5檔名

datasetName:資料集名稱,比如/Gdata:需要寫入的資料,資料的維度應該與建立時一致,比如,設定的資料集大小為[30,30,3,inf],那麼這裡的data的前三個維度就應該是[30, 30, 3],而最後一個維度則是自由的

start:資料儲存的起點,如果是第一次存,則應該為[1, 1, 1, 1](注意資料維度的一致性),如果這次存了10000個樣本,也就是[30,30,3,10000],那麼第二次儲存的時候起點就應該為[1,1,1,10001]

count儲存資料的個數,同樣要根據維度來(其實就是資料的維度),這裡為[30,30,3,10000]

使用Matlab檢視HDF5檔案資訊

Matlab中可以使用h5info函數來讀取HDF5檔案的資訊:

fileInfo = h5info(fileName);

然後通過解析fileInfo結構,則可以得到HDF5檔案中的資料集名稱、資料集大小等等必要資訊。

使用Matlab讀取HDF5中的資料集

Matlab中可以使用h5read函數來讀取HDF5檔案:

data = h5read(filename,datasetname,start,count)

filename:HDF5檔案檔名

datasetname:資料集名稱

start:從資料集中取資料的其實位置

count:取的資料數量

還是以上面的30x30的彩色影象為例,如果每次需要取1000個,那麼第一次取時,start應該設定為[1, 1, 1, 1] ,count設定為:[30, 30 ,3 1000]。第二次取值時,start則應該設定為[1, 1, 1, 1001],count則設定為:[30, 30, 3, 1000]。

以上就是Matlab操作HDF5檔案範例的詳細內容,更多關於Matlab操作HDF5檔案的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com