首頁 > 軟體

R語言rhdf5讀寫hdf5並展示檔案組織結構和索引資料

2022-06-27 14:01:34

前言

h5只是一種簡單的資料組織格式【層級資料儲存格式(HierarchicalDataFormat:HDF)】,該格式被設計用以儲存和組織大量資料。

在一些單細胞文獻中,作者通常會將分析的資料上傳到GEO資料庫儲存為.h5格式檔案,而不是我們常見的工程檔案(rds檔案,表格資料等),所以為了解析利用這些資料需要對hdf5格式的組織結構有一定的瞭解。

(注:在Seurat包中有現成的函數Seurat::Read10X_h5()可以用來提取表達矩陣,但似乎此外無法從h5檔案中提取更多的資訊)。

GEO資料庫

在R語言中對HDF5進行操作的軟體包為rhdf5

安裝

install.packages("BiocManager");BiocManager::install("rhdf5");library(rhdf5)

開啟.h5檔案 和 展示內容的組織結構

h5_file= H5Fopen("new.h5")
####如下所示,new.h5檔案內建立了一個組(group1_mat)
#組內又建立了df和matrix兩個層級用以儲存矩陣和資料框
> h5dump(h5_file,load=FALSE)
$group1_mat
$group1_mat$df
  group name       otype   dclass dim
1     /   df H5I_DATASET COMPOUND   5

$group1_mat$matrix
  group   name       otype dclass   dim
1     / matrix H5I_DATASET  FLOAT 3 x 2

資料索引通過“$”符進行

> h5_file$group1_mat$df
  C_1 C_2 C_3 name
1   3   5  69   xx
2   2   8  60   yy
3   8   4  92   gg
4   1   6  16   ll
5   7   4  25   mm

關閉hdf5檔案

H5Fclose(h5_file)#關閉當前開啟的hdf5檔案
h5closeAll()#關閉所有開啟的hdf5檔案

構建自己的hdf5檔案

###準備資料
mdat <- matrix(c(0,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE,dimnames = list(c("row1", "row2"),c("C.1", "C.2", "C.3")))
df <- data.frame(C_1 = c(3,2,8,1,7),C_2 = c(5,8,4,6,4),C_3 = round(runif(n = 5), 2) * 100,name = c("xx","yy","gg",'ll','mm'))
mdat.spar <- Matrix::Matrix(mdat, sparse = TRUE)
my_array <- array(seq(0.1,2.0,by=0.1),dim=c(5,2,2))
my_list <- list(my_array[,,1],my_array[,,2])
my_string <- "This is one hdf structure file"
###構建.h5檔案
h5createFile("new.h5")
# Saving matrix information.
h5createGroup("new.h5","group1_mat")
h5write(mdat, "new.h5", "group1_mat/matrix")
h5write(df, "new.h5", "group1_mat/df")
# Saving sparse_matrix information.
mdat.spar <- as(mdat, "dgCMatrix")
h5createGroup("new.h5","group2_sparseMTX")
h5write(mdat.spar@x, "new.h5", "group2_sparseMTX/data")
h5write(dim(mdat.spar), "new.h5", "group2_sparseMTX/shape")
h5write(mdat.spar@i, "new.h5", "group2_sparseMTX/indices") # already zero-indexed.
h5write(mdat.spar@p, "new.h5", "group2_sparseMTX/indptr")
# Saving array and list data
h5createGroup("new.h5","group3_aL")
h5write(my_list, "new.h5", "group3_aL/list")
h5write(my_array, "new.h5", "group3_aL/array")
# Saving string data
h5createGroup("new.h5","group4_string")
h5write(my_string, "new.h5", "group4_string/string")
h5closeAll()

參考官方說明 rhdf5 - HDF5 interface for R (bioconductor.org)

以上就是R語言rhdf5讀寫hdf5並展示檔案組織結構和索引資料的詳細內容,更多關於R語言rhdf5讀寫hdf5的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com