你知道设计用来存储大量数据的HDF5层级数据格式吗？

你知道吗？层级数据格式在存储及管理大量数据方面具有高效性，但关于它的众多知识却并不广为人知。现在，让我带你来深入探究层级数据格式的奥秘。

层级数据格式概述

HDF5 "C:/Users/******/Desktop/h5ex_t_array.h5" {
    GROUP "/" {
       DATASET "DS1" {
          DATATYPE  H5T_ARRAY { [3][5] H5T_STD_I64LE }  // 派生的数据类型
          DATASPACE  SIMPLE { ( 4 ) / ( 4 ) }
          DATA {
          (0): [ 0, 0, 0, 0, 0,
                0, -1, -2, -3, -4,
                0, -2, -4, -6, -8 ],
          (1): [ 0, 1, 2, 3, 4,
                1, 1, 1, 1, 1,
                2, 1, 0, -1, -2 ],
          (2): [ 0, 2, 4, 6, 8,
                2, 3, 4, 5, 6,
                4, 4, 4, 4, 4 ],
          (3): [ 0, 3, 6, 9, 12,
                3, 5, 7, 9, 11,
                6, 7, 8, 9, 10 ]
          }
       }
    }
}

层级数据格式，简称HDF，分为HDF4和HDF5两个主要版本，自20世纪开始应用于科学计算，专门用于存储和管理庞大的数据集。众多科研机构和企业都依赖这一格式来处理海量的复杂数据。比如，在天文学的大型项目中，观测到的海量数据就会采用HDF格式进行存储。

HDF格式因其灵活性以及高效性而被广泛采用。在气象研究领域，它能够保存不同时间点、不同地点的气象信息。此外，它还能存储生物医学研究中涉及到的基因、蛋白等多种类型的数据。

理解元数据

HDF5的元数据包括Datatypes、Dataspaces、Properties，以及可选的Attributes。其中，Datatypes用于说明dataset中的数据类型，它是数据转换过程中不可或缺的信息。

预定义的数据类型分为两种：一种是标准的，另一种是私有的。标准的datatypes，比如H5T_IEEE_F32BE，可以在所有平台上通用。而私有的datatypes，例如H5T_NATIVE_INT，则仅与特定的C语言类型相对应，并且仅在部分平台上有效。

HDF5 "C:/Users/wengjianhong/Desktop/h5ex_d_compact.h5" {
GROUP "/" {
    DATASET "DS1" {
      DATATYPE  H5T_STD_I32LE	// 标准预定义数据类型，int
      DATASPACE  SIMPLE { ( 4, 7 ) / ( 4, 7 ) }
      DATA {
      (0,0): 0, -1, -2, -3, -4, -5, -6,
      (1,0): 0, 0, 0, 0, 0, 0, 0,
      (2,0): 0, 1, 2, 3, 4, 5, 6,
      (3,0): 0, 2, 4, 6, 8, 10, 12
      }
   }
}

派生数据类型

派生数据类型是从预定义数据类型中演变而来的。在众多软件项目实践中，开发者通常会依据具体需求，从既定的或自定的数据类型中提炼出新的数据种类。

该数据处理软件针对特定业务需求，通过从现有标准浮点类型中衍生出新的数据类型，使得数据的表示更加精确和适宜，从而在数据处理与分析过程中提升了效率。

认识数据空间

Dataspaces是用来展示数据分布情况的工具。比如在科研领域，制作三维模型时存储数据，利用Dataspaces可以明确设定数据的维度和体积。

从图片中可以观察到，该数据集的秩为3，并且它是一个5行3列的二维数组。这正是Dataspaces清晰展示数据布局的方式，使得研究者能够清楚地了解数据的结构和组织形式。

数据特性与性能优化

HDF5 "C:/Users/wengjianhong/Desktop/h5ex_t_array.h5" {
GROUP "/" {
   DATASET "DS1" {
      DATATYPE  H5T_ARRAY { [3][5] H5T_STD_I64LE }
      DATASPACE  SIMPLE { ( 4 ) / ( 4 ) }
      DATA {
      (0): [ 0, 0, 0, 0, 0,
            0, -1, -2, -3, -4,
            0, -2, -4, -6, -8 ],
      (1): [ 0, 1, 2, 3, 4,
            1, 1, 1, 1, 1,
            2, 1, 0, -1, -2 ],
      (2): [ 0, 2, 4, 6, 8,
            2, 3, 4, 5, 6,
            4, 4, 4, 4, 4 ],
      (3): [ 0, 3, 6, 9, 12,
            3, 5, 7, 9, 11,
            6, 7, 8, 9, 10 ]
      }
   }
}
}

属性描述了数据的特征。在多数情况下，预设的属性足以应对需求。然而，当性能需求较高时，我们可以通过HDF5的属性列表API进行相应的调整。

金融机构在处理众多高频交易数据时，会运用API来调整相关属性，以此加快数据的读写速度，进而提高系统的整体性能。

HDF5 "C:/Users/wengjianhong/Desktop/h5ex_t_arrayatt.h5" {
GROUP "/" {
   DATASET "DS1" {
      DATATYPE  H5T_STD_I32LE
      DATASPACE  NULL
      DATA {
      }
      ATTRIBUTE "A1" {
         DATATYPE  H5T_ARRAY { [3][5] H5T_STD_I64LE }
         DATASPACE  SIMPLE { ( 4 ) / ( 4 ) }
         DATA {
         (0): [ 0, 0, 0, 0, 0,
               0, -1, -2, -3, -4,
               0, -2, -4, -6, -8 ],
         (1): [ 0, 1, 2, 3, 4,
               1, 1, 1, 1, 1,
               2, 1, 0, -1, -2 ],
         (2): [ 0, 2, 4, 6, 8,
               2, 3, 4, 5, 6,
               4, 4, 4, 4, 4 ],
         (3): [ 0, 3, 6, 9, 12,
               3, 5, 7, 9, 11,
               6, 7, 8, 9, 10 ]
         }
      }
   }
}
}

对象属性详解

该对象属性能够与HDF5数据对象相连接，具体包括属性名称和属性数值。这一属性必须通过其所属对象来获取，无法单独存在。

#include “hdf5.h”
int main() {
    hid_t       file_id;
    herr_t      status;
    // H5F_ACC_TRUNC： 如果文件已存在，则覆盖， H5P_DEFAULT：默认配置项
    file_id = H5Fcreate ("file.h5", H5F_ACC_TRUNC, H5P_DEFAULT, H5P_DEFAULT); 
    status = H5Fclose (file_id);
}

Attributes与Dataset相似，均具备datatype和dataspace这两个属性，但Attributes不支持进行IO操作、数据压缩或扩展。在一些项目中，人们会将数据保存在Attributes中，以便于对数据的附加信息进行有效管理。

在处理数据的过程中，你是否会思考是否采用分级的数据结构？非常欢迎你点赞、转发，并留下你的看法来参与讨论。

   /* Create the dataspace for the dataset. */
   dims[0] = 4;
   dims[1] = 6;
   dataspace_id = H5Screate_simple(2, dims, NULL);
   /* Create the dataset. */
   dataset_id = H5Dcreate (file_id, "/dset", H5T_STD_I32BE, dataspace_id, H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT);
   /* Close the dataset and dataspace */
   status = H5Dclose(dataset_id);
   status = H5Sclose(dataspace_id);

发表评论 取消回复

发表评论取消回复