机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 仓库管理 > 数据生命周期管理

    数据生命周期管理

    最近更新时间:2020-08-26 10:27:44

    背景信息

    随着数据量的爆炸式增长以及数据类型的日益细化,冷热数据分层治理成为降低单位容量数据成本、提升数据存储效率和密度的有效方式。根据需求不同,可将不同数据格式或业务类型的数据存储在不同介质上,以最大化运用存储效率。

    一方面,数据由于自身的消亡性,会呈现出访问热度不同的巨大差异。如上图所示,一个平台会不断地写入数据,但通常情况下最近写入的数据访问频率会比历史数据高很多。另一方面,随着数据量的不断增长,仅仅使用传统存储方式会受到存储介质的限制。综合以上两方面,可按照数据读取的热度将数据分为冷热温三层,分别使用不同速率的存储介质和不同处理速度的CPU配比存储,实现数据存储的成本最优,使数据存储更适合上层业务应用。

    用户需求

    1.降低存储成本

    随着时间推移,数据的时效性会不断下降,最近写入的数据访问频率会比历史数据高很多,故可以根据访问频率将数据存储在不同的介质上,以降低存储成本。

    2.降低内存占用

    常规存储方式中若均采用热存储,则会导致占用内存过多,甚至由于内存不足而宕机。

    存储方式特性比对

    冷存储 温存储 热存储
    数据访问频率 几乎不 一般 频繁
    使用硬盘 HDD(中低性能) HDD(高性能) SATA/PCI-E SSD
    数据查询速度 慢(需要加载)
    内存占用情况
    数据的索引情况 不可写入 不可写入 可写入
    存储成本

    前提条件

    1.在“搜索分析”——“仓库管理”中新建或者编辑一个仓库,并将需要配置同样数据分层策略的数据放入该仓库。
    2.根据实际业务需求确定冷热温存储的时间参数,然后与后端部门进行沟通部署规划工具,进而在硬件方面确定节点数(机器数量)与所需要存储的磁盘大小。

    操作步骤

    1.搜索分析——仓库管理——点击编辑或者创建仓库


    进入仓库编辑/新建页面。

    2.配置数据存储方式:

    2.1.常规存储

    选择常规存储之后,在存储时限的文本框手动输入值,下拉列表中选择时间单位(天、月、年 、永久存储)。

    2.2分层存储

    选中数据分层存储配置选框后,进入冷热温存储时限分层配置框,根据业务需求选择数据分层时间。
    三个存储层配置相互关联,如数据在某一存储层到达存储时限,则会自动转入后一层。例如热数据层配置30天,表示事件时间在30天内的数据保存在热存储层,达到存储时限后自动转入温存储层。故后一层配置的起始时间跟前一层配置的存储时限会自动保持一致。如下图,填写热存储的存储时限后,温存储层起始时间自动填入;填写温存储层的存储时限后,冷存储层起始时间自动填入。

    注意事项:

    1.数据老化均以数据事件时间为准,而非数据入库时间。

    数据事件时间:数据实际产生时间
    数据入库时间:数据上传到仓库的时间

    2.若某一个分层被设置为永久存储,后续分层将不再需要设置。热存储被设置为永久存储,则温冷分层都无需设置。

    温存储被设置为永久存储,则冷分层无需设置。

    3.如需跳过该某存储层,则可在该存储层选择相同始末时间即可。
    如跳过温存储层:

    以上内容是否对您有帮助?
  • Qvm free helper
    Close