背景信息
随着数据量的爆炸式增长以及数据类型的日益细化,冷热数据分层治理成为降低单位容量数据成本、提升数据存储效率和密度的有效方式。根据需求不同,可将不同数据格式或业务类型的数据存储在不同介质上,以最大化运用存储效率。
一方面,数据由于自身的消亡性,会呈现出访问热度不同的巨大差异。如上图所示,一个平台会不断地写入数据,但通常情况下最近写入的数据访问频率会比历史数据高很多。另一方面,随着数据量的不断增长,仅仅使用传统存储方式会受到存储介质的限制。综合以上两方面,可按照数据读取的热度将数据分为冷热温三层,分别使用不同速率的存储介质和不同处理速度的CPU配比存储,实现数据存储的成本最优,使数据存储更适合上层业务应用。
用户需求
1.降低存储成本
随着时间推移,数据的时效性会不断下降,最近写入的数据访问频率会比历史数据高很多,故可以根据访问频率将数据存储在不同的介质上,以降低存储成本。
2.降低内存占用
常规存储方式中若均采用热存储,则会导致占用内存过多,甚至由于内存不足而宕机。
存储方式特性比对
冷存储 | 温存储 | 热存储 | |
---|---|---|---|
数据访问频率 | 几乎不 | 一般 | 频繁 |
使用硬盘 | HDD(中低性能) | HDD(高性能) | SATA/PCI-E SSD |
数据查询速度 | 慢(需要加载) | 快 | 快 |
内存占用情况 | 低 | 高 | 高 |
数据的索引情况 | 不可写入 | 不可写入 | 可写入 |
存储成本 | 低 | 中 | 高 |
前提条件
1.在“搜索分析”——“仓库管理”中新建或者编辑一个仓库,并将需要配置同样数据分层策略的数据放入该仓库。
2.根据实际业务需求确定冷热温存储的时间参数,然后与后端部门进行沟通部署规划工具,进而在硬件方面确定节点数(机器数量)与所需要存储的磁盘大小。
操作步骤
1.搜索分析——仓库管理——点击编辑或者创建仓库
进入仓库编辑/新建页面。
2.配置数据存储方式:
2.1.常规存储
选择常规存储之后,在存储时限的文本框手动输入值,下拉列表中选择时间单位(天、月、年 、永久存储)。
2.2分层存储
选中数据分层存储配置选框后,进入冷热温存储时限分层配置框,根据业务需求选择数据分层时间。
三个存储层配置相互关联,如数据在某一存储层到达存储时限,则会自动转入后一层。例如热数据层配置30天,表示事件时间在30天内的数据保存在热存储层,达到存储时限后自动转入温存储层。故后一层配置的起始时间跟前一层配置的存储时限会自动保持一致。如下图,填写热存储的存储时限后,温存储层起始时间自动填入;填写温存储层的存储时限后,冷存储层起始时间自动填入。
注意事项:
1.数据老化均以数据事件时间为准,而非数据入库时间。
数据事件时间:数据实际产生时间
数据入库时间:数据上传到仓库的时间
2.若某一个分层被设置为永久存储,后续分层将不再需要设置。热存储被设置为永久存储,则温冷分层都无需设置。
温存储被设置为永久存储,则冷分层无需设置。
3.如需跳过该某存储层,则可在该存储层选择相同始末时间即可。
如跳过温存储层: