机器数据分析平台

  • 服务

    最近更新时间:2021-10-14 23:39:57

    概览

    服务代表真实世界中的一个 IT/业务服务,让您可以监控 IT 系统和业务流程的健康状况。 如您可以设置数据库服务、订单服务;新建服务并完成配置之后,您可以使用服务分析器监视服务的健康状况、进行层层下钻分析。

    新建服务

    新建一个服务需要配置基本信息、实体筛选、KPI、KPI重要性,工作流如下:
    企业微信截图_24310981-0cac-4b0e-baac-7d638d4db66e.png

    基本信息:服务的基本信息,包括名称、描述、标签、服务计算数据存储的仓库
    实体筛选:通过配置实体规则,可以动态筛选服务相关实体,只计算过滤出来的服务相关实体的KPI
    KPI:描述服务健康度的相关KPI,可以添加多个。KPI主要用于度量IT/业务健康。是带有统计分析计算逻辑的SPL,在服务中定时执行,返回相应的值。
    KPI重要性:KPI重要性包括添加依赖服务和设置KPI的重要性。如果当前服务依赖其他服务,即其他会影响当前服务的健康分数,则可以添加依赖服务,依赖的服务会作为一种特殊的KPI参与服务的分数计算。KPI重要性设置即设置每一个KPI的重要性,会根据重要性计算每个KPI的权重,进行服务分数的计算。如果你认为此KPI对服务健康影响很大,则可以提高它的重要性

    基本信息

    基本信息配置服务的一些基础信息

    配置项 是否必填 配置项解释
    名称 服务名称,全局唯一
    描述 服务描述
    标签 可以给服务添加标签,可选择标签或者新建一个标签。可用于服务管理和过滤
    跳转 可以给服务设置跳转链接,设置后可以在服务分析器中通过当前服务跳转到相关链接,可以跳转到其他相关服务分析器、仪表盘、报表、搜索、自定义URL

    实体筛选

    可按照条件动态筛选出服务相关实体,KPI设置过滤服务中的实体后,只计算符合条件的实体的KPI。
    可按照实体的名称、匹配条件、属性、标签筛选实体。可添加多个实体筛选条件,支持通过AND或者OR进行连接
    匹配符号支持:等于、不等于、匹配、不匹配。支持通配符匹配
    例如,如果要添加用于标识数据库服务器的实体规则,而且这些服务器的匹配条件是 host=mysql-01、host=mysql- 02、host=mysql-03等依此类推,则可以添加一个实体规则,例如“host 匹配 mysql*”,来标识要在其中运行 KPI 搜索的服务器。

    KPI

    KPI主要用于度量IT/业务健康。是带有统计分析计算逻辑的SPL,在服务中定时执行,返回相应的值。在一个服务中,可以添加多个KPI。添加KPI时可以通过新建或者从其他服务中复制的方式。
    一个KPI包括基本信息、KPI计算、阈值设置3个部分

    基本信息

    用于描述KPI的基本配置信息

    配置项 是否必填 配置项解释
    名称 KPI名称,全局唯一,不可编辑
    描述 KPI描述
    搜索条件 表示此KPI的数据来源,支持搜索和数据集2种。搜索:需要用户手动输入SPL,输入后可点击“在搜索中打开”按钮,在搜索中展示当前搜索条件执行的结果。数据集:支持用户选择某个数据集的方式选择KPI数据来源
    实体过滤字段 过滤服务中的实体选择是的时候必填,表示用户过滤实体的字段。可以从现在实体筛选结果的所有匹配条件的K中选择,或者手动填写字段。选择后,会根据此字段去实体筛选中查找匹配条件拥有此字段的实体匹配条件,然后用AND添加到KPI的SPL中,以此实现只计算服务相关实体的KPI

    KPI计算

    KPI计算用于定义KPI的计算方式。KPI定时计算时会按照配置的计算方式进行计算。计算说明是根据配置的计算方式自动生成的说明信息。

    配置项 是否必填 配置项解释
    计算字段 作为KPI的计算字段,可以从已选搜索条件中选择某个字段,或者手动填写字段
    实体拆分字段 拆分实体选择是的时候必填,表示用户拆分实体的字段。可以从已选搜索条件中选择某个字段,或者手动填写字段。选择后,SPL按照此字段进行 by得到每一个实体
    实体计算 当拆分实体选择是的时候填写,表示每一个实体级的KPI的计算方式。默认平均值,可选择字段计数、去重计数、总和、平均值、最大值、最小值、样本标准差、总体标准差、最早值、最晚值、
    服务计算 表示生成服务KPI的计算方式。默认平均值,可选择字段计数、去重计数、总和、平均值、最大值、最小值、样本标准差、总体标准差、最早值、最晚值
    数值单位 表示KPI的单位,可以设置其展示单位,会在服务分析器等展示KPI的地方展示其单位,有助于更好理解KPI
    执行频率 表示每次搜索的频率。默认为5分钟,用户可选择每分钟、每5分钟、每10分钟、每15分钟、每30分钟、每1小时
    计算窗口 表示每次搜索的时间范围。默认为前5分钟,用户可选择前1分钟、前5分钟、前15分钟、前30分钟、前1小时、前12小时、前24小时、自定义值
    空值填充 表示某次计算出现空值时,进行空值的填充方式。用户可选择填充N/A、填充自定义值,选择自定义值的时候需要手动输入一个值
    空值严重级别 如果空值填充选择的是空值,则必填。表示KPI的值为空值的时候的严重级别

    阈值设置

    根据阈值类型,可以分为静态阈值和动态阈值。他们都支持配置阈值时间策略使用,即在不同的时间段配置不同的阈值。
    同于数据预览可以查看当前KPI的历史趋势和统计信息,以及阈值设置后的效果,这有助于更高效准确地设置阈值。
    企业微信截图_9bf4da45-7ce7-480e-8422-7c074d0ed79a.png
    另外,根据KPI是否拆分了实体能够讲阈值设置分为2个模块,分别是服务KPI阈值设置和实体KPI阈值设置。若KPI拆分了实体,则可以对实体单独设置阈值。

    静态阈值设置

    静态阈值设置需要制定当前服务KPI在不同阈值段的严重等级,适用于明确具体阈值范围的场景
    image.png

    动态阈值设置

    动态阈值通支持过范围、分位数、标准偏差的方式去设置阈值,可以选择历史数据的训练时间窗口和模型更新的时间。对于每一种阈值方式都配置了其常用的默认值。
    范围:通过输入历史数据总范围的比例来设置阈值。例如:1.05表示阈值为1.05*(max-min)+min;-0.5表示阈值为-0.5*(max-min)+min
    分位数:通过输入历史数据的分位数来设置阈值,在[0,1]中取值。例如:0.25 是表示阈值为数据占比(从小到大排序)25%所对应的数值,0.5 是中位数
    标准偏差:通过计算输入的历史数据在平均值的基础上偏移标准偏差的倍数来设置阈值。例如:0 表示阈值为数据的平均值,1 是阈值为数据偏离平均值一倍标准偏差
    image.png

    阈值设置时间策略

    阈值时间策略最多按照1周为周期对时间进行分段阈值设置。添加时间策略后,对于静态阈值来说在不同的时间段会有不同的阈值。对于动态阈值来说,会根据时间段进行不同的模型训练生成相应的阈值。
    如果数据呈现周期性的变化,而这对于业务来说是正常而且异常的情况,那么统一的阈值会产生误报,那么此时可以通过阈值时间策略配置分段阈值,按照周期段配置阈值。
    image.png

    服务KPI阈值设置
    通过阈值设置给每一个KPI设置阈值,定义他在不同区间范围内的严重等级。
    如果不拆分实体,则只需要进行服务KPI阈值设置。
    阈值设置支持静态阈值和动态阈值,同时支持根据时间段设置阈值,即可以在不同的时间段设置不同的阈值。
    image.png

    实体KPI阈值设置
    如果拆分实体选择是,则可以设置服务KPI阈值和实体KPI阈值。
    实体KPI设置是针对每个实体KPI进行阈值设置,如果需要监视运行单个 KPI 的多个独立实体,则可以使用各实体阈值。例如,您可能需要针对三台独立的服务器运行同一个 KPI,如可用内存百分比。使用实体KPI阈值,您就可以监视每台服务器上的可用内存百分比状态。
    在进行实体KPI的阈值设置时,可点击应用服务KPI阈值快速应用服务KPI的阈值条件。
    注意:实体KPI阈值设置不支持动态阈值。
    image.png

    KPI严重级别更改告警

    支持对KPI设置严重级别更改告警。当KPI从某些严重级别变化到另一个严重级别的时候进行告警,例如如果cpu利用率的KPI从正常变到低危配置为警告事件,从正常变到严重配置为致命事件。KPI严重级别告警配置项如下:

    配置项 说明
    告警名称 告警名称,默认$ServiceName$_$KPIName$_严重级别更改告警,可修改
    描述 告警描述,默认$ServiceName$_$KPIName$的严重级别更改告警,可修改
    监控对象 告警的监控对象,默认service,可修改
    触发条件 告警的触发条件,可添加多个触发条件,例如正常变到低危配置为警告
    附加内容 支持用户通过配置“附加内容”将SPL运行结果添加在事件内容中,以丰富告警事件的属性,可以添加多个附加内容灵活实现告警事件内容的自定义。
    告警恢复 按照告警运行周期进行判断,当连续n个周期告警条件未触发则认为告警事件已恢复,系统将对应事件置为“已恢复”状态。
    告警抑制 按时间窗口进行判断,例如配置抑制时间为10分钟,告警触发后10分钟内不再发送通知。支持按告警升级进行配置,即针对不同告警级别添加不同的告警抑制策略。
    触发操作 触发对应的告警规则后,将产生一条新的告警事件,通过选择告警触发操作将告警事件进行流转以便用户更好得执行下一步行为,完成告警事件的闭环管理,系统支持添加多个触发操作,目前平台支持发送给系统用户、webhook以及执行脚本三种触发操作类型,针对触发操作的管理参看告警配置。Pandora支持通过插件化方式灵活扩展告警触发操作,以实现第三方系统的对接,例如将事件对接发送到slack或者工单系统。具体开发查看APP开发手册

    产生的告警事件可以在事件审查中进行管理跟踪,也可以在服务分析器中相关的服务中查看,若当前服务的KPI或者服务产生了告警事件,则会有icon提示当前服务产生了告警信息,可以点击进行事件查看。

    KPI的重要性

    通过KPI重要性添加依赖服务和设置每一个KPI的重要程度。

    添加依赖服务

    您可添加其他服务作为服务依赖项,添加服务依赖项有助于您检测某个服务是否会对另一个服务产生负面影响,并且可以用于执行根因分析。
    例如,您可能有一个依赖于数据库服务的 Web 服务。将此数据库服务添加为依赖关系之后,您就可以监视该数据库服务对Web服务的影响。
    添加服务依赖项后,被依赖的服务会作为一种特殊的KPI,包含在主服务健康度评分的计算中。
    注意:不支持设置循环依赖。

    设置KPI重要程度

    可以调整影响服务KPI的重要程度值,以便让影响KPI在健康度评分的计算中占有适当的权重,从而生成能更准确反映依赖项对主服务的影响的健康状况分数值。

    • 默认情况下,影响服务健康度评分的重要程度为5。越高代表越重要,越低代表越不重要。0 代表完全不影响服务健康度评分。
    • 对于对服务影响很大的KPI,可以打开严重时不可忽略的开关。开启后如果KPI级别处于严重(最高级别),则服务评分不通过权重进行计算,直接置为0分,即服务级别为严重。

    服务管理

    服务管理对所有服务进行统一管理,在服务管理页面,可以选择服务进行编辑(不可编辑名称)、启用/禁用(支持单个、多个)、删除(支持删除单个、多个)、复制。同时支持按照名称、标签进行模糊搜索

    以上内容是否对您有帮助?
  • Qvm free helper
    Close