机器数据分析平台

  • 服务/KPI告警

    最近更新时间:2021-10-14 18:48:02

    用于交互式配置PISA内服务、KPI告警,也可以配置PISA相关的告警。关联上相关的服务即可。

    创建告警

    对于服务/KPI相关告警的配置,支持KPI严重级别更改告警、服务分数告警、服务预测告警、自定义服务告警4种告警方式。这些告警都和PISA内的某个或者多个服务相关。
    如果关联的服务产生了告警,在服务分析器中会在此服务的节点/卡片上提示当前服务在所选时间内存在告警事件,点击后可以所有的告警事件,同时支持点击告警事件名称查看告警详情。
    同时,产生的告警事件可以在事件审查中进行管理跟踪。

    KPI严重级别更改告警

    在配置KPI的时候点击严重级别更改告警可配置KPI严重级别更改告警。

    当KPI从某些严重级别变化到另一个严重级别的时候进行告警,例如如果cpu利用率的KPI从正常变到低危配置为警告事件,从正常变到严重配置为致命事件。KPI严重级别告警配置项如下:

    配置项 说明
    告警名称 告警名称,默认$ServiceName$_$KPIName$_严重级别更改告警,可修改
    描述 告警描述,默认$ServiceName$_$KPIName$的严重级别更改告警,可修改
    监控对象 告警的监控对象,默认service,可修改
    触发条件 告警的触发条件,可添加多个触发条件,例如正常变到低危配置为警告
    附加内容 支持用户通过配置“附加内容”将SPL运行结果添加在事件内容中,以丰富告警事件的属性,可以添加多个附加内容灵活实现告警事件内容的自定义。
    告警恢复 按照告警运行周期进行判断,当连续n个周期告警条件未触发则认为告警事件已恢复,系统将对应事件置为“已恢复”状态。
    告警抑制 按时间窗口进行判断,例如配置抑制时间为10分钟,告警触发后10分钟内不再发送通知。支持按告警升级进行配置,即针对不同告警级别添加不同的告警抑制策略。
    触发操作 触发对应的告警规则后,将产生一条新的告警事件,通过选择告警触发操作将告警事件进行流转以便用户更好得执行下一步行为,完成告警事件的闭环管理,系统支持添加多个触发操作,目前平台支持发送给系统用户、webhook以及执行脚本三种触发操作类型,针对触发操作的管理参看告警配置。Pandora支持通过插件化方式灵活扩展告警触发操作,以实现第三方系统的对接,例如将事件对接发送到slack或者工单系统。具体开发查看APP开发手册

    服务预测告警

    在服务的预测分析配置页面,点击服务预测告警可配置服务预测告警。

    服务分数告警

    在服务的管理界面,点击告警可配置服务分数告警。
    image.png
    也可以直接查看当前服务目前配置了哪些告警规则,点击告警名称可以查看告警详情。
    服务分数告警配置项如下:

    配置项 说明
    告警名称 告警名称,默认$ServiceName$_Alert,可修改
    描述 告警描述,默认$ServiceName$的服务分数告警,可修改
    监控对象 告警的监控对象,默认service,可修改
    触发条件 告警的触发条件,可添加多个触发条件,例如分数在0-20分为灾难事件
    附加内容 支持用户通过配置“附加内容”将SPL运行结果添加在事件内容中,以丰富告警事件的属性,可以添加多个附加内容灵活实现告警事件内容的自定义。对于服务分数告警,默认会将当前服务KPI和实体的详情信息作为附加内容
    告警恢复 按照告警运行周期进行判断,当连续n个周期告警条件未触发则认为告警事件已恢复,系统将对应事件置为“已恢复”状态。默认连续5个周期不产生告警则恢复
    告警抑制 按时间窗口进行判断,例如配置抑制时间为10分钟,告警触发后10分钟内不再发送通知。支持按告警升级进行配置,即针对不同告警级别添加不同的告警抑制策略。
    触发操作 触发对应的告警规则后,将产生一条新的告警事件,通过选择告警触发操作将告警事件进行流转以便用户更好得执行下一步行为,完成告警事件的闭环管理,系统支持添加多个触发操作,目前平台支持发送给系统用户、webhook以及执行脚本三种触发操作类型,针对触发操作的管理参看告警配置。Pandora支持通过插件化方式灵活扩展告警触发操作,以实现第三方系统的对接,例如将事件对接发送到slack或者工单系统。具体开发查看APP开发手册

    自定义服务告警

    在服务/KPI管理界面,点击新建可自定义服务告警,在关联服务的配置项选择相关服务即可。当与服务相关的某些事件不是KPI时,可配置此类告警与相关服务进行关联。
    image.png
    1、填写告警规则名称描述关联服务告警规则运行周期
    运行周期即每隔多久根据告警规则对数据进行一次监测,可以在下拉框中选择可用的周期选项之一,如果您需要进行更灵活的定义,可以选择“按Cron计划执行”
    以使用cron表达式所表示的时间计划运行告警规则,使用方法详见cron表达式示例

    2、选择数据源:选择数据集或填写SPL搜索语句作为告警数据源,并设置搜索时间范围。

    注:搜索时间范围将覆盖原始搜索时间,作为每次告警规则运行时数据搜索时间范围依据,只对此时间范围内的数据检测异常。为避免数据的重复或遗漏,建议告警规则运行周期与搜索时间范围相匹配。例如,每10分钟运行一次搜索,搜索时间范围也应设置为10分钟-0分钟。

    3、配置告警触发条件:填写告警监控对象(从数据源中选择字段作为要监控的对象,例如主机名、服务名等),添加字段触发条件(选择字段并设置阈值,如cpu_avg>0.8)以及对应的告警级别(告警级别定义触发此告警规则产生的告警事件的严重程度),可以实现多指标字段多级别的触发条件配置,多个触发条件可以指定或/且关系。
    例如收集了服务器访问日志,要针对服务器HTTP状态码配置告警,status 是访问状态码,cnt是某个访问状态码出现次数,可以配置以下告警触发条件及对应的级别:
    数据源选择搜索:

    repo="_frontend_error"| stats count() as cnt by status, hostname
    

    配置触发条件:

    • 【致命】status = 508
    • 【严重】status 匹配 ’ 5* ’ 且 cnt > 10
    • 【警告】status 匹配 ’ 5* ’ 且 cnt > 3

    4、高级配置:用户可以通过添加附加内容定义更多事件内容,另外也可以实现告警恢复条件、告警抑制策略配置。

    配置 说明
    附加内容 支持用户通过配置“附加内容”将SPL运行结果添加在事件内容中,以丰富告警事件的属性,可以添加多个附加内容灵活实现告警事件内容的自定义。
    告警恢复 按照告警运行周期进行判断,当连续n个周期告警条件未触发则认为告警事件已恢复,系统将对应事件置为“已恢复”状态。
    告警抑制 按时间窗口进行判断,例如配置抑制时间为10分钟,告警触发后10分钟内不再发送通知。支持按告警升级进行配置,即针对不同告警级别添加不同的告警抑制策略。

    5、配置**告警触发操作:**数据源触发对应的告警规则后,将产生一条新的告警事件,通过选择告警触发操作将告警事件进行流转以便用户更好得执行下一步行为,完成告警事件的闭环管理,系统支持添加多个触发操作。

    目前平台支持发送给系统用户、webhook以及执行脚本三种触发操作类型,针对触发操作的管理参看告警配置
    Pandora支持通过插件化方式灵活扩展告警触发操作,以实现第三方系统的对接,例如将事件对接发送到slack或者工单系统。具体开发查看APP开发手册

    通过以上配置步骤,用户可以快速创建满足场景需求的告警规则,更多信息请参看告警示例。告警事件触发后,也可以登陆Pandora事件审查页面查看更详细的信息。

    管理告警

    创建完成后进入告警规则管理页面,对告警规则进行统一管理,可以进行包括查看告警详情、编辑、启用/禁用、删除操作。
    image.png

    • 点击规则名称可以查看对应告警规则的详情,您可以查看规则的名称、运行周期、触发条件、高级配置等信息,以及告警规则运行的记录,包括每次运行的结果、耗时和指标详情。
      image.png
    • 编辑告警规则:可以对告警规则进行编辑操作。
    • 启用/禁用:启用或禁用告警规则,以控制其运行行为。
    • 删除:将不需要的告警规则从系统中删除。
    以上内容是否对您有帮助?
  • Qvm free helper
    Close