机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 告警 > 告警规则

    告警规则

    最近更新时间: 2022-02-18 16:29:51

    Pandora提供通过配置告警规则实现对数据进行实时分析过滤告警事件、发现问题的能力。用户设定告警规则,当监控数据违反规则时触发告警产生事件并实时发送给用户,通过多维度数据关联分析赋能监控告警能力,构成数据、人、行为的完整闭环。

    告警规则配置流程

    Pandora支持多种告警规则创建入口,包括从搜索、报表、数据集、仪表盘图表另存为告警,以及直接在规则管理页面进行新建。创建流程如下:

    1、填写告警规则名称描述,及告警规则运行周期
    运行周期即每隔多久根据告警规则对数据进行一次监测,可以在下拉框中选择可用的周期选项之一,如果您需要进行更灵活的定义,可以选择“按Cron计划执行”
    以使用cron表达式所表示的时间计划运行告警规则,使用方法详见cron表达式示例

    2、选择数据源:选择数据集或填写SPL搜索语句作为告警数据源,并设置搜索时间范围。

    注:搜索时间范围将覆盖原始搜索时间,作为每次告警规则运行时数据搜索时间范围依据,只对此时间范围内的数据检测异常。为避免数据的重复或遗漏,建议告警规则运行周期与搜索时间范围相匹配。例如,每10分钟运行一次搜索,搜索时间范围也应设置为10分钟-0分钟。

    屏幕快照 2021-02-08 下午3.16.00.png

    3、配置告警触发条件:填写告警监控对象(从数据源中选择字段作为要监控的对象,例如主机名、服务名等),添加字段触发条件(选择字段并设置阈值,如cpu_avg>0.8)以及对应的告警级别(告警级别定义触发此告警规则产生的告警事件的严重程度),可以实现多指标字段多级别的触发条件配置,多个触发条件可以指定或/且关系。
    例如收集了服务器访问日志,要针对服务器HTTP状态码配置告警,status 是访问状态码,cnt是某个访问状态码出现次数,可以配置以下告警触发条件及对应的级别:
    数据源选择搜索:

    repo="_frontend_error"| stats count() as cnt by status, hostname
    

    配置触发条件:

    • 【致命】status = 508
    • 【严重】status 匹配 ’ 5* ’ 且 cnt > 10
    • 【警告】status 匹配 ’ 5* ’ 且 cnt > 3

    4、高级配置:用户可以通过添加附加内容定义更多事件内容,另外也可以实现告警恢复条件、告警抑制策略配置。

    配置 说明
    附加内容 支持用户通过配置“附加内容”将SPL运行结果添加在事件内容中,以丰富告警事件的属性,可以添加多个附加内容灵活实现告警事件内容的自定义。
    告警恢复 按照告警运行周期进行判断,当连续n个周期告警条件未触发则认为告警事件已恢复,系统将对应事件置为“已恢复”状态。
    告警抑制 按时间窗口进行判断,例如配置抑制时间为10分钟,告警触发后10分钟内不再发送通知。支持按告警升级进行配置,即针对不同告警级别添加不同的告警抑制策略。

    5、配置**告警触发操作:**数据源触发对应的告警规则后,将产生一条新的告警事件,通过选择告警触发操作将告警事件进行流转以便用户更好得执行下一步行为,完成告警事件的闭环管理,系统支持添加多个触发操作。

    目前平台支持发送给系统用户、webhook以及执行脚本三种触发操作类型,针对触发操作的管理参看告警配置
    Pandora支持通过插件化方式灵活扩展告警触发操作,以实现第三方系统的对接,例如将事件对接发送到slack或者工单系统。具体开发查看APP开发手册

    通过以上配置步骤,用户可以快速创建满足场景需求的告警规则,更多信息请参看告警示例。告警事件触发后,也可以登陆Pandora事件审查页面查看更详细的信息。

    告警规则管理

    创建完成后进入告警规则管理页面,对告警规则进行统一管理,可以进行包括查看告警详情、编辑、启用/禁用、删除、导出配置、授权等操作。
    屏幕快照 2021-02-08 下午3.23.36.png

    • 点击规则名称可以查看对应告警规则的详情,您可以查看规则的名称、运行周期、触发条件、高级配置等信息,以及告警规则运行的记录,包括每次运行的结果、耗时和指标详情。

    屏幕快照 2021-02-08 下午3.17.55.png

    • 编辑告警规则:可以对告警规则进行编辑操作。
    • 启用/禁用:启用或禁用告警规则,以控制其运行行为。
    • 删除:将不需要的告警规则从系统中删除。
    • 导出配置:将告警规则的配置信息以json格式导出以便在共享给其它用户。
    • 授权操作:告警规则作为平台的知识对象,可以基于角色进行权限管理。授权可以通过编辑告警权限进行,根据具体场景将告警规则的查看、创建、编辑、删除权限授予不同的用户角色。
      默认情况下,只有具有Admin或alarm_manager角色的用户才能执行以下操作。
      • 创建告警规则
      • 查看告警规则
      • 编辑告警规则
      • 删除告警规则
      • 授权告警规则
    以上内容是否对您有帮助?
  • Qvm free helper
    Close