告警规则触发后,系统将迅速产生新的告警事件并触达用户,但如何使得告警更加精准、收敛及具备业务属性,通过数据变化发现业务变化并定位问题?
Pandora告警聚合提供了告警事件分析的能力,也是告警收敛的一种有效手段。针对原始告警事件配置聚合规则可将重要事件归类聚合到事件组中,从“事件组审查”维度对事件进行更高效得组织管理。Pandora目前提供自定义聚合规则灵活进行重要事件分组,您可以根据业务场景需求创建自己的聚合规则。使用告警聚合从业务维度将重要的原始告警事件划分到事件组内并定义触发操作,便于您进行事件自定义并完成自动化闭环管理,同时事件组可以更高效得收敛原始告警、避免短时间内的告警风暴,有助于运维人员快速定位问题。后续Pandora还会基于机器学习能力提供智能聚合规则,对事件进行智能分组。
创建聚合规则
进入聚合规则tab页,您可以看到告警聚合规则的管理列表。点击右上角新建聚合规则按钮,新建一条告警聚合规则,您需要填写以下内容:
- 聚合规则名称:聚合后的事件组使用该名称进行唯一标识。
- 规则描述:描述该聚合规则更详细信息。
- 事件过滤:添加多个筛选条件根据事件中的字段进行筛选,决定该聚合规则包含哪些事件。可以匹配事件中任何字段。字段值的语法不遵循标准 SPL,值和事件中的字段值精准匹配,或支持使用“* ”作为通配符。例如,您可以将「告警级别」为“严重”和"警告",「事件名称」匹配 “数据库*”的原始告警事件包括在“数据库服务告警”事件组中。单击 “+ 添加筛选条件 且”,或单击“ + 添加筛选条件 或”按钮添加筛选条件,您可以根据多个 且/或 条件确定事件组中包含哪些重要的原始告警事件。
- 聚合条件:按照一个或多个原始告警事件字段拆分事件到多个事件组中,例如,按服务service和主机名host分组,当每个字段有2个值时将新建4个事件组。
- 聚合周期:按照时间窗口及聚合限制配置事件组的聚合周期,聚合指定周期内的告警事件,当满足时间周期及聚合限制(例如,达到指定的告警数)时结束当前事件组,开始新的聚合事件组。
- 触发操作:您可以根据需要选择添加或自定义多个触发操作以对聚合事件组执行指定操作,同时可以指定触发条件,当满足触发条件时系统才会执行对应的触发操作。。例如,当事件组中出现特定字段值severity=Critical的事件时,发送电子邮件至业务运维小组。
点击确认,完成聚合规则的创建。新建的规则默认为启用状态并立即生效,会根据规则中的聚合条件对平台新产生的原始告警事件进行筛选分组,将满足条件的事件聚合在不同的事件组中。
注:
1、新建规则对之前存在的原始告警事件不生效。
2、如果某个重要原始告警事件跟多个聚合规则的聚合条件匹配,则该事件可以归属于多个聚合事件组,且每个聚合规则的触发操作都将应用于重要事件。
可新建多个带筛选条件的聚合策略,以获取相同的事件集或子集。如果相同的 重要事件由多个策略捕获,那么来自每个策略的操作规则将应用于重要事件。
管理聚合规则
在事件聚合规则列表,您可以对聚合规则进行查看/编辑/启用or禁用/删除/导出/授权/重新分配所有者等操作。
查看聚合规则
点击聚合规则名称可以查看对应聚合规则的详情,包括聚合规则名称、描述、聚合周期、事件过滤、聚合条件、触发操作,以及对应的运行记录。
编辑/删除聚合规则
具备某个聚合规则的编辑/删除权限可以对聚合规则进行编辑或删除操作,点击编辑支持对某个聚合规则除聚合规则名称以外的配置项内容进行调整修改。
注:
编辑/删除事件聚合规则对之前应用该条聚合规则的事件组不生效,需要手动对之前的聚合事件组进行清理。
启用or禁用聚合规则
成功创建聚合规则后,默认启用规则并立即生效。如果暂时不想使其生效,您可以将其禁用。
导出配置
Pandora支持导出聚合规则的配置文件,以便您使用导入功能直接导入json配置文件,一键生成聚合规则。
聚合规则权限
新建聚合规则后,您可以对其进行查看访问/编辑/删除权限的授权以控制某些角色用户可读取或修改规则。
- 找到聚合规则,点击授权编辑权限
- 按需为不同角色设置查看访问/编辑/删除权限
- 完成后点击保存,完成对应聚合规则的权限控制
事件组审查
在“事件审查”Tab中进行切换事件组视图的配置后,事件组审查页将展示聚合事件组,展示信息包括序号、事件组名称、告警级别、告警对象、触发操作、告警时间及状态。有关事件审查的更详细信息,请参看事件审查