智能日志管理平台

  • 告警与通知

    最近更新时间:2018-12-10 10:57:41

    本教程讲解如何对日志搜索结果配置告警规则,日志内容触发告警规则后,智能告警平台将产生一条新的告警事件,同时发送告警通知给您。

    进入日志搜索页面,输入日志仓库与搜索条件,搜出日志内容。单击搜索栏下面的另存为告警,打开告警规则配置页面。

    注意:授权仓库并无配置告警权限。

    在告警规则配置页面,您需要填写以下信息:

    这是一条名称是“事件总数告警“的报警配置,它的意思是:每隔 5 分钟检测最近 10 分钟内的日志内容,事件总数超过 1000 就触发报警,且 15 分钟内即使满足报警条件也只触发一次报警。该告警规则触发的告警服务为“nginx告警服务”,告警事件名称为“nginx告警事件”,事件严重程度为“警告”。

    具体说明如下:

    告警规则属性

    • 名称:告警规则名称。

    • 描述:告警规则描述。

    • 运行周期:报警规则运行周期,即每隔多久根据报警规则检测一次日志内容。

    • 报警限制:防止您在短时间内遭遇报警轰炸,您可以设置一个固定时间段,在该时间段内出发告警后,系统不再重复发送同类告警信息。

    定义告警事件

    您需要定义此告警规则触发后产生的告警事件的属性,包括以下几项内容:

    • 告警服务:事件所属告警服务,告警服务定义了事件合并规则和通知策略。若告警平台暂无服务,请先前往服务管理新建告警服务。

    • 严重程度:定义告警事件的严重程度。

    • 告警事件名称:告警事件名称。

    • 告警事件描述:描述事件内容,如“nginx 告警事件”。事件合并规则中定义的合并关键词对应的即是事件描述内容。如:一条告警的事件合并规则中定义“含有关键词‘nginx’的事件予以合并”,那么一条新产生的事件描述"nginx 告警事件"按照合并规则合并进入前一告警事件。前提:两条告警事件属于同一个告警服务。详情请跳转阅读事件合并规则

    告警条件

    • 搜索详情:指定查询仓库、查询语句、时间字段,如果您从日志搜索页面点击另存为报警创建报警规则,系统默认为您填上搜索详情,您也可以在告警管理页面新建告警规则,手动输入查询仓库、查询语句、时间字段。

    • 查询时间:设定一个查询的时间范围,只针对这个时间范围内的日志检测报警。

    • 分组字段:通过分组字段对数据进行分组,对每个分组的数据分别监控报警指标,任意一个分组满足报警指标即触发报警。

    • 报警指标:监控的指标,如事件总数、字段平均值、最大值、最小值等。

    • 报警阈值:触发报警的指标阈值。

    • 对比形式:同比/环比、自定义时间偏移对比指标告警,以同比为例,若当前时段指标值与去年同期指标差值除以去年指标值满足告警阈值即触发告警。

    • 多告警条件联合告警:添加多个告警条件,支持与/或关系。

    告警条件示例:

    1.按事件总数报警

    报警指标选择事件总数,给定一个触发报警的阈值。例如,您可以设置报警条件为 10 分钟内根据 agent_id 字段分组的日志事件总数超过 1000:

    2.按字段统计报警

    在报警指标里选择统计方式(总和、平均值、最大值、最小值、中位数、分位数),紧跟其后选择字段名,例如,告警触发条件为:根据 agent_id 字段分组的日志数据里,responsetime 在 10 分钟之内的平均值大于 1:

    3.同比/环比/自定义时间偏移对比指标告警

    开启对比形式,选择一种对比形式,如环比,设置报警阈值为大于 20%,即当前指标与环比指标的差值超过 20% 即报警。

    4.多告警条件联合告警

    点击添加告警条件,选择告警条件之间的逻辑关系(或/且)。如满足告警条件(根据 agent_id 字段分组的日志事件总数超过 1000)或根据 agent_id 分组的 responsetime 字段的平均值指标 1 秒报警。

    测试报警规则

    填好配置项以后,您可以点击测试规则测试一下报警设置是否生效。

    告警规则管理

    进入告警规则管理页面,对告警规则统一管理,如启用/禁用告警规则、查看告警规则配置、查看告警详情等。

    点击查看告警详情,您可以查看告警规则被触发后的告警记录详情。

    注意:每个账号暂时最多只支持创建 5 条报警。如果需要额外创建报警,请与管理员联系。

    告警事件触发后,请前往告警平台事件管理查看并处理。

    以上内容是否对您有帮助?
  • Icon free helper
    Close