智能日志管理平台

  • 智能日志管理平台 > 产品手册 > 数据存储和分析 >告警与通知

    告警与通知

    最近更新时间:2019-04-03 14:34:03

    使用告警平台,您可以第一时间获得日志异常信息并接收告警通知。使用告警平台的第一步是配置告警规则,本教程讲解如何对日志搜索结果配置告警规则,日志内容触发告警规则后,智能告警平台将产生一条新的告警事件,同时通过您配置的通知策略发送告警通知给您。

    配置告警规则

    进入日志搜索页面,输入搜索条件,搜索出日志结果。点击搜索栏下面的另存为告警,打开告警规则配置页面。

    在告警规则配置页面,您需要填写以下信息:

    这是一条名称是“事件总数告警“的报警配置,它的意思是:每隔 5 分钟检测最近 10 分钟内的日志内容,事件总数指标超过 1000 就触发告警,且 15 分钟内即使日志触发告警规则也只发送一次告警通知。此条告警规则使用告警服务为“nginx 告警服务”,此条告警规则触发产生的告警事件名称为“nginx 告警事件”,事件严重程度为“警告”。

    具体说明如下:

    告警规则属性

    • 名称:告警规则名称。

    • 描述:告警规则描述。

    • 运行周期:告警规则运行周期,即每隔多久根据告警规则检测一次日志内容。

    • 报警限制:防止您在短时间内遭遇报警轰炸,您可以设置一个固定时间段,在该时间段内出发告警后,系统不再重复发送告警信息。

    定义告警事件

    您需要定义此告警规则触发后产生的告警事件的属性,包括以下内容:

    • 告警服务:告警服务定义了事件合并规则和通知策略。即:触发此告警规则产生的告警事件进行合并的条件以及发送告警通知的方式。若告警平台暂无服务,您可以直接在这里使用创建告警服务前往创建告警服务。

    • 严重程度:定义触发此告警规则产生的告警事件的严重程度。

    • 告警事件名称:触发此告警规则产生的告警事件名称。

    • 告警事件描述:描述事件内容,如“nginx 告警事件”。

      注意:事件合并规则中定义的合并关键词对应的即是事件描述内容。如:一条告警服务的事件合并规则中定义“含有关键词 ‘nginx’ 的事件予以合并”,那么一条新产生的事件描述为"nginx 告警事件"按照合并规则会合并进入前一告警事件。详情请跳转阅读事件合并规则

    告警条件

    • 搜索详情:指定查询仓库、查询条件、时间字段,如果您从日志搜索页面点击另存为报警创建报警规则,系统默认为您填上搜索详情,您也可以在日志告警规则管理页面新建告警规则,手动输入查询仓库、查询语句、时间字段。

    • 查询时间:设定日志的查询的时间范围,只对此时间范围内的日志检测异常。

    • 分组字段:可添加多个分组字段,对每个分组数据分别监控报警指标,任意一个分组数据的报警指标满足报警阈值即触发报警。

    • 报警指标:监控的指标,如事件总数、字段平均值、最大值、最小值等。

    • 报警阈值:触发报警的指标阈值。

    • 对比形式:支持同比/环比/自定义时间偏移/条件对比告警。

      • 同比/环比/自定义时间偏移对比告警的告警阈值计算方法为:当前时段指标值与对比时间的指标差值除以对比时间的指标值的结果。

      • 条件对比告警:以第一条条件为基准,第二条条件与第一条条件进行对比,指标变化率告警阈值则触发告警。

        • 将第一条告警条件设置为基准条件(视为异常),即第一条告警条件无论指标值为多少,永远视为异常条件。此时第二条告警条件与第一条告警条件为关系,即需第二条告警条件同时也满足告警阈值才触发告警。
        • 将第一条告警条件设置为基准条件(视为正常),即第一条告警条件无论指标值为多少,永远视为正常条件。此时第二条告警条件与第一条告警条件为关系,即第二条告警条件满足告警阈值即可触发告警。
    • 多告警条件联合告警:支持添加多个告警条件,支持与/或关系。

    告警条件示例:

    1.按事件总数报警

    报警指标选择事件总数,给定一个触发报警的阈值。例如,您可以设置报警条件为 10 分钟内根据 agent_id 字段分组的日志事件总数超过 1000:

    2.按字段统计报警

    在报警指标里选择统计方式(总和、平均值、最大值、最小值、中位数、分位数),紧跟其后选择字段名,例如,告警触发条件为:根据 agent_id 字段分组的日志数据里,responsetime 在 10 分钟之内的平均值大于 1:

    3.同比/环比/自定义时间偏移对比指标告警

    开启对比形式,选择一种对比形式,如环比,设置报警阈值为大于 20%,即当前指标与环比指标的差值超过 20% 即报警。

    4.多告警条件联合告警

    点击添加告警条件,选择告警条件之间的逻辑关系(或/且)。如满足告警条件(根据 agent_id 字段分组的日志事件总数超过 1000)或根据 agent_id 分组的 responsetime 字段的平均值指标 1 秒报警。

    5.条件对比告警

    设置条件一为基准条件(视为异常),添加条件二,在条件二里开启条件对比,对比条件为条件一。报警阈值为变化率大于等于10%,即条件二的告警指标与条件一的告警指标值的变化率大于 10% 则触发告警。

    测试报警规则

    填好配置项以后,您可以点击测试规则测试一下报警设置是否生效。

    告警规则管理

    进入日志告警规则管理页面,对告警规则统一管理,如启用/禁用告警规则、查看告警规则配置、查看告警详情等。

    点击查看告警详情,您可以查看告警规则被触发后的告警记录详情。

    注意:每个账号暂时最多只支持创建 5 条报警。如果需要额外创建报警,请与管理员联系。

    告警事件触发后,请前往告警平台事件管理查看并处理。

    以上内容是否对您有帮助?
  • Icon free helper
    Close