智能日志管理平台

  • 日志搜索和关键字报警

    最近更新时间:2018-07-13 10:27:27

    运维日志分析 -- 日志搜索和关键字报警

    相信你经常会苦恼于线上大量服务器运维的压力,是不是出现某个机器故障,磁盘损坏亦或是内存超限等等。而这些异常现象发生之前,我们的运维日志中经常会出现一些提示日志。比如 /var/log/syslog/var/log/message 等等,那么如何快速指定日志文件(如:/var/log/message)中出现指定字段(如:StoppingError)后告警呢?

    使用 Pandora 智能日志管理平台,我们帮您轻松搞定这个事情,步骤如下:

    1.使用 logkit Pro 收集数据;

    2.在日志分析平台查看数据;

    3.接入 Grafana 监控数据。

    1.使用 logkit Pro 收集数据

    安装启动 logkit Pro,并使用 logkit Pro 收集数据,步骤参考 nginx 日志采集

    2.在日志分析平台查看数据

    进入 Pandora 日志分析平台,在日志仓库里找到通过 logkit Pro 创建的日志仓库:wrokflow_dag_v1_log

    此处输入图片的描述

    可以直接在界面上编辑仓库的保存时长,logkit Pro 自动创建的仓库数据默认只保存 3 天,同时点击编辑修改字段的分词方式。

    注意

    • 修改仓库数据保存期限修改后即时生效
    • 修改数据的分词,修改后配置在 T+1 时间后生效,对之前的数据不生效。
    • 纯英文的日志建议设置为标准分词,以便快速检索数据;带有中文的数据建议设置为中文分词;如果字段都是关键字,类似"INFO"、"ERROR",则建议设置为”不分词“。

    Q:如何即时生效?
    A:删除仓库 → 重新新建仓库 → 重新采集

    检索日志

    以关键字 tsdb 为例,检索结果如下:

    此处输入图片的描述

    Grafana 监控和告警

    Grafana 具体部署步骤参考 Grafana 详情, 此处不再赘述,下面只给出监控配置。

    1. 新建 dashboard 并创建 Graph

    此处输入图片的描述

    2. 设置 metrics:统计包含 metrictype 是 tsdb 的事件总数

    此处输入图片的描述

    3. 配置 Alert 告警

    设置 condition,这里我们选择 max(),对过去 10 分钟 的统计指标的最大值进行检查,IS ABOVE 为设置的阈值

    此处输入图片的描述

    4. 配置接受告警的 email

    首先,设置邮件通知组

    此处输入图片的描述

    5. 点击 sent test,测试是否可以收到邮件

    此处输入图片的描述

    6. 将告警配置绑定到接收告警的邮箱

    此处输入图片的描述

    7. 当超过设置的阈值后就出现告警,并发邮件,包含之前写好的 message,如下图所示:

    此处输入图片的描述

    以上就轻松完成利用 Pandora 智能日志管理平台配置关键字告警功能啦!

    以上内容是否对您有帮助?
  • Close