Pandora提供了通过数据变化快速精准发现业务变化的能力,告警功能提供对监控指标的告警,以便用户在第一时间得知服务发生异常、快速定位问题,及时采取对应措施处理故障,最大程度避免或减少业务损失。Pandora告警模块与业务数据源紧密结合,能够灵活通过SPL算子实现复杂的告警规则,且基于Pandora平台的横向扩展能力满足海量监控需求,具备极强的易用性及可拓展性。以下两个示例将帮助您更好的理解Pandora告警功能及如何利用Pandora告警达成您业务场景中的告警需求。
示例一:服务器基础性能监控
服务器监控包括基础性能监控、操作系统监控和进程监控,其中针对基础性能监控,我们需要通过CPU、内存、磁盘io、网络等多种核心监控指标设置告警规则,进行服务器资源使用情况监控,满足服务器的基本监控运维需求。当监控指标触发告警条件时,Pandora以配置的触发操作方式触达用户,以便在第一时间得知服务器资源异常,通过了解服务器的系统资源使用情况还有助于进行容量规划。我们可以根据需求针对不同的指标设置多组阈值对应多个告警级别,以表示多种严重程度。
创建告警规则
1、在搜索页输入SPL查询需要进行监控的数据源,点击「另存为」告警;或进入告警规则管理页,点击右上角「+新建」按钮创建告警规则。
- 数据源:
repo="metrics_test"| stats avg(cpu_usage)as avg_cpu_usage,avg(mem_usage)as avg_mem_usage,avg(disk_usage)as avg_disk_usage by hostname
2、在创建告警规则的表单中填写以下配置项:
- 告警规则名称:服务器基础性能监控
- 描述:从CPU、内存、磁盘io、网络等多种核心监控指标监控服务器基础性能
- 告警运行周期:每分钟
- 数据源及查询时间:1分钟前至0分钟
- 告警监控对象:
hostname
- 触发告警条件:
avg_cpu_usage
大于等于 0.5 且avg_mem_usage
大于等于 0.5 且avg_disk_usage
大于等于 0.5 > 告警级别:信息avg_cpu_usage
大于等于 0.7 且avg_mem_usage
大于等于 0.7 且avg_disk_usage
大于等于 0.7 > 告警级别:严重
- 告警恢复周期(可选):连续5个周期
- 告警抑制周期(可选):针对“信息”级别,告警抑制周期10分钟
- 告警触发操作:发送给系统用户 > notice_user_integration 。
3、点击保存,告警规则创建后默认启用并立即生效。
示例二:数据库服务运行状态监控
当我们需要监控数据库以确保其服务状态正常及数据的可用性,我们需要从硬件到软件确保所有组件都是可用的,并且在正常范围内运行。在服务器基础性能监控和底层操作系统监控之上,数据库可以看成是运行在服务器上的软件之一,最基本的监控就是保障数据库服务处于运行状态,您可以从数据库的最大连接数、响应时间及磁盘利用率等几个核心指标来监控您的数据库状态。
创建聚合规则
1、在搜索页输入SPL查询需要进行监控的数据源,点击「另存为」告警;或进入告警规则管理页,点击右上角「+新建」按钮创建告警规则。
数据源:
repo="mysql_status"| timechart span=5m max(threads_connected) as max_threads_connected, max(query_time) as max_query_time, avg(disk_usage) as avg_disk_usage by mysql_server
2、在创建告警规则的表单中填写以下配置项:
- 告警规则名称:mysql服务运行状态监控
- 描述:从连接数、慢查询、磁盘使用情况等多种核心监控指标mysql运行状态
- 告警运行周期:每分钟
- 数据源及查询时间:1分钟前至0分钟
- 告警监控对象:
mysql_server
- 触发告警条件:
max_threads_connected
大于等于 200 或者max_query_time
大于等于 2 或者avg_disk_usage
大于等于 0.7 > 告警级别=信息max_threads_connected
大于等于 500 或者max_query_time
大于等于 10 或者avg_disk_usage
大于等于 0.8 > 告警级别=严重
- 告警恢复周期(可选):连续5个周期
- 告警抑制周期(可选):针对“信息”级别,告警抑制周期10分钟
- 告警触发操作:发送给系统用户 > Pandora系统运维 。
3、点击保存,告警规则创建后默认启用并立即生效。
示例三:用户直播服务性能监控
我们可以通过监控用户直播带宽数据实现每个用户使用带宽情况的监控告警。针对响应状态、带宽等指标进行直播服务监控、实时反馈问题,确保高质量直播加速服务,以提供给视频用户优质的服务和更好的视频体验。
创建告警规则
1、在搜索页输入SPL查询需要进行监控的数据源,点击「另存为」告警;或进入告警规则管理页,点击右上角「+新建」按钮创建告警规则。
- 数据源:
repo="cdn_sls_log"|eval all_response_status =if(like(repsonse_status,"2%"),0,1)|stats sum(response_size) as sum_response_size,sum(all_response_status) as sum_response_status by remote_addr
2、在创建告警规则的表单中填写以下配置项:
- 告警规则名称:服务器基础性能监控
- 描述:从请求返回流量值/请求发送流量值/请求返回状态等多种监控指标监控网站、直播等服务情况
- 告警运行周期:每分钟
- 数据源及查询时间:10分钟前至0分钟
- 告警监控对象:
remote_addr
- 触发告警条件:
sum_response_size
小于等于 100GB 且sum_response_status
大于等于 5 > 告警级别=信息sum_response_size
大于等于 50GB 且sum_response_status
大于等于 10 > 告警级别=严重
- 告警恢复周期(可选):连续5个周期
- 告警抑制周期(可选):针对“信息”级别,告警抑制周期20分钟
- 告警触发操作:发送给系统用户 > CDN业务运维 。
3、点击保存,告警规则创建后默认启用并立即生效。