报警服务
您可以通过报警服务监控服务器的异常情况,添加指标(CPU、内存、磁盘、负载、网络)的报警规则,一旦服务器指标满足报警规则设置的阈值,即发送报警信息给通知人,提醒通知人处理。同时产生报警事件,若报警事件已处理,报警事件的状态自动被置为已恢复,帮助提升运维人员处理报警事件的效率。
报警规则:
创建报警规则除了填写报警名称和描述以外,还需要填写以下信息:
报警类别:指定监控报警的指标,目前支持监控 CPU、内存、磁盘、负载、网络监控指标。
报警机器/机器组:指定监控报警的机器/机器组。
报警阈值:报警触发条件,如 CPU 使用率大于 75% 报警。
报警级别:定义报警事件的严重程度,包括告警事件、错误事件、致命事件。
报警通知:指定告警信息的通知对象。
创建好报警规则后,系统每隔 5 分钟聚合一次监控项指标,若触发告警规则,您可以接收到报警信息,请及时处理报警事件。
- 支持报警规则启用/禁用,根据报警需求灵活使用,无需重复创建。
注意:
目前支持每个账户最多创建 7 条报警规则。
报警通知对象
在通知管理 tab,您可以创建告警通知对象,支持 1 个通知对象包含多种联系方式。
报警事件
每触发一条报警规则,系统同时会生成一个报警事件。
注意:
若一直触发同一条告警规则,不会连续触发多条事件,但会持续发送报警信息,直到事件恢复正常。
若报警事件所指异常已处理,您会收到异常恢复信息,同时报警事件的状态将被置为已恢复,帮助提升运维人员处理报警事件的效率。
- 报警事件手动恢复/删除
支持手动恢复/删除报警事件,防止在报警规则被误删或禁用的情况下,已存在的报警事件无法自动恢复而出现报警风暴。
文档反馈
(如有产品使用问题,请 提交工单)