服务器监控概述
服务监控应用
是为用户提供的开箱即用的一站式服务器监控解决方案,对机器/机器集群的硬件资源、性能等进行实时持续的监控,通过分析这些数据判断服务器的性能瓶颈、安全隐患以及预防服务器可能出现的严重问题。您还可以对监控项设置报警规则,以便数据异常时收到报警通知。使用服务监控应用,帮您提升服务器的可靠性,降低企业 IT 运维监控的成本。
前提
使用智能日志平台的服务监控应用,首先需要确保您的机器已经安装 logkit-pro,并开启机器监控
。关于 logkit-pro 安装,请跳转阅读 logkit-pro 安装。
产品功能
服务监控为您提供了服务器资源使用情况概览、报警事件概览、报警规则管理、机器/机器组管理,通过这些功能,您可以完成服务器资源监控、接收服务器异常报警信息、异常定位、处理异常这一整套流程,提升运维的效率。
服务器概览
服务器概览提供服务器(机器/机器组)的服务器状态、资源使用情况和报警事件概览。
实时监控指标
监控指标 | 说明 |
---|---|
服务器状态 | 当前时间机器/机器组的在线/离线服务器数量 |
告警事件概览 | 当前时间机器/机器组的不同程度报警事件数量 |
CPU 使用 | 当前时间机器/机器组 CPU 使用情况 |
内存使用 | 当前时间机器/机器组内存使用情况 |
磁盘使用 | 当前时间机器/机器组磁盘使用情况 |
时序监控指标
监控指标 | 说明 |
---|---|
CPU 使用率 | 机器/机器组的 CPU 使用量 |
内存使用率 | 机器/机器组的内存使用情况 |
磁盘使用率 | 机器/机器组的磁盘使用情况 |
网络出流量网络入流量 | 指定时间内机器/机器组网络出流量指定时间内机器/机器组网络入流量 |
1 分钟平均负载5 分钟平均负载15 分钟平均负载 | 指定时间范围内的机器/机器组 1 分钟平均负载指定时间范围内的机器/机器组 5 分钟平均负载指定时间范围内的机器/机器组 15 分钟平均负载 |
机器管理
机器管理提供具体机器的状态(在线、离线)、参数信息、机器资源使用详情,同时提供机器组管理,方便在服务器概览监控机器集群的状态。
报警管理
支持配置告警规则,填写机器/机器组信息(任一)、报警指标、报警级别等信息,让系统帮您监控机器运转情况自动报警。报警出发以后将自动生成报警事件,若报警所指异常已处理,事件的状态将被置为已恢复,方便运维人员管理告警事件。
产品优势
数据可视化
通过单值图实时监控机器状态与资源使用情况,并支持时序折线图监控时序资源使用情况,通过排序、对比可快速找出异常机器与异常点。
灵活报警
提供了各监控指标的报警服务。您在为监控项设置好合理的报警规则和通知方式后,一旦发生异常便会立刻为您发出报警通知,让您及时知晓服务器异常并处理异常。
一站式服务
您只需在机器安装 logkit-pro 并开启机器监控,即可采集到机器的性能指标数据,并通过服务器监控应用来监控服务器,无需进行复杂的配置。
应用场景
大规模集群监控
监控大规模集群资源时,通过逐个查看每个机器的指标数据来排查问题效率低下。服务器监控提供机器组管理
,通过将业务相关的机器添加至一个机器组,监控资源时选择机器组可方便的对机器组下的机器进行整体监控,了解集群下的机器具体资源使用情况,同时可结合排序、时序对比,迅速发现异常机器。
及时处理异常
服务监控应用根据您设置的报警规则,在监控项的指标数据达到阈值时及时报警,让您及时知悉机器的异常情况并处理异常。
及时扩容
对 CPU 使用率、内存使用率、网络带宽等指标设置报警阈值,在业务量变大后及时收到报警通知进行服务扩容。