智能日志管理平台

  • 智能日志管理平台 > 使用文档 > 服务器监控 >服务器监控概述

    服务器监控概述

    最近更新时间: 2018-10-30 11:59:25

    服务监控应用是为用户提供的开箱即用的一站式服务器监控解决方案,对机器/机器集群的硬件资源、性能等进行实时持续的监控,通过分析这些数据判断服务器的性能瓶颈、安全隐患以及预防服务器可能出现的严重问题。您还可以对监控项设置报警规则,以便数据异常时收到报警通知。使用服务监控应用,帮您提升服务器的可靠性,降低企业 IT 运维监控的成本。

    前提

    使用智能日志平台的服务监控应用,首先需要确保您的机器已经安装 logkit-pro,并开启机器监控。关于 logkit-pro 安装,请跳转阅读 logkit-pro 安装

    产品功能

    服务监控为您提供了服务器资源使用情况概览、报警事件概览、报警规则管理、机器/机器组管理,通过这些功能,您可以完成服务器资源监控、接收服务器异常报警信息、异常定位、处理异常这一整套流程,提升运维的效率。

    服务器概览

    服务器概览提供服务器(机器/机器组)的服务器状态、资源使用情况和报警事件概览。

    实时监控指标

    监控指标 说明
    服务器状态 当前时间机器/机器组的在线/离线服务器数量
    告警事件概览 当前时间机器/机器组的不同程度报警事件数量
    CPU 使用 当前时间机器/机器组 CPU 使用情况
    内存使用 当前时间机器/机器组内存使用情况
    磁盘使用 当前时间机器/机器组磁盘使用情况

    时序监控指标

    监控指标 说明
    CPU 使用率 机器/机器组的 CPU 使用量
    内存使用率 机器/机器组的内存使用情况
    磁盘使用率 机器/机器组的磁盘使用情况
    网络出流量

    网络入流量
    指定时间内机器/机器组网络出流量

    指定时间内机器/机器组网络入流量
    1 分钟平均负载

    5 分钟平均负载

    15 分钟平均负载
    指定时间范围内的机器/机器组 1 分钟平均负载

    指定时间范围内的机器/机器组 5 分钟平均负载

    指定时间范围内的机器/机器组 15 分钟平均负载

    机器管理

    机器管理提供具体机器的状态(在线、离线)、参数信息、机器资源使用详情,同时提供机器组管理,方便在服务器概览监控机器集群的状态。

    报警管理

    支持配置告警规则,填写机器/机器组信息(任一)、报警指标、报警级别等信息,让系统帮您监控机器运转情况自动报警。报警出发以后将自动生成报警事件,若报警所指异常已处理,事件的状态将被置为已恢复,方便运维人员管理告警事件。

    产品优势

    数据可视化

    通过单值图实时监控机器状态与资源使用情况,并支持时序折线图监控时序资源使用情况,通过排序、对比可快速找出异常机器与异常点。

    灵活报警

    提供了各监控指标的报警服务。您在为监控项设置好合理的报警规则和通知方式后,一旦发生异常便会立刻为您发出报警通知,让您及时知晓服务器异常并处理异常。

    一站式服务

    您只需在机器安装 logkit-pro 并开启机器监控,即可采集到机器的性能指标数据,并通过服务器监控应用来监控服务器,无需进行复杂的配置。

    应用场景

    大规模集群监控

    监控大规模集群资源时,通过逐个查看每个机器的指标数据来排查问题效率低下。服务器监控提供机器组管理,通过将业务相关的机器添加至一个机器组,监控资源时选择机器组可方便的对机器组下的机器进行整体监控,了解集群下的机器具体资源使用情况,同时可结合排序、时序对比,迅速发现异常机器。

    及时处理异常

    服务监控应用根据您设置的报警规则,在监控项的指标数据达到阈值时及时报警,让您及时知悉机器的异常情况并处理异常。

    及时扩容

    对 CPU 使用率、内存使用率、网络带宽等指标设置报警阈值,在业务量变大后及时收到报警通知进行服务扩容。

    以上内容是否对您有帮助?
  • Qvm free helper
    Close