机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 数据采集 > 文件及目录采集

    文件及目录采集

    最近更新时间: 2022-02-17 11:26:53

    您需要通过采集客户端logkit-lite监控服务器上文件和目录的数据,并转发到Pandora平台。当您指定文件或目录路径时,可以采集实时的系统日志如web服务器日志,客户端会采集写入该文件或目录的任何新数据。如果目录中包含子目录,只要客户端可以读取到就可以监控并采集其产生的新数据。
    logkit-lite 在启动时检查要读取的文件目录,一个时间点会追踪多个文件,根据文件大小判断数据是否有更新,不断读取新追加的数据。
    当您禁用一个文件目录采集任务时,采集器将停止正在采集的文件数据,不再监控该文件或目录。

    创建采集任务

    入口:设置 > 数据采集,点击+创建采集任务,在选择数据源页选择文件或目录采集方式。
    创建流程:

    1. 分发机器:通过选择机器标签确定运行采集任务的机器,您也可以通过新建标签来选择需要的机器组。若采集客户端尚未安装,您可以先跳过该步骤点击进行下一步配置。
    2. 填写数据源采集配置信息,具体如下:
    配置项 说明
    来源类型 平台用于区分不同数据格式的重要标识,通过来源类型确定数据的分行方式(将数据流按照切分规则形成独立的事件)、时间戳抽取方式(为每个事件抽取时间信息)等重要信息,不同格式的数据流的分行及时间戳识别方式各有不同,同时来源类型也有助于您进行数据分类搜索。参阅来源类型
    文件/目录 需要采集的数据所在文件或目录的完整路径,如 /var/log/messages/var/log/*.log,多个路径以“,”分隔,支持通配符
    数据读取位置 选择数据读取位置,如最新最老。最老表示从文件开始位置全量读取,也可以设置为 最新,表示从logkit-lite开始运行后文件新追加的部分开始读取
    数据处理规则 配置数据处理规则可以对通过正则表达式匹配的数据进行过滤或脱敏处理
    编码格式 持在客户端对要采集的数据源指定编码格式
    白名单 采集文件或目录白名单,多个路径以“,”分隔,支持通配符。如果填写目录则需要以"/"结尾
    黑名单 采集文件或目录黑名单,多个路径以“,”分隔,支持通配符。如果填写目录则需要以"/"结尾

    当您同时填写了黑白名单,表示采集在白名单且不在黑名单中的文件或目录,,如果一个文件或目录同时在两个名单中,则黑名单覆盖白名单将过滤掉不采集。

    完成配置后,您可以通过选择上一步中所选标签下的机器获取示例数据,点击解析数据预览解析后的数据,便于确定日志分行情况和时间戳提取效果是否符合预期以便进行调整。
    image.png

    注意事项

    • 如果文件路径太多,数据处理规则可能造成数据预览获取时间较长,用户需要等待较长的时间。
    • 预览数据获取条数默认为10条,可以通过接口调整预览数量
    1. 填写任务基本信息
      将任务名称、描述、仓库这些基本信息补充完整后,点击保存就完成了文件/目录采集任务的创建。

    配置式创建采集任务

    在采集任务配置页面中,点击右上角配置方式切换按钮,切换至配置文件创建流程。您可以在配置文件信息输入框中确认采集任务配置并进行调整,这种方式可以为您提供更多高级配置项灵活编辑的能力。
    image.png

    高级配置

    • 采集并发度(max_open_files):读取文件的并发度,默认为10,表示同时追踪采集10个文件,可支持输入1~10000的正整数。
    • 读取速率限制(readio_limit):读取文件的磁盘限速,填写正整数,单位为 MB/s。默认限速 20 MB/s。
    • 最大打开文件数(max_open_files):最大能追踪的文件数,默认为 256。同时追踪的文件过多会导致打开的文件句柄超过系统限制,请谨慎配置该项。超过限制后,不再追踪新添加的日志文件,直到部分追踪文件或目录达到 expire 时间
    • 扫描间隔(stat_interval):刷新过期的跟踪日志文件,感知新增日志的定时检查时间。写法为数字加单位符号组成的字符串 duration 写法,支持时 h、分m、秒s为单位,类似3h(3小时),10m(10分钟),5s(5秒),默认3m(3分钟)

    如何采集压缩格式文件

    为了采集存档文件,采集器在处理之前解压缩文件,例如 TAR 或 ZIP 文件。如果您将新数据添加到现有压缩文件中,logkit-lite将重新处理整个文件,这可能会导致数据的重复采集。Pandora支持以下类型的存档文件:

    • TAR
    • GZ
    • TAR.GZ
    • GZIP
    • ZIP
    以上内容是否对您有帮助?
  • Qvm free helper
    Close