机器数据分析平台

  • 机器数据分析平台 > 产品手册 > 产品概述

    产品概述

    最近更新时间:2019-10-17 13:05:34

    Pandora Express 是一款分布式的大数据分析、计算、可视化工具。主要面向于各种数据源的数据采集、解析、检索和分析。数据源可能来自于运维监控、安全审计、云基础服务、工业物联网以及IoT数据、商业数据等各种场景。

    平台用户经过安装产品之后,可以使用Web 界面的形式使用、管理和维护系统。当数据通过各种采集方法收集到 Pandoa Express 之后,平台可以将数据进行切分以及识别数据中的时间戳,对数据进行实时索引和存储。使用数据解析功能可以将数据中的字段提取出来,对数据进行更多的聚合和分析。

    产品功能

    数据采集

    数据采集支持多种形式,包括但不限于

    • 使用Web界面通过文件上传的方式进行数据的集中化
    • 监听 TCP/UDP 端口,持续地流式获取数据写入
    • 监听 HTTP 端口,通过 Rest 接口形式上报数据
    • 使用 Agent 方式,通过在本地部署收集器的方式持续上报数据
    • 通过第三方采集工具上报数据
      • 通过 Beats 等采集网络、审计等数据
      • 通过 telegraf 采集监控指标数据
      • 通过 fluentd 采集容器云平台相关日志

    数据索引和解析

    数据通过各种采集方式输入到平台之后,可以自动识别事件时间、断行的方法。将日志文件分解成单个独立的事件。对事件的文本做全文索引,可以通过关键字搜索进行数据的检索和分析。

    通过使用多种方式可以对原始数据进行解析和字段提取:

    1.字段管理:

    • 支持数据中KV 字段自动提取发现
    • 支持JSON、XML字段自动提取
    • 支持划词辅助+正则表达式提取
    • 支持固定分隔符数据提取
    • 字段映射将原始字段映射为新的字段
    • 应用方式支持开箱即用的解析规则支持

    2.搜索语言解析,支持在搜索结果中使用正则表达式、Eval计算等多种方式对数据进行二次解析运算

    数据搜索和报表

    可以使用搜索处理语言(Search Process Language, SPL),对数据进行简单或者高级搜索。简单搜索支持全文搜索、字段搜索、通配符搜索、正则表达式搜索、范围搜索。高级搜索支持去重、转化、关联、统计等多种高级搜索命令。可以结合多种搜索命令完成对事件的查询、解析、变换和统计工作。

    数据报表功能,支持用户使用交互的方式对数据进行分析和处理,也支持用户使用搜索语言对数据进行计算和处理。对于数据不仅支持数据表的展现形式,也同时支持折线图、区域图、柱状图、散点图、气泡图、饼图、环图、旭日图、单值图、中国地图、世界地图、关系图、桑基图、迁徙图、雷达图等数十种图表对数据进行可视化呈现。

    数据仪表盘

    数据仪表盘是由一系列数据图表面板构成的。仪表盘往往包含了很多已经制定好的搜索和计算流程,可以通过后台运行计算的方式持续输出实时数据。仪表盘支持灵活的配置模板变量、下拉框等多种交互式元素,可以让数据更加简单的方式呈现给用户。

    产品主要架构

    产品从技术架构上采用了Lucene 的搜索与存储能力,以及使用了部分 Elasticsearch 的分布式集群调度能力。在此基础上自研了分布式计算引擎与搜索计算语言。以下是这个架构下的分布式架构说明:

    采集节点

    采集节点一般是部署数据收集器,如上文提到的 Pandora 的 Express 采集器,通过SDK嵌入应用内部的采集器,第三方数据采集器(如Beats、Telegraf、fluentd等),以及syslog日志采集器等多种方式,将数据汇聚到数据节点。

    数据节点

    数据节点是数据存储、索引的主要节点。在这里主要完成事件的识别和分解,以及事件内容的索引和存储。当搜索节点发送计算请求的时候,对数据完成就近的过滤和运算工作。是分布式计算的核心。

    搜索节点

    搜索节点是处理用户分析请求的最前端组件,在搜索节点上会进行任务执行计划的制定,以及执行计划的下发,通过将各个节点的计算结果汇聚到搜索节点上,完成复杂的运算请求。对于大量用户分析请求的时候,搜索节点性能是至关重要的。

    以上内容是否对您有帮助?
  • Icon helper
    Icon free helper
    Close