机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 应用平台 > Pandora机器学习工具包 >算法及支持的SPL算子

    算法及支持的SPL算子

    最近更新时间:2021-10-19 17:29:24

    Classification/ 分类

    分类算法使用场景

    • 需要预测的目标变量为离散数据(例如:A、B、C)
    • 用来帮助预测的特征变量为离散数据或者连续数据(例如:1、2、3.5)
    • 如果没有偏好的算法,默认推荐使用随机森林算法。
    Algorithm Name 算法名称 fit apply
    LogisticRegression 逻辑回归 Y Y
    DecisionTreeClassifier 决策树 Y Y
    RandomForestClassifier 随机森林 Y Y
    GradientBoostingClassifier GBDT算法 Y Y
    XGBClassifier XGBoost算法 Y Y

    Regression/ 回归

    分类算法使用场景

    • 需要预测的目标变量为连续数据(例如:1、2、3.5)
    • 用来帮助预测的特征变量为离散数据(例如:A、B、C)或者连续数据
    • 如果没有偏好的算法,默认推荐使用随机森林算法。
    Algorithm Name 算法名称 fit apply
    LinearRegression 线性回归 Y Y
    DecisionTreeRegressor 决策树 Y Y
    RandomForestRegressor 随机森林 Y Y
    GradientBoostingRegressor GBDT算法 Y Y
    XGBRegressor XGBoost算法 Y Y

    Clustering/ 聚类

    聚类算法使用场景

    • 用于通过给定的特征变量将数据分成n类类似的群组。
    • 原始数据中没有目标变量,即无监督学习。
    • 用来帮助预测的特征变量可以为离散数据(例如:A、B、C)或者连续数据(例如:1、2、3.5)
    • 如果没有偏好的算法,默认推荐使用K均值算法。
    Algorithm Name 算法名称 fit apply
    KMeans K均值 Y Y
    HierarchicalClustering 层次聚类 Y N
    SpectralClustering 谱聚类 Y N
    DBSCAN DBSCAN算法 Y N
    Birch BIRCH算法 Y Y

    Anomaly Detection/ 异常值检测

    异常值检测算法使用场景

    • 用于判断数据中是否有明显区别于其他数据的异常数据。

    • 原始数据中没有目标变量,即无监督学习。

    • 可以分为离群点(Outlier Detection)和新颖点(Novelty Detection)检测。

      • 离群点检测:假设原始数据中存在异常点,离群点检测的目的在于区分原始数据中的异常部分和正常部分。
        • LocalOutlierFactor (novelty=False)/局部异常因子算法
        • IsolationForest/孤立森林
        • EllipticEnvelope
      • 新颖点检测:假设原始数据中不存在异常点,新颖点检测的目的在于判断一个新的数据点是否明显区分于原始数据。
        • OneClassSVM
        • LocalOutlierFactor (novelty=True)/局部异常因子算法
    • 用来帮助预测的特征变量可以为离散数据(例如:A、B、C)或者连续数据(例如:1、2、3.5)

    • 如果没有偏好的算法,默认推荐使用局部异常因子算法(LocalOutlierFactor)做离群点检测,推荐使用OneClassSVM做新颖点检测。

    Algorithm Name 算法名称 fit apply
    LocalOutlierFactor 局部异常因子算法 Y Y (只有在添加参数novelty=True的时候)
    OneClassSVM OneClassSVM算法 Y Y
    IsolationForest 孤立森林 Y Y
    EllipticEnvelope EllipticEnvelope算法 Y Y

    Time Series Analysis/ 时间序列分析

    时间序列分析算法使用场景

    • 用于预测有时间维度的连续数据(例如:1、2、3.5),比如通过一个月的历史数据预测下一周的数据。
    • 特征变量可选提供一个或者提供多个或者不提供。但如果提供,必须为连续数据。
    • 如果没有偏好的算法,默认推荐ARIMA算法。
    Algorithm Name 算法名称 fit apply
    ARIMA ARIMA算法 Y Y
    以上内容是否对您有帮助?
  • Qvm free helper
    Close