机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 应用平台 > Pandora机器学习工具包 >算法及支持的SPL算子

    算法及支持的SPL算子

    最近更新时间:2022-03-04 16:47:38

    Classification/ 分类

    分类算法使用场景

    • 需要预测的目标变量为离散数据(例如:A、B、C)
    • 用来帮助预测的特征变量为离散数据或者连续数据(例如:1、2、3.5)
    • 如果没有偏好的算法,默认推荐使用随机森林算法。
    Algorithm Name 算法名称 fit apply summary
    [LogisticRegression] 逻辑回归 Y Y Y
    [DecisionTreeClassifier] 决策树 Y Y Y
    RandomForestClassifier 随机森林 Y Y Y
    GradientBoostingClassifier GBDT 算法 Y Y Y
    XGBClassifier XGBoost 算法 Y Y Y
    BernoulliNB 伯努利朴素贝叶斯分类器 Y Y Y
    GaussianNB 高斯朴素贝叶斯分类器 Y Y Y
    MLPClassifier 多层感知机分类器 Y Y Y
    SGDClassifier 随机梯度下降分类器 Y Y Y
    SVM 支持向量机 Y Y N
    MultinomialNB 多项分布朴素贝叶斯模型 Y Y Y

    Regression/ 回归

    回归算法使用场景

    • 需要预测的目标变量为连续数据(例如:1、2、3.5)
    • 用来帮助预测的特征变量为离散数据(例如:A、B、C)或者连续数据
    • 如果没有偏好的算法,默认推荐使用随机森林算法。
    Algorithm Name 算法名称 fit apply summary
    LinearRegression 线性回归 Y Y Y
    DecisionTreeRegressor 决策树 Y Y Y
    RandomForestRegressor 随机森林 Y Y Y
    GradientBoostingRegressor GBDT 算法 Y Y Y
    XGBRegressor XGBoost 算法 Y Y Y
    ElasticNet 弹性网络 Y Y Y
    KernelRidge 核岭回归 Y Y N
    Lasso Lasso 回归 Y Y Y
    Ridge 岭回归 Y Y Y
    SGDRegressor 随机梯度下降回归 Y Y Y
    MLPRegressor 多层感知机回归 Y Y Y
    SVR 支持向量回归 Y Y N

    Clustering/ 聚类

    聚类算法使用场景

    • 用于通过给定的特征变量将数据分成 n 类类似的群组。
    • 原始数据中没有目标变量,即无监督学习。
    • 用来帮助预测的特征变量可以为离散数据(例如:A、B、C)或者连续数据(例如:1、2、3.5)
    • 如果没有偏好的算法,默认推荐使用 K 均值算法。
    Algorithm Name 算法名称 fit apply summary
    KMeans K 均值 Y Y Y
    HierarchicalClustering 层次聚类 Y N N
    SpectralClustering 谱聚类 Y N N
    DBSCAN DBSCAN 算法 Y N N
    Birch BIRCH 算法 Y Y N

    Anomaly Detection/ 异常值检测

    异常值检测算法使用场景

    • 用于判断数据中是否有明显区别于其他数据的异常数据。
    • 原始数据中没有目标变量,即无监督学习。
    • 可以分为离群点(Outlier Detection)和新颖点(Novelty Detection)检测。
      • 离群点检测:假设原始数据中存在异常点,离群点检测的目的在于区分原始数据中的异常部分和正常部分。
        • LocalOutlierFactor (novelty=False)/局部异常因子算法
        • IsolationForest/孤立森林
        • EllipticEnvelope
      • 新颖点检测:假设原始数据中不存在异常点,新颖点检测的目的在于判断一个新的数据点是否明显区分于原始数据。
        • OneClassSVM
        • LocalOutlierFactor (novelty=True)/局部异常因子算法
    • 用来帮助预测的特征变量可以为离散数据(例如:A、B、C)或者连续数据(例如:1、2、3.5)
    • 如果没有偏好的算法,默认推荐使用局部异常因子算法(LocalOutlierFactor)做离群点检测,推荐使用 OneClassSVM 做新颖点检测。
    Algorithm Name 算法名称 fit apply summary
    LocalOutlierFactor 局部异常因子算法 Y Y (只有在添加参数 novelty=True 的时候) N
    OneClassSVM OneClassSVM 算法 Y Y N
    IsolationForest 孤立森林 Y Y N
    EllipticEnvelope EllipticEnvelope 算法 Y Y N

    Time Series Analysis/ 时间序列分析

    时间序列分析算法使用场景

    • 用于预测有时间维度的连续数据(例如:1、2、3.5),比如通过一个月的历史数据预测下一周的数据。
    • 特征变量可选提供一个或者提供多个或者不提供。但如果提供,必须为连续数据。
    • 如果没有偏好的算法,默认推荐 ARIMA 算法。
    Algorithm Name 算法名称 fit apply summary
    ARIMA ARIMA 算法 Y Y N

    Feature Extraction/ 特征加工

    特征加工算法使用场景

    • 对原始数据做特征提取和特征加工,对数据类型不作限制。
    Algorithm Name 算法名称 fit apply summary
    FieldSelector 特征筛选 Y Y Y
    KernelPCA 核主成分分析 Y Y N
    Principal Component Analysis/PCA 主成分分析 Y Y Y
    TFIDF TFIDF Y Y N

    Data Preprocessing/ 数据预处理

    数据预处理算法使用场景

    • 对原始数据做数据预处理,包括类型转换,数据缩放等方式。
    • 类型转化类算法(独热编码、标签编码)只适用于离散型数据字段,数据缩放类算法(数据标准化,稳健标准化)只适用于连续性数据字段。
    Algorithm Name 算法名称 fit apply summary
    StandardScaler 数据标准化 Y Y Y
    RobustScaler 稳健标准化 Y Y Y
    OneHotEncoder 独热编码 Y Y N
    LabelEncoder 标签编码 Y Y Y

    Utility Functions/ 效用函数

    效用函数算法使用场景

    • 提供一些数据或者统计学的工具,可以用于计算一些辅助量。
    Algorithm Name 算法名称 fit apply summary
    ACF 自相关函数 Y Y N
    PACF 偏自相关函数 Y Y N
    以上内容是否对您有帮助?
  • Qvm free helper
    Close