Classification/ 分类
分类算法使用场景:
- 需要预测的目标变量为离散数据(例如:A、B、C)
- 用来帮助预测的特征变量为离散数据或者连续数据(例如:1、2、3.5)
- 如果没有偏好的算法,默认推荐使用随机森林算法。
Algorithm Name | 算法名称 | fit | apply |
---|---|---|---|
LogisticRegression | 逻辑回归 | Y | Y |
RandomForestClassifier | 随机森林 | Y | Y |
Regression/ 回归
分类算法使用场景:
- 需要预测的目标变量为连续数据(例如:1、2、3.5)
- 用来帮助预测的特征变量为离散数据(例如:A、B、C)或者连续数据
- 如果没有偏好的算法,默认推荐使用随机森林算法。
Algorithm Name | 算法名称 | fit | apply |
---|---|---|---|
LinearRegression | 线性回归 | Y | Y |
RandomForestRegressor | 随机森林 | Y | Y |
Clustering/ 聚类
聚类算法使用场景:
- 用于通过给定的特征变量将数据分成n类类似的群组。
- 原始数据中没有目标变量,即无监督学习。
- 用来帮助预测的特征变量可以为离散数据(例如:A、B、C)或者连续数据(例如:1、2、3.5)
- 如果没有偏好的算法,默认推荐使用K均值算法。
Algorithm Name | 算法名称 | fit | apply |
---|---|---|---|
KMeans | K均值 | Y | Y |
HierarchicalClustering | 层次聚类 | Y | N |
Anomaly Detection/ 异常检测
异常检测算法使用场景:
- 用于判断数据中是否有明显区别于其他数据的异常数据。
- 原始数据中没有目标变量,即无监督学习。
可以分为离群点(Outlier Detection)和新颖点(Novelty Detection)检测。
- 离群点检测:假设原始数据中存在异常点,离群点检测的目的在于区分原始数据中的异常部分和正常部分。
- LocalOutlierFactor (novelty=False)/局部异常因子算法
- 新颖点检测:假设原始数据中不存在异常点,新颖点检测的目的在于判断一个新的数据点是否明显区分于原始数据。
- OneClassSVM
- LocalOutlierFactor (novelty=True)/局部异常因子算法
- 离群点检测:假设原始数据中存在异常点,离群点检测的目的在于区分原始数据中的异常部分和正常部分。
用来帮助预测的特征变量可以为离散数据(例如:A、B、C)或者连续数据(例如:1、2、3.5)
- 如果没有偏好的算法,默认推荐使用局部异常因子算法(LocalOutlierFactor)做离群点检测,推荐使用OneClassSVM做新颖点检测。
Algorithm Name | 算法名称 | fit | apply |
---|---|---|---|
LocalOutlierFactor | 局部异常因子 | Y | Y (只有在添加参数novelty=True的时候) |
OneClassSVM | 一类支持向量机 | Y | Y |
Time Series Analysis/ 时间序列分析
时间序列分析算法使用场景:
- 用于预测有时间维度的连续数据(例如:1、2、3.5),比如通过一个月的历史数据预测下一周的数据。
- 特征变量可选提供一个或者提供多个或者不提供。但如果提供,必须为连续数据。
- 如果没有偏好的算法,默认推荐ARIMA算法。
Algorithm Name | 算法名称 | fit | apply |
---|---|---|---|
ARIMA | ARIMA算法 | Y | Y |
文档反馈
(如有产品使用问题,请提交工单)