孤立森林 - Isolation Forest
孤立森林是一种基于集成算法的异常检测算法。在孤立森林中,异常值被定义为“容易被孤立的离群点”,即与正常数据相比,其分布相对较远且不规律。基于这样的定义,孤立森林通过递归的随机分割数据集,直到所有的样本都被分隔开,在这个过程中,密度越低的点越容易被孤立,即异常点通常具有较短的路径。
语法:
...| fit IsolationForest n_estimators=<int> max_samples=<auto(default) | int | float> max_features=<int | float> contamination=<auto(default) | float> random_state=<int> <feature_field_1> <feature_field_2> [into model_name]...
参数说明:
-
n_estimators,用来指定建模中使用的树的数量,必须为正整数。若不设定,默认为100。
-
max_samples,用来指定每一次建树时选取的最大数据量。
- max_samples=int,代表直接使用max_samples为最大数据量。如果超过了总数据量,则所有数据都会被使用。
- max_samples=float,代表使用max_samples * 数据总数 为最大数据量。
- max_samples=auto(默认值),代表使用[256, 数据总量]中较小的一方作为最大数据量。
-
max_features,用来指定每一次建树时选取的最大特征数。如不提供,默认为1.0,即使用所有特征。
- max_features=int,代表直接使用max_features为最大特征数量,必须在(0,n_features]之间。n_features即为建模时使用的特征字段的数量。
- max_features=float,代表使用max_features*n_features为最大特征数量。必须使max_features*n_features向下取整的结果在(0,n_features]之间。
-
contaminaiton,用来指定训练集中异常数据的比例
- contamination=auto(默认),自动设定异常值比例。
- contamination是一个float,必须要在(0,0.5]之间。
-
random_state为随机数种子,用来控制样本自助抽样的随机性和特征抽样的随机性。如果给定特定值,重新跑模型的时候,可以得出同样的结果。
文档反馈
(如有产品使用问题,请 提交工单)