机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 应用平台 > Pandora机器学习工具包 >fit的使用方法详述 > 检测连续数据中的异常数据【异常值检测】 > 孤立森林 - Isolation Forest

    孤立森林 - Isolation Forest

    最近更新时间:2022-02-24 17:10:29

    孤立森林是一种基于集成算法的异常检测算法。在孤立森林中,异常值被定义为“容易被孤立的离群点”,即与正常数据相比,其分布相对较远且不规律。基于这样的定义,孤立森林通过递归的随机分割数据集,直到所有的样本都被分隔开,在这个过程中,密度越低的点越容易被孤立,即异常点通常具有较短的路径。

    语法:

    ...| fit IsolationForest n_estimators=<int> max_samples=<auto(default) | int | float> max_features=<int | float> contamination=<auto(default) | float> random_state=<int> <feature_field_1> <feature_field_2> [into model_name]... 
    

    参数说明:

    • n_estimators,用来指定建模中使用的树的数量,必须为正整数。若不设定,默认为100。

    • max_samples,用来指定每一次建树时选取的最大数据量。

      • max_samples=int,代表直接使用max_samples为最大数据量。如果超过了总数据量,则所有数据都会被使用。
      • max_samples=float,代表使用max_samples * 数据总数 为最大数据量。
      • max_samples=auto(默认值),代表使用[256, 数据总量]中较小的一方作为最大数据量。
    • max_features,用来指定每一次建树时选取的最大特征数。如不提供,默认为1.0,即使用所有特征。

      • max_features=int,代表直接使用max_features为最大特征数量,必须在(0,n_features]之间。n_features即为建模时使用的特征字段的数量。
      • max_features=float,代表使用max_features*n_features为最大特征数量。必须使max_features*n_features向下取整的结果在(0,n_features]之间。
    • contaminaiton,用来指定训练集中异常数据的比例

      • contamination=auto(默认),自动设定异常值比例。
      • contamination是一个float,必须要在(0,0.5]之间。
    • random_state为随机数种子,用来控制样本自助抽样的随机性和特征抽样的随机性。如果给定特定值,重新跑模型的时候,可以得出同样的结果。

    以上内容是否对您有帮助?
  • Qvm free helper
    Close