机器数据分析平台

  • 机器数据分析平台 > 使用文档 > 应用平台 > Pandora机器学习工具包 >fit的使用方法详述 > 数据聚类【聚类】 > K均值 - KMeans

    K均值 - KMeans

    最近更新时间:2022-02-24 17:00:58

    K均值算法是一种常用的聚类分析的方法,通过给定的k值,将数据分成k个簇,使得每个数据点到聚类中心的距离最小。在没有很明确的偏好算法的情况下,建议可以使用K均值算法来得出初步的聚类分析模型

    语法:

    ...|fit KMeans n_clusters=<int> init=<"k-means++" (default)| random> n_init=<int> max_iter=<int> random_state=<int> <feature_field_1> <feature_field_2> [into model_name]... 
    

    参数说明:

    • n_clusters参数,用来指定形成的簇/中心点的数量。如不提供,默认值为8。
    • init参数,用来指定初始值选择的方式
      • k-means++(默认值): 优化过选择方式
      • random:完全随机
    • n_init参数,用来指定用不同的初始点运行算法的次数。如不提供,默认值为10。
    • max_iter参数,用来指定在单次运算中,KMeans计算反复的最大限度。如不提供,默认值为300。在数据量或者特征数量特别大的情况下,可以适量增大。
    • random_state为随机数种子,用来控制样本自助抽样的随机性和特征抽样的随机性。如果给定特定值,重新跑模型的时候,可以得出同样的结果。
    以上内容是否对您有帮助?
  • Qvm free helper
    Close