K均值 - KMeans
K均值算法是一种常用的聚类分析的方法,通过给定的k值,将数据分成k个簇,使得每个数据点到聚类中心的距离最小。在没有很明确的偏好算法的情况下,建议可以使用K均值算法来得出初步的聚类分析模型。
语法:
...|fit KMeans n_clusters=<int> init=<"k-means++" (default)| random> n_init=<int> max_iter=<int> random_state=<int> <feature_field_1> <feature_field_2> [into model_name]...
参数说明:
- n_clusters参数,用来指定形成的簇/中心点的数量。如不提供,默认值为8。
- init参数,用来指定初始值选择的方式
- k-means++(默认值): 优化过选择方式
- random:完全随机
- n_init参数,用来指定用不同的初始点运行算法的次数。如不提供,默认值为10。
- max_iter参数,用来指定在单次运算中,KMeans计算反复的最大限度。如不提供,默认值为300。在数据量或者特征数量特别大的情况下,可以适量增大。
- random_state为随机数种子,用来控制样本自助抽样的随机性和特征抽样的随机性。如果给定特定值,重新跑模型的时候,可以得出同样的结果。
文档反馈
(如有产品使用问题,请 提交工单)