R语言确定聚类的最佳簇数：3种聚类优化方法

确定数据集中

最佳的簇数

是分区聚类（例如k均值聚类）中的一个基本问题，它要求用户指定要生成的簇数k。

一个简单且流行的解决方案包括检查使用分层聚类生成的树状图，以查看其是否暗示特定数量的聚类。不幸的是，这种方法也是主观的。

我们将介绍用于确定k均值，k medoids（PAM）和层次聚类的最佳聚类数的不同方法。

这些方法包括直接方法和统计测试方法：

除了

肘部

，

轮廓

和

间隙统计

方法外，还有三十多种其他指标和方法已经发布，用于识别最佳簇数。我们将提供用于计算所有这30个索引的R代码，以便使用“多数规则”确定最佳聚类数。

对于以下每种方法：

回想一下，诸如k-均值聚类之类的分区方法背后的基本思想是定义聚类，以使总集群内变化[或总集群内平方和（WSS）]最小化。总的WSS衡量了群集的紧凑性，我们希望它尽可能小。

Elbow方法将总WSS视为群集数量的函数：应该选择多个群集，以便添加另一个群集不会改善总WSS。

最佳群集数可以定义如下：

平均轮廓法计算不同k值的观测值的平均轮廓。聚类的最佳数目k是在k的可能值范围内最大化平均轮廓的数目（Kaufman和Rousseeuw 1990）。

该方法可以应用于任何聚类方法。

间隙统计量将k的不同值在集群内部变化中的总和与数据空引用分布下的期望值进行比较。最佳聚类的估计将是使差距统计最大化的值（即，产生最大差距统计的值）。

我们将使用USArrests数据作为演示数据集。我们首先将数据标准化以使变量具有可比性。


head(df)
##