无监督聚类
K-means算法可以被视为高斯混合模型(GMM)的一种特殊形式
K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
数据预处理
对数据进行归一化
模型表示
给定样本集
D = { x 1 , . . . , x m } D=\{x_1,…,x_m\}
D
=
{
x
1
,
.
.
.
,
x
m
}
,针对聚类所得簇划分
C = { C 1 , . . . , C k } C=\{C_1,…,C_k\}
C
=
{
C
1
,
.
.
.
,