Kmean算法:
一、原理简介
二、流程
2.1 Kmeans算法的流程:
1. 随机确定k个初始点作为作为k个簇的质心,即均值向量初始化;
2. 对数据集中的每个点,计算到每个簇质心的距离,将每个点分配到距其最近的质心,并将其分配给该质心所对应的簇;
3.更新每个簇的质心为该簇所包含点的平均值。
为避免运行时间多长,通常会设置一个最大运行轮数或最小调整幅度阈值,二者满足其一,则停止运行。
2.2 伪代码
三、代码实例
1. 数据
链接:https://pan.baidu.com/s/1X5FtrhhhCzlYC1-Y1jIPfQ
提取码:a9oh
新闻数据的一部分,只为测试代码用。