
当文本类别未知时,可以选择轮廓系数作为聚类性能的评估指标。轮廓系数取值范围为[-1,1],取值越接近1则说明聚类性能越好,相反,取值越接近-1则说明聚类性能越差。
- a:某个样本与其所在簇内其他样本的平均距离
- b:某个样本与其他簇样本的平均距离
则针对某个样本的轮廓系数s为:
聚类总的轮廓系数SC为:SC=
详细内容参考文献
https://pdf.sciencedirectassets.com/271610/1-s2.0-S0377042700X02142/1-s2.0-0377042787901257/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEFoaCXVzLWVhc3QtMSJIMEYCIQCr1%2B7VZniJXYilH5jVsEOsZN0MckMSt7Y6Pxlp%2F3BmhAIhAKpq%2BoPUgq74xAmPsnjW5YETFUKl4ebfVmiUlQyWfeqHKrQDCCIQAhoMMDU5MDAzNTQ2ODY1Igx1z6BueFVBJNRoExEqkQNGizrAsFOKfihjNGqSMmFbwaPovvnPE35CSgxq6w1Z3e%2BwxYhKNUkUGihx