共 12 条
最大距离法选取初始簇中心的K-means文本聚类算法的研究
被引:103
作者:
翟东海
[1
,2
]
鱼江
[1
]
高飞
[2
]
于磊
[1
]
丁锋
[2
]
机构:
[1] 西南交通大学信息科学与技术学院
[2] 西藏大学工学院
来源:
关键词:
K-means聚类算法;
最大距离;
文本聚类;
文本距离;
测度函数;
F度量值;
D O I:
暂无
中图分类号:
TP301.6 [算法理论];
学科分类号:
081202 ;
摘要:
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。
引用
收藏
页码:713 / 715+719
+719
页数:4
相关论文

