最大距离法选取初始簇中心的K-means文本聚类算法的研究

被引:103
作者
翟东海 [1 ,2 ]
鱼江 [1 ]
高飞 [2 ]
于磊 [1 ]
丁锋 [2 ]
机构
[1] 西南交通大学信息科学与技术学院
[2] 西藏大学工学院
关键词
K-means聚类算法; 最大距离; 文本聚类; 文本距离; 测度函数; F度量值;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。
引用
收藏
页码:713 / 715+719 +719
页数:4
相关论文
共 12 条
[1]   一种有效的K-means聚类中心初始化方法 [J].
熊忠阳 ;
陈若田 ;
张玉芳 .
计算机应用研究, 2011, 28 (11) :4188-4190
[2]   基于优化初始中心点的K-means文本聚类算法 [J].
张世博 .
计算机与数字工程, 2011, 39 (10) :30-31
[3]   一种优化初始聚类中心的K-means聚类算法 [J].
周爱武 ;
崔丹丹 ;
潘勇 .
微型机与应用, 2011, 30 (13) :1-3+9
[4]   一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864
[5]   基于聚类准则函数的改进K-means算法 [J].
张雪凤 ;
张桂珍 ;
刘鹏 .
计算机工程与应用 , 2011, (11) :123-127
[6]   利用本体关联度改进的TF-IDF特征词提取方法 [J].
徐建民 ;
王金花 ;
马伟瑜 .
情报科学 , 2011, (02) :279-283
[7]   基于最优划分的K-Means初始聚类中心选取算法 [J].
张健沛 ;
杨悦 ;
杨静 ;
张泽宝 .
系统仿真学报, 2009, 21 (09) :2586-2590
[8]   基于文本分类的文档相似度计算 [J].
赵俊杰 ;
胡学钢 .
微型电脑应用, 2008, 24 (12) :46-47+40+5
[9]   一种基于K-Means局部最优性的高效聚类算法 [J].
雷小锋 ;
谢昆青 ;
林帆 ;
夏征义 .
软件学报, 2008, (07) :1683-1692
[10]   一种改进的k-means中文文本聚类算法 [J].
龚静 ;
李安民 .
湖南工业大学学报, 2008, (02) :52-54