改进的K-means算法在网络舆情分析中的应用

被引:8
作者
汤寒青 [1 ,2 ]
王汉军 [2 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院沈阳计算技术研究所
关键词
网络舆情; K-means算法; 文本聚类; 稀疏特征向量;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度。
引用
收藏
页码:165 / 168+196 +196
页数:5
相关论文
共 5 条
[1]   基于信息粒度的文本聚类算法 [J].
赵亚琴 ;
邹红艳 .
计算机工程与设计, 2009, 30 (22) :5171-5174
[2]   一种基于VSM文本分类系统的设计与实现 [J].
李凡 ;
林爱武 ;
陈国社 .
华中科技大学学报(自然科学版), 2005, (03) :53-55
[3]  
基于k-means的中文文本聚类算法的研究与实现.[D].张睿.西北大学.2009, 08
[4]   Concept decompositions for large sparse text data using clustering [J].
Dhillon, IS ;
Modha, DS .
MACHINE LEARNING, 2001, 42 (1-2) :143-175
[5]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11