基于关联语义链网络的文本聚类方法

被引:2
作者
何祥
骆祥峰
机构
[1] 上海大学计算机工程与科学学院
关键词
文本聚类; 关联语义链网络; 社区检测;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于关联语义链网络提出了一种自适应分裂的文本聚类方法.该方法通过从关联语义链网络中检测出各个社团结构作为文本集中的类别,以避免对聚类数目的预先确定.同时,针对高维稀疏的词向量导致的文本之间或文本与类之间相似性低的问题,将关联语义链网络中词与词之间的关联关系映射到文本与类之间的关联关系中去,以增强文本与类之间关系的强度.通过与其他主要聚类方法进行实验对比,发现该聚类方法不仅能够对文本集合进行准确的聚类,而且能够较准确地确定聚类中心数目和识别出文本集中的话题信息.
引用
收藏
页码:190 / 198
页数:9
相关论文
共 17 条
[1]  
Near linear time algorithm to detect community structures in large-scale networks. Raghavan Usha Nandini,Albert Réka,Kumara Soundar. Physical review. E, Statistical, nonlinear, and soft matter physics . 2007
[2]  
A comparison of document clustering techniques. M Steinbach,G Karypis,V Kumar. Proceedings of Workshopon Text Mining,6th ACM SIGKDD International Conference on Data Mining(KDD’00) . 2000
[3]  
Building Association Link Network for Semantic Link on Web Resources. Xiangfeng Luo,Zheng Xu,Jie Yu,Xue Chen. Automation Science and Engineering, IEEE Transactions on . 2011
[4]   Automatic discovery of semantic relations based on association rule [J].
Luo, Xiangfeng ;
Yan, Kai ;
Chen, Xue .
Journal of Software, 2008, 3 (08) :11-18
[5]   Fuzzy optimized self-organizing maps and their application to document clustering [J].
Romero, Francisco P. ;
Peralta, Arturo ;
Soto, Andres ;
Olivas, Jose A. ;
Serrano-Guerrero, Jesus .
SOFT COMPUTING, 2010, 14 (08) :857-867
[6]   一种优化初始中心点的K-means算法 [J].
汪中 ;
刘贵全 ;
陈恩红 .
模式识别与人工智能, 2009, 22 (02) :299-304
[7]   基于模糊粒度计算的K-means文本聚类算法研究 [J].
张霞 ;
王素贞 ;
尹怡欣 ;
赵海龙 .
计算机科学, 2010, 37 (02) :209-211
[8]   基于免疫网络和SOM的文本聚类算法研究 [J].
张立文 ;
徐家宁 ;
李进 ;
李孝闯 .
计算机应用与软件, 2010, 27 (05) :118-120+124
[9]   一种基于词共现的文档聚类算法 [J].
常鹏 ;
冯楠 ;
马辉 .
计算机工程, 2012, 38 (02) :213-214+220
[10]   基于优化初始中心点的K-means文本聚类算法 [J].
张世博 .
计算机与数字工程, 2011, 39 (10) :30-31