分布式环境下的文本聚类研究与实现

被引:3
作者
赵华茗
机构
[1] 中国科学院文献情报中心
关键词
分布式环境; 聚类; 文本聚类; Hadoop; Mahout;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。
引用
收藏
页码:82 / 88
页数:7
相关论文
共 7 条
[1]   色谱指纹图谱相似度评价方法的规范化研究(一) [J].
田润涛 ;
谢培山 .
中药新药与临床药理, 2006, (01) :40-42+54
[2]   基于最近邻优先的高效聚类算法 [J].
胡建军 ;
唐常杰 ;
李川 ;
彭京 ;
元昌安 ;
陈安龙 ;
蒋永光 .
四川大学学报(工程科学版), 2004, (06) :93-99
[3]  
基于Hadoop的分布式文本聚类研究[D]. 梁维铿.华南理工大学. 2011
[4]   Hierarchical clustering algorithms for document datasets [J].
Zhao, Y ;
Karypis, G .
DATA MINING AND KNOWLEDGE DISCOVERY, 2005, 10 (02) :141-168
[5]   An empirical comparison of four initialization methods for the K-Means algorithm [J].
Peña, JM ;
Lozano, JA ;
Larrañaga, P .
PATTERN RECOGNITION LETTERS, 1999, 20 (10) :1027-1040
[6]   Comparison of algorithms for dissimilarity-based compound selection [J].
Snarey, M ;
Terrett, NK ;
Willett, P ;
Wilton, DJ .
JOURNAL OF MOLECULAR GRAPHICS & MODELLING, 1997, 15 (06) :372-385
[7]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)