基于MapReduce的并行PLSA算法及在文本挖掘中的应用

被引:7
作者
李宁 [1 ,2 ,3 ]
罗文娟 [1 ]
庄福振 [1 ]
何清 [1 ]
史忠植 [1 ]
机构
[1] 中国科学院计算技术研究所智能信息处理重点实验室
[2] 中国科学院大学
[3] 河北大学数学与计算机学院机器学习与计算智能重点实验室
关键词
概率主题模型; MapReduce; 并行; 语义分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。
引用
收藏
页码:79 / 86
页数:8
相关论文
共 21 条
[1]   基于概率潜在语义分析的词汇情感倾向判别 [J].
宋晓雷 ;
王素格 ;
李红霞 ;
李德玉 .
中文信息学报, 2011, (02) :89-93
[2]   文本处理中的MapReduce技术 [J].
李锐 ;
王斌 .
中文信息学报, 2012, (04) :9-20
[3]  
Unsupervised Learning by Probabilistic Latent Semantic Analysis[J] . Thomas Hofmann. &nbspMachine Learning . 2001 (1)
[4]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[5]  
P2LSA and P2LSA+:Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model. Y Jin. IDEAL 2011 . 2011
[6]  
Efficient probabilistic latent semantic analysis through parallelization. Wan R,Anh V N,Mamitsuka H. Information Retrieval Technology . 2009
[7]  
The Lemur Toolkit for Language Modeling and Information Retrieval. http://www.lemurproject.org .
[8]  
Parallelization and characterization of probabilistic latent semantic analysis. Hong C,Chen W,Zheng W,et al. Proceedings of Parallel Processing,2008.ICPP’’08.37th International Conference on . 2008
[9]   一种基于主题的文本聚类方法 [J].
赵世奇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (02) :58-62
[10]   改进的概率潜在语义分析下的文本聚类算法 [J].
张玉芳 ;
朱俊 ;
熊忠阳 .
计算机应用, 2011, 31 (03) :674-676+693