SparkCRF:一种基于Spark的并行CRFs算法实现

被引:11
作者
朱继召 [1 ,2 ]
贾岩涛 [2 ]
徐君 [2 ]
乔建忠 [1 ]
王元卓 [2 ]
程学旗 [2 ]
机构
[1] 东北大学计算机科学与工程学院
[2] 中国科学院计算技术研究所网络数据科学与技术重点实验室
基金
国家重点研发计划; 北京市自然科学基金;
关键词
大数据; 机器学习; 分布式计算; Spark; 条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.
引用
收藏
页码:1819 / 1828
页数:10
相关论文
共 7 条
[1]   基于Spark的蚁群优化算法 [J].
王诏远 ;
王宏杰 ;
邢焕来 ;
李天瑞 .
计算机应用, 2015, 35 (10) :2777-2780+2797
[2]   基于开放网络知识的信息检索与数据挖掘 [J].
王元卓 ;
贾岩涛 ;
刘大伟 ;
靳小龙 ;
程学旗 .
计算机研究与发展, 2015, (02) :456-474
[3]   大数据系统和分析技术综述 [J].
程学旗 ;
靳小龙 ;
王元卓 ;
郭嘉丰 ;
张铁赢 ;
李国杰 .
软件学报, 2014, 25 (09) :1889-1908
[4]   网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[5]   基于MapReduce的中文词性标注CRF模型并行化训练研究 [J].
刘滔 ;
雷霖 ;
陈荦 ;
熊伟 .
北京大学学报(自然科学版), 2013, 49 (01) :147-152
[6]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2008 (1)
[7]  
Spark:cluster computing with working sets .2 Zaharia M,Chowdhury M,Franklin M J. The 2th USENIX Workshop on Hot Topics in Cloud Computing . 2010