词典与统计方法结合的中文分词模型研究及应用

被引:20
作者
蒋建洪
赵嵩正
罗玫
机构
[1] 西北工业大学管理学院
关键词
分词; mmseg算法; 互信息; 词典; 统计;
D O I
10.16208/j.issn1000-7024.2012.01.034
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题。
引用
收藏
页码:387 / 391
页数:5
相关论文
共 14 条
[1]   一种基于互信息的串扫描中文文本分词方法 [J].
赵秦怡 ;
王丽珍 .
情报杂志, 2010, 29 (07) :161-162+172
[2]   改进的正向最大匹配分词算法 [J].
张彩琴 ;
袁健 .
计算机工程与设计, 2010, 31 (11) :2595-2597+2633
[3]   基于统计方法的Web新词分词方法研究 [J].
张敏 ;
王春红 .
计算机工程与科学, 2010, 32 (05) :133-135
[4]   巧用黑盒法逆推百度中文分词算法 [J].
盛启东 ;
谭守标 ;
徐超 ;
冯二媛 ;
陈军宁 .
计算机技术与发展, 2010, 20 (04) :136-139
[5]   基于最大匹配的中文分词概率算法研究 [J].
何国斌 ;
赵晶璐 .
计算机工程, 2010, 36 (05) :173-175
[6]   汉语文本自动分词算法的研究 [J].
何国斌 ;
赵晶璐 .
计算机工程与应用 , 2010, (03) :125-127+130
[7]   中文文本分类中的特征词抽取方法 [J].
李晓红 .
计算机工程与设计, 2009, 30 (17) :4127-4129
[8]   二次回溯中文分词方法 [J].
袁健 ;
张劲松 ;
马良 .
计算机应用研究, 2009, 26 (09) :3321-3323
[9]   基于可信度的中文完整词自动识别 [J].
王芳 ;
万常选 .
中文信息学报, 2009, (03) :17-23
[10]   中文分词算法概述 [J].
龙树全 ;
赵正文 ;
唐华 .
电脑知识与技术, 2009, 5 (10) :2605-2607