词典与统计方法结合的中文分词模型研究及应用

被引：20

作者：

蒋建洪

赵嵩正

罗玫

机构：

[1] 西北工业大学管理学院

来源：

计算机工程与设计 | 2012年 / 33卷 / 01期

关键词：

分词; mmseg算法; 互信息; 词典; 统计;

D O I：

10.16208/j.issn1000-7024.2012.01.034

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题。

引用

页码：387 / 391

页数：5

共 14 条

[1] 一种基于互信息的串扫描中文文本分词方法 [J].