改进的基于词典的中文分词方法

被引:40
作者
莫建文
郑阳
首照宇
张顺岚
机构
[1] 桂林电子科技大学信息与通信学院
关键词
中文分词; 词典; 哈希结构; 正向最大匹配算法; 歧义;
D O I
10.16208/j.issn1000-7024.2013.05.039
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题。实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间。
引用
收藏
页码:1802 / 1807
页数:6
相关论文
共 12 条
[1]   国内中文自动分词技术研究综述 [J].
奉国和 ;
郑伟 .
图书情报工作, 2011, 55 (02) :41-45
[2]   中文分词中的歧义识别处理策略 [J].
魏莎莎 ;
熊海灵 .
微计算机信息, 2010, 26 (30) :190-192
[3]   改进的正向最大匹配分词算法 [J].
张彩琴 ;
袁健 .
计算机工程与设计, 2010, 31 (11) :2595-2597+2633
[4]   回溯正向匹配中文分词算法 [J].
张劲松 ;
袁健 .
计算机工程与应用, 2009, (22) :132-134
[5]   使用二级索引的中文分词词典 [J].
张庆扬 ;
柴胜 .
计算机工程与应用, 2009, 45 (19) :139-141
[6]   基于Hash结构的逆向最大匹配分词算法的改进 [J].
丁振国 ;
张卓 ;
黎靖 .
计算机工程与设计, 2008, (12) :3208-3211+3265
[7]   基于哈希算法的中文分词算法的改进 [J].
姚兴山 .
图书情报工作, 2008, (06) :60-62
[8]   基于词典和词频的中文分词方法 [J].
张恒 ;
杨文昭 ;
屈景辉 ;
卢虹冰 ;
张亮 ;
赵飞 .
微计算机信息, 2008, (03) :239-240+232
[9]   一种改进的增字最大匹配算法 [J].
金在全 ;
赵照 ;
杜秀全 ;
张东 .
科学技术与工程, 2007, (18) :4761-4764
[10]   多次Hash快速分词算法 [J].
张科 .
计算机工程与设计, 2007, (07) :1716-1718