改进的正向最大匹配分词算法

被引:9
作者
张彩琴
袁健
机构
[1] 上海理工大学光电信息与计算机工程学院
关键词
正向最大匹配算法; 交集型歧义; 预处理; 互信息; 分词碎片;
D O I
10.16208/j.issn1000-7024.2010.11.043
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。
引用
收藏
页码:2595 / 2597+2633 +2633
页数:4
相关论文
共 9 条
[1]   使用二级索引的中文分词词典 [J].
张庆扬 ;
柴胜 .
计算机工程与应用, 2009, 45 (19) :139-141
[2]   基于优化最大匹配与统计结合的汉语分词方法 [J].
刘春辉 ;
金顺福 ;
刘国华 ;
李颖 .
燕山大学学报, 2009, 33 (02) :124-129
[3]   百度中文分词技术浅析 [J].
吴育良 .
河南图书馆学刊, 2008, (04) :115-117
[4]   一种改进的统计与后串最大匹配的中文分词算法研究 [J].
吴涛 ;
张毛迪 ;
陈传波 .
计算机工程与科学, 2008, (08) :79-82
[5]   字典与统计相结合的中文分词方法 [J].
翟凤文 ;
赫枫龄 ;
左万利 .
小型微型计算机系统, 2006, (09) :1766-1771
[6]   具有三级索引词库结构的中文分词方法研究 [J].
肖红 ;
许少华 ;
李欣 .
计算机应用研究, 2006, (08) :49-51
[7]   MIS智能接口中汉语分词系统的设计与应用 [J].
谈文蓉 ;
杨宪泽 ;
谈进 ;
刘莉 .
计算机科学, 2006, (07) :204-206
[8]   现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[9]   交集型歧义字段切分方法研究 [J].
闫引堂 ;
周晓强 .
情报学报, 2000, (06) :637-643