共 9 条
改进的正向最大匹配分词算法
被引:9
作者:
张彩琴
袁健
机构:
[1] 上海理工大学光电信息与计算机工程学院
来源:
关键词:
正向最大匹配算法;
交集型歧义;
预处理;
互信息;
分词碎片;
D O I:
10.16208/j.issn1000-7024.2010.11.043
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。
引用
收藏
页码:2595 / 2597+2633
+2633
页数:4
相关论文

