共 12 条
二次回溯中文分词方法
被引:4
作者:
袁健
[1
]
张劲松
[1
]
马良
[2
]
机构:
[1] 上海理工大学光电信息与计算机工程学院
[2] 上海理工大学管理学院
来源:
关键词:
中文分词;
回溯匹配;
交集型歧义;
多链长;
碎片检查;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
在最大匹配法(MM)的基础上,提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段;利用长词优先兼顾二词簇的方式对交集型歧义字段进行切分,并对难点的多链长交集型歧义字段进行有效发现和切分。从随机抽取的大量语料实验结果上证明了该方法的有效性。
引用
收藏
页码:3321 / 3323
页数:3
相关论文

