二次回溯中文分词方法

被引:4
作者
袁健 [1 ]
张劲松 [1 ]
马良 [2 ]
机构
[1] 上海理工大学光电信息与计算机工程学院
[2] 上海理工大学管理学院
关键词
中文分词; 回溯匹配; 交集型歧义; 多链长; 碎片检查;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在最大匹配法(MM)的基础上,提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段;利用长词优先兼顾二词簇的方式对交集型歧义字段进行切分,并对难点的多链长交集型歧义字段进行有效发现和切分。从随机抽取的大量语料实验结果上证明了该方法的有效性。
引用
收藏
页码:3321 / 3323
页数:3
相关论文
共 12 条
[1]   字典与统计相结合的中文分词方法 [J].
翟凤文 ;
赫枫龄 ;
左万利 .
小型微型计算机系统, 2006, (09) :1766-1771
[2]   具有三级索引词库结构的中文分词方法研究 [J].
肖红 ;
许少华 ;
李欣 .
计算机应用研究, 2006, (08) :49-51
[3]   MIS智能接口中汉语分词系统的设计与应用 [J].
谈文蓉 ;
杨宪泽 ;
谈进 ;
刘莉 .
计算机科学, 2006, (07) :204-206
[4]   现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[5]   统计词义消歧的研究进展 [J].
卢志茂 ;
刘挺 ;
李生 .
电子学报, 2006, (02) :333-343
[6]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[7]   基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742
[8]   一种规则与统计相结合的汉语分词方法 [J].
赵伟 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
计算机应用研究, 2004, (03) :23-25
[9]   分词中的歧义处理 [J].
谭琼 ;
史忠植 .
计算机工程与应用, 2002, (11) :125-127+236
[10]   交集型歧义字段切分方法研究 [J].
闫引堂 ;
周晓强 .
情报学报, 2000, (06) :637-643