一种基于提取上下文信息的分词算法

被引:9
作者
曾华琳
李堂秋
史晓东
机构
[1] 厦门大学计算机科学系,厦门大学计算机科学系,厦门大学计算机科学系福建厦门,福建厦门,福建厦门
关键词
中文分词; n元模型; 上下文信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。
引用
收藏
页码:2025 / 2027
页数:3
相关论文
共 4 条
[1]   基于EM算法的汉语自动分词方法 [J].
李家福 ;
张亚非 .
情报学报, 2002, (03) :269-272
[2]   统计语言模型能做什么? [J].
黄昌宁 .
语言文字应用, 2002, (01) :77-84
[3]   最大概率分词问题及其解法 [J].
刘挺 ;
吴岩 ;
王开铸 .
哈尔滨工业大学学报, 1998, (06) :37-41
[4]  
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000