一种基于提取上下文信息的分词算法

被引：9

作者：

曾华琳

李堂秋

史晓东

机构：

[1] 厦门大学计算机科学系,厦门大学计算机科学系,厦门大学计算机科学系福建厦门,福建厦门,福建厦门

来源：

计算机应用 | 2005年 / 09期

关键词：

中文分词; n元模型; 上下文信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。

引用

页码：2025 / 2027

页数：3