一种引入动态词库更新的中文分词架构

被引:2
作者
刘芳芳
王晶
沈奇威
机构
[1] 北京邮电大学 网络与交换技术国家重点实验室
[2] 东信北邮信息技术有限公司
关键词
中文分词; 最大词长; 歧义处理; 互信息; 未登录词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对互联网环境下新词出现和更新频率高的特点,将机械分词与基于规则分词相结合,提出一种动态更新词库的中文分词架构.本架构给出了新的词典设计结构及歧义处理规则,并将统计学中的互信息概念运用到新词判定环节.实验表明本文提出的中文分词架构具有较高的准确率和良好的适应性.
引用
收藏
页码:100 / 103+50 +50
页数:5
相关论文
共 8 条
[1]   分词技术在信息处理中的研究综述 [J].
梁晓弘 ;
杨文安 .
电脑知识与技术(学术交流), 2007, (22) :1100-1102+1117
[2]   汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[3]   汉语自动分词研究展望 [J].
文庭孝 ;
邱均平 ;
侯经川 .
现代图书情报技术, 2004, (07) :6-10
[4]   分词中的歧义处理 [J].
谭琼 ;
史忠植 .
计算机工程与应用, 2002, (11) :125-127+236
[5]   一种改进的MM分词方法的算法设计 [J].
骆正清 ;
陈增武 ;
胡上序 .
中文信息学报, 1996, (03) :30-36
[6]   书面汉语自动分词专家系统设计原理 [J].
何克抗 ;
徐辉 ;
孙波 .
中文信息学报, 1991, (02) :1-14+28
[7]   汉语计算机自动分词知识 [J].
梁南元 .
中文信息学报, 1990, (02) :29-33
[8]   基于规则的汉语自动分词系统 [J].
姚天顺 ;
张桂平 ;
吴映明 ;
不详 .
中文信息学报 , 1990, (01) :37-43