基于小规模尾字特征的中文命名实体识别研究

被引:26
作者
冯元勇
孙乐
张大鲲
李文波
机构
[1] 中国科学院软件研究所基础软件工程研究中心
关键词
中文命名实体识别; 小规模尾字特征; 条件随机场; 自然语言处理; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.
引用
收藏
页码:1833 / 1838
页数:6
相关论文
共 3 条
[1]   基于多知识源的中文词法分析系统 [J].
姜维 ;
王晓龙 ;
关毅 ;
赵健 .
计算机学报, 2007, (01) :137-145
[2]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[3]   面向商务信息抽取的产品命名实体识别研究 [J].
刘非凡 ;
赵军 ;
吕碧波 ;
徐波 ;
于浩 ;
夏迎炬 .
中文信息学报, 2006, (01) :7-13