基于小规模尾字特征的中文命名实体识别研究

被引:26
|
作者
冯元勇
孙乐
张大鲲
李文波
机构
[1] 中国科学院软件研究所基础软件工程研究中心
关键词
中文命名实体识别; 小规模尾字特征; 条件随机场; 自然语言处理; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.
引用
收藏
页码:1833 / 1838
页数:6
相关论文
共 3 条
  • [1] 基于多知识源的中文词法分析系统
    姜维
    王晓龙
    关毅
    赵健
    [J]. 计算机学报, 2007, (01) : 137 - 145
  • [2] 基于层叠隐马尔可夫模型的中文命名实体识别
    俞鸿魁
    张华平
    刘群
    吕学强
    施水才
    [J]. 通信学报, 2006, (02) : 87 - 94
  • [3] 面向商务信息抽取的产品命名实体识别研究
    刘非凡
    赵军
    吕碧波
    徐波
    于浩
    夏迎炬
    [J]. 中文信息学报, 2006, (01) : 7 - 13