基于角色标注的中国人名自动识别研究

被引:98
作者
张华平
刘群
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院计算技术研究所 北京
[3] 中国科学院研究生院
[4] 北京
[5] 北京大学信息学院计算机科学与技术系计算语言研究所
关键词
中国人名识别; 未登录词识别; 角色标注; Viterbi算法;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
该文提出了一种基于角色标注的中国人名自动识别方法 .其基本思想是 :根据在人名识别中的作用 ,采取Viterbi算法对切词结果进行角色标注 ,在角色序列的基础上 ,进行模式最大匹配 ,最终实现中国人名的识别 .识别过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率 .该方法的实用性还在于 :这些角色信息完全可以从真实语料库中自动抽取得到 .通过对 16M字节真实语料库的封闭与开放测试 ,该方法取得了接近 98%的召回率 .文中介绍了计算所汉语词法分析系统ICTCLAS ,集成人名识别算法之后 ,词法分析的准确率提高了 1.4 1% ,同时人名识别的综合指标F 1值达到了 95 .4 0 % .不同实验从各个角度表明 :基于角色标注的人名识别算法行之有效
引用
收藏
页码:85 / 91
页数:7
相关论文
共 7 条
[1]   基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[2]   基于分解与动态规划策略的汉语未登录词识别 [J].
吕雅娟 ;
赵铁军 ;
杨沐昀 ;
于浩 ;
李生 .
中文信息学报, 2001, (01) :28-33
[3]   中文姓名的自动辨识 [J].
孙茂松,黄昌宁,高海燕,方捷 .
中文信息学报, 1995, (02) :16-27
[4]  
自然语言理解与机器翻译[M]. 清华大学出版社 , 黄昌宁, 2001
[5]  
现代汉语自动分析[M]. 北京语言文化大学出版社 , 陈小荷著, 2000
[6]  
计算语言学文集 .2 王省,黄德根,杨元生. 清华大学出版社 . 1999
[7]  
计算语言研究与应用 .2 宋柔,朱宏,潘维佳,尹振海. 北京语言学院出版社 . 1993